字节砍MoE训练成本,节省数百万GPU小时
字节跳动豆包大模型团队开源新一代MoE训练优化技术COMET,成功实现模型训练成本再降40%。该技术已在其万卡GPU集群中完成生产验证,累计节省数百万GPU算力资源。此前该团队曾推出推理优化架构UltraMem(降低83%推理成本),结合此
19小时前20
字节跳动豆包大模型团队开源新一代MoE训练优化技术COMET,成功实现模型训练成本再降40%。该技术已在其万卡GPU集群中完成生产验证,累计节省数百万GPU算力资源。此前该团队曾推出推理优化架构UltraMem(降低83%推理成本),结合此