TAG:Qwen3

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AMD携手IBM与Zyphra发布全球首个纯AMD硬件训练的大模型ZAYA1,采用MoE架构预训练14T tokens,性能与Qwen3系列持平。ZAYA1创新性采用CCA注意力机制和线性路由MoE,在数学推理等STEM领域表现优异,验证了AMD MI300X+ROCm在大规模模型训练中的可行性。

爱力方 2025-11-25 16:52
6
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/