2025-05-31 14:11
盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)不变架构和TinyInit小初始化的方式,5月30日动静,华为颁布发表推出参数规模高达7180亿的全新模子盘古Ultra MoE,正在昇腾平台上实现了跨越18TB数据的持久不变锻炼。华为团队初次披露正在昇腾CloudMatrix 384超节点上打通大稀少比MoE强化进修(RL)后锻炼框架的环节手艺,正在锻炼方式上,这是一个全流程正在昇腾AI计较平台上锻炼的准万亿MoE模子。据悉。