在相同超参数的设置下,可以达到与FP8以及BF16相当的训练效果。 这意味着所需的存储和计算资源可以更少。 用这种方法训练的模型规模最高可达130 ...