快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。
因此,该研究聚焦两个核心问题: 跨不同策略模型、PRM和问题难度,最优的TTS方式是什么? TTS能在多大程度上提升语言模型在复杂任务上的表现?