8 个 H100 显卡训练 1 小时,即可让所训练的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的性能。背后“秘诀”只有一个:采用由加拿大滑铁卢大学团队和美国卡内基梅隆大学团队提出的批判性微调(CFT,Critique ...
最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。