他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K,通过难度、多样性和质量三个标准来筛选,其中包括1000个经过精心 ...