【新智元导读】就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
训练过程: 使用推理数据训练模型的推理能力。 使用非推理数据增强模型在一般任务中的表现。 评估与调优:通过多个基准测试验证小模型的性能,如 AIME、MATH-500和 Codeforces 等。 结果与优势 蒸馏后的模型在多个推理任务中取得了接近甚至超过教师模型的性能。
在数学评估中,AIME和CNMO 2024使用0.7的温度进行评估,结果平均于16次运行,而MATH-500则采用贪婪解码。所有模型在每个基准测试中最多输出8192个token,以保证公平比较。 评估结果 在标准评估结果中,DeepSeek-V3展示了其作为最强开源模型的实力,并在与闭源模型的 ...
经过这一训练阶段,模型进化为 DeepSeek-R1-Zero,并展现出惊人的推理能力。 随着强化学习的持续进行,**DeepSeek-R1-Zero 在 AIME(2024)数学竞赛上的首答正确率(pass@1)从 15.6% 提升至 71%**,几乎与 OpenAI o1 持平。 模型逐渐增加计算时间,并生成更多推理步骤 ...