搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 7 天
时间不限
过去 1 小时
过去 24 小时
过去 30 天
按相关度排序
按时间排序
12 小时
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
【新智元导读】就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
GitHub
3 天
KnowledgeDistillation-In-DeepSeek-R1.md
训练过程: 使用推理数据训练模型的推理能力。 使用非推理数据增强模型在一般任务中的表现。 评估与调优:通过多个基准测试验证小模型的性能,如 AIME、MATH-500和 Codeforces 等。 结果与优势 蒸馏后的模型在多个推理任务中取得了接近甚至超过教师模型的性能。
51CTO
2 天
一文读懂 DeepSeek-V3 技术报告
在数学评估中,AIME和CNMO 2024使用0.7的温度进行评估,结果平均于16次运行,而MATH-500则采用贪婪解码。所有模型在每个基准测试中最多输出8192个token,以保证公平比较。 评估结果 在标准评估结果中,DeepSeek-V3展示了其作为最强开源模型的实力,并在与闭源模型的 ...
51CTO
5 天
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
经过这一训练阶段,模型进化为 DeepSeek-R1-Zero,并展现出惊人的推理能力。 随着强化学习的持续进行,**DeepSeek-R1-Zero 在 AIME(2024)数学竞赛上的首答正确率(pass@1)从 15.6% 提升至 71%**,几乎与 OpenAI o1 持平。 模型逐渐增加计算时间,并生成更多推理步骤 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈