今天我们开源了 Nomos 1。它仅有 300 亿个参数,在今年的普特南数学竞赛中得分 87/120,这是世界上最负盛名的数学竞赛之一。 这个分数在 2024 年将排名第 2/3988,并标志着我们与 @hillclimbai 共同迈出的第一步,朝着创建一个 SOTA AI 数学家的目标前进。
Nomos 1 在相同条件下的测试中获得了 87/120 分,并且有 8 个满分,而 Qwen3-30ba3b-Thinking-2507 的得分为 24/120,这表明性能主要是由于后期训练和数据质量,而不是测试环境。
提交由一位人类的 Putnam 前 200 名选手进行盲评,该选手收到了匿名的提交。 发送给我们人类注释者进行评分的确切文件在这里可用,已去匿名化:,以及用于生成它们的运行手册 我们使用了与竞争者相同的时间限制 - 每个部分 3 小时。
我们的开源推理系统由解决阶段和最终阶段组成。在解决阶段,工作人员尝试解决一个最少解决的问题并进行自我评估;在最终阶段,整合提交以选择每个问题的最终提交。我们使用了Qwen3的默认采样参数,并没有系统提示。
我们在这里开源我们的模型,以及我们的推理工具。 这个模型是由@rogershijin在@theemozilla和@dmayhem93构建的基础设施上训练的,得到了@nullvaluetensor的建议,以及@teknium和@theemozilla的领导。
88.43K