Hoje abrimos o código-fonte do Nomos 1. Com apenas 30B de parâmetros, ele obteve 87/120 na competição Putnam deste ano, uma das competições de matemática mais prestigiadas do mundo. Esta pontuação o classificaria em #2/3988 em 2024 e marca nosso primeiro passo com @hillclimbai em direção à criação de um matemático AI SOTA.
O Nomos 1 alcançou uma pontuação de 87/120 com 8 notas perfeitas, enquanto o Qwen3-30ba3b-Thinking-2507 obteve 24/120 quando executado no mesmo harness sob as mesmas condições, indicando que o desempenho se deve em grande parte ao pós-treinamento e à qualidade dos dados, em vez do harness.
As submissões foram avaliadas de forma anônima por um concorrente humano do Putnam top 200 que recebeu submissões anonimizadas. Os arquivos exatos enviados aos nossos anotadores humanos para avaliação estão disponíveis aqui desanonimizados: , juntamente com os runbooks usados para gerá-los Usamos os mesmos limites de tempo que os concorrentes - 3 horas para cada uma das duas partes.
O nosso sistema de raciocínio de código aberto consiste numa fase de resolução, onde os trabalhadores tentam um problema menos resolvido e fazem uma autoavaliação, seguida de uma fase de finalização, que consolida as submissões para escolher uma submissão final para cada problema. Utilizámos os parâmetros de amostragem padrão do Qwen3 e sem prompt do sistema.
Abrimos o nosso modelo aqui e a nossa razão aqui. Este modelo foi treinado por @rogershijin em infraestrutura construída por @theemozilla e @dmayhem93, com aconselhamento de @nullvaluetensor e liderança de @teknium e @theemozilla.
88,43K