O nosso agente provador Aleph acaba de alcançar o #1 no PutnamBench, um benchmark construído a partir de problemas de Putnam - um dos mais difíceis olimpíadas de matemática a nível universitário - totalmente formalizado com provas verificadas por máquina e sem envolvimento humano. Os problemas de Putnam são frequentemente considerados mais difíceis do que os problemas do IMO e abrangem uma ampla gama de tópicos, incluindo cálculo, teoria dos números, teoria de grupos e outras áreas centrais da matemática. Esta é uma forte evidência de que a IA pode lidar com raciocínios profundos e de múltiplos passos com garantias de correção — o mesmo tipo de tecnologia que estamos usando para verificar software real, hardware e descobertas científicas que requerem lógica formal.