Leia o excelente "O que o ChatGPT está fazendo..." de Wolfram (h/t @danielrock). Ele escreve que aprendemos muito sobre como a linguagem funciona a partir do fato de que o GPT3, com apenas 175 bilhões de pesos, é capaz de emulá-la tão bem. Isso implica que é computacionalmente muito mais simples do que poderíamos ter pensado. Mas e quanto à matemática? Na época em que isso foi escrito (2023), o GPT ainda era muito ruim em matemática. Os modelos se tornaram muito (muito) bons em matemática quando o primeiro modelo de raciocínio foi lançado (o1), que se baseava muito mais em aprendizado por reforço do que apenas em pré-treinamento por força bruta. Pergunto-me o que isso diz sobre a matemática? Conceitualmente, a linguagem é muito mais "difusa" do que a matemática: várias palavras podem soar "certas" no mesmo lugar em uma frase. Isso é o que faz a arquitetura LLM probabilística funcionar. A matemática é menos difusa. Isso é talvez o motivo pelo qual a etapa de RL mais "baseada em regras" foi crucial. Mas isso também implica que a matemática formal é menos complexa computacionalmente do que pensávamos. Pensamentos? @littmath @alz_zyd_