NOVO ARTIGO: Os LLMs são incríveis a explicar coisas e terríveis a fazê-las. Pergunte a um modelo "como" comparar dois decimais, e ele lhe dará um algoritmo perfeito passo a passo. Peça-lhe para realmente "fazer" a comparação… e de repente “9.11 é maior que 9.9 porque 90 é mais que 11.” Os pesquisadores chamam isso de "síndrome do cérebro dividido computacional". Os LLMs desenvolvem um caminho para explicar um procedimento e um caminho completamente diferente para executá-lo. Esses dois caminhos vivem em partes diferentes da geometria do modelo (como mostrado nos gráficos t-SNE nas páginas 14–16 deste artigo) e eles não se comunicam entre si. É por isso que um modelo pode ensinar-lhe a divisão longa, mas não consegue fazê-la de forma confiável. Ou porque pode articular regras lógicas, mas falha em inferências básicas. Ou porque produz uma linguagem impecável e um raciocínio frágil. Explicação é recordação de padrões. Execução é computação. Os LLMs se destacam no primeiro e lutam fundamentalmente com o segundo. No fundo da arquitetura, as incorporações borram significados que os humanos mantêm separados. O artigo dá um exemplo hilário: “9.11” está mais próximo de "11 de setembro" do que de "nove ponto onze" porque as incorporações de tokens fazem uma média em todos os contextos que já viram. Essa “contaminação contextual” torna impossível um raciocínio simbólico limpo. Além disso... Transformers só podem produzir "médias ponderadas" do que já viram. Eles não conseguem gerar novos valores simbólicos como “3354” a partir de “43 × 78” usando matemática real. ...