Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Jeffrey Emanuel

Uma deficiência intrigante e reveladora, mesmo dos LLMs multi-modais mais avançados atualmente (por exemplo, GPT-5 e Claude Opus 4.1), é o que eu chamaria de silo cognitivo modal. Esses modelos parecem ser mais como modelos Frankenstein, unidos de forma um tanto rudimentar a partir de peças treinadas separadamente que são combinadas através do roteamento de solicitações para o componente certo, em vez de serem integrados de maneira profunda. O grande "sinal" para mim nisso é quão horríveis todos esses modelos são em criar arte ASCII original coerente, ou mesmo modificar arte existente de uma maneira que seria fácil para uma criança, dado a ferramenta certa (por exemplo, o editor asciiflow, que é incrível e gratuito no navegador). Recentemente, criei uma boa utilidade para verificar arquivos de código em busca de problemas usando ast-grep de maneiras poderosas (vou postar mais sobre isso quando estiver pronto), e queria fazer um bom banner para cada linguagem de programação que incluísse uma mascote ou logotipo ASCII diferente para cada uma (cobra para Python, gopher para Golang, etc). Essa tarefa de substituir a arte por nova arte enquanto mantinha a coerência foi simplesmente impossível para cada modelo. Mesmo quando deixei o que queria realmente explícito (persisti por mais um tempo por curiosidade mórbida, como um neurologista fazendo diagnósticos em um paciente com lesões cerebrais), eles foram cômicos em sua incapacidade. Eles até cometeram alguns erros verdadeiramente alienígenas que um humano nunca cometeria, como substituir as letras em bloco da arte ASCII para a palavra "BUG" por instâncias repetidas da string literal "BUG, " mostrando uma confusão ontológica bizarra que faz sentido se você considerar como são treinados em correspondência sequencial autoregressiva do próximo caractere. Quando um humano tenta fazer essa tarefa, ele faz uma espécie de mudança de gestalt de um lado para o outro constantemente entre "espaço simbólico" e "espaço físico (tela)". Fazemos uma mudança simbolicamente para adicionar ou mover um caractere ASCII, mas então observamos e percebemos o que acabamos de fazer visualmente para ver se está certo. É tão fluido que nem percebemos muito. Esses LLMs multi-modais não parecem fazer isso, ou mesmo ser capazes, pelo menos em uma única passagem de inferência. Eles estão presos em uma modalidade ou outra e não conseguem fundi-las. Se pudessem, essa tarefa que descrevi seria trivial para eles em vez de totalmente intransponível. Eu postulo que os LLMs multi-modais da próxima geração devem ter algum tipo de análogo digital ao corpo caloso no cérebro, que unifica os dois hemisférios cerebrais e ajuda a coordenar diferentes modalidades cognitivas em uma consciência unificada. Ou seja, conexões densas e treináveis que permitem que diferentes modalidades modulem continuamente umas às outras durante o processamento. Inter-modal, se você quiser.

Top

Classificação

Favoritos