Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Esta citação de uma história oral de Sydney Brenner fez-me rir porque ele começa a enumerar várias palavras seguidas que eu não fazia ideia do que eram, e que nem soam como palavras reais... e depois menciona o quanto tinha paixão por elas:
"Eu estava muito ativo a procurar, como um jovem ingênuo, aquelas ciências que poderiam ser úteis para o meu futuro, o que é uma atividade ridícula.
Você sabe, você meio que diz: 'Bem, olha, eu acho que vai ser a topologia que vai te dar o avanço', então você vai e aprende topologia, entende.
E eu tinha passado por coisas como a reologia – eu tinha uma grande paixão pela reologia – e eu sabia tudo sobre tixotropia e reopexia porque pensei que tentar descobrir tudo sobre a química física do citoplasma não era uma má ideia e eu sabia que teria algo a ver com química física."
2,75K
Uma deficiência intrigante e reveladora, mesmo dos LLMs multi-modais mais avançados atualmente (por exemplo, GPT-5 e Claude Opus 4.1), é o que eu chamaria de silo cognitivo modal.
Esses modelos parecem ser mais como modelos Frankenstein, unidos de forma um tanto rudimentar a partir de peças treinadas separadamente que são combinadas através do roteamento de solicitações para o componente certo, em vez de serem integrados de maneira profunda.
O grande "sinal" para mim nisso é quão horríveis todos esses modelos são em criar arte ASCII original coerente, ou mesmo modificar arte existente de uma maneira que seria fácil para uma criança, dado a ferramenta certa (por exemplo, o editor asciiflow, que é incrível e gratuito no navegador).
Recentemente, criei uma boa utilidade para verificar arquivos de código em busca de problemas usando ast-grep de maneiras poderosas (vou postar mais sobre isso quando estiver pronto), e queria fazer um bom banner para cada linguagem de programação que incluísse uma mascote ou logotipo ASCII diferente para cada uma (cobra para Python, gopher para Golang, etc).
Essa tarefa de substituir a arte por nova arte enquanto mantinha a coerência foi simplesmente impossível para cada modelo.
Mesmo quando deixei o que queria realmente explícito (persisti por mais um tempo por curiosidade mórbida, como um neurologista fazendo diagnósticos em um paciente com lesões cerebrais), eles foram cômicos em sua incapacidade.
Eles até cometeram alguns erros verdadeiramente alienígenas que um humano nunca cometeria, como substituir as letras em bloco da arte ASCII para a palavra "BUG" por instâncias repetidas da string literal "BUG, " mostrando uma confusão ontológica bizarra que faz sentido se você considerar como são treinados em correspondência sequencial autoregressiva do próximo caractere.
Quando um humano tenta fazer essa tarefa, ele faz uma espécie de mudança de gestalt de um lado para o outro constantemente entre "espaço simbólico" e "espaço físico (tela)".
Fazemos uma mudança simbolicamente para adicionar ou mover um caractere ASCII, mas então observamos e percebemos o que acabamos de fazer visualmente para ver se está certo. É tão fluido que nem percebemos muito.
Esses LLMs multi-modais não parecem fazer isso, ou mesmo ser capazes, pelo menos em uma única passagem de inferência. Eles estão presos em uma modalidade ou outra e não conseguem fundi-las.
Se pudessem, essa tarefa que descrevi seria trivial para eles em vez de totalmente intransponível.
Eu postulo que os LLMs multi-modais da próxima geração devem ter algum tipo de análogo digital ao corpo caloso no cérebro, que unifica os dois hemisférios cerebrais e ajuda a coordenar diferentes modalidades cognitivas em uma consciência unificada.
Ou seja, conexões densas e treináveis que permitem que diferentes modalidades modulem continuamente umas às outras durante o processamento. Inter-modal, se você quiser.

1,72K
Top
Classificação
Favoritos


