Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Questa citazione da una storia orale di Sydney Brenner mi ha fatto ridere perché inizia a elencare parole in fila che non avevo idea di cosa fossero, e che non sembrano nemmeno parole reali... e poi menziona quanto fosse appassionato di esse:
"Ero molto attivo a cercare, da giovane ingenuo, quelle scienze che potessero essermi utili in futuro, il che è un'attività ridicola.
Sai, dici un po', 'Beh, guarda, penso che sarà la topologia a darti la svolta', quindi vai e impari la topologia, capisci.
E avevo affrontato cose come la reologia – avevo una grande passione per la reologia – e sapevo tutto sulla tissotropia e sulla reopexia perché pensavo che cercare di scoprire tutto sulla chimica fisica del citoplasma non fosse una cattiva idea e sapevo che avrebbe avuto qualcosa a che fare con la chimica fisica."
3,12K
Una carenza intrigante e rivelatrice anche dei modelli LLM multi-modali più avanzati attualmente (ad es., GPT-5 e Claude Opus 4.1) è quella che definirei il silo cognitivo modale.
Questi modelli sembrano più simili a modelli di Frankenstein, uniti in modo piuttosto rozzo da pezzi addestrati separatamente che vengono combinati instradando le richieste al componente giusto, piuttosto che essere integrati in modo profondo.
Il grande "indicatore" per me in questo è quanto siano terribili tutti questi modelli nel creare arte ASCII originale coerente, o anche nel modificare arte esistente in un modo che sarebbe facile per un bambino dato lo strumento giusto (ad es., l'editor asciiflow, che è fantastico e gratuito nel browser).
Recentemente ho creato una bella utility per controllare i file di codice per problemi utilizzando ast-grep in modi potenti (ne parlerò di più quando sarà pronta), e volevo creare un bel banner per ogni linguaggio di programmazione che includesse un diverso mascotte o logo in arte ASCII per ciascuno (serpente per Python, gopher per Golang, ecc).
Questo compito di sostituire l'arte con nuova arte mantenendo la coerenza era semplicemente impossibile per ogni modello.
Anche quando ho reso ciò che volevo davvero esplicito (ho persistito per un po' di più per curiosità morbosa, come un neurologo che fa diagnosi su un paziente affetto da lesioni cerebrali), erano comicamente scadenti in questo.
Hanno persino commesso alcuni errori davvero alieni che un umano non commetterebbe mai, come sostituire le lettere in blocco dell'arte ASCII per la parola "BUG" con istanze ripetute della stringa letterale "BUG, " mostrando una bizzarra confusione ontologica che ha senso se consideri come sono addestrati sul matching sequenziale autoregressivo del prossimo carattere.
Quando un umano cerca di fare questo compito, fa una sorta di cambio gestalt tra "spazio simbolico" e "spazio fisico (schermo)".
Facciamo una modifica simbolicamente per aggiungere o spostare un carattere ASCII, ma poi osserviamo e percepiamo ciò che abbiamo appena fatto visivamente per vedere se è corretto. È così fluido che non ce ne accorgiamo nemmeno molto.
Questi LLM multi-modali non sembrano fare ciò, o nemmeno essere in grado di farlo, almeno in un singolo passaggio di inferenza. Sono intrappolati in una modalità o nell'altra e non sembrano in grado di fonderle.
Se potessero, questo compito che ho descritto sarebbe banale per loro invece di essere totalmente insormontabile.
Posito che i modelli LLM multi-modali di prossima generazione devono avere qualche tipo di analogia digitale al corpo calloso nel cervello, che unifica i due emisferi cerebrali e aiuta a coordinare diverse modalità cognitive in una coscienza unificata.
Cioè, connessioni dense e addestrabili che consentono a diverse modalità di modulare continuamente l'una l'altra durante l'elaborazione. Inter-modale, se vuoi.

1,73K
Principali
Ranking
Preferiti


