Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Tento citát z orální historie Sydney Brennera mě rozbrečel, protože prostě začal chrlit několik slov v řadě, o kterých jsem neměl tušení, a která ani nezní jako skutečná slova... a pak se zmíní, kolik vášně pro ně měl:
"Jako naivní mladý muž jsem byl velmi aktivní v hledání těch věd, které by mi mohly pomoci do budoucna, což je absurdní činnost.
Víte, říkáte si: "No, podívejte, myslím, že to bude topologie, která vám dá průlom," takže jdete a naučíte se topologii.
A prošel jsem si věcmi, jako je reologie – měl jsem velkou vášeň pro reologii – a věděl jsem všechno o tixotropii a reopexii, protože jsem si myslel, že pokusit se zjistit vše o fyzikální chemii cytoplazmy není špatný nápad a věděl jsem, že to bude mít něco společného s fyzikální chemií."
3,12K
Jedním ze zajímavých a odhalujících nedostatků i těch nejpokročilejších multimodálních LLM současnosti (např. GPT-5 a Claude Opus 4.1) je to, co bych nazval modálním silováním kognice.
Tyto modely se zdají být spíše jako Frankensteinovy modely, spojené dohromady poněkud hrubě ze samostatně naučených částí, které jsou kombinovány prostřednictvím směrovacích požadavků na správnou komponentu, spíše než aby byly řádně integrovány hlubokým způsobem.
Velkým "výpovědí" pro mě je, jak hrozné jsou všechny tyto modely při vytváření koherentních originálních ASCII kreseb, nebo dokonce v úpravách existujících kreseb způsobem, který by byl pro dítě snadný se správným nástrojem (např. editor asciiflow, který je úžasný a v prohlížeči zdarma).
Nedávno jsem vytvořil pěkný nástroj pro kontrolu problémů s kódovými soubory pomocí ast-grep výkonnými způsoby (o tom napíšu více, až to bude hotové), a chtěl jsem vytvořit pěkný banner pro každý programovací jazyk, který by obsahoval jiného maskota nebo logo ascii umění pro každý z nich (had pro Python, gopher pro Golang, atd.).
Tento úkol nahradit grafiku novou grafikou při zachování soudržnosti byl prostě naprosto nemožný pro každý model.
I když jsem dal jasně najevo, co jsem chtěl (vytrval jsem ještě chvíli z morbidní zvědavosti, jako když neurolog provádí diagnostiku pacienta trpícího mozkovými lézemi), byli v tom komicky špatní.
Dokonce se dopustili některých skutečně cizích chyb, které by člověk nikdy neudělal, jako je nahrazení blokových písmen ascii art pro slovo "BUG" opakovanými výskyty doslovného řetězce "BUG", což ukazuje bizarní ontologický zmatek, který dává smysl, pokud si uvědomíte, jak jsou trénováni na sekvenční autoregresivní porovnávání dalších znaků.
Když se člověk pokouší provést tento úkol, neustále gestalt přepíná tam a zpět mezi "prostorem symbolů" a "fyzickým (obrazovkovým) prostorem".
Symbolicky uděláme změnu, abychom přidali nebo přesunuli ascii postavu, ale pak pozorujeme a vnímáme, co jsme právě udělali vizuálně, abychom zjistili, jestli je to správně. Je to tak bezproblémové, že si toho vlastně ani moc nevšimneme.
Zdá se, že tyto multimodální LLM to neumí, nebo dokonce že by toho nebyly schopny, alespoň v jediném inferenčním průchodu. Jsou uvězněni buď v jedné nebo druhé modalitě a zdá se, že je nemohou sloučit.
Kdyby mohli, byl by pro ně tento úkol, který jsem popsal, triviální a ne zcela nepřekonatelný.
Předpokládám, že příští generace multimodálních LLM musí mít nějaký druh digitální analogie k corpus callosum v mozku, který sjednocuje dvě mozkové hemisféry a pomáhá koordinovat různé kognitivní modality ve sjednoceném vědomí.
To znamená hustá, trénovatelná spojení, která umožňují různým modalitám se během zpracování neustále modulovat. Intermodální, chcete-li.

1,73K
Top
Hodnocení
Oblíbené


