Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Ten cytat z ustnej historii Sydney'a Brennera sprawił, że się zaśmiałem, ponieważ po prostu zaczyna wymieniać wiele słów z rzędu, o których nie miałem pojęcia, a które nawet nie brzmią jak prawdziwe słowa… a potem wspomina, jaką miał pasję do nich:
"Byłem bardzo aktywny w poszukiwaniu jako naiwna młoda osoba tych nauk, które mogłyby mi się przydać w przyszłości, co jest absurdalną działalnością.
Wiesz, mówisz sobie: 'Cóż, myślę, że to topologia da ci przełom', więc idziesz i uczysz się topologii, widzisz.
A przeszedłem przez takie rzeczy jak reologia – miałem wielką pasję do reologii – i wiedziałem wszystko o tiksotropowości i reopeksji, ponieważ myślałem, że próba dowiedzenia się wszystkiego o chemii fizycznej cytoplazmy nie jest złym pomysłem i wiedziałem, że będzie miała coś wspólnego z chemią fizyczną."
2,75K
Jedną z intrygujących i ujawniających niedoskonałości nawet najbardziej zaawansowanych modeli LLM wielomodalnych (np. GPT-5 i Claude Opus 4.1) jest to, co nazwałbym siloizacją modalną poznania.
Modele te wydają się być bardziej jak modele Frankensteina, połączone w sposób dość prymitywny z osobno wytrenowanych części, które są łączone poprzez kierowanie zapytań do odpowiedniego komponentu, zamiast być właściwie zintegrowane w głęboki sposób.
Dużym „znakiem” dla mnie w tym jest to, jak okropne są te modele w tworzeniu spójnej oryginalnej sztuki ASCII, a nawet w modyfikowaniu istniejącej sztuki w sposób, który byłby łatwy dla dziecka, gdyby miało odpowiednie narzędzie (np. edytor asciiflow, który jest niesamowity i darmowy w przeglądarce).
Ostatnio stworzyłem przydatne narzędzie do sprawdzania plików kodu pod kątem problemów, używając ast-grep w potężny sposób (opublikuję o tym więcej, gdy będzie gotowe), i chciałem stworzyć ładny baner dla każdego języka programowania, który zawierałby różnego rodzaju maskotki lub logo ASCII dla każdego z nich (wąż dla Pythona, gopher dla Golanga itd.).
To zadanie zastąpienia sztuki nową sztuką przy zachowaniu spójności było po prostu całkowicie niemożliwe dla każdego modelu.
Nawet gdy uczyniłem to, co chciałem, naprawdę explicite (wytrwałem przez chwilę dłużej z morbidnej ciekawości, jak neurolog wykonujący diagnostykę pacjenta cierpiącego na uszkodzenia mózgu), były komicznie złe w tym.
Nawet popełniły niektóre naprawdę obce błędy, których człowiek nigdy by nie popełnił, takie jak zastąpienie blokowych liter ASCII dla słowa „BUG” powtarzającymi się instancjami dosłownego ciągu „BUG, ” co pokazuje dziwaczne zamieszanie ontologiczne, które ma sens, jeśli weźmiesz pod uwagę, jak są trenowane na sekwencyjnym dopasowywaniu następnego znaku autoregresywnego.
Kiedy człowiek próbuje wykonać to zadanie, wykonuje rodzaj przełączania gestaltowego tam i z powrotem między „przestrzenią symboli” a „przestrzenią fizyczną (ekranową).”
Wprowadzamy zmianę symbolicznie, aby dodać lub przesunąć znak ASCII, ale potem obserwujemy i postrzegamy to, co właśnie zrobiliśmy wizualnie, aby zobaczyć, czy jest to poprawne. Jest to tak płynne, że nawet tego nie zauważamy.
Te wielomodalne LLM-y nie wydają się tego robić, ani nawet być w stanie, przynajmniej w jednej próbie wnioskowania. Są uwięzione w jednej modalności lub innej i nie mogą ich połączyć.
Gdyby mogły, to zadanie, które opisałem, byłoby dla nich trywialne, zamiast całkowicie nieosiągalnego.
Uważam, że modele LLM następnej generacji muszą mieć jakiś rodzaj cyfrowego odpowiednika ciała modzelowatego w mózgu, które jednoczy dwie półkule mózgowe i pomaga koordynować różne modalności poznawcze w zjednoczonej świadomości.
To znaczy, gęste, trenowalne połączenia, które pozwalają różnym modalnościom ciągle modulować się nawzajem podczas przetwarzania. Międzymodalne, jeśli chcesz.

1,72K
Najlepsze
Ranking
Ulubione


