Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Ця цитата з усної історії Сідні Бреннера змусила мене розлютитися, тому що він просто починає гриміти кілька слів поспіль, про які я навіть не мав уявлення, і які навіть не звучать як справжні слова... А потім згадує, скільки пристрасті він відчував до них:
"Як наївний юнак, я дуже активно полював на ті науки, які могли б стати мені в нагоді на майбутнє, що є безглуздим заняттям.
Знаєте, ви ніби говорите: «Ну, послухайте, я думаю, що саме топологія дасть вам прорив», тому ви йдете і вивчаєте топологію, розумієте.
І я пройшов через такі речі, як реологія – я мав велику пристрасть до реології – і я знав все про тиксотропію та реопексію, тому що вважав, що спроба дізнатися все про фізичну хімію цитоплазми була непоганою ідеєю, і я знав, що це матиме щось спільне з фізичною хімією».
3,12K
Одним з інтригуючих і показових недоліків навіть найбільш просунутих мультимодальних LLM зараз (наприклад, GPT-5 і Claude Opus 4.1) є те, що я б назвав модальним розрізненням пізнання.
Ці моделі більше схожі на моделі Франкенштейна, об'єднані дещо грубо з окремо навчених частин, які об'єднуються через маршрутизацію запитів до потрібного компонента, а не належним чином інтегровані глибоким чином.
Великим "відкриттям" для мене в цьому є те, наскільки жахливо всі ці моделі створюють цілісне оригінальне мистецтво ASCII або навіть модифікують існуюче мистецтво таким чином, що дитині було б легко мати відповідний інструмент (наприклад, редактор asciiflow, який є чудовим і безкоштовним у браузері).
Нещодавно я створив чудову утиліту для перевірки файлів коду на наявність проблем за допомогою ast-grep потужними способами (я напишу про це докладніше, коли це буде зроблено), і я хотів зробити гарний банер для кожної мови програмування, який включав би різний талісман або логотип ascii art для кожної з них (snake для Python, gopher для Golang тощо).
Завдання заміни мистецтва новим мистецтвом при збереженні цілісності було абсолютно нездійсненним для кожної моделі.
Навіть коли я дійсно чітко висловлював те, що хотів (я наполягав деякий час більше з хворобливої цікавості, як невролог, який проводить діагностику пацієнта, який страждає на ураження мозку), у них це комічно погано виходило.
Вони навіть допустили деякі дійсно чужорідні помилки, які людина ніколи б не зробила, наприклад, замінивши друковані літери ascii art для слова "BUG" повторюваними екземплярами буквального рядка "BUG", що демонструє дивну онтологічну плутанину, яка має сенс, якщо врахувати, як вони навчені на послідовному авторегресійному зіставленні наступних символів.
Коли людина намагається виконати це завдання, вона робить свого роду гештальт, постійно перемикаючись туди-сюди між «символьним простором» і «фізичним (екранним) простором».
Ми вносимо зміну символічно, щоб додати або перемістити символ ascii, але потім спостерігаємо та сприймаємо те, що ми щойно зробили візуально, щоб переконатися, що це правильно. Це настільки безшовно, що ми навіть не особливо помічаємо цього.
Ці мультимодальні LLM, схоже, не роблять цього, і навіть не можуть, принаймні за один прохід логічного висновку. Вони потрапили в пастку або в одній, або в іншій модальності і, здається, не можуть їх злити.
Якби вони могли, це завдання, яке я описав, було б для них тривіальним, а не абсолютно непереборним.
Я стверджую, що мультимодальні LLM наступного покоління повинні мати якийсь цифровий аналог мозолистого тіла в мозку, який об'єднує дві півкулі мозку і допомагає координувати різні когнітивні модальності в єдиній свідомості.
Тобто щільні, піддаються тренуванню зв'язки, які дозволяють різним модальностям безперервно модулювати один одного під час обробки. Інтермодальні, якщо хочете.

1,73K
Найкращі
Рейтинг
Вибране


