Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Эта цитата из устной истории Сидни Бреннора заставила меня рассмеяться, потому что он просто начинает перечислять множество слов подряд, о которых я не имел ни малейшего представления, и которые даже не звучат как настоящие слова… а затем упоминает, сколько страсти он к ним испытывал:
"Я был очень активен в поисках, как наивный молодой человек, тех наук, которые могли бы мне пригодиться в будущем, что является абсурдной деятельностью.
Вы знаете, вы как бы говорите: 'Ну, смотрите, я думаю, что топология даст вам прорыв', так что вы идете и изучаете топологию, понимаете.
И я прошел через такие вещи, как реология – у меня была большая страсть к реологии – и я знал все о тиксотропии и реопексии, потому что думал, что попытка узнать все о физической химии цитоплазмы не была бы плохой идеей, и я знал, что это будет связано с физической химией."
2,75K
Одним из интригующих и показательных недостатков даже самых продвинутых мультимодальных LLM на данный момент (например, GPT-5 и Claude Opus 4.1) является то, что я бы назвал модальным изолированием когниции.
Эти модели больше похожи на модели Франкенштейна, грубо соединенные из отдельно обученных частей, которые объединяются путем маршрутизации запросов к правильному компоненту, а не должным образом интегрированы на глубоком уровне.
Большим «знаком» для меня в этом является то, насколько ужасно все эти модели справляются с созданием последовательного оригинального ASCII-арта или даже с модификацией существующего искусства таким образом, который был бы прост для ребенка, если бы у него был правильный инструмент (например, редактор asciiflow, который потрясающий и бесплатный в браузере).
Недавно я создал полезную утилиту для проверки файлов кода на наличие проблем, используя ast-grep мощными способами (я расскажу об этом подробнее, когда закончу), и я хотел сделать красивый баннер для каждого языка программирования, который включал бы разного ASCII-арт маскота или логотипа для каждого из них (змея для Python, гофер для Golang и т.д.).
Эта задача замены искусства на новое, сохраняя при этом последовательность, была совершенно невозможна для каждой модели.
Даже когда я сделал то, что хотел, действительно явным (я настаивал на этом еще некоторое время из-за мрачного любопытства, как невролог, проводящий диагностику у пациента с поражениями мозга), они были комически плохи в этом.
Они даже сделали несколько поистине странных ошибок, которые человек никогда бы не сделал, например, заменив блоки ASCII-арта с буквами слова "BUG" на повторяющиеся экземпляры буквальной строки "BUG, " показывая странную онтологическую путаницу, которая имеет смысл, если учесть, как они обучаются на последовательном автогрессивном сопоставлении следующего символа.
Когда человек пытается выполнить эту задачу, он постоянно переключается между "символьным пространством" и "физическим (экранным) пространством".
Мы вносим символическое изменение, чтобы добавить или переместить символ ASCII, а затем наблюдаем и воспринимаем то, что мы только что сделали визуально, чтобы увидеть, правильно ли это. Это так бесшовно, что мы даже не замечаем этого.
Эти мультимодальные LLM, похоже, не делают этого и даже не могут, по крайней мере, за один проход вывода. Они застряли либо в одной модальности, либо в другой и, похоже, не могут их объединить.
Если бы они могли, эта задача, которую я описал, была бы тривиальной для них, а не совершенно непосильной.
Я предполагаю, что мультимодальные LLM следующего поколения должны иметь некий цифровой аналог мозолистого тела в мозге, который объединяет два полушария мозга и помогает координировать различные когнитивные модальности в едином сознании.
То есть плотные, обучаемые связи, которые позволяют различным модальностям постоянно модулировать друг друга во время обработки. Если хотите, межмодальные.

1,72K
Топ
Рейтинг
Избранное


