Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Jeffrey Emanuel

Одним из интригующих и показательных недостатков даже самых продвинутых мультимодальных LLM на данный момент (например, GPT-5 и Claude Opus 4.1) является то, что я бы назвал модальным изолированием когниции. Эти модели больше похожи на модели Франкенштейна, грубо соединенные из отдельно обученных частей, которые объединяются путем маршрутизации запросов к правильному компоненту, а не должным образом интегрированы на глубоком уровне. Большим «знаком» для меня в этом является то, насколько ужасно все эти модели справляются с созданием последовательного оригинального ASCII-арта или даже с модификацией существующего искусства таким образом, который был бы прост для ребенка, если бы у него был правильный инструмент (например, редактор asciiflow, который потрясающий и бесплатный в браузере). Недавно я создал полезную утилиту для проверки файлов кода на наличие проблем, используя ast-grep мощными способами (я расскажу об этом подробнее, когда закончу), и я хотел сделать красивый баннер для каждого языка программирования, который включал бы разного ASCII-арт маскота или логотипа для каждого из них (змея для Python, гофер для Golang и т.д.). Эта задача замены искусства на новое, сохраняя при этом последовательность, была совершенно невозможна для каждой модели. Даже когда я сделал то, что хотел, действительно явным (я настаивал на этом еще некоторое время из-за мрачного любопытства, как невролог, проводящий диагностику у пациента с поражениями мозга), они были комически плохи в этом. Они даже сделали несколько поистине странных ошибок, которые человек никогда бы не сделал, например, заменив блоки ASCII-арта с буквами слова "BUG" на повторяющиеся экземпляры буквальной строки "BUG, " показывая странную онтологическую путаницу, которая имеет смысл, если учесть, как они обучаются на последовательном автогрессивном сопоставлении следующего символа. Когда человек пытается выполнить эту задачу, он постоянно переключается между "символьным пространством" и "физическим (экранным) пространством". Мы вносим символическое изменение, чтобы добавить или переместить символ ASCII, а затем наблюдаем и воспринимаем то, что мы только что сделали визуально, чтобы увидеть, правильно ли это. Это так бесшовно, что мы даже не замечаем этого. Эти мультимодальные LLM, похоже, не делают этого и даже не могут, по крайней мере, за один проход вывода. Они застряли либо в одной модальности, либо в другой и, похоже, не могут их объединить. Если бы они могли, эта задача, которую я описал, была бы тривиальной для них, а не совершенно непосильной. Я предполагаю, что мультимодальные LLM следующего поколения должны иметь некий цифровой аналог мозолистого тела в мозге, который объединяет два полушария мозга и помогает координировать различные когнитивные модальности в едином сознании. То есть плотные, обучаемые связи, которые позволяют различным модальностям постоянно модулировать друг друга во время обработки. Если хотите, межмодальные.

Топ

Рейтинг

Избранное