Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Dieses Zitat aus einer Oral History von Sydney Brenner hat mich zum Lachen gebracht, weil er einfach anfängt, mehrere Wörter hintereinander aufzuzählen, von denen ich keine Ahnung hatte und die nicht einmal wie echte Wörter klingen... und dann erwähnt, wie viel Leidenschaft er dafür hatte:
„Ich war als naiver junger Mann sehr aktiv auf der Suche nach den Wissenschaften, die mir in der Zukunft von Nutzen sein könnten, was eine lächerliche Aktivität ist.
Weißt du, man sagt so: 'Nun, ich denke, es wird die Topologie sein, die dir den Durchbruch verschaffen wird', also gehst du und lernst Topologie, verstehst du.
Und ich hatte Dinge wie Rheologie durchgemacht – ich hatte eine große Leidenschaft für Rheologie – und ich wusste alles über Thixotropie und Rheopexie, weil ich dachte, es wäre keine schlechte Idee, alles über die physikalische Chemie des Zytoplasmas herauszufinden, und ich wusste, dass es etwas mit physikalischer Chemie zu tun haben würde."
2,75K
Eine faszinierende und aufschlussreiche Schwäche selbst der fortschrittlichsten multimodalen LLMs derzeit (z. B. GPT-5 und Claude Opus 4.1) ist das, was ich als modale Isolation der Kognition bezeichnen würde.
Diese Modelle scheinen eher wie Frankenstein-Modelle zu sein, die etwas grob aus separat trainierten Teilen zusammengesetzt sind, die durch das Routing von Anfragen an die richtige Komponente kombiniert werden, anstatt auf eine tiefere Weise richtig integriert zu sein.
Das große „Indiz“ für mich dabei ist, wie schrecklich all diese Modelle darin sind, kohärente originale ASCII-Kunst zu erstellen oder sogar bestehende Kunst so zu modifizieren, dass es für ein Kind mit dem richtigen Werkzeug (z. B. dem asciiflow-Editor, der großartig und kostenlos im Browser ist) einfach wäre.
Ich habe kürzlich ein nützliches Tool erstellt, um Code-Dateien auf Probleme zu überprüfen, indem ich ast-grep auf leistungsstarke Weise verwende (ich werde mehr darüber posten, wenn es fertig ist), und ich wollte ein schönes Banner für jede Programmiersprache erstellen, das ein anderes ASCII-Kunst-Maskottchen oder Logo für jede enthält (Schlange für Python, Gopher für Golang usw.).
Diese Aufgabe, die Kunst durch neue Kunst zu ersetzen und dabei die Kohärenz zu wahren, war für jedes Modell einfach völlig unmöglich.
Selbst als ich das, was ich wollte, wirklich explizit machte (ich hielt eine Weile länger durch, aus morbider Neugier, wie ein Neurologe, der Diagnosen bei einem Patienten mit Hirnverletzungen stellt), waren sie komisch schlecht darin.
Sie machten sogar einige wirklich fremdartige Fehler, die ein Mensch niemals machen würde, wie das Ersetzen der ASCII-Kunstblockbuchstaben für das Wort „BUG“ durch wiederholte Instanzen des wörtlichen Strings „BUG, “, was eine bizarre ontologische Verwirrung zeigt, die Sinn macht, wenn man bedenkt, wie sie auf sequenzieller autoregressiver nächster-Zeichen-Anpassung trainiert werden.
Wenn ein Mensch versucht, diese Aufgabe zu erledigen, wechselt er ständig zwischen „Symbolraum“ und „physischem (Bildschirm-) Raum“.
Wir nehmen symbolisch eine Änderung vor, um ein ASCII-Zeichen hinzuzufügen oder zu verschieben, beobachten dann aber visuell, was wir gerade getan haben, um zu sehen, ob es richtig ist. Es ist so nahtlos, dass wir es kaum bemerken.
Diese multimodalen LLMs scheinen das nicht zu tun oder zumindest nicht in einem einzigen Inferenzdurchgang. Sie sind entweder in einer Modalität oder einer anderen gefangen und scheinen sie nicht fusionieren zu können.
Wenn sie das könnten, wäre die Aufgabe, die ich beschrieben habe, trivial für sie, anstatt völlig unüberwindbar.
Ich behaupte, dass die nächste Generation multimodaler LLMs eine Art digitales Analogon zum Corpus Callosum im Gehirn haben muss, das die beiden Gehirnhälften vereint und hilft, verschiedene kognitive Modalitäten in einem einheitlichen Bewusstsein zu koordinieren.
Das heißt, dichte, trainierbare Verbindungen, die es verschiedenen Modalitäten ermöglichen, sich während der Verarbeitung kontinuierlich gegenseitig zu modulieren. Intermodal, wenn man so will.

1,72K
Top
Ranking
Favoriten


