Das HVM-by-AI-Projekt ist auf ein Hindernis gestoßen. Es lief alles reibungslos, aber wir haben ein Problem: Der C-Interpreter ist rekursiv, was bedeutet, dass er bei großen Programmen einen Stacküberlauf verursacht. Ich habe die KI gebeten, ihn in einen manuellen Stack-/Schleifen-basierten Interpreter umzuwandeln, aber das ist gescheitert. Glücklicherweise hat HVM3 bereits einen solchen Interpreter! Also habe ich ihr die relevanten Teile von HVM3 gegeben und sie gebeten, ihn zu portieren. Alles, was sie tun musste, war, den alten Code an die neue Codebasis anzupassen. Leider ist die KI selbst mit diesem massiven Hinweis erneut gescheitert. Ich habe dann 3 Instanzen gestartet und sie gebeten, zu debuggen und nur zu stoppen, wenn die Ausgabe korrekt ist. Ich habe ihnen sogar Werkzeuge gegeben, um die Ausführung Schritt für Schritt zu vergleichen. Alle 3 sind gescheitert. Ich schätze, das ist die Grenze... Ich weiß, dass ich es wahrscheinlich selbst in einer Stunde oder zwei schaffen könnte, aber was, wenn ich es nicht könnte? Ich möchte wirklich herausfinden, ob ein Computer das alleine lösen kann, für die Wissenschaft. Mir gehen die Ideen aus: GPT-5 high ist das intelligenteste Modell, das wir haben. Wenn es das nicht lösen kann, was könnte es dann? Vielleicht 256 Instanzen? Vielleicht Testzeit-Fine-Tuning auf ein anderes Modell anwenden? Gedanken?
Taelin
Taelin21. Aug. 2025
Übrigens habe ich im Grunde aufgehört, Opus vollständig zu nutzen, und ich habe jetzt mehrere Codex-Tabs mit GPT-5-high, die an verschiedenen Aufgaben in den 3 Codebasen (HVM, Bend, Kolmo) arbeiten. Der Fortschritt war noch nie so intensiv. Mein Job besteht jetzt im Grunde darin, gut definierte Aufgaben an Codex weiterzugeben und seine Ausgaben zu überprüfen. OpenAI bezahlt mich nicht und es ist ihnen egal, was mit mir passiert. Dieses Modell ist einfach sehr gut, und die Tatsache, dass die Leute das nicht sehen können, hat mich erkennen lassen, dass die meisten von euch wahrscheinlich Chatbots als Freundinnen oder etwas anderes verwenden, anstatt bei komplexen Programmieraufgaben zu helfen.
101,45K