El proyecto HVM-by-AI se ha topado con un muro. Las cosas funcionaban sin problemas, pero tenemos un problema: el intérprete de C es recursivo, lo que significa que la pila se desborda para programas grandes. Le pedí a la IA que lo convirtiera en un intérprete manual basado en pila / bucle, pero falló. ¡Afortunadamente, HVM3 ya tiene un intérprete de este tipo! Entonces, le di las partes relevantes de HVM3 y le pedí que lo portara. Todo lo que tenía que hacer era adaptar el código antiguo a la nueva base de código. Lamentablemente, incluso con esta pista masiva, la IA volvió a fallar. Luego generé 3 instancias y les pedí que depuraran, y solo se detuvieran cuando la salida fuera correcta. Incluso les di herramientas para comparar la ejecución paso a paso. Los 3 fallaron. Supongo que este es el límite... Sé que probablemente podría hacerlo yo mismo en una o 2 horas, pero, ¿y si no pudiera? Realmente quiero averiguar si una computadora puede resolver eso por sí sola, para la ciencia. Sin embargo, me quedo sin ideas: GPT-5 high es el modelo más inteligente que tenemos. Si no puede resolver esto, ¿qué más podría? ¿Quizás 256 casos? ¿Quizás aplicar el ajuste fino en tiempo de prueba a algún otro modelo? ¿Pensamientos?
Taelin
Taelin21 ago 2025
Por cierto, básicamente he dejado de usar Opus por completo y ahora tengo varias pestañas del Codex con GPT-5-high trabajando en diferentes tareas en las 3 bases de código (HVM, Bend, Kolmo). El progreso nunca ha sido tan intenso. Mi trabajo ahora es básicamente pasar tareas bien especificadas al Codex y revisar sus resultados. OpenAI no me está pagando y no podría importarme menos. Este modelo es simplemente muy bueno y el hecho de que la gente no pueda verlo me hizo darme cuenta de que la mayoría de ustedes probablemente estén usando chatbots como novias o algo más que ayudar con tareas de codificación complejas
105.09K