Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Esta cita de una historia oral de Sydney Brenner me hizo reír porque simplemente comienza a recitar varias palabras seguidas de las que no tenía idea, y que ni siquiera suenan como palabras reales ... y luego menciona cuánta pasión tenía por ellos:
"Fui muy activo en la búsqueda de aquellas ciencias que podrían serme de gran ayuda para el futuro, lo cual es una actividad ridícula.
Ya sabes, dices: 'Bueno, mira, creo que va a ser la topología la que te va a dar el gran avance', así que vas y aprendes topología, ¿sabes?
Y había pasado por cosas como la reología, tenía una gran pasión por la reología, y sabía todo sobre la tixotropía y la reopexia porque pensaba que tratar de averiguar todo sobre la química física del citoplasma no era una mala idea y sabía que tendría algo que ver con la química física".
3.11K
Una deficiencia intrigante y reveladora incluso de los LLM multimodales más avanzados ahora (por ejemplo, GPT-5 y Claude Opus 4.1) es lo que yo llamaría el silo modal de la cognición.
Estos modelos parecen ser más como modelos de Frankenstein, unidos de manera algo tosca a partir de piezas entrenadas por separado que se combinan a través de solicitudes de enrutamiento al componente correcto, en lugar de integrarse adecuadamente de manera profunda.
El gran "indicio" para mí en esto es lo horribles que son todos estos modelos para crear arte ASCII original coherente, o incluso modificar el arte existente de una manera que sería fácil para un niño con la herramienta adecuada (por ejemplo, el editor asciiflow, que es increíble y gratuito en el navegador).
Recientemente creé una buena utilidad para verificar archivos de código en busca de problemas usando ast-grep de maneras poderosas (publicaré más sobre esto cuando esté listo), y quería hacer un buen banner para cada lenguaje de programación que incluyera una mascota o logotipo de arte ascii diferente para cada uno (serpiente para Python, ardilla para Golang, etc.).
Esta tarea de reemplazar el arte con arte nuevo mientras se mantenía la coherencia era totalmente imposible para todos los modelos.
Incluso cuando hice lo que quería realmente explícito (persistí por un tiempo más por curiosidad morbosa, como un neurólogo que diagnostica a un paciente que sufre lesiones cerebrales), fueron cómicamente malos en eso.
Incluso cometieron algunos errores verdaderamente extraños que un humano nunca cometería, como reemplazar las letras mayúsculas de arte ascii para la palabra "BUG" con instancias repetidas de la cadena literal "BUG", mostrando una extraña confusión ontológica que tiene sentido si considera cómo se entrenan en la coincidencia secuencial autorregresiva del siguiente carácter.
Cuando un humano intenta hacer esta tarea, hace una especie de cambio gestáltico de un lado a otro constantemente entre el "espacio de símbolos" y el "espacio físico (pantalla)".
Hacemos un cambio simbólicamente para agregar o mover un carácter ascii, pero luego observamos y percibimos lo que acabamos de hacer visualmente para ver si es correcto. Es tan perfecto que ni siquiera lo notamos mucho.
Estos LLM multimodales no parecen hacer eso, o incluso ser capaces de hacerlo, al menos en un solo paso de inferencia. Están atrapados en una modalidad u otra y parece que no pueden fusionarlos.
Si pudieran, esta tarea que he descrito sería trivial para ellos en lugar de totalmente insuperable.
Postulo que los LLM multimodales de próxima generación deben tener algún tipo de análogo digital al cuerpo calloso en el cerebro, que unifica los dos hemisferios cerebrales y ayuda a coordinar diferentes modalidades cognitivas en una conciencia unificada.
Es decir, conexiones densas y entrenables que permiten que diferentes modalidades se modulen continuamente entre sí durante el procesamiento. Intermodal si se quiere.

1.72K
Populares
Ranking
Favoritas


