Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Creo que es una visión provocadora y un buen pensamiento, pero quería profundizar un poco en la lógica.
Hoy en día, la mayoría de las herramientas de IA funcionan en la nube. Cada vez que pides a un modelo que escriba, resuma, traduzca o analice algo, esa petición llega a una GPU en un centro de datos. Más usuarios → más consultas → más GPUs → más centros de datos → más líneas eléctricas, transformadores, subestaciones → más generación, etc. Ese es el volante central detrás del actual auge de hardware de IA + capex para centros de datos.
La inferencia útil en el dispositivo interrumpe esa cadena lineal.
Si un modelo de varios miles de millones de parámetros es lo suficientemente eficiente como para ejecutarse en el chip neuronal de tu teléfono, portátil, coche o auricular, entonces una gran parte de las tareas cotidianas nunca tiene que salir del dispositivo. Piensa en peticiones simples pero de alto volumen: autocompletado, redacción de correos, transcripción de voz, resumen, reconocimiento simple de imágenes. Estas son precisamente las consultas generales de alto volumen y baja complejidad que probablemente dominarán su uso.
Comprobación rápida de lo que puede cambiar: suposiciones simples: flexiona como quieras.
-1 mil millones de usuarios × 50 consultas/día × ~$0,002/consulta x 365 días = ~$35B/año en coste de inferencia en la nube.
-Si el 30% de eso se traslada al dispositivo, eso son ~11.000 0000 millones de dólares de demanda anual en la nube que nunca se materializa.
-El coste marginal por consulta local es efectivamente ~$0 una vez que el dispositivo se envía.
Advertencias normales: el hardware está avanzando pero aún necesita escalar la memoria, ancho de banda, etc. Sin embargo, un modelo de 3–7B parámetros que se ejecute en el chip neuronal de un teléfono (aproximadamente 10–45 "TOPS" hoy, 60+ proyectados para 2027) podría gestionar esas tareas de alto volumen y baja complejidad localmente. No necesitas modelos a escala frontera para cada prompt.
La nube sigue siendo importante, para ser muy claro. Entrenar modelos de frontera, razonamiento de contexto largo intenso, cargas de trabajo de grandes empresas, coordinación multiagente: todo eso sigue siendo mucho más adecuado para centros de datos grandes y centralizados. El cambio clave es que la cadena lógica ya no es "cada nuevo usuario = debo añadir más GPUs y más gigavatios de capacidad de centro de datos". Aquí se desconoce el argumento de la paradoja de Jevon y si impulsa un mayor uso de IA y lleva a los usuarios a buscar indicaciones más complejas, lo que compensa parte de esto
Como dice Aashay, el auge del capex no 'rompe' del todo, pero su trayectoria actual de intensidad probablemente se modifica. Trasladar incluso entre el 5 y el 30% de las cargas de trabajo de inferencia de la nube a un dispositivo a la escala actual puede ser significativo. Los problemas difíciles permanecen centralizados en la nube. Pero la "IA cotidiana" se convierte en una característica del hardware que ya posees, frente a una utilidad medida que es alquilada por la consulta.
Populares
Ranking
Favoritas

