Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los modelos de razonamiento son costosos de ejecutar con benchmarks tradicionales, pero a menudo se vuelven más baratos en flujos de trabajo agentivos, ya que llegan a respuestas en menos turnos.
A través de 2025, hemos visto que el cómputo en tiempo de prueba aumenta el costo de la inteligencia de frontera, pero con flujos de trabajo agentivos hay una diferencia clave: llegar a la respuesta rápidamente puede reducir el número de turnos a pesar de que cada turno cueste más.

GPQA Diamond y 𝜏²-Bench Telecom (un benchmark agentivo que requiere que los modelos actúen en un rol de servicio al cliente) muestran un rendimiento desproporcionado para GPT-5 y o3 en comparación con GPT-4.1, pero mientras que los modelos de razonamiento cuestan más de 10 veces ejecutar GPQA, en el entorno de servicio al cliente de 𝜏² cuestan aproximadamente lo mismo que GPT-4.1. o3 y GPT-4.1 ahora tienen costos de token iguales, por lo que estas diferencias son impulsadas completamente por la eficiencia.


9,75K
Parte superior
Clasificación
Favoritos