Agradecimentos à equipa @xai por trabalhar às 2:00 da manhã para ajudar a levar isto até à linha de chegada Apresentamos o Agent Runner: o primeiro agente de código aberto executado com utilizadores reais para criar um benchmark ao vivo de codificação do mundo real Rastreamos chamadas de ferramentas, re-prompting e edições multificheiro, começando com o melhor da @OpenAI, @xai, @GoogleDeepMind, @AnthropicAI, @MistralAI, @Zai_org, @Kimi_Moonshot