Agradecimentos à equipa @xai por trabalhar às 2:00 da manhã para ajudar a levar isto até à linha de chegada
Apresentamos o Agent Runner: o primeiro agente de código aberto executado com utilizadores reais para criar um benchmark ao vivo de codificação do mundo real
Rastreamos chamadas de ferramentas, re-prompting e edições multificheiro, começando com o melhor da @OpenAI, @xai, @GoogleDeepMind, @AnthropicAI, @MistralAI, @Zai_org, @Kimi_Moonshot
Este é o maior delta de desempenho que vimos desde o lançamento da Design Arena
O Gemini 3.0 Pro ficou em 1º lugar geral e em 1º lugar em 4 das nossas 5 arenas de código - Website, Desenvolvimento de Jogos, Design 3D e Componentes de UI
Parabéns bem merecidos à equipe do @GoogleDeepMind por um avanço notável (e nomeação de versão humilde)