Artigo incrível para construtores de agentes. Sistemas multi-agente muitas vezes não entregam o que prometem. O problema não está em como os próprios agentes são construídos. Está em como eles são organizados. Eles são principalmente construídos com cadeias fixas, árvores e grafos que não conseguem se adaptar à medida que as tarefas evoluem. Mas e se o sistema pudesse aprender seus próprios padrões de coordenação? Esta nova pesquisa apresenta o Puppeteer, uma estrutura que aprende a orquestrar agentes dinamicamente em vez de depender de topologias feitas à mão. Em vez de pré-definir estruturas de colaboração, um orquestrador seleciona qual agente fala a seguir com base no estado da conversa em evolução. A política é treinada com REINFORCE, otimizando diretamente para o sucesso da tarefa. Em vez de buscar sobre topologias de grafos complexos, eles serializam tudo em seleções sequenciais de agentes. Esta reformulação evita a complexidade combinatória. O que emerge é surpreendente: padrões cíclicos compactos se desenvolvem naturalmente. Não grafos expansivos, mas laços apertados onde 2-3 agentes lidam com a maior parte do trabalho. A parte notável é que o sistema descobre eficiência por conta própria. Resultados: - Em problemas matemáticos GSM-Hard: 70% de precisão (aumentando de 13,5% para o modelo base sozinho). - Em MMLU-Pro: 83% (vs 76% de base). - Em desenvolvimento de software SRDD: 76,4% (vs 60,6% de base). Esses ganhos vêm com redução no consumo de tokens. O artigo mostra que os custos de tokens diminuem consistentemente ao longo do treinamento enquanto o desempenho melhora. Eles também provam que o processo de seleção de agentes satisfaz as propriedades de Markov, o que significa que o estado atual sozinho determina o próximo agente ótimo. Não há necessidade de rastrear todo o histórico. Por que isso é importante para desenvolvedores de IA: a simplicidade aprendida supera a complexidade engenheirada. Um roteador treinado com um punhado de agentes especializados pode superar fluxos de trabalho elaborados feitos à mão, enquanto reduz a sobrecarga computacional.