Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construindo com agentes de IA @dair_ai • Anterior: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Compartilho insights sobre como construir com LLMs & AI Agents ⬇️
Nova pesquisa sobre LLMs agentivos.
A pesquisa abrange três categorias interconectadas: raciocínio e recuperação para uma melhor tomada de decisão, modelos orientados para a ação para assistência prática e sistemas multiagente para colaboração e estudo do comportamento social emergente.
As principais aplicações incluem diagnóstico médico, logística, análise financeira e aumento da pesquisa científica através de agentes de interpretação autorreflexiva.
Notavelmente, o relatório destaca que os LLMs agentivos oferecem uma solução para a escassez de dados de treinamento, gerando novos estados de treinamento durante a inferência.
Artigo:

41,27K
O Google acaba de publicar um guia incrível sobre engenharia de contexto eficaz para sistemas multi-agente.
Prestem atenção a este, desenvolvedores de IA! (adicionem aos favoritos)
Aqui estão os meus principais pontos:
As janelas de contexto não são o gargalo. A engenharia de contexto é.
Para problemas mais complexos e de longo prazo, a gestão de contexto não pode ser tratada como um simples problema de "manipulação de strings".
A abordagem padrão para lidar com contexto em sistemas de agentes hoje continua a ser enfiar tudo no prompt. Mais história, mais tokens, mais confusão. A maioria das equipas trata o contexto como um problema de concatenação de strings.
Mas os despejos de contexto bruto criam três falhas críticas:
> explosão de custos devido a informações repetitivas
> degradação de desempenho devido a efeitos de "perdido no meio"
> aumento nas taxas de alucinação quando os agentes atribuem erroneamente ações em um sistema
A gestão de contexto torna-se uma preocupação arquitetônica ao lado do armazenamento e computação. Isso significa que transformações explícitas substituem a concatenação de strings ad-hoc. Os agentes recebem o contexto mínimo necessário por padrão e solicitam explicitamente informações adicionais através de ferramentas.
Parece que o Kit de Desenvolvimento de Agentes do Google está realmente pensando profundamente sobre a gestão de contexto. Ele introduz uma arquitetura em camadas que trata o contexto como "uma visão compilada sobre um sistema com estado" em vez de uma atividade de enchimento de prompt.
Como isso se parece?
1) Estrutura: O Modelo em Camadas
A estrutura separa o armazenamento da apresentação em quatro camadas distintas:
1) O Contexto de Trabalho lida com visões efémeras por invocação.
2) A Sessão mantém o log de eventos durável, capturando cada mensagem, chamada de ferramenta e sinal de controle.
3) A Memória fornece conhecimento pesquisável e de longa duração que sobrevive a sessões únicas.
4) Os Artefatos gerenciam grandes dados binários através de referências versionadas em vez de incorporação inline.
Como a compilação de contexto realmente funciona? Funciona através de Fluxos LLM ordenados com processadores explícitos. Um processador de conteúdos realiza três operações: seleção filtra eventos irrelevantes, transformação achata eventos em objetos de Conteúdo devidamente classificados, e injeção escreve a história formatada na solicitação LLM.
O processador de conteúdos é essencialmente a ponte entre uma sessão e o contexto de trabalho.
A arquitetura implementa cache de prefixo dividindo o contexto em prefixos estáveis (instruções, identidade, resumos) e sufixos variáveis (últimas interações, saídas de ferramentas). Além disso, um primitivo static_instruction garante imutabilidade para prompts do sistema, preservando a validade do cache entre invocações.
2) Gestão Agente do Que Importa Agora
Uma vez que você descobre a estrutura, o desafio central torna-se a relevância.
Você precisa descobrir o que pertence à janela ativa agora.
O ADK responde a isso através da colaboração entre a arquitetura definida por humanos e a tomada de decisão agente. Os engenheiros definem onde os dados residem e como são resumidos. Os agentes decidem dinamicamente quando "alcançar" blocos de memória ou artefatos específicos.
Para grandes cargas, o ADK aplica um padrão de manuseio. Um CSV de 5MB ou uma resposta JSON massiva reside no armazenamento de artefatos, não no prompt. Os agentes veem apenas referências leves por padrão. Quando dados brutos são necessários, eles chamam LoadArtifactsTool para expansão temporária. Uma vez que a tarefa é concluída, o artefato é descarregado. Isso transforma o imposto de contexto permanente em acesso preciso e sob demanda.
Para conhecimento de longo prazo, o MemoryService fornece dois padrões de recuperação:
1) Recordação reativa: os agentes reconhecem lacunas de conhecimento e buscam explicitamente no corpus.
2) Recordação proativa: pré-processadores executam busca de similaridade na entrada do usuário, injetando trechos relevantes antes da invocação do modelo. Os agentes recordam exatamente os trechos necessários para o passo atual em vez de carregar toda a conversa que já tiveram.
Tudo isso me lembra a abordagem em camadas das Claude Skills, que melhora o uso eficiente do contexto no Claude Code.
3) Contexto Multi-agente
Sistemas de agente único sofrem de inchaço de contexto. Ao construir multi-agentes, esse problema se amplifica ainda mais, o que facilmente leva à "explosão de contexto" à medida que você incorpora mais sub-agentes.
Para que a coordenação multi-agente funcione de forma eficaz, o ADK fornece dois padrões. Agentes-como-ferramentas tratam agentes especializados como chamáveis que recebem prompts focados sem uma história ancestral. Transferência de Agente, que permite transferências de controle total onde sub-agentes herdam visões de sessão. O parâmetro include_contents controla o fluxo de contexto, padrão para todo o contexto de trabalho ou fornecendo apenas o novo prompt.
O que previne alucinações durante as transferências de agentes? A solução é a tradução de conversas. Mensagens anteriores do Assistente se convertem em contexto narrativo com tags de atribuição. Chamadas de ferramentas de outros agentes são explicitamente marcadas. Cada agente assume o papel de Assistente sem atribuir erroneamente a história mais ampla do sistema a si mesmo.
Por fim, você não precisa usar o Google ADK para aplicar esses insights. Acredito que isso pode ser aplicado em toda a linha ao construir sistemas multi-agente.
(imagem cortesia de nano banana pro)

1,25K
// O CASO PARA ESCALONAMENTO DE AMBIENTE //
O escalonamento de ambiente pode ser tão importante quanto o escalonamento de modelo para IA agentiva.
A pesquisa atual em IA sugere que construir um modelo de IA agentiva poderoso não se trata apenas de melhor raciocínio. Trata-se também de melhores ambientes.
A abordagem padrão para treinar agentes de IA capazes hoje é coletar trajetórias estáticas ou demonstrações humanas. Isso requer mais dados, mais exemplos e mais esforço de anotação.
Mas dados estáticos não podem ensinar tomada de decisão dinâmica. Modelos treinados dessa forma têm dificuldades com a natureza de longo prazo e orientada a objetivos das tarefas reais agentivas.
Esta nova pesquisa introduz o Nex-N1, uma estrutura que escala sistematicamente a diversidade e complexidade dos ambientes de treinamento interativos em vez de apenas escalar dados.
As capacidades dos agentes emergem da interação, não da imitação. Em vez de coletar mais demonstrações, eles construíram uma infraestrutura para gerar automaticamente arquiteturas e fluxos de trabalho de agentes diversos a partir de especificações em linguagem natural.
O sistema tem três componentes. NexAU (Universo de Agentes) fornece uma estrutura universal de agentes que gera hierarquias complexas de agentes a partir de configurações simples. NexA4A (Agente para Agente) sintetiza automaticamente arquiteturas de agentes diversas a partir de linguagem natural. NexGAP fecha a lacuna entre simulação e realidade integrando ferramentas MCP do mundo real para síntese de trajetórias fundamentadas.
Resultados:
- No τ2-bench, o Nex-N1 construído sobre o DeepSeek-V3.1 pontua 80.2, superando os 42.8 do modelo base.
- No SWE-bench Verificado, o Qwen3-32B-Nex-N1 alcança 50.5% em comparação com os 12.9% do modelo base.
- No BFCL v4 para uso de ferramentas, o Nex-N1 (65.3) supera o GPT-5 (61.6).
Em avaliações humanas sobre desenvolvimento de projetos do mundo real em 43 cenários de codificação, o Nex-N1 vence ou empata contra o Claude Sonnet 4.5 em 64.5% dos casos e contra o GPT-5 em ~70% dos casos.
Eles também construíram um agente de pesquisa profunda no Nex-N1, alcançando 47.0% no Deep Research Benchmark, com capacidades para geração de relatórios visualizados, incluindo slides e pôsteres de pesquisa.
Artigo:

10,44K
Top
Classificação
Favoritos

