DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

elvis

Construire avec des agents d’IA @dair_ai • Précédent : Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Je partage des idées sur la façon de construire avec des LLM et des agents ⬇️ d’IA

Google vient de publier un excellent guide sur l'ingénierie contextuelle efficace pour les systèmes multi-agents. Faites attention à celui-ci, développeurs d'IA ! (ajoutez-le à vos favoris) Voici mes principaux enseignements : Les fenêtres de contexte ne sont pas le goulot d'étranglement. L'ingénierie contextuelle l'est. Pour des problèmes plus complexes et à long terme, la gestion du contexte ne peut pas être traitée comme un simple problème de "manipulation de chaînes". L'approche par défaut pour gérer le contexte dans les systèmes d'agents aujourd'hui reste de tout entasser dans l'invite. Plus d'historique, plus de jetons, plus de confusion. La plupart des équipes traitent le contexte comme un problème de concaténation de chaînes. Mais les déversements de contexte brut créent trois échecs critiques : > explosion des coûts due à des informations répétitives > dégradation des performances due aux effets de "perdu au milieu" > augmentation des taux d'hallucination lorsque les agents attribuent mal des actions à travers un système La gestion du contexte devient une préoccupation architecturale aux côtés du stockage et du calcul. Cela signifie que des transformations explicites remplacent la concaténation de chaînes ad hoc. Les agents reçoivent par défaut le contexte minimum requis et demandent explicitement des informations supplémentaires via des outils. Il semble que le Kit de Développement d'Agents de Google réfléchisse vraiment en profondeur à la gestion du contexte. Il introduit une architecture en couches qui traite le contexte comme "une vue compilée sur un système d'état" plutôt que comme une activité de bourrage d'invite. À quoi cela ressemble-t-il ? 1) Structure : Le Modèle en Couches Le cadre sépare le stockage de la présentation à travers quatre couches distinctes : 1) Le Contexte de Travail gère les vues éphémères par invocation. 2) La Session maintient le journal des événements durables, capturant chaque message, appel d'outil et signal de contrôle. 3) La Mémoire fournit des connaissances durables et recherchables qui survivent à des sessions uniques. 4) Les Artéfacts gèrent de grandes données binaires à travers des références versionnées plutôt qu'un embedding en ligne. Comment fonctionne réellement la compilation de contexte ? Elle fonctionne à travers des Flux LLM ordonnés avec des processeurs explicites. Un processeur de contenu effectue trois opérations : la sélection filtre les événements non pertinents, la transformation aplatit les événements en objets de contenu correctement rôlés, et l'injection écrit l'historique formaté dans la demande LLM. Le processeur de contenu est essentiellement le pont entre une session et le contexte de travail. L'architecture met en œuvre un cache de préfixe en divisant le contexte en préfixes stables (instructions, identité, résumés) et suffixes variables (derniers tours, sorties d'outils). De plus, un primitive static_instruction garantit l'immuabilité pour les invites système, préservant la validité du cache à travers les invocations. 2) Gestion Agentique de Ce Qui Compte Maintenant Une fois que vous avez compris la structure, le défi principal devient alors la pertinence. Vous devez déterminer ce qui appartient à la fenêtre active en ce moment. Le ADK répond à cela par la collaboration entre l'architecture définie par l'homme et la prise de décision agentique. Les ingénieurs définissent où les données résident et comment elles sont résumées. Les agents décident dynamiquement quand "atteindre" des blocs de mémoire ou des artéfacts spécifiques. Pour de gros volumes de données, le ADK applique un modèle de gestion. Un CSV de 5 Mo ou une réponse JSON massive vit dans le stockage d'artéfacts, pas dans l'invite. Les agents ne voient que des références légères par défaut. Lorsque des données brutes sont nécessaires, ils appellent LoadArtifactsTool pour une expansion temporaire. Une fois la tâche terminée, l'artéfact est déchargé. Cela transforme la taxe de contexte permanent en un accès précis et à la demande. Pour les connaissances à long terme, le MemoryService fournit deux modèles de récupération : 1) Rappel réactif : les agents reconnaissent les lacunes de connaissance et recherchent explicitement dans le corpus. 2) Rappel proactif : des pré-processeurs effectuent une recherche de similarité sur l'entrée utilisateur, injectant des extraits pertinents avant l'invocation du modèle. Les agents se souviennent exactement des extraits nécessaires pour l'étape actuelle plutôt que de porter chaque conversation qu'ils ont jamais eue. Tout cela me rappelle l'approche en couches des Compétences Claude, qui améliore l'utilisation efficace du contexte dans Claude Code. 3) Contexte Multi-Agent Les systèmes à agent unique souffrent de l'enflure du contexte. Lors de la construction de multi-agents, ce problème s'amplifie encore, ce qui conduit facilement à une "explosion de contexte" à mesure que vous incorporez plus de sous-agents. Pour que la coordination multi-agent fonctionne efficacement, le ADK fournit deux modèles. Les agents-en-outils traitent les agents spécialisés comme des appelables recevant des invites ciblées sans histoire ancestrale. Le Transfert d'Agent, qui permet des transferts de contrôle complets où les sous-agents héritent des vues de session. Le paramètre include_contents contrôle le flux de contexte, par défaut en utilisant le contexte de travail complet ou en fournissant uniquement la nouvelle invite. Qu'est-ce qui empêche l'hallucination lors des transferts d'agents ? La solution est la traduction de conversation. Les messages précédents de l'Assistant se convertissent en contexte narratif avec des balises d'attribution. Les appels d'outils d'autres agents sont explicitement marqués. Chaque agent assume le rôle de l'Assistant sans attribuer à tort l'histoire du système plus large à lui-même. Enfin, vous n'avez pas besoin d'utiliser le ADK de Google pour appliquer ces idées. Je pense qu'elles pourraient s'appliquer à tous les niveaux lors de la construction de systèmes multi-agents. (image avec l'aimable autorisation de nano banana pro)

// L'ARGUMENT POUR L'ÉCHELONNAGE DE L'ENVIRONNEMENT // L'échelonnement de l'environnement peut être aussi important que l'échelonnement du modèle pour l'IA agentique. Les recherches actuelles sur l'IA suggèrent que construire un modèle d'IA agentique puissant ne concerne pas seulement un meilleur raisonnement. Il s'agit aussi de meilleurs environnements. L'approche par défaut pour former des agents IA capables aujourd'hui consiste à collecter des trajectoires statiques ou des démonstrations humaines. Cela nécessite plus de données, plus d'exemples et plus d'efforts d'annotation. Mais les données statiques ne peuvent pas enseigner la prise de décision dynamique. Les modèles formés de cette manière ont du mal avec la nature à long terme et orientée vers des objectifs des tâches réelles agentiques. Cette nouvelle recherche introduit Nex-N1, un cadre qui échelonne systématiquement la diversité et la complexité des environnements d'entraînement interactifs plutôt que de simplement échelonner les données. Les capacités des agents émergent de l'interaction, pas de l'imitation. Au lieu de collecter plus de démonstrations, ils ont construit une infrastructure pour générer automatiquement des architectures d'agents et des flux de travail divers à partir de spécifications en langage naturel. Le système a trois composants. NexAU (Agent Universe) fournit un cadre d'agent universel qui génère des hiérarchies d'agents complexes à partir de configurations simples. NexA4A (Agent for Agent) synthétise automatiquement des architectures d'agents divers à partir de langage naturel. NexGAP comble le fossé simulation-réalité en intégrant des outils MCP du monde réel pour la synthèse de trajectoires ancrées. Résultats : - Sur le τ2-bench, Nex-N1 construit sur DeepSeek-V3.1 obtient un score de 80.2, surpassant le modèle de base qui a 42.8. - Sur SWE-bench Vérifié, Qwen3-32B-Nex-N1 atteint 50.5% par rapport à 12.9% pour le modèle de base. - Sur BFCL v4 pour l'utilisation d'outils, Nex-N1 (65.3) surpasse GPT-5 (61.6). Dans les évaluations humaines sur le développement de projets réels à travers 43 scénarios de codage, Nex-N1 gagne ou fait match nul contre Claude Sonnet 4.5 dans 64.5% des cas et contre GPT-5 dans ~70% des cas. Ils ont également construit un agent de recherche approfondie sur Nex-N1, atteignant 47.0% sur le Deep Research Benchmark, avec des capacités de génération de rapports visualisés, y compris des diapositives et des affiches de recherche. Article :

Meilleurs

Classement

Favoris