DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Einführung von `:exacto`, Präzisionswerkzeug-Calling-Endpunkten OpenRouter bietet jetzt eine kuratierte Auswahl von Anbietern auf Basis von Open-Source-Modellen mit messbar höherer Genauigkeit beim Werkzeugaufruf, die eine zuverlässigere Nutzung von Werkzeugen ermöglicht.

Lesen Sie die vollständigen Details in unserem Blogbeitrag: oder lesen Sie den Thread weiter für die Zusammenfassung.

Warum das wichtig ist: Selbst wenn Anbieter *die gleichen Modellgewichte* hosten, kann die Qualität der Inferenz in der realen Welt variieren. Das Ausführen von Milliarden von Anfragen pro Monat gibt OpenRouter einen einzigartigen Blickwinkel, um diese Unterschiede zu erkennen und die genauesten Anbieter automatisch zu identifizieren.

Wie wir die Qualität der Werkzeugnutzung messen: • JSON-Gültigkeit • Übereinstimmung von Werkzeugname und Schema • Neigung zur Werkzeugnutzung (Tendenz, Werkzeuge aufzurufen) • Benutzerignorieren-/Blacklist-Präferenzen • Externe Benchmarks (τ²-Bench, LiveMCPBench über @GroqInc OpenBench)

Diese Daten zeigen, dass die Genauigkeit des Tool-Calls zwischen den Anbietern viel stärker variiert, als es die herkömmlichen Benchmarks vermuten lassen, selbst für dasselbe Open-Weight-Modell. Also haben wir Endpunkte erstellt, die *nur* zu den zuverlässigsten führen.

Die verfügbaren Modelle umfassen: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Sehen Sie sie alle hier .

Exakte Modelle + Anbieter-Kombinationen: Kimi K2: @GroqInc und @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra und @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras und @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra und Novita

Verwenden Sie sie wie jedes andere Modell, fügen Sie einfach `:exacto` hinzu: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Was ist die Hauptstadt von Frankreich?"}]}' ```

Benchmarks und interne Bewertungen zeigen einen signifikanten Anstieg der Erfolgsquoten bei Tool-Aufrufen über alle `:exacto`-Modelle hinweg, weniger ungültige JSONs, weniger Schema-Mismatches und höhere Zuverlässigkeit in der realen Welt. Ein Dankeschön an @GroqInc's OpenBench für das Evaluierungs-Framework und das neu hinzugefügte LiveMCPBench.

Die `:exacto`-Variante konzentriert sich rein auf die Präzision des Tool-Aufrufs und nicht auf eine allgemeine Bewertung der Anbieterqualität. Wir werden diese Endpunkte weiterhin erweitern und später in diesem Jahr weitere aggregierte Daten teilen.

114,24K

Top

Ranking

Favoriten