「:exacto」の紹介、高精度ツール呼び出しエンドポイント OpenRouterは現在、トップのオープンソースモデルで厳選されたプロバイダーのサブセットを提供し、ツール呼び出し精度が著しく高く、より信頼性の高いツールの使用を実現しています。
詳細については、ブログ投稿をご覧いただくか、概要のスレッドを読み続けてください。
なぜこれが重要なのか: プロバイダーが*同じモデルの重み*をホストしている場合でも、実際の推論の品質は異なる場合があります。 毎月数十億件のリクエストを実行することで、OpenRouterはこれらの差異を検出し、最も正確なプロバイダーを自動的に明らかにするための独自の視点を得ることができます。
工具使用品質の測定方法: • JSON の妥当性 • ツール名とスキーマの一致 ・工具使用性向(工具を呼び出す傾向) • ユーザの無視/ブラックリスト設定 - 外部ベンチマーク(τ²-Bench、OpenBench経由@GroqInc LiveMCPBench)
このデータは、同じオープンウェイトモデルであっても、ツール呼び出しの精度が従来のベンチマークが示唆するよりもプロバイダー間ではるかに異なることを示しています。 そこで、最も信頼性の高いエンドポイントに「のみ」ルーティングするエンドポイントを構築しました。
発売モデルは次のとおりです。 「月翔台/KIMI-K2-0905:EXACTO」 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:エクサクト' 'openai/gpt-oss-120b:エキサクト' 'qwen/qwen3-coder:exacto' ここですべて見てください。
Exacto モデル + プロバイダー コンボ: キミK2:@GroqIncと@Kimi_Moonshot GLM-4.6: @novita_labs、@DeepInfra、および@Zai_org gpt-oss-120b: Groq、DeepInfra、Novita Qwen3 Coder: @basetenco、@cerebras、@GoogleAI DeepSeek Terminus: @AtlasCloud_AI、DeepInfra、Novita
他のモデルと同じように使用し、 ':exacto'を追加するだけです。 '''バッシュ カール\ -H "承認: ベアラー $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"フランスの首都はどこですか?"}]}' ```
ベンチマークと内部評価では、すべての「:exacto」モデルでツール呼び出しの成功率が大幅に向上し、無効な JSON が減り、スキーマの不一致が減り、現実世界の信頼性が向上したことが示されています。評価ハーネスと新しく追加されたLiveMCPBenchについて、@GroqIncのOpenBenchに感謝します。
':exacto' バリアントは、プロバイダーの品質の一般的なランキングではなく、純粋にツール呼び出しの精度に焦点を当てています。 これらのエンドポイントを引き続き拡張し、今年後半により多くの集計データを共有する予定です。
114.24K