分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

「:exacto」の紹介、高精度ツール呼び出しエンドポイント OpenRouterは現在、トップのオープンソースモデルで厳選されたプロバイダーのサブセットを提供し、ツール呼び出し精度が著しく高く、より信頼性の高いツールの使用を実現しています。

詳細については、ブログ投稿をご覧いただくか、概要のスレッドを読み続けてください。

なぜこれが重要なのか: プロバイダーが*同じモデルの重み*をホストしている場合でも、実際の推論の品質は異なる場合があります。毎月数十億件のリクエストを実行することで、OpenRouterはこれらの差異を検出し、最も正確なプロバイダーを自動的に明らかにするための独自の視点を得ることができます。

工具使用品質の測定方法: • JSON の妥当性 • ツール名とスキーマの一致・工具使用性向(工具を呼び出す傾向) • ユーザの無視/ブラックリスト設定 - 外部ベンチマーク(τ²-Bench、OpenBench経由@GroqInc LiveMCPBench)

このデータは、同じオープンウェイトモデルであっても、ツール呼び出しの精度が従来のベンチマークが示唆するよりもプロバイダー間ではるかに異なることを示しています。そこで、最も信頼性の高いエンドポイントに「のみ」ルーティングするエンドポイントを構築しました。

発売モデルは次のとおりです。「月翔台/KIMI-K2-0905:EXACTO」 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:エクサクト' 'openai/gpt-oss-120b:エキサクト' 'qwen/qwen3-coder:exacto' ここですべて見てください。

Exacto モデル + プロバイダーコンボ: キミK2:@GroqIncと@Kimi_Moonshot GLM-4.6: @novita_labs、@DeepInfra、および@Zai_org gpt-oss-120b: Groq、DeepInfra、Novita Qwen3 Coder: @basetenco、@cerebras、@GoogleAI DeepSeek Terminus: @AtlasCloud_AI、DeepInfra、Novita

他のモデルと同じように使用し、 ':exacto'を追加するだけです。 '''バッシュカール\ -H "承認: ベアラー $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"フランスの首都はどこですか?"}]}' ```

ベンチマークと内部評価では、すべての「:exacto」モデルでツール呼び出しの成功率が大幅に向上し、無効な JSON が減り、スキーマの不一致が減り、現実世界の信頼性が向上したことが示されています。評価ハーネスと新しく追加されたLiveMCPBenchについて、@GroqIncのOpenBenchに感謝します。

':exacto' バリアントは、プロバイダーの品質の一般的なランキングではなく、純粋にツール呼び出しの精度に焦点を当てています。これらのエンドポイントを引き続き拡張し、今年後半により多くの集計データを共有する予定です。

114.24K

トップ

ランキング

お気に入り