トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
「:exacto」の紹介、高精度ツール呼び出しエンドポイント
OpenRouterは現在、トップのオープンソースモデルで厳選されたプロバイダーのサブセットを提供し、ツール呼び出し精度が著しく高く、より信頼性の高いツールの使用を実現しています。

詳細については、ブログ投稿をご覧いただくか、概要のスレッドを読み続けてください。

なぜこれが重要なのか:
プロバイダーが*同じモデルの重み*をホストしている場合でも、実際の推論の品質は異なる場合があります。
毎月数十億件のリクエストを実行することで、OpenRouterはこれらの差異を検出し、最も正確なプロバイダーを自動的に明らかにするための独自の視点を得ることができます。
工具使用品質の測定方法:
• JSON の妥当性
• ツール名とスキーマの一致
・工具使用性向(工具を呼び出す傾向)
• ユーザの無視/ブラックリスト設定
- 外部ベンチマーク(τ²-Bench、OpenBench経由@GroqInc LiveMCPBench)

このデータは、同じオープンウェイトモデルであっても、ツール呼び出しの精度が従来のベンチマークが示唆するよりもプロバイダー間ではるかに異なることを示しています。
そこで、最も信頼性の高いエンドポイントに「のみ」ルーティングするエンドポイントを構築しました。

発売モデルは次のとおりです。
「月翔台/KIMI-K2-0905:EXACTO」
'deepseek/deepseek-v3.1-terminus:exacto'
'z-ai/glm-4.6:エクサクト'
'openai/gpt-oss-120b:エキサクト'
'qwen/qwen3-coder:exacto'
ここですべて見てください。

Exacto モデル + プロバイダー コンボ:
キミK2:@GroqIncと@Kimi_Moonshot
GLM-4.6: @novita_labs、@DeepInfra、および@Zai_org
gpt-oss-120b: Groq、DeepInfra、Novita
Qwen3 Coder: @basetenco、@cerebras、@GoogleAI
DeepSeek Terminus: @AtlasCloud_AI、DeepInfra、Novita
他のモデルと同じように使用し、 ':exacto'を追加するだけです。
'''バッシュ
カール\
-H "承認: ベアラー $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"フランスの首都はどこですか?"}]}'
```
ベンチマークと内部評価では、すべての「:exacto」モデルでツール呼び出しの成功率が大幅に向上し、無効な JSON が減り、スキーマの不一致が減り、現実世界の信頼性が向上したことが示されています。評価ハーネスと新しく追加されたLiveMCPBenchについて、@GroqIncのOpenBenchに感謝します。

':exacto' バリアントは、プロバイダーの品質の一般的なランキングではなく、純粋にツール呼び出しの精度に焦点を当てています。
これらのエンドポイントを引き続き拡張し、今年後半により多くの集計データを共有する予定です。
114.24K
トップ
ランキング
お気に入り

