Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Wprowadzenie `:exacto`, Narzędzie Precyzyjne - Wywoływanie Punktów Końcowych OpenRouter teraz oferuje starannie wyselekcjonowany zestaw dostawców na bazie modeli open source z mierzalnie wyższą dokładnością wywoływania narzędzi, co zapewnia bardziej niezawodne korzystanie z narzędzi.

Przeczytaj pełne szczegóły w naszym wpisie na blogu: lub kontynuuj czytanie wątku, aby zobaczyć podsumowanie.

Dlaczego to ma znaczenie: Nawet gdy dostawcy hostują *te same wagi modelu*, jakość wnioskowania w rzeczywistym świecie może się różnić. Obsługując miliardy zapytań miesięcznie, OpenRouter ma unikalny punkt widzenia, aby wykrywać te różnice i automatycznie wskazywać najbardziej dokładnych dostawców.

Jak mierzymy jakość użycia narzędzi: • Ważność JSON • Zgodność nazwy narzędzia i schematu • Skłonność do użycia narzędzi (tendencja do wywoływania narzędzi) • Preferencje użytkowników dotyczące ignorowania/czarnych list • Zewnętrzne benchmarki (τ²-Bench, LiveMCPBench przez @GroqInc OpenBench)

Te dane ujawniają, że dokładność wywoływania narzędzi znacznie różni się między dostawcami, niż sugerują to konwencjonalne wskaźniki, nawet dla tego samego modelu o otwartej wadze. Dlatego zbudowaliśmy punkty końcowe, które kierują *tylko* do najbardziej niezawodnych.

Modele do uruchomienia obejmują: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Zobacz je wszystkie tutaj .

Modele Exacto + kombinacje dostawców: Kimi K2: @GroqInc i @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra i @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras i @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra i Novita

Użyj ich jak każdego innego modelu, po prostu dodaj `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Jakie jest stolicą Francji?"}]}' ```

Benchmarki i wewnętrzne oceny pokazują znaczący wzrost wskaźników sukcesu wywołań narzędzi we wszystkich modelach `:exacto`, mniej nieprawidłowych JSON-ów, mniej niezgodności schematów oraz wyższą niezawodność w rzeczywistych warunkach. Pozdrowienia dla OpenBench od @GroqInc za zestaw oceniający oraz nowo dodany LiveMCPBench.

Wariant `:exacto` koncentruje się wyłącznie na precyzji wywoływania narzędzi, a nie na ogólnym rankingu jakości dostawców. Będziemy kontynuować rozwijanie tych punktów końcowych i podzielimy się większą ilością zebranych danych później w tym roku.

126,78K

Najlepsze

Ranking

Ulubione