Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Hardware Benchmarking umělé analýzy ukazuje, že NVIDIA dosahuje ~5x výhody tokenů na dolar oproti TPU v6e (Trillium) a ~2x výhody oproti MI300X v naší metrice klíčových inferencí V naší metrice inference cost nazvané Cost Per Million Input and Output Tokens at Reference Speed vidíme, že systémy NVIDIA H100 a B200 dosahují nižších celkových nákladů než TPU v6e a MI300X. U Llama 3.3 70B, která běží s vLLM při rychlosti 30 výstupních tokenů na dotaz, dosahuje NVIDIA H100 náklady na milion vstupních a výstupních tokenů ve výši 1,06 USD, zatímco MI300X za 2,24 USD a TPU v6e za 5,13 USD. Tato analýza se opírá o výsledky Artificial Analysis System Load Test pro propustnost systémové inference napříč různými úrovněmi souběžnosti a na základě dat o cenách instancí GPU, která shromažďujeme od různých poskytovatelů GPU cloudu. "Cena za milion vstupních a výstupních tokenů při referenční rychlosti" využívá propustnost systému, kterou systém dokáže dosáhnout při udržení 30 výstupních tokenů za sekundu na dotaz, a vydělí náklady na pronájem systému touto propustností (škálovanou na milion tokenů). Kompletní výsledky napříč různými úrovněmi souběžnosti a rychlostí jsou k dispozici na stránce Artificial Analysis Hardware Benchmarking. Důležitý kontext: ➤ Výsledky hlásíme pouze pro TPU v6e běžící na Llama 3.3 70B, protože je to jediný model na naší hardwarové stránce, pro který je vLLM na TPU oficiálně podporován. Na naší hardwarové stránce zveřejňujeme výsledky pro systémy NVIDIA Hopper a Blackwell a nyní i pro AMD MI300X, napříč všemi čtyřmi modely: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 a Llama 3.3 70B. ➤ Tyto výsledky vycházejí z toho, co si firmy nyní mohou pronajmout v cloudu – další generace akcelerátorů MI355X a TPU v7 zatím není široce dostupná. Nabízíme nejnižší cenu napříč referenční sadou GPU cloudových poskytovatelů. TPU v6e je pro on-demand cena 2,70 $ za čip za hodinu, což je levnější než naše nejnižší sledovaná cena za NVIDIA B200 ($5,50 za hodinu), ale podobné NVIDIA H100 ($2,70 za hodinu) a AMD MI300X ($2 za hodinu). ➤ Google TPU v7 (Ironwood) bude v následujících týdnech obecně dostupný. Očekáváme, že TPU v7 výrazně překoná v6e, vzhledem k skokům ve výpočetním výkonu (918 TFLOPS na 4 614 TFLOPS), paměti (32GB na 192GB) a propustnosti (1,6 TB/s na 7,4 TB/s). Nicméně zatím nevíme, kolik si Google za tyto případy naúčtuje – takže dopad na implikované náklady na token zatím není jasný. ➤ Naše metrika Cost per Million Input and Output Tokens nelze přímo srovnávat s cenami serverless API. Celkové implikované náklady na milion tokenů pro dané nasazení jsou ovlivněny rychlostí na dotaz, o kterou chcete cílit (řízenou velikostí dávky/souběžností) a poměrem vstupních k výstupním tokenům. ➤ Tyto výsledky jsou všechny pro systémy s 8 akcelerátory – tj. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Nedávno jsme také zveřejnili aktualizované výsledky Blackwell – další analýzy těchto výsledků brzy přicházejí.
Podrobné výsledky o tom, jak se výkon škáluje podle souběžnosti podle benchmarku Artificial Analysis System Load Test.
443,47K