Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Artificial Analysisin laitteistovertailu osoittaa, että NVIDIA saavuttaa ~5x tokenin per dollar edun TPU v6e:hen (Trillium) ja ~2x edun MI300X:ään nähden keskeisessä päättelykustannusmittarissamme Päättelykustannusmittarissamme nimeltä Cost Per Million Input and Output Tokens at Reference Speed näemme, että NVIDIA H100- ja B200-järjestelmät saavuttavat alhaisemmat kokonaiskustannukset kuin TPU v6e ja MI300X. Llama 3.3 70B:lle, jonka kyselykohtainen viitenopeus on 30 lähtötokenia/s, NVIDIA H100 saavuttaa miljoonan syöte- ja lähtötokenin kustannuksen 1,06 dollaria, kun taas MI300X on 2,24 dollaria ja TPU v6e 5,13 dollaria. Tämä analyysi perustuu tekoälyanalyysijärjestelmän kuormitustestin tuloksiin järjestelmän päättelyläpäisyyden läpimenon osalta useilla rinnakkaistasoilla sekä GPU-instanssien hinnoittelutietoihin, joita keräämme useilta GPU-pilvipalveluntarjoajilta. "Cost Per Million Input and Output Tokens at Reference Speed" käyttää järjestelmää kauttaaltaan, jonka järjestelmät voivat saavuttaa säilyttäen 30 output tokenia sekunnissa per kysely, ja jakaa sen järjestelmän vuokrauskustannuksilla. Täydelliset tulokset eri rinnakkais- ja nopeustasoilla löytyvät Artificial Analysis Hardware Benchmarking -sivulta. Tärkeä tausta: ➤ Nämä tulokset perustuvat siihen, mitä yritykset voivat nyt vuokrata pilvessä – seuraavan sukupolven MI355X- ja TPU v7 -kiihdyttimiä ei vielä ole laajasti saatavilla. Me maksamme halvimmat hinnat GPU-pilvipalveluntarjoajien vertailujoukossa. TPU v6e on hinnoiteltu tilauksesta hintaan $2,70 per piiri tunnissa, mikä on halvempi kuin alhaisin seurantahinta NVIDIA B200:lle ($5,50 tunnilta), mutta samankaltainen kuin NVIDIA H100:lla ($2,70 tunnilta) ja AMD MI300X:llä ($2 tunnilta). ➤ Googlen TPU v7 (Ironwood) on tulossa yleisesti saataville tulevina viikkoina. Odotamme TPU v7:n ylittävän v6e:n huomattavasti, kun laskentateho (918 TFLOPS 4 614 TFLOPS), muisti (32GB:sta 192GB:iin) ja muistikaistanleveys (1,6 TB/s 7,4 TB/s) on harppaa. Emme kuitenkaan vielä tiedä, mitä Google veloittaa näistä instansseista – joten vaikutus oletettuihin token-kustannuksiin ei ole vielä selvä. ➤ Kustannus miljoonaa syöttö- ja ulostulotokenia -mittarimme ei voi suoraan verrata palvelimettomaan API-hinnoitteluun. Kokonaiskustannus miljoonaa tokenia kohden tietyssä käyttöönotossa riippuu hakukohtaisesta nopeudesta, johon haluat pyrkiä (erän koon/samanaikaisuuden mukaan) ja syötteen ja ulostulon tokenien suhteesta. ➤ Raportoimme tuloksia vain TPU v6e:lle, joka käyttää Llama 3.3 70B:tä, koska tämä on ainoa malli, joka näkyy laitteistosivullamme, ja joka on virallisesti tuettu myös vLLM:lle TPU:lla. Raportoimme tulokset NVIDIA Hopper- ja Blackwell-järjestelmistä sekä nyt AMD MI300X:stä kaikista neljästä mallista laitteistosivullamme: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 ja Llama 3.3 70B. ➤ Nämä tulokset koskevat järjestelmiä, joissa on 8 kiihdytintä - eli 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Olemme myös äskettäin julkaisseet päivitetyt Blackwellin tulokset – lisää analyysiä niistä on tulossa pian.
Yksityiskohtaiset tulokset siitä, miten suorituskyky skaalautuu rinnakkaisvaikutuksen mukaan, kuten Artificial Analysis System Load Test -testi on verrannut
80