DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Die Hardware-Benchmarking-Analyse von Artificial Analysis zeigt, dass NVIDIA einen Vorteil von ~5x Tokens pro Dollar gegenüber TPU v6e (Trillium) und einen Vorteil von ~2x gegenüber MI300X in unserem wichtigen Metrik für die Inferenzkosten erzielt. In unserer Metrik für Inferenzkosten, die als Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit bezeichnet wird, sehen wir, dass die Systeme NVIDIA H100 und B200 insgesamt niedrigere Kosten als TPU v6e und MI300X erreichen. Für Llama 3.3 70B bei einer Referenzgeschwindigkeit von 30 Ausgabetokens/s erreicht NVIDIA H100 Kosten pro Million Eingabe- und Ausgabetokens von 1,06 $, verglichen mit MI300X bei 2,24 $ und TPU v6e bei 5,13 $. Diese Analyse basiert auf den Ergebnissen des Artificial Analysis System Load Tests für die Inferenzdurchsatzrate des Systems über eine Reihe von Parallelitätsstufen und den Preisdaten für GPU-Instanzen, die wir von einer Reihe von GPU-Cloud-Anbietern sammeln. "Kosten pro Million Eingabe- und Ausgabetokens bei Referenzgeschwindigkeit" verwendet den Durchsatz des Systems, den die Systeme erreichen können, während sie 30 Ausgabetokens pro Sekunde und Abfrage beibehalten, und teilt ihn durch die Kosten für die Anmietung des Systems. Vollständige Ergebnisse über eine Reihe von Parallelitäts- und Geschwindigkeitsstufen sind auf der Hardware-Benchmarking-Seite von Artificial Analysis verfügbar. Wichtiger Kontext: ➤ Diese Ergebnisse basieren auf dem, was Unternehmen jetzt in der Cloud mieten können - die nächste Generation der MI355X- und TPU v7-Beschleuniger ist noch nicht weit verbreitet verfügbar. Wir nehmen den niedrigsten Preis aus einem Referenzsatz von GPU-Cloud-Anbietern. TPU v6e wird nach Bedarf zu 2,70 $ pro Chip und Stunde angeboten, was günstiger ist als unser niedrigster erfasster Preis für NVIDIA B200 (5,50 $ pro Stunde), aber ähnlich wie NVIDIA H100 (2,70 $ pro Stunde) und AMD MI300X (2 $ pro Stunde). ➤ Googles TPU v7 (Ironwood) wird in den kommenden Wochen allgemein verfügbar. Wir erwarten, dass TPU v7 v6e erheblich übertreffen wird, angesichts der Sprünge in der Rechenleistung (918 TFLOPS auf 4.614 TFLOPS), dem Speicher (32 GB auf 192 GB) und der Speicherbandbreite (1,6 TB/s auf 7,4 TB/s). Wir wissen jedoch noch nicht, was Google für diese Instanzen verlangen wird - daher ist die Auswirkung auf die implizierten Kosten pro Token noch unklar. ➤ Unsere Metrik für Kosten pro Million Eingabe- und Ausgabetokens kann nicht direkt mit der Preisgestaltung von serverlosen APIs verglichen werden. Die insgesamt implizierten Kosten pro Million Tokens für ein bestimmtes Deployment werden von der Abfrageschnelligkeit beeinflusst, die Sie anstreben möchten (getrieben durch Batchgröße/Parallelität) und dem Verhältnis von Eingabe- zu Ausgabetokens. ➤ Wir berichten nur über Ergebnisse für TPU v6e, die Llama 3.3 70B ausführen, da dies das einzige Modell ist, das auf unserer Hardware-Seite angezeigt wird und das auch offiziell für vLLM auf TPU unterstützt wird. Wir berichten über Ergebnisse für NVIDIA Hopper- und Blackwell-Systeme und jetzt auch für AMD MI300X über alle vier Modelle auf unserer Hardware-Seite: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 und Llama 3.3 70B. ➤ Diese Ergebnisse gelten für Systeme mit 8 Beschleunigern - d.h. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Wir haben auch kürzlich aktualisierte Blackwell-Ergebnisse veröffentlicht - weitere Analysen dazu kommen bald.

Detaillierte Ergebnisse, wie die Leistung mit der Parallelität skaliert, basierend auf dem Lasttest des Artificial Analysis Systems.

56

Top

Ranking

Favoriten