Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: l'analisi hardware di Artificial Analysis mostra che NVIDIA ottiene un vantaggio di ~5x in termini di token per dollaro rispetto a TPU v6e (Trillium) e un vantaggio di ~2x rispetto a MI300X, nel nostro principale indicatore di costo per l'inferenza. Nel nostro indicatore di costo per l'inferenza chiamato Costo per Milione di Token di Input e Output a Velocità di Riferimento, vediamo che i sistemi NVIDIA H100 e B200 raggiungono un costo complessivo inferiore rispetto a TPU v6e e MI300X. Per Llama 3.3 70B che gira con vLLM a una Velocità di Riferimento per Query di 30 token di output/s, NVIDIA H100 raggiunge un Costo per Milione di Token di Input e Output di $1.06, rispetto a MI300X a $2.24 e TPU v6e a $5.13. Questa analisi si basa sui risultati del Test di Carico del Sistema di Artificial Analysis per il throughput di inferenza del sistema attraverso una gamma di livelli di concorrenza e sui dati di prezzo delle istanze GPU che raccogliamo da una serie di fornitori di cloud GPU. "Costo per Milione di Token di Input e Output a Velocità di Riferimento" utilizza il throughput del sistema che il sistema può raggiungere mantenendo 30 token di output al secondo per query e divide il costo di affitto del sistema per quel throughput (scalato a un milione di token). I risultati completi attraverso una gamma di livelli di concorrenza e velocità sono disponibili sulla pagina di Benchmarking Hardware di Artificial Analysis. Contesto importante: ➤ Stiamo riportando solo i risultati per TPU v6e che esegue Llama 3.3 70B perché questo è l'unico modello sulla nostra pagina hardware per il quale vLLM su TPU è ufficialmente supportato. Riportiamo i risultati per i sistemi NVIDIA Hopper e Blackwell, e ora per AMD MI300X, attraverso tutti e quattro i modelli sulla nostra pagina hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 e Llama 3.3 70B. ➤ Questi risultati si basano su ciò che le aziende possono noleggiare ora nel cloud - gli acceleratori di nuova generazione MI355X e TPU v7 non sono ancora ampiamente disponibili. Prendiamo il prezzo più basso da un insieme di riferimento di fornitori di cloud GPU. TPU v6e è prezzato per on-demand a $2.70 per chip all'ora, che è più economico del nostro prezzo più basso tracciato per NVIDIA B200 ($5.50 all'ora) ma simile a NVIDIA H100 ($2.70 all'ora) e AMD MI300X ($2 all'ora). ➤ Il TPU v7 di Google (Ironwood) diventerà generalmente disponibile nelle prossime settimane. Ci aspettiamo che il TPU v7 superi sostanzialmente il v6e, date le migliorie nel calcolo (918 TFLOPS a 4,614 TFLOPS), nella memoria (32GB a 192GB) e nella larghezza di banda della memoria (1.6 TB/s a 7.4 TB/s). Tuttavia, non sappiamo ancora cosa Google addebiterà per queste istanze - quindi l'impatto sui costi impliciti per token non è ancora chiaro. ➤ Il nostro indicatore di Costo per Milione di Token di Input e Output non può essere confrontato direttamente con i prezzi delle API serverless. Il costo complessivo implicito per milione di token per un dato deployment è influenzato dalla velocità per query che si desidera raggiungere (guidata dalla dimensione del batch/concorrenza) e dal rapporto tra token di input e token di output. ➤ Questi risultati sono tutti per sistemi con 8 acceleratori - cioè 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Abbiamo anche recentemente pubblicato risultati aggiornati di Blackwell - ulteriori analisi su questi arriveranno presto.
Risultati dettagliati su come le prestazioni scalano in base alla concorrenza, come testato dal Load Test del Sistema di Analisi Artificiale
443,47K