Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Benchmarking Perangkat Keras Analisis Buatan menunjukkan NVIDIA mencapai keunggulan ~5x token per dolar dibandingkan TPU v6e (Trillium), dan keunggulan ~2x dibandingkan MI300X, dalam metrik biaya inferensi utama kami
Dalam metrik kami untuk biaya inferensi yang disebut Biaya Per Juta Token Input dan Output pada Kecepatan Referensi, kami melihat sistem NVIDIA H100 dan B200 mencapai biaya keseluruhan yang lebih rendah daripada TPU v6e dan MI300X. Untuk Llama 3.3 70B dengan Kecepatan Referensi Per Kueri 30 token keluaran/dtk, NVIDIA H100 mencapai Biaya Per Juta Token Input dan Output sebesar $1.06, dibandingkan dengan MI300X pada $2.24 dan TPU v6e pada $5.13.
Analisis ini bergantung pada hasil Uji Beban Sistem Analisis Buatan untuk throughput inferensi sistem di berbagai tingkat konkurensi, dan data harga instans GPU yang kami kumpulkan dari berbagai penyedia cloud GPU. "Cost Per Million Input and Output Tokens at Reference Speed" menggunakan sistem yang dapat dicapai oleh sistem sambil mempertahankan 30 token output per detik per kueri, dan membaginya dengan biaya penyewaan sistem.
Hasil lengkap di berbagai tingkat konkurensi dan kecepatan tersedia di halaman Benchmarking Perangkat Keras Analisis Buatan.
Konteks penting:
Hasil ini didasarkan pada apa yang dapat disewa perusahaan sekarang di cloud - akselerator MI355X dan TPU v7 generasi berikutnya belum tersedia secara luas. Kami mengambil harga terendah di seluruh kumpulan referensi penyedia cloud GPU. TPU v6e dihargai sesuai permintaan sebesar $2.70 per chip per jam, yang lebih murah daripada harga terlacak terendah kami untuk NVIDIA B200 ($5.50 per jam) tetapi mirip dengan NVIDIA H100 ($2.70 per jam) dan AMD MI300X ($2 per jam).
➤ TPU v7 Google (Ironwood) akan tersedia secara umum dalam beberapa minggu mendatang. Kami akan mengantisipasi TPU v7 mengungguli v6e secara substansial, mengingat lompatan dalam komputasi (918 TFLOPS hingga 4.614 TFLOPS), memori (32GB hingga 192GB) dan bandwidth memori (1,6 TB/s hingga 7,4 TB/s). Namun, kami belum tahu apa yang akan dikenakan Google untuk instans ini - jadi dampaknya pada biaya per token tersirat belum jelas.
➤ Metrik Biaya per Juta Token Input dan Output kami tidak dapat dibandingkan langsung dengan harga API tanpa server. Biaya tersirat keseluruhan per juta token untuk penyebaran tertentu dipengaruhi oleh kecepatan per kueri yang ingin Anda tuju (didorong oleh ukuran batch/konkurensi) dan rasio token input terhadap output.
➤ Kami hanya melaporkan hasil untuk TPU v6e yang menjalankan Llama 3.3 70B karena ini adalah satu-satunya model yang ditampilkan di halaman perangkat keras kami untuk itu juga secara resmi didukung untuk vLLM pada TPU. Kami melaporkan hasil untuk sistem NVIDIA Hopper dan Blackwell, dan sekarang untuk AMD MI300X, di keempat model di halaman perangkat keras kami: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 dan Llama 3.3 70B.
➤ Hasil ini semua untuk sistem dengan 8 akselerator - yaitu. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Kami juga baru-baru ini menerbitkan hasil Blackwell yang diperbarui - analisis lebih lanjut akan segera hadir.

Hasil terperinci tentang bagaimana performa berskala berdasarkan konkurensi seperti yang diukur oleh Uji Beban Sistem Analisis Buatan

54
Teratas
Peringkat
Favorit

