Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Analiza sprzętowa Artificial Analysis pokazuje, że NVIDIA osiąga przewagę około 5x w tokenach na dolara w porównaniu do TPU v6e (Trillium) oraz około 2x przewagę nad MI300X w naszym kluczowym wskaźniku kosztów wnioskowania. W naszym wskaźniku kosztów wnioskowania, zwanym Koszt na Milion Tokenów Wejściowych i Wyjściowych przy Referencyjnej Prędkości, widzimy, że systemy NVIDIA H100 i B200 osiągają niższy całkowity koszt niż TPU v6e i MI300X. Dla Llama 3.3 70B przy Referencyjnej Prędkości na Zapytanie wynoszącej 30 tokenów wyjściowych/s, NVIDIA H100 osiąga Koszt na Milion Tokenów Wejściowych i Wyjściowych wynoszący 1,06 USD, w porównaniu do MI300X wynoszącego 2,24 USD i TPU v6e wynoszącego 5,13 USD. Ta analiza opiera się na wynikach Testu Obciążenia Systemu Artificial Analysis dla przepustowości wnioskowania systemu w różnych poziomach współbieżności oraz danych o cenach instancji GPU, które zbieramy od różnych dostawców chmury GPU. „Koszt na Milion Tokenów Wejściowych i Wyjściowych przy Referencyjnej Prędkości” wykorzystuje przepustowość systemu, którą systemy mogą osiągnąć, utrzymując 30 tokenów wyjściowych na sekundę na zapytanie, i dzieli ją przez koszt wynajmu systemu. Pełne wyniki w różnych poziomach współbieżności i prędkości są dostępne na stronie Benchmarking Sprzętowy Artificial Analysis. Ważny kontekst: ➤ Te wyniki opierają się na tym, co firmy mogą obecnie wynajmować w chmurze - następna generacja akceleratorów MI355X i TPU v7 nie jest jeszcze szeroko dostępna. Bierzemy najniższą cenę z zestawu referencyjnego dostawców chmury GPU. TPU v6e jest wyceniane na żądanie na 2,70 USD za chip na godzinę, co jest tańsze niż nasza najniższa zarejestrowana cena dla NVIDIA B200 (5,50 USD za godzinę), ale podobne do NVIDIA H100 (2,70 USD za godzinę) i AMD MI300X (2 USD za godzinę). ➤ TPU v7 (Ironwood) od Google staje się ogólnie dostępne w nadchodzących tygodniach. Spodziewamy się, że TPU v7 znacznie przewyższy v6e, biorąc pod uwagę skoki w obliczeniach (918 TFLOPS do 4 614 TFLOPS), pamięci (32 GB do 192 GB) i przepustowości pamięci (1,6 TB/s do 7,4 TB/s). Jednak nie wiemy jeszcze, ile Google będzie pobierać za te instancje - więc wpływ na sugerowane koszty na tokeny nie jest jeszcze jasny. ➤ Nasz wskaźnik Koszt na Milion Tokenów Wejściowych i Wyjściowych nie może być bezpośrednio porównywany z cenami API bezserwerowego. Całkowity sugerowany koszt na milion tokenów dla danego wdrożenia jest uzależniony od prędkości na zapytanie, którą chcesz osiągnąć (napędzanej przez rozmiar partii/współbieżność) oraz stosunku tokenów wejściowych do wyjściowych. ➤ Raportujemy tylko wyniki dla TPU v6e działającego na Llama 3.3 70B, ponieważ jest to jedyny model pokazany na naszej stronie sprzętowej, który jest również oficjalnie wspierany dla vLLM na TPU. Raportujemy wyniki dla systemów NVIDIA Hopper i Blackwell, a teraz także dla AMD MI300X, w ramach wszystkich czterech modeli na naszej stronie sprzętowej: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 i Llama 3.3 70B. ➤ Te wyniki dotyczą wszystkich systemów z 8 akceleratorami - tj. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Ostatnio opublikowaliśmy również zaktualizowane wyniki Blackwell - więcej analiz wkrótce.

Szczegółowe wyniki dotyczące tego, jak wydajność skaluje się w zależności od współbieżności, na podstawie testu obciążeniowego Systemu Analizy Sztucznej.

92

Najlepsze

Ranking

Ulubione