Myślę, że to prowokacyjna teza i dobra myśl, ale chciałem przeanalizować uzasadnienie nieco bardziej. Dziś większość narzędzi AI działa w chmurze. Za każdym razem, gdy prosisz model o napisanie, podsumowanie, przetłumaczenie lub analizę czegoś, ta prośba trafia na GPU w centrum danych. Więcej użytkowników → więcej zapytań → więcej GPU → więcej centrów danych → więcej linii energetycznych, transformatorów, stacji transformacyjnych → więcej generacji itd. To jest rdzeń koła zamachowego za obecnym boomem na sprzęt AI + wydatki kapitałowe na centra danych. Użyteczna inferencja na urządzeniu zakłóca ten liniowy łańcuch. Jeśli model o wielu miliardach parametrów jest wystarczająco wydajny, aby działać na chipie neuronowym w twoim telefonie, laptopie, samochodzie lub słuchawkach, to duża część codziennych zadań nigdy nie musi opuszczać urządzenia. Pomyśl o prostych, ale dużych ilościach zapytań: autouzupełnianie, pisanie e-maili, transkrypcja głosu, podsumowanie, prosta rozpoznawanie obrazów. To są dokładnie te wysokowolumenowe, niskokompleksowe ogólne zapytania, które prawdopodobnie będą dominować w użytkowaniu. Szybka weryfikacja tego, co może się zmienić: Proste założenia - elastyczność według potrzeb. -1B użytkowników × 50 zapytań/dzień × ~$0.002/zapytanie x 365 dni = ~$35B/rok w kosztach inferencji w chmurze. -Jeśli 30% z tego przeniesie się na urządzenie, to ~$11B+ rocznego zapotrzebowania na chmurę, które nigdy się nie zmaterializuje. -Marginalny koszt lokalnego zapytania wynosi efektywnie ~$0, gdy urządzenie jest dostarczone. Normalne zastrzeżenia: sprzęt się rozwija, ale nadal musi zwiększyć pamięć, przepustowość itd. Jednak model o 3–7B parametrach działający na chipie neuronowym telefonu (około 10–45 „TOPS” dzisiaj, 60+ prognozowane do 2027) mógłby obsługiwać te wysokowolumenowe, niskokompleksowe zadania lokalnie. Nie potrzebujesz modeli na poziomie frontier dla każdego zapytania. Chmura nadal ma znaczenie, aby być bardzo jasnym. Szkolenie modeli frontier, ciężkie rozumowanie z długim kontekstem, duże obciążenia dla przedsiębiorstw, koordynacja wielu agentów – to wszystko nadal jest znacznie lepiej dostosowane do dużych, scentralizowanych centrów danych. Kluczowa zmiana polega na tym, że łańcuch logiczny nie jest już „każdy nowy użytkownik = muszę dodać więcej GPU i więcej gigawatów pojemności centrum danych.” Nieznane tutaj jest argument paradoksu Jevonsa i to, czy prowadzi to do większego wykorzystania AI i skłania użytkowników do poszukiwania bardziej złożonych zapytań, co częściowo równoważy to. Do punktu Aashaya, boom wydatków kapitałowych nie 'łamał' się całkowicie, ale jego obecna trajektoria intensywności jest bardzo prawdopodobnie zmodyfikowana. Przesunięcie nawet 5–30% obciążeń inferencyjnych z chmury na urządzenie przy dzisiejszej skali może być znaczące. Trudne problemy pozostają scentralizowane w chmurze. Ale „codzienna AI” staje się funkcją sprzętu, który już posiadasz, a nie mierzonej usługi, która jest wynajmowana na podstawie zapytania.