Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag tycker att detta är en provocerande syn och en bra tanke men ville gå igenom resonemanget lite.
Idag körs de flesta AI-verktyg i molnet. Varje gång du ber en modell att skriva, sammanfatta, översätta eller analysera något, kommer den förfrågan till ett GPU i ett datacenter. Fler användare → fler förfrågningar → fler GPU:er → fler datacenter → fler kraftledningar, transformatorer, transformatorstationer → mer produktion, etc. Det är kärnan i svinghjulet bakom den nuvarande AI-hårdvaruboomen + datacenter-capex.
Användbar inferens på enheten stör den linjära kedjan.
Om en modell med flera miljarder parametrar är tillräckligt effektiv för att köras på det neurala chippet i din telefon, laptop, bil eller headset, behöver en stor del av vardagliga uppgifter aldrig lämna enheten. Tänk enkla men volymfyllda förfrågningar: autokomplettering, e-postutkast, rösttranskription, sammanfattning, enkel bildigenkänning. Detta är precis de högvolyms- och lågkomplexitetsgenerella allmänna frågor som sannolikt kommer att dominera användningen.
Snabb känslakontroll för vad som kan förändras: Enkla antaganden – flexa som du vill.
-1 miljard användare × 50 förfrågningar/dag × ~0,002 dollar/förfrågan x 365 dagar = ~35 miljarder dollar/år i molninferenskostnad.
-Om 30% av det flyttas på enheten, är det ~11 miljarder dollar i årlig molnefterfrågan som aldrig blir verklighet.
-Marginalkostnaden per lokal fråga är effektivt ~$0 när enheten har skickats.
Vanliga förbehåll: hårdvaran är på väg dit men behöver fortfarande skala upp minne, bandbredd osv. Men en 3–7B parametermodell som körs på en telefons neurala chip (ungefär 10–45 "TOPS" idag, 60+ prognostiserade år 2027) skulle kunna hantera dessa högvolyms- och lågkomplexitetsuppgifter lokalt. Du behöver inte modeller i gränsskala för varje prompt.
Cloud är fortfarande viktigt för att vara väldigt tydlig. Träning av frontier-modeller, tung långkontextresonemang, stora företagsarbetsbelastningar, samordning med flera agenter – allt detta är fortfarande mycket bättre lämpat för stora, centraliserade datacenter. Den avgörande förändringen är att logikkedjan inte längre är "varje ny användare = jag måste lägga till fler GPU:er och fler gigawatt datacenterkapacitet." Okänt här är Jevons paradoxargument och om det driver mer AI-användning och får användare att söka mer komplexa prompts som motverkar en del av detta
Som Aashay påpekar, 'bryter' inte capex-boomen helt, men dess nuvarande intensitetsbana är mycket sannolikt modifierad. Att flytta även 5–30 % av inferensarbetsbelastningarna från molnet till enheten i dagens skala kan vara meningsfullt. Svåra problem förblir centraliserade i molnet. Men "vardaglig AI" blir en funktion i hårdvaran du redan äger jämfört med ett mätt elbolag som hyrs ut av sökningen.
Topp
Rankning
Favoriter

