Mielestäni tämä on provosoiva näkemys ja hyvä ajatus, mutta halusin käydä hieman läpi perusteluja. Nykyään suurin osa tekoälytyökaluista toimii pilvessä. Joka kerta kun pyydät mallia kirjoittamaan, tiivistämään, kääntämään tai analysoimaan jotain, pyyntö osuu GPU:lle datakeskuksessa. Enemmän käyttäjiä → enemmän kyselyitä → enemmän GPU:ita → enemmän datakeskuksia → enemmän sähkölinjoja, muuntajia, sähköasemia → enemmän tuotantoa jne. Tämä on nykyisen tekoälylaitteiston + datakeskusten investointibuumin ydinvauhtipyörä. Hyödyllinen laitteen sisäinen päättely rikkoo tämän lineaarisen ketjun. Jos monen miljardin parametrin malli on tarpeeksi tehokas toimiakseen puhelimen, kannettavan, auton tai kuulokkeiden hermosirussa, suuri osa arjen tehtävistä ei koskaan poistu laitteelta. Ajattele yksinkertaisia mutta suuria pyyntöjä: automaattinen täydennys, sähköpostin luonnostelu, äänitranskriptio, yhteenveto, yksinkertainen kuvantunnistus. Nämä ovat juuri niitä suurivolyymisia, vähän monimutkaisia yleiskyselyitä, jotka todennäköisesti hallitsevat käyttöä. Nopea aistitarkistus siitä, mikä voi muuttua: Yksinkertaiset oletukset – joustele miten haluat. -1B käyttäjä × 50 kyselyä päivässä × ~$0,002/kysely x 365 päivää = ~$35B/vuosi pilvipäättelykustannuksissa. -Jos 30 % siitä siirtyy laitteelle, se on ~$11B+ vuosittaista pilvikysyntää, joka ei koskaan toteudu. -Rajakustannus paikallista kyselyä kohden on käytännössä ~$0, kun laite on toimitettu. Normaalit varoitukset: laitteisto on kehittymässä, mutta muistia, kaistanleveyttä jne. täytyy vielä kasvattaa. Mutta 3–7B-parametrimalli, joka toimii puhelimen neurosirulla (noin 10–45 "TOPS" nykyään, 60+ ennustettu vuoteen 2027 mennessä) pystyisi hoitamaan nämä suuret ja matalan monimutkaisuuden tehtävät paikallisesti. Et tarvitse rajamittakaavan malleja jokaiseen kehotteeseen. Pilvi on edelleen tärkeä, on hyvin selvää. Koulutusrajamallit, raskas pitkän kontekstin päättely, suuryritysten työkuormat, moniagenttien koordinointi – kaikki tämä sopii edelleen paljon paremmin suuriin, keskitettyihin datakeskuksiin. Keskeinen muutos on, että logiikkaketju ei enää ole "jokainen uusi käyttäjä = minun täytyy lisätä enemmän GPU:ita ja gigawattia datakeskuksen kapasiteettia." Tässä ei ole tiedossa Jevonin paradoksiargumenttia ja se, lisääkö se tekoälyn käyttöä ja houkutteleeko käyttäjiä etsimään monimutkaisempia kehotuksia, mikä kumoaa osan tästä Aashayn mukaan Capex-buumi ei 'murru' kokonaan, mutta sen nykyinen intensiteettisuunta on todennäköisesti muutettu. Jopa 5–30 % päättelykuormien siirtäminen pilvestä laitteeseen nykyisessä mittakaavassa voi olla merkityksellistä. Vaikeat ongelmat pysyvät keskitetyinä pilvessä. Mutta "jokapäiväinen tekoäly" muuttuu jo omistamasi laitteiston ominaisuudeksi verrattuna mittarilliseen apuohjelmaan, jonka kysely vuokraa.