これは挑発的で良い考えだと思いますが、その根拠を少し考えたかったのです。 現在、ほとんどのAIツールはクラウド上で動作しています。モデルに何かを書いたり、要約したり、翻訳したり、分析したりするたびに、そのリクエストはデータセンターのGPUに届きます。より多くのユーザーが→、より多くの問い合わせ→、より多くのGPU→データセンター、より多くの電力線、変圧器、変電所、発電→→増えています。それが現在のAIハードウェア+データセンターの資本投資ブームの核心的なフライホイールです。 有用なオンデバイス推論はその線形連鎖を妨害します。 数十億パラメータのモデルが、スマートフォン、ノートパソコン、車、ヘッドセット内のニューラルチップ上で十分に効率的に動作すれば、日常の多くの作業がデバイスから離れる必要はなくなります。シンプルながら大量のリクエストを考えてみてください:オートコンプリート、メールのドラフト作成、音声の書き起こし、要約、簡単な画像認識などです。これらはまさに大量で低複雑度の一般的なクエリであり、利用を支配する可能性が高いです。 何が変わるかの簡単な感覚確認:単純な仮定 - 好きなように柔軟に動かせ。 -100×ユーザー1日あたり50件のクエリ× ~$0.002/クエリ×365日 = ~$35B/年クラウド推論コスト。 -そのうち30%がデバイス上で移動すると、年間約110億ドルのクラウド需要が決して実現しないことになります。 -ローカルクエリあたりの限界コストは、デバイスが出荷されると実質的に~$0となります。 通常の注意点としては、ハードウェアは徐々に進化していますが、メモリや帯域幅などのスケールアップが必要です。しかし、携帯電話のニューラルチップ上で動作する3〜7Bパラメータモデル(現在の約10〜45「TOPS」、2027年までに60+と予測)は、これらの大量で低複雑度のタスクをローカルで処理できます。すべてのプロンプトにフロンティアスケールの模型が必ずしも必要というわけではありません。 クラウドは依然として重要な存在であることをはっきりさせておく。フロンティアモデルの訓練、長い文脈の推論、大規模な企業のワークロード、マルチエージェントの連携――これらはすべて大規模で集中型のデータセンターにより適しています。重要な転換点は、ロジックチェーンが「新しいユーザーごとに=より多くのGPUとデータセンターのギガワット容量を追加しなければならない」というものではなくなったことです。ここで未知ののは、ジェボンのパラドックス論点であり、それがAI利用を促進し、ユーザーがより複雑なプロンプトを求めるよう促しているかどうかが、その一部を相殺しているかどうかです アーシャイの指摘によれば、資本投資ブームは完全に「終わる」わけではありませんが、現在の強度の軌道はおそらく修正されているでしょう。今日のスケールで推論ワークロードの5〜30%をクラウドからデバイスへシフトすることは意味のあることが可能です。難しい問題はクラウドに集中管理されます。しかし「日常的なAI」は、クエリがレンタルするメーター型ユーティリティではなく、すでに所有しているハードウェアの特徴となります。