Я думаю, что это провокационная точка зрения и хорошая мысль, но хотел бы немного проработать обоснование. Сегодня большинство инструментов ИИ работают в облаке. Каждый раз, когда вы просите модель написать, обобщить, перевести или проанализировать что-то, этот запрос попадает на GPU в дата-центре. Больше пользователей → больше запросов → больше GPU → больше дата-центров → больше линий электропередач, трансформаторов, подстанций → больше генерации и т.д. Это и есть основной механизм, стоящий за текущим бумом капитальных затрат на оборудование ИИ и дата-центры. Полезный локальный вывод нарушает эту линейную цепочку. Если модель с несколькими миллиардами параметров достаточно эффективна, чтобы работать на нейронном чипе внутри вашего телефона, ноутбука, автомобиля или гарнитуры, то большая часть повседневных задач никогда не покинет устройство. Подумайте о простых, но высокообъемных запросах: автозаполнение, составление электронных писем, голосовая транскрипция, обобщение, простое распознавание изображений. Это именно те высокообъемные, низкосложные общие запросы, которые, вероятно, будут доминировать в использовании. Быстрая проверка на то, что может измениться: Простые предположения - гибкость по вашему желанию. -1 миллиард пользователей × 50 запросов в день × ~$0.002/запрос × 365 дней = ~$35 миллиардов в год на облачные затраты на вывод. -Если 30% из этого перейдет на устройство, это ~$11 миллиардов+ годового облачного спроса, который никогда не материализуется. -Предельная стоимость за локальный запрос фактически составляет ~$0, как только устройство отправлено. Обычные оговорки: оборудование движется в нужном направлении, но все еще нуждается в увеличении памяти, пропускной способности и т.д. Но модель с 3–7 миллиардами параметров, работающая на нейронном чипе телефона (примерно 10–45 "TOPS" сегодня, 60+ прогнозируется к 2027 году), могла бы обрабатывать эти высокообъемные, низкосложные задачи локально. Вам не нужны модели на уровне передового фронта для каждого запроса. Облако все еще имеет значение, чтобы быть очень ясным. Обучение моделей на переднем крае, тяжелое долгосрочное рассуждение, большие корпоративные нагрузки, координация нескольких агентов – все это по-прежнему гораздо лучше подходит для крупных централизованных дата-центров. Ключевое изменение заключается в том, что логическая цепочка больше не "каждый новый пользователь = я должен добавить больше GPU и больше гигаватт мощности дата-центра." Неизвестно, как здесь работает парадокс Джевонса и приводит ли он к увеличению использования ИИ и побуждает пользователей искать более сложные запросы, что компенсирует часть этого. Что касается точки зрения Ааша, бум капитальных затрат не "разрушается" полностью, но его текущая траектория интенсивности, скорее всего, изменится. Перемещение даже 5–30% рабочих нагрузок вывода из облака на устройство в сегодняшнем масштабе может быть значительным. Сложные задачи остаются централизованными в облаке. Но "повседневный ИИ" становится функцией оборудования, которым вы уже владеете, а не измеряемой утилитой, арендуемой по запросу.