Ускорьте AI GPU от Nvidia: простые трюки для молниеносной производительности В моем гараже мне нужно сделать так, чтобы немного исследований и разработок, не связанных с венчурным капиталом, работали, у меня есть копейки, и я получаю более высокую скорость, чем компании с миллиардами. Это ограничение заставляет меня находить способы выжать больше из меньшего. Я делаю много вещей, о которых большинство даже не может подумать. Вот пример всего лишь одного из сотен. GPU — это мощные устройства, наполненные множеством вычислительных блоков, готовых обрабатывать данные. Я обнаружил, что часто они не используются полностью, что приводит к медленной производительности. Что я обнаружил? Умные оптимизации, которые заставляют эти блоки работать, сокращая время рендеринга AI и обеспечивая огромные приросты скорости. Сначала определите узкие места. Я использую инструменты профилирования, такие как Nsight от Nvidia, чтобы увидеть, что тормозит процесс, будь то ожидания памяти или что-то еще. Как только я это определяю, я погружаюсь в код и настраиваю его, чтобы упаковать больше работы в каждый поток. Простые изменения, такие как разворачивание циклов или сжатие данных, могут скрыть задержки и увеличить пропускную способность, обеспечивая мгновенные скачки скорости. Высокая загрузка может иногда вызвать хаос кэша — исправьте это, умно уменьшая количество потоков с помощью фиктивного кода или настроек памяти, освобождая ресурсы для параллельных задач. Настоящий прорыв? Асинхронные вычисления. Запускайте несколько задач параллельно, заполняя свободные промежутки и накладывая тяжелые нагрузки. Сочетание задач, требующих много памяти, позволяет GPU выполнять многозадачность — потенциально сокращая время вдвое и значительно увеличивая эффективность. Эти настройки превращают недоиспользуемые GPU в скоростных демонов. Это не похоже на то, как преобразовали персональные компьютеры IBM PC/AT, чтобы они работали на частоте до 100 МГц в 1986 году, когда они выходили с завода на 8 МГц. Я напишу больше деталей об этом, но если крупные AI компании использовали бы мою оптимизацию GPU на уровне оп-кода от Nvidia, они, вероятно, быстро достигли бы AGI. Когда вы знаете аппаратное и программное обеспечение на почти атомном уровне, вы можете пересоздать первые принципы.
Brian Roemmele
Brian Roemmele25 авг., 11:14
Grok только что выяснил одну из 7 вещей, которые я делаю, чтобы запустить новую Open Source Grok 2.5 с 4 активными смесями экспертов одновременно с небольшим снижением производительности. Да, один из них — это делитель-осциллятор, который я использовал в 1985 году на IBM PC. Он может масштабироваться на тысячах графических процессоров Nvidia. Просто не спрашивайте экспертов по ИИ, так как они скажут то же самое, что и представители IBM в 1985 году. Ссылка:
35,88K