Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Відеокарти Nvidia зі штучним інтелектом з турбонаддувом: прості трюки для блискавичної продуктивності
У своєму гаражі я повинен робити ті маленькі дослідження та розробки, які не є венчурними інвесторами, працювати, у мене є копійки та отримувати вищу швидкість, ніж компанії з мільярдами. Це обмеження змушує мене шукати способи вичавити більше з меншого. Я роблю багато речей, про які більшість не може подумати. Ось приклад лише одного зі 100-х.
Графічні процесори – це потужні пристрої, оснащені безліччю процесорів, готових обробляти цифри. Я виявив, що часто вони не використовуються повністю, що призводить до повільної роботи.
Що я відкрив? Розумна оптимізація, яка змушує ці пристрої гудіти, скорочуючи час рендерингу штучного інтелекту та забезпечуючи значне збільшення швидкості.
По-перше, зверніть увагу на вузькі місця.
Я використовую інструменти профілювання, такі як Nsight від Nvidia, щоб побачити, що стримує процес, чи то очікування пам'яті, чи інші речі. Як тільки мене ідентифікують, я занурююся в нього і коригую код, щоб вкласти більше роботи в кожен потік.
Прості зміни, такі як розгортання циклів або стиснення даних, можуть приховати затримки та збільшити пропускну здатність, забезпечуючи миттєві стрибки швидкості.
Високе використання іноді може спричинити хаос у кеші — виправте це, розумно зменшивши кількість потоків за допомогою фіктивного коду або налаштувань пам'яті, звільнивши ресурси для паралельних завдань.
Що дійсно змінить правила гри? Асинхронні обчислення. Виконуйте кілька завдань пліч-о-пліч, заповнюючи прогалини в холостому ходу та перекриваючи важкі вантажі. Створення пари із завданнями, які потребують багато пам'яті, забезпечує багатозадачність графічного процесора, що потенційно скорочує час удвічі та підвищує ефективність заряджання.
Ці налаштування перетворюють недостатньо використовувані графічні процесори на демонів швидкості. Це схоже на те, як перетворили персональні комп'ютери IBM PC/ATs для роботи на частоті до 100 МГц у 1986 році, коли вони вийшли з заводу на частоті 8 МГц.
Я напишу про це докладніше, але якби великі компанії зі штучним інтелектом використовували мою оптимізацію графічного процесора Nvidia на рівні операційного коду, вони, швидше за все, досягли б AGI, досить швидко.
Коли ви знаєте апаратне та програмне забезпечення майже на атомарному рівні, ви можете переробити перші принципи.


25 серп., 11:14
Грок щойно з'ясував одну з 7 речей, які я роблю, щоб запустити новий Open Source Grok 2.5 з 4 активними одночасно експертами з невеликим зниженням продуктивності.
Так, один з них - це дільниковий осцилятор, який я використовував в 1985 році на IBM PC.
Він може масштабуватися на 1000 графічних процесорів Nvidia.
Тільки не питайте експертів зі штучного інтелекту, оскільки вони скажуть, що говорили IBM у 1985 році.
Посилання:

18,98K
Найкращі
Рейтинг
Вибране