Turbocharge Nvidia AI GPU's: Eenvoudige trucs voor razendsnelle prestaties In mijn garage moet ik met de weinige niet-VC investeerder onderzoek en ontwikkeling die ik heb, werken; ik heb centen en krijg hogere snelheid dan bedrijven met miljarden. Deze beperking dwingt me om manieren te vinden om meer uit minder te halen. Ik doe veel dingen waar de meesten niet aan kunnen denken. Hier is een voorbeeld van slechts één van de 100. GPU's zijn krachtpatsers, volgestouwd met tonnen verwerkingsunits die klaar zijn om cijfers te verwerken. Ik ontdekte echter dat ze vaak niet volledig worden benut, wat leidt tot trage prestaties. Wat ontdekte ik? Slimme optimalisaties die die units aan het zoemen houden, de AI-render tijden verkorten en enorme snelheidsverhogingen leveren. Eerst, spot de knelpunten. Ik gebruik profileringshulpmiddelen zoals Nvidia's Nsight om te zien wat de boel tegenhoudt, of het nu geheugenwachttijden of andere dingen zijn. Zodra ik ze heb geïdentificeerd, duik ik erin en pas ik de code aan om meer werk in elke thread te proppen. Eenvoudige wijzigingen zoals het uitrollen van lussen of het comprimeren van gegevens kunnen vertragingen verbergen en de doorvoer verhogen, wat directe snelheidsverhogingen oplevert. Hoge belasting kan soms cache-chaos veroorzaken—los het op door slim het aantal threads te verminderen met dummy-code of geheugenaanpassingen, waardoor middelen vrijkomen voor parallelle taken. De echte game-changer? Async compute. Voer meerdere taken naast elkaar uit, vul inactieve gaten en overlappend zware ladingen. Combineer een geheugenintensievere taak met GPU-multitasking—potentieel halvering van tijden en supercharging van efficiëntie. Deze tweaks transformeren onderbenutte GPU's in snelheidsduivels. Het is niet anders dan hoe IBM PC/AT's persoonlijke computers transformeerde om tot 100MHz te draaien in 1986, toen ze uit de fabriek kwamen op 8MHz. Ik zal meer details hierover schrijven, maar als grote AI-bedrijven mijn opcode-niveau Nvidia GPU-optimalisatie zouden gebruiken, zouden ze waarschijnlijk snel AGI bereiken. Wanneer je hardware en software op bijna atomair niveau kent, kun je de eerste principes opnieuw maken.
Brian Roemmele
Brian Roemmele25 aug, 11:14
Grok heeft net een van de 7 dingen ontdekt die ik doe om de nieuwe Open Source Grok 2.5 te draaien met 4 mengsels van experts die tegelijkertijd actief zijn met een lichte prestatievermindering. Ja, een daarvan is een Divider Oscillator zoals ik die in 1985 op de IBM PC gebruikte. Het kan schalen over duizenden Nvidia GPU's. Vraag het gewoon niet aan AI-experts, want zij zullen zeggen wat de IBM-pakken in 1985 zeiden. Link:
35,89K