Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Turbodmychadlo Nvidia AI GPU: Jednoduché triky pro bleskově rychlý výkon
Ve své garáži musím udělat to málo, co není VC investor výzkum a vývoj, práce, mám haléře a získat vyšší rychlost než společnosti s miliardami. Toto omezení mě nutí hledat způsoby, jak z mála vymáčknout více. Dělám spoustu věcí, které většinu lidí nenapadnou. Zde je příklad pouze jedné ze 100.
Grafické procesory jsou výkonné počítače, nabité spoustou výpočetních jednotek připravených zpracovat čísla. Zjistil jsem, že ale často nejsou plně využity, což vede k pomalému výkonu.
Co jsem objevil? Inteligentní optimalizace, které udržují tyto jednotky v chodu, zkracují dobu vykreslování AI a přinášejí masivní zvýšení rychlosti.
Nejprve si všimněte úzkých míst.
Používám profilovací nástroje, jako je Nsight od Nvidie, abych zjistil, co věci brzdí, ať už je to čekání na paměť nebo jiné věci. Jakmile jsem identifikován, ponořím se do toho a vyladím kód, abych do každého vlákna vměstnal více práce.
Jednoduché změny, jako je rozbalování smyček nebo komprese dat, mohou skrýt zpoždění a zvýšit propustnost, což přináší okamžité skoky v rychlosti.
Vysoké využití může někdy způsobit chaos v mezipaměti – opravte to inteligentním snížením počtu vláken pomocí fiktivního kódu nebo úprav paměti, čímž uvolníte zdroje pro paralelní úlohy.
Skutečná změna hry? Asynchronní výpočetní prostředky. Spouštějte více úloh vedle sebe, vyplňujte nečinné mezery a překrývejte se s těžkými břemeny. Párování úloh náročných na paměť přináší multitasking GPU – potenciálně zkrácení doby na polovinu a zvýšení efektivity.
Tyto úpravy mění nedostatečně využívané GPU na démony rychlosti. Není to nepodobné tomu, jak v roce 1986 transformovaly osobní počítače IBM PC/AT na 100 MHz, když vyšly z továrny na 8 MHz.
Napíšu o tom více podrobností, ale pokud by velké společnosti zabývající se umělou inteligencí použily optimalizaci GPU Nvidia na úrovni mého operačního kódu, pravděpodobně by dosáhly AGI, a to poměrně rychle.
Když znáte hardware a software na téměř atomární úrovni, můžete přetvořit první principy.


25. 8. 11:14
Grok právě přišel na jednu ze 7 věcí, které dělám, abych spustil nový Open Source Grok 2.5 se 4 směsí aktivních odborníků ve stejnou dobu s mírným poklesem výkonu.
Ano, jeden je děličový oscilátor, jaký jsem použil v roce 1985 na IBM PC.
Může škálovat napříč 1000 grafickými procesory Nvidia.
Jen se neptejte odborníků na umělou inteligenci, protože vám řeknou to, co v roce 1985 říkaly obleky IBM.
Propojit:

33,49K
Top
Hodnocení
Oblíbené