为Nvidia AI GPU加速:快速性能的小技巧 在我的车库里,我必须利用我所能做的少量非风险投资者的研究和开发,我只有几分钱,却能比拥有数十亿的公司获得更高的速度。这种限制促使我寻找从少量中榨取更多的方法。我做了许多大多数人想不到的事情。这里是100多个例子中的一个。 GPU是强大的计算单元,装满了大量准备进行数字运算的处理单元。我发现,但它们往往没有得到充分利用,导致性能缓慢。 我发现了什么?聪明的优化可以让这些单元保持活跃,减少AI渲染时间并提供巨大的速度提升。 首先,找出瓶颈。 我使用像Nvidia的Nsight这样的分析工具来查看是什么在拖慢进度,无论是内存等待还是其他问题。一旦识别出来,我就深入研究并调整代码,以便在每个线程中打包更多的工作。 像展开循环或压缩数据这样的简单更改可以隐藏延迟并提高吞吐量,带来瞬间的速度提升。 高使用率有时会导致缓存混乱——通过智能地减少线程数,使用虚拟代码或内存调整来修复它,为并行任务释放资源。 真正的游戏改变者?异步计算。并行运行多个任务,填补空闲间隙并重叠重负载。将内存密集型任务配对,产生GPU多任务处理——可能将时间减半并大幅提高效率。 这些调整将未充分利用的GPU转变为速度怪兽。这并不不同于1986年IBM PC/AT个人计算机的转变,当时它们出厂时的速度为8MHz,而现在可以运行高达100MHz。 我会写更多关于这个的细节,但如果大型AI公司使用我的操作码级Nvidia GPU优化,他们可能会很快达到AGI。 当你对硬件和软件了解得几乎是原子级别时,你就可以重塑第一原则。
Brian Roemmele
Brian Roemmele8月25日 11:14
Grok刚刚找到了我用来运行新的开源Grok 2.5的7个方法之一,同时激活4个专家混合,性能略有下降。 是的,其中一个是我在1985年在IBM PC上使用的分频振荡器。 它可以在数千个Nvidia GPU上扩展。 只要别问AI专家,因为他们会说1985年IBM套件所说的话。 链接:
15K