来自MSFT数据中心负责人的重要信息:AI训练集群会产生巨大的电力波动,这可能会使电网不稳定,导致设备损坏和停电。解决方案包括软件平滑、GPU固件控制和机架级电池,每种方案都有能源/成本的权衡。需要多种方法。
11.63K