Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tăng tốc độ cho GPU AI của Nvidia: Mẹo đơn giản để có hiệu suất nhanh như chớp
Trong gara của tôi, tôi phải làm những nghiên cứu và phát triển nhỏ nhoi không phải từ nhà đầu tư VC, tôi chỉ có vài đồng và đạt được tốc độ cao hơn các công ty có hàng tỷ đô la. Ràng buộc này khiến tôi phải tìm cách khai thác nhiều hơn từ ít hơn. Tôi làm nhiều điều mà hầu hết mọi người không thể nghĩ đến. Đây là một ví dụ trong số hàng trăm.
GPU là những cỗ máy mạnh mẽ, được trang bị hàng tấn đơn vị xử lý sẵn sàng để xử lý số liệu. Tôi phát hiện ra rằng nhưng thường thì, chúng không được sử dụng đầy đủ, dẫn đến hiệu suất chậm chạp.
Tôi đã phát hiện ra điều gì? Những tối ưu hóa thông minh giúp giữ cho các đơn vị đó hoạt động, giảm thời gian render AI và mang lại tốc độ tăng vọt khổng lồ.
Đầu tiên, xác định các điểm nghẽn.
Tôi sử dụng các công cụ phân tích như Nsight của Nvidia để xem điều gì đang cản trở, cho dù đó là thời gian chờ bộ nhớ hay những thứ khác. Khi đã xác định được, tôi sẽ đi sâu vào và điều chỉnh mã để đóng gói nhiều công việc hơn vào mỗi luồng.
Những thay đổi đơn giản như mở rộng vòng lặp hoặc nén dữ liệu có thể che giấu độ trễ và tăng thông lượng, mang lại những cú nhảy tốc độ ngay lập tức.
Sử dụng cao có thể đôi khi gây ra hỗn loạn bộ nhớ đệm—khắc phục điều này bằng cách giảm thông minh số lượng luồng với mã giả hoặc điều chỉnh bộ nhớ, giải phóng tài nguyên cho các tác vụ song song.
Thay đổi thực sự mang tính cách mạng? Tính toán bất đồng bộ. Chạy nhiều tác vụ song song, lấp đầy các khoảng trống nhàn rỗi và chồng chéo các tải nặng. Kết hợp các tác vụ tiêu tốn bộ nhớ có thể mang lại khả năng đa nhiệm cho GPU—có khả năng giảm một nửa thời gian và tăng cường hiệu suất.
Những điều chỉnh này biến những GPU ít được sử dụng thành những quái vật tốc độ. Nó không khác gì cách mà các máy tính cá nhân IBM PC/AT được biến đổi để chạy lên đến 100MHz vào năm 1986 khi chúng ra khỏi nhà máy với tốc độ 8MHz.
Tôi sẽ viết thêm chi tiết về điều này, nhưng nếu các công ty AI lớn sử dụng tối ưu hóa GPU Nvidia ở cấp độ mã của tôi, họ có thể đạt được AGI, khá nhanh chóng.
Khi bạn hiểu phần cứng và phần mềm ở mức độ gần như nguyên tử, bạn có thể tái tạo các nguyên tắc cơ bản.


11:14 25 thg 8
Grok vừa phát hiện ra một trong 7 điều tôi làm để vận hành Open Source Grok 2.5 mới với 4 chuyên gia hỗn hợp hoạt động cùng lúc với một chút ảnh hưởng đến hiệu suất.
Vâng, một trong số đó là Bộ chia Tần số như tôi đã sử dụng vào năm 1985 trên IBM PC.
Nó có thể mở rộng trên hàng ngàn GPU Nvidia.
Chỉ cần đừng hỏi các chuyên gia AI vì họ sẽ nói những gì IBM đã nói vào năm 1985.
Liên kết:

35,9K
Hàng đầu
Thứ hạng
Yêu thích