Zoptymalizowany stos Azure z technologią DeepSpeed do szkolenia modeli hiperskalowych

Azure Machine Learning (AzureML) udostępnia teraz plik Wzmacniacz stosu Wykorzystuje najnowszą technologię GPU NVIDIA z Nieskończoność kwantowa Trenować duże modele, takie jak Megatron Turing A GPT-3.

W ostatnich latach modele uczenia głębokiego oparte na transformatorach wytrenowane na ogromnych ilościach danych zostały wykorzystane do nowych produktów i wielu zadań kognitywnych. Modele te urosły pod względem wielkości i rozmiaru, a klienci muszą odpowiednio się szkolić i dostosowywać.

Szkolenie i dostrajanie tego typu modeli wymaga złożonej, rozproszonej architektury, a skonfigurowanie tych architektur wymaga wielu ręcznych i podatnych na błędy kroków. Dzięki temu nowemu ulepszonemu stosowi AzureML zapewnia lepsze środowisko pod względem użyteczności i wydajności, zapewniając łatwy w użyciu potok szkolenia. Sugerowany pakiet AzureML obejmuje: sprzęt, system operacyjny, obraz maszyny wirtualnej i obraz Docker (z ulepszonym PyTorch, Głęboka prędkośćoraz ONNX Runtime i inne pakiety Pythona) dla wydajności i skalowalności bez złożoności.

Ulepszony stos do skalowalnego szkolenia rozproszonego na platformie Azure

Ewentualna konfiguracja eksperymentalna składa się z NDm A100 v4. Seria Zawiera dwa 64-rdzeniowe porty procesora AMD EPYC 7V12, 1,7 TB pamięci głównej i osiem procesorów graficznych A100 80 GB. Zrównoważona topologia PCIe jest używana do podłączenia 4 procesorów graficznych na procesor, a każdy procesor graficzny ma własną topologię 200 Gb/s NVIDIA Mellanox HDR InfiniBand. 1,7 TB pamięci głównej i możliwości odciążania biblioteki DeepSpeed pozwalają na skalowanie dużych modeli. Ta konfiguracja może być używana zarówno w studiu AzureML, jak i Azure VMSS, ale rozwiązanie studia AzureML jest zalecane, ponieważ jest to najłatwiejszy sposób na skonfigurowanie i uruchomienie we właściwy i łatwy sposób.

Różnice między architekturą rozproszoną a konfiguracją szkolenia AzureML

Proponowany pakiet AzureML pozwala na wydajne szkolenie z 2x większymi rozmiarami modeli (2 biliony vs. 1 bilion parametrów), skalowanie do 2x większej liczby procesorów graficznych (1024 vs. 512) i do 1,8 razy wyższa przepustowość obliczeń/GPU (150 TFLOP vs. 81 TFLOPS). Ta kombinacja ma również możliwość zaoferowania niemal liniowej skalowalności pod względem skalowania modelu i zwiększania liczby procesorów graficznych. Dzięki DeepSpeed ZeRO-3 z własnym procesorem rozładunek Możliwości i nowy stos AzureML, efektywna przepustowość GPU / 157 TFLOP jest utrzymywana wraz ze wzrostem modelu ze 175 miliardów do 2 bilionów parametrów, a biorąc pod uwagę rozmiar modelu (np. 175 miliardów na poniższym wykresie), skalowanie liniowe jest osiągane, jeśli Zwiększona liczba GPU.

READ Funkcja Google Android wykrywa pobliskie i nieznane elementy śledzące

Bardziej szczegółowe wyniki są opisane w rozszerzonej prędkości głębokiej blog techniczny.