Nvidia i Microsoft wprowadziły model AI o wartości 530 miliardów zmiennych • Rejestr

Nvidia i Microsoft ogłosiły swój największy do tej pory model języka monolitycznego transformatora, model sztucznej inteligencji z 530 miliardami parametrów, które wspólnie opracowali, zwany modelem Megatron-Turing Natural Language Generation.

MT-NLG jest bardziej wydajny niż poprzednie systemy oparte na przełącznikach, które przeszkoliły obie firmy, a mianowicie model Turing-NLG firmy Microsoft i Megatron-LM firmy Nvidia. MT-NLG składa się z trzykrotnie większych parametrów rozłożonych na 105 warstw i jest znacznie większy i bardziej złożony. Dla porównania, OpenAI Model GPT-3 175 miliardów nauczycieli i Google przełączyć adapter Demo zawiera 1,6 biliona parametrów.

Większe jest generalnie lepsze, jeśli chodzi o sieci neuronowe. Wymaga od nich przyswojenia większej ilości danych treningowych. MT-NLG lepiej radzi sobie z różnymi zadaniami języka naturalnego, takimi jak autouzupełnianie zdań, pytanie i odpowiedź, czytanie i wnioskowanie niż jego poprzednicy. Może również wykonywać te zadania z niewielkim dostrajaniem lub bez dostrajania, co określa się jako uczenie się na niskim poziomie lub uczenie bez strzału.

Ponieważ te modele językowe stają się coraz większe, badacze i inżynierowie zajmujący się sztuczną inteligencją muszą opracować wszelkiego rodzaju techniki i sztuczki, aby ich szkolić. Wymaga precyzyjnego formatowania: model i jego dane szkoleniowe muszą być przechowywane i przetwarzane na wielu chipach jednocześnie.

MLT-NLG został przeszkolony przy użyciu superkomputera Nvidia Selene do uczenia maszynowego, systemu składającego się z 560 serwerów DGX A100, z których każdy zawiera osiem procesorów graficznych A100 o pojemności 80 GB. Selene jest również zasilany przez procesor AMD EPYC 7v742 i ma szacowany koszt na ponad 85 milionów dolarów. według na następną platformę.

Wszystkie 4480 GPU używają NvLink i NVSwitch do komunikowania się ze sobą. Każdy z nich był w stanie przejechać ponad 113 teraflopów na sekundę. Trening tych modeli jest niezwykle kosztowny, a nawet jeśli działają na wysokiej klasy sprzęcie, wymagają hackowania oprogramowania, aby skrócić czas szkolenia. Korzystaj z Nvidii i Microsoft Głęboka prędkość, biblioteka głębokiego uczenia zawierająca kod PyTorch, który pozwala inżynierom na jednoczesne przepychanie większej ilości danych przez wiele potoków.

„Dzięki połączeniu tensor slicing i pracy równoległej z potokami możemy je uruchamiać w systemie, w którym są najbardziej efektywne” — powiedział Paresh Kharia, starszy dyrektor ds. zarządzania produktami i marketingu w firmie NVIDIA Accelerated Computing, oraz Ali Alvi, kierownik programu grupowego w firmie Microsoft. Zespół Turinga, wyjaśniony w Post na blogu.

READ  „Pokémon Diamond” i „Pearl” wyglądają lepiej w najnowszych zwiastunach Switch | Engadżet

Mówiąc dokładniej, system wykorzystuje tensor slicing z Megatron-LM do skalowania modelu w węźle i wykorzystuje równoległość potoku z DeepSpeed ​​​​do skalowania modelu w węzłach.

Na przykład w przypadku modelu 530 miliardów każda replika obejmuje 280 procesorów graficznych NVIDIA A100, z 8-kierunkowym tensorem dzielącym węzeł i 35-kierunkowym równoległością potoku między węzłami.Następnie używamy równoległości danych z DeepSpeed ​​​​do skalowania do tysięcy procesorów graficznych.

MT-NLG został przeszkolony na gigantycznym zbiorze danych znanym jako stos. Skompilowany przez Eleuther AI, grupę badaczy sztucznej inteligencji i inżynierów prowadzących oddolne wysiłki na rzecz dużych modeli języka open source, składa się z wielu mniejszych zbiorów danych o łącznej wielkości 825 gigabajtów tekstu pobranego z Internetu ze źródeł takich jak Wikipedia i repozytoria Czasopisma akademickie , klipy informacyjne.

Radzenie sobie z tak dużymi ilościami tekstu oznacza, że ​​zbiór danych nie może zostać oczyszczony z toksycznego języka. Niestety oznacza to, że MT-NLG może generować obraźliwe wyniki, które mogą być rasistowskie lub seksistowskie.

„Nasze obserwacje z MT-NLG wskazują, że model wychwytuje stereotypy i uprzedzenia z trenowanych danych” – powiedzieli Kharya i Alvi.

Microsoft i NVIDIA zobowiązują się do pracy nad rozwiązaniem tego problemu. Zachęcamy do kontynuowania badań, aby pomóc określić zakres błędu modelu… Ponadto każde użycie MT-NLG w scenariuszach produkcyjnych musi zapewniać odpowiednie środki w celu złagodzenia i zminimalizowania potencjalnych szkód dla użytkowników.”®

Randolph Howe

„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Back to top