Podejście Shopify do wykorzystania częstego osadzania i grupowania w celu poprawy wyjaśnialności danych

Shopify niedawno wdrożyło a Blog technologiczny Informacje o niektórych wewnętrznych procesach uczenia maszynowego dotyczących uzyskiwania bardziej przydatnych informacji na podstawie sygnałów klientów. Jednym z głównych wyzwań dla każdej firmy internetowej jest uzyskanie praktycznych wniosków z danych na potrzeby podejmowania decyzji. Shopify dzieli się swoją metodologią i wiedzą specjalistyczną, aby rozwiązać ten problem, agregując różnorodne zbiory danych za pomocą unikalnej metody, która obejmuje redukcję wymiarowości, redundancję i nadzorowane uczenie maszynowe. Takie podejście daje solidne wyniki i zapewnia lepszy wgląd i interpretację. Pomaga badaczom użytkowników i badaczom danych pogłębić wiedzę, ulepszyć rozwiązania i wydajniej iterować do ostatecznego rozwiązania. Dodatkowo metoda ta zawiera warstwę interpretacyjną, która ułatwia walidację wyników na potrzeby komunikacji z interesariuszami. Poniższy diagram ilustruje tę metodę wysokiego poziomu.

Kompleksowy schemat przepływu pracy

Na podstawie wpisu na blogu autor zaproponował metodę składającą się z 4 prostych kroków:

Spraw, aby dane były łatwe do zarządzania.

Zbierz to.

Zrozum to (i oczekuj tego).

Komunikuj się na ten temat.

Pierwszym krokiem w tym procesie jest znalezienie sposobu na wizualizację danych w celu lepszego zarządzania nimi. Głównym wyzwaniem jest to, że w praktyce musimy radzić sobie z danymi wielowymiarowymi. Jednym z praktycznych podejść jest zastosowanie technik redukcji wymiarowości, takich jak analiza głównych składowych lub… PCA. Głównym wyzwaniem stojącym przed PCA jest to, że w wielu przypadkach nie wszystkie informacje można przedstawić w dwóch wymiarach. Autor zasugerował zastosowanie najnowszych technik aproksymacji i rzutowania ujednoliconej rozmaitości UMAP Zamiast PCA Główna różnica między PCA i UMAP polega na tym, że UMAP jest metodą projekcji, która zachowuje lokalne i globalne podobieństwo punktów w dolnym wymiarze i jest nieliniowa w porównaniu z PCA. Spowoduje to uchwycenie nieliniowych relacji między danymi. Jako przykład autor pokazał różnicę w wynikach podczas stosowania Mnist (Zmodyfikowany zbiór danych Narodowego Instytutu Norm i Technologii). MNIST ma 784 wymiary reprezentujące zapisane liczby od 0 do 9 Następujące liczby Pokaż różnice.

Kiedy już zwizualizujemy dane i uzyskamy wstępny rozeznanie, musimy stworzyć pewne znaczące grupowania. Jak wspomniano w artykule, dla ułatwienia wyjaśnienia grupa ta powinna posiadać następujące cechy:

Punkt należy do bloku, jeśli blok istnieje.

Jeśli potrzebujesz parametrów dla swojej grupy, uczyń je intuicyjnymi.

Grupy muszą być stabilne, nawet jeśli zmienią się kolejność danych lub warunki początkowe

Wiele algorytmów grupowania, np K-oznacza I HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) istnieje w tym obszarze. HDBSCAN wykorzystuje podejście hierarchiczne, które łączy metody grupowania z metodami DBSCAN w celu utworzenia solidniejszych i znaczących klastrów. Obszerne eksperymenty przeprowadzone w Shopify udowodniły, że HDBSCAN konsekwentnie zapewnia wyraźniejsze i stabilniejsze wyniki.

W dążeniu do głębszego zrozumienia zachowań grupowych niezbędne staje się rekurencyjne zastosowanie technik grupowania. Ten iteracyjny proces pozwala na lepszy wgląd w złożoną dynamikę w grupach. Następnie, po wygenerowaniu wystarczającej liczby klastrów, zastosowanie ma zastosowanie technik nadzorowanych, w szczególności klasyfikacji. Ustalone metodologie klasyfikacji, m.in XGBoostmoże być stosowany jako model „jeden dla wszystkich” dla każdej grupy.

Co więcej, połączenie młody człowiek Zwiększa to interpretowalność i wyjaśnia podstawowe motywacje w każdej grupie. To podwójne podejście, łączące HDBSCAN do wstępnego grupowania i późniejszej klasyfikacji za pomocą XGBoost, wzmocnione przez SHAP pod kątem interpretacji, stanowi kompleksową metodologię uzyskiwania głębokiego wglądu w zachowania różnorodnych grup.

Na ostatnim etapie istnieje potrzeba przekazania wyników grupie zajmującej się analizą danych i innym zainteresowanym stronom oraz powtórzenia procesu, aby w razie potrzeby uzyskać ostateczne rozwiązanie.

Podobną metodologię z powodzeniem zastosowano także w innych dyscyplinach, np Wykrywanie anomalii w danych dotyczących zdrowia.

Wielu inżynierów zajmujących się uczeniem maszynowym uważa tę pracę za ekscytującą. Jak ktoś skomentował na LinkedIn Udostępnij tę pracę :