Shopify niedawno wdrożyło a Blog technologiczny Informacje o niektórych wewnętrznych procesach uczenia maszynowego dotyczących uzyskiwania bardziej przydatnych informacji na podstawie sygnałów klientów. Jednym z głównych wyzwań dla każdej firmy internetowej jest uzyskanie praktycznych wniosków z danych na potrzeby podejmowania decyzji. Shopify dzieli się swoją metodologią i wiedzą specjalistyczną, aby rozwiązać ten problem, agregując różnorodne zbiory danych za pomocą unikalnej metody, która obejmuje redukcję wymiarowości, redundancję i nadzorowane uczenie maszynowe. Takie podejście daje solidne wyniki i zapewnia lepszy wgląd i interpretację. Pomaga badaczom użytkowników i badaczom danych pogłębić wiedzę, ulepszyć rozwiązania i wydajniej iterować do ostatecznego rozwiązania. Dodatkowo metoda ta zawiera warstwę interpretacyjną, która ułatwia walidację wyników na potrzeby komunikacji z interesariuszami. Poniższy diagram ilustruje tę metodę wysokiego poziomu.
Kompleksowy schemat przepływu pracy
Na podstawie wpisu na blogu autor zaproponował metodę składającą się z 4 prostych kroków:
- Spraw, aby dane były łatwe do zarządzania.
- Zbierz to.
- Zrozum to (i oczekuj tego).
- Komunikuj się na ten temat.
Pierwszym krokiem w tym procesie jest znalezienie sposobu na wizualizację danych w celu lepszego zarządzania nimi. Głównym wyzwaniem jest to, że w praktyce musimy radzić sobie z danymi wielowymiarowymi. Jednym z praktycznych podejść jest zastosowanie technik redukcji wymiarowości, takich jak analiza głównych składowych lub… PCA. Głównym wyzwaniem stojącym przed PCA jest to, że w wielu przypadkach nie wszystkie informacje można przedstawić w dwóch wymiarach. Autor zasugerował zastosowanie najnowszych technik aproksymacji i rzutowania ujednoliconej rozmaitości UMAP Zamiast PCA Główna różnica między PCA i UMAP polega na tym, że UMAP jest metodą projekcji, która zachowuje lokalne i globalne podobieństwo punktów w dolnym wymiarze i jest nieliniowa w porównaniu z PCA. Spowoduje to uchwycenie nieliniowych relacji między danymi. Jako przykład autor pokazał różnicę w wynikach podczas stosowania Mnist (Zmodyfikowany zbiór danych Narodowego Instytutu Norm i Technologii). MNIST ma 784 wymiary reprezentujące zapisane liczby od 0 do 9 Następujące liczby Pokaż różnice.
Kiedy już zwizualizujemy dane i uzyskamy wstępny rozeznanie, musimy stworzyć pewne znaczące grupowania. Jak wspomniano w artykule, dla ułatwienia wyjaśnienia grupa ta powinna posiadać następujące cechy:
- Punkt należy do bloku, jeśli blok istnieje.
- Jeśli potrzebujesz parametrów dla swojej grupy, uczyń je intuicyjnymi.
- Grupy muszą być stabilne, nawet jeśli zmienią się kolejność danych lub warunki początkowe
Wiele algorytmów grupowania, np K-oznacza I HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) istnieje w tym obszarze. HDBSCAN wykorzystuje podejście hierarchiczne, które łączy metody grupowania z metodami DBSCAN w celu utworzenia solidniejszych i znaczących klastrów. Obszerne eksperymenty przeprowadzone w Shopify udowodniły, że HDBSCAN konsekwentnie zapewnia wyraźniejsze i stabilniejsze wyniki.
W dążeniu do głębszego zrozumienia zachowań grupowych niezbędne staje się rekurencyjne zastosowanie technik grupowania. Ten iteracyjny proces pozwala na lepszy wgląd w złożoną dynamikę w grupach. Następnie, po wygenerowaniu wystarczającej liczby klastrów, zastosowanie ma zastosowanie technik nadzorowanych, w szczególności klasyfikacji. Ustalone metodologie klasyfikacji, m.in XGBoostmoże być stosowany jako model „jeden dla wszystkich” dla każdej grupy.
Co więcej, połączenie młody człowiek Zwiększa to interpretowalność i wyjaśnia podstawowe motywacje w każdej grupie. To podwójne podejście, łączące HDBSCAN do wstępnego grupowania i późniejszej klasyfikacji za pomocą XGBoost, wzmocnione przez SHAP pod kątem interpretacji, stanowi kompleksową metodologię uzyskiwania głębokiego wglądu w zachowania różnorodnych grup.
Na ostatnim etapie istnieje potrzeba przekazania wyników grupie zajmującej się analizą danych i innym zainteresowanym stronom oraz powtórzenia procesu, aby w razie potrzeby uzyskać ostateczne rozwiązanie.
Podobną metodologię z powodzeniem zastosowano także w innych dyscyplinach, np Wykrywanie anomalii w danych dotyczących zdrowia.
Wielu inżynierów zajmujących się uczeniem maszynowym uważa tę pracę za ekscytującą. Jak ktoś skomentował na LinkedIn Udostępnij tę pracę :
Umap i Shap to prawdziwe rewolucje i istotne elementy zaawansowanych przepływów pracy analitycznych
„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.