Metody redukcji wymiarowości danych. Wprowadzenie do redukcji wymiarowości

Uczenie maszynowe to nic innego jak dziedzina uczenia się, która pozwala komputerom „uczyć się” jak ludzie, bez potrzeby jawnego programowania.

Co to jest modelowanie predykcyjne: Modelowanie predykcyjne to proces probabilistyczny, który pozwala przewidywać wyniki w oparciu o określone predyktory. Te predyktory to w zasadzie funkcje, które odgrywają rolę przy określaniu wyniku końcowego, tj. wyniku modelu.

Co to jest redukcja wymiarowości?

W przypadku problemów z klasyfikacją uczenia maszynowego często występuje zbyt wiele czynników, na podstawie których dokonywana jest ostateczna klasyfikacja. Czynniki te to w zasadzie zmienne zwane cechami. Im więcej funkcji, tym trudniej jest zwizualizować zbiór uczący, a następnie nad nim pracować. Czasami większość tych funkcji jest ze sobą powiązana i dlatego jest zbędna. Tutaj z pomocą przychodzą algorytmy redukcji wymiarów. Redukcja wymiarowości to proces zmniejszania liczby uwzględnianych zmiennych losowych poprzez uzyskanie zestawu zmiennych głównych. Można to podzielić na selekcję cech i ekstrakcję cech.

Dlaczego redukcja wymiarowości jest ważna w uczeniu maszynowym i modelowaniu predykcyjnym?

Intuicyjny przykład redukcji wymiarów można omówić za pomocą prostego problemu klasyfikacji wiadomości e-mail, w którym musimy określić, czy wiadomość e-mail jest spamem, czy nie. Może to obejmować dużą liczbę funkcji, takich jak to, czy wiadomość e-mail ma wspólny nagłówek, treść wiadomości e-mail, czy wiadomość e-mail korzysta z szablonu itp. Jednak niektóre z tych funkcji mogą się nakładać. W innym stanie istnieje Problem klasyfikacji, który zależy zarówno od wilgotności, jak i od opadów, można podsumować w jedną podstawową cechę, ponieważ obie powyższe są silnie skorelowane. Dlatego możemy zmniejszyć liczbę funkcji w takich problemach. Trudno sobie wyobrazić trójwymiarowy problem klasyfikacji, natomiast dwuwymiarowy problem klasyfikacji można odwzorować na prostą dwuwymiarową przestrzeń, a jednowymiarowy problem na prostą linię. Poniższy rysunek ilustruje tę koncepcję, w której przestrzeń cech 3D dzieli się na dwie przestrzenie cech 1D, a później, jeśli okaże się, że są one skorelowane, liczbę obiektów można jeszcze bardziej zmniejszyć.

Komponenty redukcji wymiarowości

Istnieją dwa elementy redukcji wymiarowości:

  • Wybór funkcji: w tej sekcji staramy się znaleźć podzbiór pierwotnego zbioru zmiennych lub funkcji, aby uzyskać mniejszy podzbiór, który można wykorzystać do modelowania problemu. Zwykle obejmuje to trzy sposoby:
    1. Filtr
    2. obwoluta
    3. wdrożony
  • Ekstrakcja cech: Redukuje to dane w przestrzeni wielowymiarowej do niższego wymiaru, to znaczy przestrzeni o niższych numerach. rozmiary.

Metody redukcji wymiarowości

Różne techniki stosowane do redukcji wymiarowości obejmują:

  • Analiza głównych składowych (PCA)
  • Liniowa analiza dyskryminacyjna (LDA)
  • Uogólniona analiza dyskryminacyjna (GDA)

Redukcja wymiarowości może być liniowa lub nieliniowa, w zależności od zastosowanej metody. Poniżej omówiono podstawową metodę liniową zwaną analizą głównych składowych (PCA).

Analiza głównych składowych

Metodę tę wprowadził Karl Pearson. Działa to pod warunkiem, że podczas gdy dane w przestrzeni o wyższych wymiarach są odwzorowywane na dane w przestrzeni o niższych wymiarach, wariancja danych w przestrzeni o niższych wymiarach musi być maksymalizowana.

Obejmuje następujące kroki:

  • Skonstruuj macierz kowariancji danych.
  • Oblicz wektory własne tej macierzy.
  • Wektory własne odpowiadające największym wartościom własnym służą do odzyskania większości wariancji w oryginalnych danych.

Dlatego pozostaje nam mniej wektorów własnych i w trakcie tego procesu mogła nastąpić pewna utrata danych. Ale najważniejsze odchylenia muszą zostać zachowane przez pozostałe wektory własne.

Korzyści z redukcji wymiarowości

  • Pomaga to w kompresji danych, a tym samym zmniejsza przestrzeń dyskową.
  • Skraca to czas obliczeń.
  • Pomaga także usunąć zbędne funkcje, jeśli takie istnieją.

Wady redukcji wymiarowości

  • Może to spowodować utratę części danych.
  • PCA ma tendencję do znajdowania liniowych korelacji między zmiennymi, co czasami jest niepożądane.
  • PCA zawodzi w przypadkach, gdy średnia i kowariancja nie są wystarczające do zdefiniowania zbiorów danych.
  • Możemy nie wiedzieć, ilu podstawowych elementów należy przestrzegać w praktyce, obowiązują pewne praktyczne zasady.

Ten artykuł jest dostarczany przez Anennei Uberoi. Jeśli jesteś podobny do GeeksforGeeks i chcesz wnieść swój wkład, możesz także napisać artykuł za pomocą Contrand.geeksforgeeks.org lub wysyłając artykuł pocztą [e-mail chroniony]. Zobacz, jak Twój artykuł pojawi się na stronie głównej GeeksforGeeks i pomóż innym maniakom.

Redukcja danych

W technologiach analitycznych redukcja wymiarowości danych odnosi się do procesu przekształcania ich do postaci najwygodniejszej do analizy i interpretacji. Osiąga się to zazwyczaj poprzez zmniejszenie ich objętości, zmniejszenie liczby zastosowanych cech i różnorodności ich znaczeń.

Często analizowane dane są niekompletne, gdy słabo odzwierciedlają zależności i wzorce badanych procesów biznesowych. Przyczyną tego może być niewystarczająca liczba obserwacji, brak znaków odzwierciedlających istotne właściwości obiektów. W tym przypadku stosuje się wzbogacanie danych.

Redukcję wymiarowości stosuje się w odwrotnym przypadku, gdy dane są redundantne. Nadmiarowość występuje, gdy problem analityczny można rozwiązać z tym samym poziomem wydajności i dokładności, ale przy użyciu mniejszego wymiaru danych. Pozwala to na skrócenie czasu i kosztów obliczeniowych rozwiązania problemu, czyniąc dane i wyniki ich analizy bardziej zrozumiałymi dla użytkownika.

Zmniejszenie liczby obserwacji danych stosuje się, jeśli można uzyskać rozwiązanie o porównywalnej jakości z mniejszej próby, zmniejszając w ten sposób koszty obliczeniowe i czasowe. Dotyczy to szczególnie algorytmów, które nie są skalowalne, gdzie nawet niewielkie zmniejszenie liczby rekordów prowadzi do znacznego wydłużenia czasu obliczeń.

Zmniejszanie liczby funkcji ma sens, gdy informacje niezbędne do wysokiej jakości rozwiązania problemu są zawarte w pewnym podzbiorze funkcji i nie jest konieczne korzystanie z nich wszystkich. Jest to szczególnie prawdziwe w przypadku cech skorelowanych. Na przykład cechy „Wiek” i „Doświadczenie zawodowe” zasadniczo niosą ze sobą te same informacje, więc jedną z nich można wykluczyć.

Najskuteczniejszym sposobem ograniczenia liczby cech jest analiza czynnikowa i metoda głównych składowych.

Zmniejszanie różnorodności wartości cech ma sens np. wtedy, gdy dokładność reprezentacji danych jest nadmierna i zamiast wartości rzeczywistych można zastosować liczby całkowite bez pogorszenia jakości modelu. Zmniejszy to jednak ilość pamięci zajmowanej przez dane i koszty obliczeń.

Podzbiór danych uzyskany w wyniku redukcji wymiarowości powinien dziedziczyć ze zbioru pierwotnego tyle informacji, ile jest konieczne do rozwiązania problemu z daną dokładnością, a koszty obliczeniowe i czasowe redukcji danych nie powinny dewaluować uzyskanych z niej korzyści.

Model analityczny zbudowany na podstawie zredukowanego zbioru danych powinien być łatwiejszy do przetworzenia, wdrożenia i zrozumienia niż model zbudowany na podstawie oryginalnego zbioru.

Decyzja o wyborze metody redukcji wymiarowości opiera się na apriorycznej wiedzy o charakterystyce rozwiązywanego problemu i oczekiwanych rezultatach, a także o ograniczonym czasie i zasobach obliczeniowych.

W wielowymiarowej analizie statystycznej każdy obiekt jest opisany wektorem, którego wymiar jest dowolny (ale taki sam dla wszystkich obiektów). Jednak osoba może bezpośrednio postrzegać tylko dane liczbowe lub punkty na płaszczyźnie. Analizowanie skupień punktów w przestrzeni trójwymiarowej jest znacznie trudniejsze. Bezpośrednia percepcja danych wielowymiarowych jest niemożliwa. Dlatego całkiem naturalne jest, że chcemy przejść od wielowymiarowej próbki do danych niskowymiarowych, aby „można było na nie spojrzeć”.

Oprócz chęci przejrzystości istnieją inne motywy ograniczania wymiarowości. Te czynniki, od których nie zależy interesująca badacza zmienna, zakłócają jedynie analizę statystyczną. Po pierwsze, środki przeznaczane są na zbieranie informacji na ich temat. Po drugie, jak można wykazać, włączenie ich do analizy pogarsza właściwości procedur statystycznych (w szczególności zwiększa rozproszenie oszacowań parametrów i charakterystyk rozkładu). Dlatego wskazane jest pozbycie się takich czynników.

Omówmy, z punktu widzenia redukcji wymiarowości, przykład wykorzystania analizy regresji do prognozowania wielkości sprzedaży, omówiony w podrozdziale 3.2.3. Po pierwsze, w tym przykładzie udało się zmniejszyć liczbę zmiennych niezależnych z 17 do 12. Po drugie, udało się skonstruować nowy czynnik – funkcję liniową 12 wymienionych czynników, która lepiej niż wszystkie inne kombinacje liniowe przewiduje wielkość sprzedaży czynników. Można więc powiedzieć, że w efekcie wymiar problemu zmniejszył się z 18 do 2. Mianowicie pozostał jeden czynnik niezależny (kombinacja liniowa podana w podrozdziale 3.2.3) i jeden czynnik zależny – wielkość sprzedaży.

Analizując dane wielowymiarowe, zwykle rozważa się nie jeden, ale wiele problemów, w szczególności inny wybór zmiennych niezależnych i zależnych. Rozważmy zatem problem redukcji wymiarowości w następującym sformułowaniu. Podano próbkę wielowymiarową. Należy od niego przejść do zbioru wektorów o mniejszym wymiarze, zachowując w miarę możliwości strukturę oryginalnych danych, nie tracąc w miarę możliwości informacji zawartych w danych. Zadanie jest określone w ramach każdej konkretnej metody redukcji wymiarowości.

Metoda głównych składników jest jedną z najczęściej stosowanych metod redukcji wymiarowości. Jego główną ideą jest konsekwentne identyfikowanie kierunków, w których dane mają największy rozrzut. Niech próbka składa się z wektorów o identycznym rozkładzie z wektorem X = (X(1), X(2), … , X(N)). Rozważmy kombinacje liniowe

Y(λ(1), λ(2), …, λ( N)) = λ(1) X(1) + λ(2) X(2) + … + λ( N)X(N),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( N) = 1.

Tutaj wektor λ = (λ(1), λ(2), …, λ( N)) leży na sferze jednostkowej w N-przestrzeń wymiarowa.

W metodzie głównych składowych wyznaczany jest przede wszystkim kierunek maksymalnego rozproszenia, tj. takie λ, przy którym wariancja zmiennej losowej osiąga maksimum Y(λ) = Y(λ(1), λ(2), …, λ( N)). Następnie wektor λ określa pierwszy składnik główny i jego ilość Y(λ) jest rzutem wektora losowego X do osi pierwszej składowej głównej.

Następnie, w kategoriach algebry liniowej, rozważ hiperpłaszczyznę w N-wymiarową, prostopadłą do pierwszej składowej głównej i rzutuje wszystkie elementy próbki na tę hiperpłaszczyznę. Wymiar hiperpłaszczyzny jest o 1 mniejszy niż wymiar pierwotnej przestrzeni.

W rozważanej hiperpłaszczyźnie procedura jest powtarzana. Znajduje się w nim kierunek największego rozproszenia, tj. drugi główny składnik. Następnie identyfikowana jest hiperpłaszczyzna prostopadła do pierwszych dwóch głównych składowych. Jego wymiar jest o 2 mniejszy od wymiaru pierwotnej przestrzeni. Następna jest następna iteracja.

Z punktu widzenia algebry liniowej mówimy o konstruowaniu nowej bazy w N-przestrzeń wymiarowa, której wektory są głównymi składnikami.

Wariancja odpowiadająca każdemu nowemu składnikowi głównemu jest mniejsza niż w przypadku poprzedniego. Zwykle zatrzymują się, gdy jest ona niższa od zadanego progu. Jeśli wybrano k główne składniki, oznacza to, że z N-przestrzeń wymiarowa, do której udało nam się przenieść k- wymiarowy, tj. zmniejszyć wymiar z N-zanim k, praktycznie bez zniekształcania struktury danych źródłowych .

Do wizualnej analizy danych często stosuje się rzuty oryginalnych wektorów na płaszczyznę dwóch pierwszych głównych składowych. Zwykle struktura danych jest wyraźnie widoczna, wyróżnia się zwarte skupienia obiektów i poszczególne wektory.

Metoda głównych składowych jest jedną z metod Analiza czynników. Różne algorytmy analizy czynnikowej łączy fakt, że we wszystkich następuje przejście do nowej podstawy w oryginale N-przestrzeń wymiarowa. Ważna jest koncepcja „ładunku czynnikowego”, używana do opisania roli pierwotnego czynnika (zmiennej) w tworzeniu określonego wektora z nowej bazy.

Nowym pomysłem w porównaniu z metodą głównych składowych jest podział czynników na grupy na podstawie ładunków. Czynniki mające podobny wpływ na elementy nowej podstawy połączono w jedną grupę. Zaleca się wówczas pozostawienie po jednym przedstawicielu z każdej grupy. Czasami zamiast wybierać przedstawiciela na podstawie obliczeń, tworzy się nowy czynnik, który ma kluczowe znaczenie dla danej grupy. Spadek wymiarowości następuje w przypadku przejścia do systemu czynników będących przedstawicielami grup. Inne czynniki są odrzucane.

Opisaną procedurę można przeprowadzić nie tylko za pomocą analizy czynnikowej. Mówimy o analizie skupień cech (czynników, zmiennych). Aby podzielić obiekty na grupy, można zastosować różne algorytmy analizy skupień. Wystarczy wpisać odległość (miarę bliskości, wskaźnik różnicy) pomiędzy cechami. Pozwalać X I U- dwa znaki. Różnica D(X, Y) między nimi można zmierzyć za pomocą przykładowych współczynników korelacji:

D 1 (X, Y) = 1 – r n(X, Y), D 2 (X, Y) = 1 – ρ N(X, Y),

Gdzie r n(X, Y) – współczynnik korelacji liniowej Pearsona próbki, ρ N(X, Y) – przykładowy współczynnik korelacji rang Spearmana.

Skalowanie wielowymiarowe. O wykorzystaniu odległości (miar bliskości, wskaźników różnicy) D(X, Y) pomiędzy znakami X I U powstała obszerna klasa metod skalowania wielowymiarowego. Główną ideą tej klasy metod jest reprezentowanie każdego obiektu jako punktu w przestrzeni geometrycznej (zwykle o wymiarze 1, 2 lub 3), którego współrzędne są wartościami ukrytych (utajonych) czynników, które razem odpowiednio opisać obiekt. W tym przypadku relacje między obiektami zastępuje się relacjami między punktami - ich przedstawicielami. Zatem dane o podobieństwie obiektów – poprzez odległości między punktami, dane o wyższości – poprzez względne położenie punktów.

W praktyce stosuje się wiele różnych modeli skalowania wielowymiarowego. We wszystkich pojawia się problem oszacowania prawdziwego wymiaru przestrzeni czynnikowej. Rozważmy ten problem na przykładzie przetwarzania danych o podobieństwie obiektów za pomocą skalowania metrycznego.

Niech będzie N obiekty O(1), O(2), …, O(N), dla każdej pary obiektów O(I), O(J) podana jest miara ich podobieństwa S(I, J). Wierzymy, że zawsze S(I, J) = S(J, I). Pochodzenie liczb S(I, J) nie jest istotna dla opisu działania algorytmu. Można je uzyskać albo poprzez bezpośredni pomiar, albo przy użyciu ekspertów, albo poprzez obliczenia na podstawie zestawu cech opisowych, albo w inny sposób.

W przestrzeni euklidesowej rozważane N obiekty muszą być reprezentowane przez konfigurację N punktów, a miarą bliskości reprezentatywnych punktów jest odległość euklidesowa D(I, J) pomiędzy odpowiednimi punktami. Stopień zgodności zbioru obiektów ze zbiorem reprezentujących je punktów określa się poprzez porównanie macierzy podobieństwa || S(I, J)|| i odległości || D(I, J)||. Funkcjonał podobieństwa metrycznego ma postać

Konfigurację geometryczną należy dobrać tak, aby funkcjonał S osiągnął wartość minimalną.

Komentarz. W skalowaniu niemetrycznym zamiast bliskości miar bliskości i samych odległości bierze się pod uwagę bliskość porządków na zbiorze miar bliskości i zbiorze odpowiadających im odległości. Zamiast funkcjonalności S stosuje się analogi współczynników korelacji rang Spearmana i Kendalla. Innymi słowy, skalowanie niemetryczne zakłada, że ​​miary bliskości mierzy się na skali porządkowej.

Niech przestrzeń euklidesowa ma wymiar M. Rozważ minimalny błąd średniokwadratowy

,

gdzie minimum obejmuje wszystkie możliwe konfiguracje N wskazuje M-wymiarowa przestrzeń euklidesowa. Można wykazać, że rozważane minimum zostało osiągnięte przy określonej konfiguracji. To oczywiste, że wraz ze wzrostem M wartość α m maleje monotonicznie (dokładniej nie rośnie). Można wykazać, że kiedy M > N– 1 jest równe 0 (jeśli S(I, J) – metryczny). Aby zwiększyć możliwości sensownej interpretacji, pożądane jest operowanie w przestrzeni o jak najmniejszym wymiarze. W tym przypadku jednak wymiar należy dobrać tak, aby punkty reprezentowały obiekty bez dużych zniekształceń. Powstaje pytanie: jak racjonalnie wybrać wymiar, tj. Liczba naturalna M?

W ramach deterministycznej analizy danych wydaje się, że nie ma rozsądnej odpowiedzi na to pytanie. Dlatego konieczne jest zbadanie zachowania α m w niektórych modelach probabilistycznych. Jeśli środki bliskości S(I, J) są zmiennymi losowymi, których rozkład zależy od „prawdziwego wymiaru” M 0 (i ewentualnie innych parametrów), wówczas możemy postawić problem estymacji w klasycznym stylu matematyczno-statystycznym M 0, poszukaj spójnych szacunków itp.

Zacznijmy budować modele probabilistyczne. Załóżmy, że obiekty są punktami w euklidesowej przestrzeni wymiarowej k, Gdzie k wystarczająco duży. Że jest to „prawdziwy wymiar”. M Wartość 0 oznacza, że ​​wszystkie te punkty leżą na hiperpłaszczyźnie wymiaru M 0. Załóżmy dla pewności, że rozpatrywany zbiór punktów jest próbką z kołowego rozkładu normalnego o wariancji σ 2 (0). Oznacza to, że obiekty O(1), O(2), …, O(N) są zbiorowo niezależnymi wektorami losowymi, z których każdy jest skonstruowany jako ζ(1) mi(1) + ζ(2) mi(2) + … + ζ( M 0)mi(M 0), gdzie mi(1), mi(2), … , mi(M 0) – baza ortonormalna w podprzestrzeni wymiaru M 0, w którym leżą rozpatrywane punkty, oraz ζ(1), ζ(2), … , ζ( M 0) są zbiorowo niezależnymi jednowymiarowymi normalnymi zmiennymi losowymi z oczekiwaniami matematycznymi) i wariancją σ 2 (0).

Rozważmy dwa modele uzyskiwania miar bliskości S(I, J). W pierwszym z nich S(I, J) różnią się od odległości euklidesowej pomiędzy odpowiednimi punktami ze względu na fakt, że punkty te są znane z zniekształceniami. Pozwalać Z(1),Z(2), … , Z(N) to punkty pod uwagę. Następnie

S(I, J) = D(C(I) + ε( I), C(J) + ε( J)), I, J = 1, 2, … , N,

Gdzie D– Odległość euklidesowa pomiędzy punktami w k przestrzeń -wymiarowa, wektory ε(1), ε(2), … , ε( N) reprezentują próbkę z kołowego rozkładu normalnego w k-przestrzeń wymiarowa z zerowymi oczekiwaniami matematycznymi i macierzą kowariancji σ 2 (1) I, Gdzie I- macierz jednostkowa. Innymi słowy, ε( I) = η(1) mi(1) + η(2) mi(2) + … + η( k)mi(k), Gdzie mi(1), mi(2), …, mi(k) – baza ortonormalna w k-przestrzeń wymiarowa i (η( I, T), I= 1, 2, … , n, T= 1, 2, … , k) – zbiór niezależnie niezależnych jednowymiarowych zmiennych losowych o zerowym oczekiwaniu matematycznym i wariancji σ 2 (1).

W drugim modelu zniekształcenia nakładane są bezpośrednio na same odległości:

S(ja, j) = D(C(I), C(J)) + ε( ja, j), ja, j = 1, 2, … , N, IJ,

gdzie (ε( I, J), I, J = 1, 2, … , N) – zbiorczo niezależne normalne zmienne losowe z oczekiwaniem matematycznym) i wariancją σ 2 (1).

Z pracy wynika, że ​​dla obu sformułowanych modeli minimalny błąd średniokwadratowy α m przy N→ ∞ zbiega się prawdopodobieństwem do

F(M) = F 1 (M) + σ 2 (1)( kM), M = 1, 2, …, k,

Zatem funkcja F(M) jest liniowa na przedziałach i , a w pierwszym przedziale maleje szybciej niż w drugim. Wynika z tej statystyki

jest spójnym oszacowaniem prawdziwego wymiaru M 0 .

Zatem zalecenie wynika z teorii probabilistycznej - używać jako oszacowania wymiaru przestrzeni czynnikowej M*. Należy zauważyć, że zalecenie takie zostało sformułowane w formie heurystyki przez jednego z twórców skalowania wielowymiarowego, J. Kruskala. Wywodził się z doświadczeń w praktycznym zastosowaniu skalowania wielowymiarowego i eksperymentów obliczeniowych. Teoria probabilistyczna umożliwiła uzasadnienie tej heurystycznej rekomendacji.

Poprzedni

Rozdział 13. METODA SKŁADOWA GŁÓWNA

13.1. Istota problemu redukcji wymiarowości i różne metody jego rozwiązywania

W badaniach i praktycznej pracy statystycznej mamy do czynienia z sytuacjami, w których łączna liczba znaków zarejestrowanych na każdym z wielu badanych obiektów (kraje, miasta, przedsiębiorstwa, rodziny, pacjenci, systemy techniczne lub środowiskowe) jest bardzo duża – około sto lub więcej. Jednakże dostępne obserwacje wieloczynnikowe

powinny zostać przetworzone statystycznie, zrozumiane lub wprowadzone do bazy danych, aby móc z nich skorzystać w odpowiednim czasie.

Chęć statystyka przedstawienia każdej z obserwacji (13.1) w postaci wektora Z niektórych wskaźników pomocniczych o znacznie mniejszej (niż) liczbie składowych wynika przede wszystkim z następujących powodów:

potrzeba wizualnej reprezentacji (wizualizacji) danych wyjściowych (13.1), co osiąga się poprzez rzutowanie ich na specjalnie wybraną przestrzeń trójwymiarową, płaszczyznę lub oś liczbową (zagadnieniom tego typu poświęcony jest rozdział IV);

chęć lakonizmu badanych modeli, ze względu na potrzebę uproszczenia obliczeń i interpretacji uzyskanych wniosków statystycznych;

konieczność znacznej kompresji objętości przechowywanej informacji statystycznej (bez widocznych strat w jej zawartości informacyjnej), jeśli mówimy o rejestrowaniu i przechowywaniu tablic typu (13.1) w specjalnej bazie danych.

W tym przypadku nowe (pomocnicze) cechy można wybrać spośród pierwotnych lub wyznaczyć według jakiejś reguły w oparciu o zbiór cech wyjściowych, np. jako ich kombinacje liniowe. Tworząc nowy układ cech, stawiane są temu ostatniemu różne wymagania, takie jak jak największa zawartość informacyjna (w pewnym sensie), wzajemna nieskorelacja, jak najmniejsze zniekształcenie struktury geometrycznej zbioru danych wyjściowych itp. W zależności od W zależności od wariantu formalnego określenia tych wymagań (patrz poniżej oraz rozdział IV) dochodzimy do takiego lub innego algorytmu redukcji wymiarowości. Istnieją co najmniej trzy główne rodzaje przesłanek zasadniczych, które determinują możliwość przejścia od dużej liczby początkowych wskaźników stanu (zachowania, sprawności działania) analizowanego systemu do znacznie mniejszej liczby zmiennych najbardziej informacyjnych. Jest to po pierwsze powielanie informacji dostarczanych przez wysoce powiązane ze sobą funkcje; po drugie, brak treści informacyjnej cech, które niewiele zmieniają się przy przechodzeniu z jednego obiektu na drugi (mała „zmienność” cech); po trzecie, możliwość agregacji, czyli sumowania prostego lub „ważonego” według określonych kryteriów.

Formalnie zadanie przejścia (przy minimalnych stratach w treści informacyjnej) na nowy zestaw funkcji można opisać następująco. Niech będzie jakąś p-wymiarową funkcją wektorową zmiennych początkowych i niech będzie pewną określoną miarą informatywności -wymiarowego układu cech. Konkretny wybór funkcjonału zależy od specyfiki rozwiązywanego rzeczywistego problemu i opiera się na jedno z możliwych kryteriów: kryterium autoinformatywności, mające na celu maksymalizację zachowania informacji zawartej w oryginalnym zestawie w stosunku do samych cech pierwotnych; oraz kryterium zawartości informacji zewnętrznej, mające na celu maksymalne „wyciśnięcie” informacji zawartej w tym szeregu w stosunku do innych (zewnętrznych) wskaźników.

Zadanie polega na wyznaczeniu takiego zbioru cech Z, znajdujących się w klasie F dopuszczalnych przekształceń wskaźników początkowych, że

Taka czy inna wersja specyfikacji tego stwierdzenia (która określa konkretny wybór miary zawartości informacji) i klasę dopuszczalnych przekształceń) prowadzi do określonej metody redukcji wymiarowości: metody głównych składowych, analizy czynnikowej, ekstremalnego grupowania parametrów, itp.

Wyjaśnijmy to na przykładach.

13.1.1. Metoda głównych składowych (patrz § 13.2-§ 13.6).

Do pierwszych składowych zasadniczych badacz dojdzie, jeśli jako klasę dopuszczalnych przekształceń F zdefiniuje wszystkie możliwe liniowe ortogonalne znormalizowane kombinacje wskaźników początkowych, tj.

(tutaj) jest oczekiwaniem matematycznym i jako miara zawartości informacyjnej -wymiarowego układu wskaźników, wyrażeniem

(tutaj D, jak poprzednio, jest znakiem operacji obliczania wariancji odpowiedniej zmiennej losowej).

13.1.2. Analiza czynnikowa (patrz rozdział 14).

Jak wiadomo (patrz § 14.1), model analizy czynnikowej wyjaśnia strukturę powiązań pomiędzy wskaźnikami wyjściowymi tym, że zachowanie każdego z nich zależy statystycznie od tego samego zestawu tzw. czynników wspólnych, tj.

gdzie - „obciążenie” współczynnika ogólnego na wskaźniku początkowym - resztkowy „specyficzny” składnik losowy, oraz - są parami nieskorelowane.

Okazuje się, że jeśli F zdefiniujemy jako klasę wszystkich możliwych kombinacji liniowych, biorąc pod uwagę wspomniane ograniczenia i jako miarę zawartości informacyjnej -wymiarowego układu wskaźników, wybierz wartość, to rozwiązanie optymalizacji problem (13.2) pokrywa się z wektorem wspólnych czynników w modelu analizy czynnikowej. Oto macierz korelacji wskaźników początkowych; macierzą korelacji wskaźników jest norma euklidesowa macierzy A.

13.1.3. Metoda ekstremalnego grupowania cech (patrz punkt 14.2.1).

W metodzie tej mówimy o podziale zbioru wskaźników wyjściowych na określoną liczbę grup tak, aby cechy należące do jednej grupy były ze sobą stosunkowo silnie skorelowane, zaś cechy należące do różnych grup były słabo skorelowane. Jednocześnie rozwiązano problem zastąpienia każdej grupy silnie skorelowanych wskaźników początkowych jednym pomocniczym wskaźnikiem „wynikowym”, który oczywiście powinien pozostawać w ścisłej korelacji z charakterystyką swojej grupy. Po zdefiniowaniu wszystkich znormalizowanych kombinacji liniowych jako klasy dopuszczalnych przekształceń F wskaźników początkowych, szukamy rozwiązania poprzez maksymalizację (ze względu na S i ) funkcjonału

gdzie jest współczynnikiem korelacji między zmiennymi.

13.1.4. Skalowanie wielowymiarowe (patrz rozdział 16).

W szeregu sytuacji, a przede wszystkim w sytuacjach, gdy wstępne dane statystyczne uzyskuje się za pomocą specjalnych badań, kwestionariuszy, ocen eksperckich, może się zdarzyć, że elementem pierwotnej obserwacji nie będzie stan obiektu opisany wektorem, ale cecha charakterystyczna. bliskości par (oddalenia) dwóch obiektów (lub znaków) według liczb

W tym przypadku badacz ma jako tablicę wyjściowych danych statystycznych macierz wielkości (przy uwzględnieniu cech bliskości parami obiektów) lub (przy uwzględnieniu cech bliskości parami obiektów) postaci

gdzie ilości są interpretowane albo jako odległości między obiektami (cechami) i, albo jako rangi określające kolejność tych odległości. Zadaniem skalowania wielowymiarowego jest „zanurzenie” naszych obiektów (cech) w taką -wymiarową przestrzeń, czyli taki dobór osi współrzędnych, aby początkowa konfiguracja geometryczna zbioru analizowanych obiektów wskazywała punkty (lub cechy punktowe) za pomocą ( 13.1) lub (13.5), okazałaby się najmniej zniekształcona w sensie jakiegoś kryterium średniego „stopnia zniekształcenia” wzajemnych odległości parami.

Kryterium wyznacza jeden z dość ogólnych schematów skalowania wielowymiarowego

gdzie - odległość między obiektami w przestrzeni pierwotnej, - odległość między tymi samymi obiektami w pożądanej przestrzeni o niższym wymiarze - są parametrami dowolnymi, których wybór konkretnych wartości pozostaje w gestii badacza.

Ustaliwszy miarę zawartości informacyjnej pożądanego zbioru cech Z, jako odwrotność wspomnianego wyżej stopnia zniekształcenia struktury geometrycznej pierwotnego zbioru punktów, sprowadzamy ten problem do ogólnego sformułowania (13.2 ), zakładając

13.1.5. Wybór wskaźników najbardziej informacyjnych w modelach analizy dyskryminacyjnej (patrz § 1.4; 2.5).

Powyższe funkcjonalności są miarami autoinformatywności odpowiedniego systemu cech. Podajmy teraz przykłady kryteriów treści informacji zewnętrznej. W szczególności będziemy zainteresowani zawartością informacyjną systemu wskaźników z punktu widzenia prawidłowej klasyfikacji obiektów według tych wskaźników w schemacie analizy dyskryminacyjnej. W tym przypadku klasę dopuszczalnych przekształceń F definiujemy w oparciu o wymagania, że ​​można brać pod uwagę jedynie reprezentantów zbioru wskaźników wyjściowych, tj.

Wspólną tezą wyjściową przy rozwiązywaniu problemu wyodrębnienia wskaźników najbardziej informacyjnych ze zbioru pierwotnego jest stwierdzenie, że wektor wskaźników danego wymiaru jest tym bardziej informatywny, im większa jest różnica w prawach jego rozkładu prawdopodobieństwa, zdefiniowanych w różnych klas w rozpatrywanym problemie klasyfikacyjnym. Jeśli wprowadzimy miarę różnic parami w prawach opisujących rozkład prawdopodobieństwa wektora cech w klasach z liczbami, to możemy sformalizować powyższą zasadę wyboru wskaźników najbardziej informacyjnych poprzez wyznaczenie ich z warunku maksymalizacji (o) wartości

Najczęściej stosowanymi miarami różnicy między prawami rozkładu prawdopodobieństwa są odległość typu informacyjnego (odległość Kullbacka, odległość Mahalanobisa), a także „odległość wariacyjna” (więcej szczegółów można znaleźć w .

13.1.6. Wybór zmiennych najbardziej informacyjnych w modelach regresji (patrz).

Konstruując zależności typu regresyjnego, jedną z głównych kwestii jest identyfikacja stosunkowo małej liczby zmiennych (ze zbioru apriorycznego, które w największym stopniu wpływają na zachowanie badanej cechy wynikowej).

Zatem, podobnie jak w poprzednim akapicie, na klasę F składają się wszystkie możliwe zbiory zmiennych wybrane z początkowego zbioru argumentów-czynników i mamy do czynienia z kryterium zawartości informacji zewnętrznej takich zbiorów. Jego typ określa się zwykle za pomocą wielokrotnego współczynnika determinacji – charakterystyki stopnia ścisłego powiązania wskaźnika y ze zbiorem zmiennych. W tym przypadku dla stałego wymiaru za najbardziej informatywny zostanie oczywiście uznany zbiór zmiennych (z punktu widzenia trafności opisu zachowania się wskaźnika y), jeżeli wartość miary zawartości informacyjnej na tym zbiorze osiągnie maksimum.

  • W statystyce, uczeniu maszynowym i teorii informacji redukcja wymiarowości to transformacja danych polegająca na zmniejszeniu liczby zmiennych poprzez uzyskanie głównych zmiennych. Transformację można podzielić na selekcję cech i ekstrakcję cech.

Powiązane pojęcia

Wzmianki w literaturze

– ładowanie i wstępna obróbka danych wejściowych, – ręczne i automatyczne oznaczanie materiałów bodźcowych (wybór obszarów zainteresowania), – algorytm obliczania macierzy reprezentacji następczej, – budowa rozszerzonej tabeli danych z wartościami zmiennych wejściowych niezbędnych do późniejsza analiza, – metoda redukcja wymiarowości przestrzeń cech (metoda głównych składowych), – wizualizacja obciążeń komponentów w celu wybrania komponentów interpretowalnych, – algorytm uczenia drzewa decyzyjnego, – algorytm oceny zdolności predykcyjnej drzewa, – wizualizacja drzewa decyzyjnego.

Pojęcia pokrewne (ciąg dalszy)

Techniki grupowania widmowego wykorzystują widmo (wartości własne) macierzy podobieństwa danych do przeprowadzenia redukcji wymiarowości przed grupowaniem w przestrzeniach o niższych wymiarach. Jako dane wejściowe podawana jest macierz podobieństwa, która składa się z ilościowych szacunków względnego podobieństwa każdej pary punktów w danych.

Metody spektralne to klasa technik stosowanych w matematyce stosowanej do numerycznego rozwiązywania niektórych równań różniczkowych, prawdopodobnie obejmujących szybką transformatę Fouriera. Pomysł polega na tym, aby przepisać rozwiązanie równań różniczkowych jako sumę niektórych „funkcji podstawowych” (np. szereg Fouriera jest sumą sinusoid), a następnie wybrać współczynniki z sumy, aby najlepiej jak to możliwe spełnić równanie różniczkowe.

Analiza matematyczna (klasyczna analiza matematyczna) - zbiór działów matematyki odpowiadających działowi historycznemu zwanemu „analizą nieskończenie małą”, łączy w sobie rachunek różniczkowy i całkowy.

Ewolucja różniczkowa to metoda wielowymiarowej optymalizacji matematycznej należąca do klasy algorytmów optymalizacji stochastycznej (czyli działa przy użyciu liczb losowych) i wykorzystująca pewne idee algorytmów genetycznych, ale w przeciwieństwie do nich nie wymaga pracy ze zmiennymi w kodzie binarnym .

Metoda elementów dyskretnych (DEM, od angielskiego Discrete element method) to rodzina metod numerycznych przeznaczonych do obliczania ruchu dużej liczby cząstek, takich jak cząsteczki, ziarna piasku, żwiru, kamyków i innych ośrodków ziarnistych. Metoda ta została pierwotnie zastosowana przez Cundalla w 1971 roku do rozwiązywania problemów mechaniki skał.