Metoder til at reducere datadimensionalitet. Introduktion til dimensionsreduktion

Maskinlæring er intet andet end et læringsområde, der gør det muligt for computere at "lære" ligesom mennesker uden behov for eksplicit programmering.

Hvad er prædiktiv modellering: Prædiktiv modellering er en probabilistisk proces, der giver os mulighed for at forudsige resultater baseret på visse forudsigere. Disse prædiktorer er dybest set funktioner, der spiller ind ved bestemmelse af det endelige output, det vil sige modellens output.

Hvad er dimensionsreduktion?

I maskinlæringsklassifikationsproblemer er der ofte for mange faktorer, som den endelige klassificering er baseret på. Disse faktorer er grundlæggende variabler kaldet træk. Jo flere funktioner, jo sværere er det at visualisere træningssættet og derefter arbejde videre med det. Nogle gange er de fleste af disse funktioner indbyrdes forbundne og derfor overflødige. Det er her, dimensionsreduktionsalgoritmer kommer i spil. Dimensionalitetsreduktion er processen med at reducere antallet af tilfældige variabler, der tages i betragtning ved at opnå et sæt af principielle variable. Dette kan opdeles i funktionsvalg og funktionsudtræk.

Hvorfor er dimensionalitetsreduktion vigtig i maskinlæring og prædiktiv modellering?

Et intuitivt eksempel på dimensionsreduktion kan diskuteres ved hjælp af et simpelt e-mail-klassificeringsproblem, hvor vi skal afgøre, om en e-mail er spam eller ej. Dette kan involvere et stort antal funktioner, såsom om e-mailen har en fælles header, indholdet af e-mailen, om e-mailen bruger en skabelon osv. Nogle af disse funktioner kan dog overlappe. I en anden tilstand er der en klassificeringsproblem, der afhænger af både fugtighed og nedbør, kan opsummeres i én grundlæggende karakteristik, da begge ovenstående er meget korrelerede. Derfor kan vi reducere antallet af funktioner i sådanne problemer. Et tredimensionelt klassifikationsproblem er svært at forestille sig, mens et todimensionelt klassifikationsproblem kan kortlægges til et simpelt todimensionelt rum og et endimensionelt problem til en simpel linje. Nedenstående figur illustrerer dette koncept, hvor 3D-funktionsrummet er opdelt i to 1D-funktionsrum og senere, hvis de viser sig at være korrelerede, kan antallet af funktioner reduceres yderligere.

Dimensionalitetsreduktionskomponenter

Der er to komponenter til dimensionalitetsreduktion:

  • Valg af funktioner: i dette afsnit forsøger vi at finde en delmængde af det oprindelige sæt af variabler eller funktioner for at opnå en mindre delmængde, der kan bruges til at modellere problemet. Dette involverer normalt tre måder:
    1. Filter
    2. indpakning
    3. implementeret
  • Funktionsudtræk: Dette reducerer dataene i et højdimensionelt rum til en lavere dimension, det vil sige et lavere nummereret rum. størrelser.

Dimensionalitetsreduktionsmetoder

Forskellige teknikker, der bruges til dimensionalitetsreduktion, omfatter:

  • Principal Component Analysis (PCA)
  • Lineær diskriminationsanalyse (LDA)
  • Generaliseret diskriminationsanalyse (GDA)

Dimensionalitetsreduktion kan enten være lineær eller ikke-lineær, afhængigt af den anvendte metode. En grundlæggende lineær metode kaldet principal komponent analyse, eller PCA, diskuteres nedenfor.

Hovedkomponentanalyse

Denne metode blev introduceret af Karl Pearson. Det fungerer under den betingelse, at mens data i et højere dimensionelt rum kortlægges til data i et lavere dimensionelt rum, skal variansen af ​​data i det lavere dimensionelle rum maksimeres.

Det omfatter følgende trin:

  • Konstruer en kovariansmatrix af dataene.
  • Beregn egenvektorerne for denne matrix.
  • Egenvektorerne svarende til de største egenværdier bruges til at genvinde det meste af variansen i de originale data.

Derfor står vi tilbage med færre egenvektorer, og der kan være sket noget tab af data i processen. Men de vigtigste afvigelser skal bevares af de resterende egenvektorer.

Fordele ved dimensionsreduktion

  • Dette hjælper med datakomprimering og reducerer dermed lagerplads.
  • Dette reducerer beregningstiden.
  • Det hjælper også med at fjerne overflødige funktioner, hvis nogen.

Ulemper ved dimensionsreduktion

  • Dette kan resultere i noget datatab.
  • PCA har en tendens til at finde lineære korrelationer mellem variabler, hvilket nogle gange er uønsket.
  • PCA mislykkes i tilfælde, hvor middelværdien og kovariansen ikke er tilstrækkelig til at definere datasæt.
  • Vi ved måske ikke, hvor mange grundlæggende komponenter vi skal følge i praksis, nogle tommelfingerregler gælder.

Denne artikel er leveret af Anannei Uberoi. Hvis du kan lide GeeksforGeeks og gerne vil bidrage, kan du også skrive en artikel ved at bruge bidrag.geeksforgeeks.org eller ved at maile artiklen [e-mail beskyttet]. Se din artikel vises på GeeksforGeeks-hjemmesiden og hjælp andre nørder.

Datareduktion

I analytiske teknologier refererer reduktion af datadimensionalitet til processen med at konvertere det til en form, der er mest bekvem til analyse og fortolkning. Dette opnås normalt ved at reducere deres volumen, reducere antallet af brugte funktioner og mangfoldigheden af ​​deres betydninger.

Ofte er analyserede data ufuldstændige, når de dårligt afspejler afhængighederne og mønstrene i de forretningsprocesser, der undersøges. Årsagerne til dette kan være et utilstrækkeligt antal observationer, fraværet af tegn, der afspejler de væsentlige egenskaber ved objekter. I dette tilfælde anvendes databerigelse.

Dimensionalitetsreduktion anvendes i det modsatte tilfælde, når dataene er overflødige. Redundans opstår, når et analyseproblem kan løses med samme grad af effektivitet og nøjagtighed, men ved hjælp af en mindre datadimension. Dette giver dig mulighed for at reducere tiden og beregningsomkostningerne ved at løse problemet, hvilket gør dataene og resultaterne af deres analyse mere fortolkelige og forståelige for brugeren.

Reduktion af antallet af dataobservationer bruges, hvis en løsning af sammenlignelig kvalitet kan opnås fra en mindre stikprøvestørrelse, og derved reducere beregnings- og tidsomkostninger. Dette gælder især for algoritmer, der ikke er skalerbare, hvor selv en lille reduktion i antallet af poster fører til en betydelig gevinst i beregningstid.

Det giver mening at reducere antallet af funktioner, når de nødvendige oplysninger til en højkvalitetsløsning af problemet er indeholdt i en bestemt delmængde af funktioner, og det er ikke nødvendigt at bruge dem alle. Dette gælder især for korrelerede funktioner. For eksempel indeholder karakteristikaene "Alder" og "Arbejdserfaring" i det væsentlige de samme oplysninger, så en af ​​dem kan udelukkes.

Det mest effektive middel til at reducere antallet af funktioner er faktoranalyse og hovedkomponentmetode.

At reducere mangfoldigheden af ​​funktionsværdier giver mening, for eksempel hvis nøjagtigheden af ​​datarepræsentationen er for høj, og heltal kan bruges i stedet for reelle værdier uden at forringe kvaliteten af ​​modellen. Men dette vil reducere mængden af ​​hukommelse optaget af dataene og beregningsomkostningerne.

Delmængden af ​​data opnået som et resultat af dimensionalitetsreduktion bør arve så meget information fra det originale sæt, som det er nødvendigt for at løse problemet med en given nøjagtighed, og beregnings- og tidsomkostningerne ved datareduktion bør ikke devaluere fordelene opnået ved det.

En analytisk model bygget ud fra et reduceret datasæt bør være lettere at behandle, implementere og forstå end en model bygget ud fra det originale sæt.

Beslutningen om at vælge en dimensionsreduktionsmetode er baseret på a priori viden om karakteristika ved det problem, der skal løses, og de forventede resultater, samt den begrænsede tid og computerressourcer.

I multivariat statistisk analyse er hvert objekt beskrevet af en vektor, hvis dimension er vilkårlig (men den samme for alle objekter). Imidlertid kan en person direkte opfatte kun numeriske data eller punkter på et fly. Det er meget vanskeligere at analysere klynger af punkter i tredimensionelt rum. Direkte opfattelse af højere dimensionelle data er umulig. Derfor er det helt naturligt at ønske at gå fra en flerdimensionel prøve til lavdimensionelle data, så "du kan se på det."

Ud over ønsket om klarhed er der andre motiver for at reducere dimensionalitet. De faktorer, som variablen af ​​interesse for forskeren ikke afhænger af, forstyrrer kun statistisk analyse. For det første bruges ressourcer på at indsamle information om dem. For det andet, som det kan bevises, forværrer deres medtagelse i analysen egenskaberne ved statistiske procedurer (især øger det spredningen af ​​parameterestimater og fordelingskarakteristika). Derfor er det tilrådeligt at slippe af med sådanne faktorer.

Lad os diskutere, ud fra synspunktet om dimensionalitetsreduktion, eksemplet på at bruge regressionsanalyse til at forudsige salgsvolumen, diskuteret i underafsnit 3.2.3. For det første var det i dette eksempel muligt at reducere antallet af uafhængige variable fra 17 til 12. For det andet var det muligt at konstruere en ny faktor - en lineær funktion af de 12 nævnte faktorer, som forudsiger salgsvolumen bedre end alle andre lineære kombinationer af faktorer. Derfor kan vi sige, at som et resultat faldt problemets dimension fra 18 til 2. Der forblev nemlig én uafhængig faktor (den lineære kombination givet i underafsnit 3.2.3) og én afhængig faktor - salgsvolumen.

Når man analyserer multivariate data, overvejer man normalt ikke ét, men mange problemer, især at vælge uafhængige og afhængige variable forskelligt. Overvej derfor problemet med dimensionalitetsreduktion i den følgende formulering. Der gives en multivariat prøve. Det er påkrævet at flytte fra det til et sæt vektorer af lavere dimension, så strukturen af ​​de originale data bevares så meget som muligt uden at miste, hvis det er muligt, informationen indeholdt i dataene. Opgaven specificeres inden for rammerne af hver specifik dimensionsreduktionsmetode.

Hovedkomponentmetode er en af ​​de mest almindeligt anvendte dimensionsreduktionsmetoder. Dens hovedidé er konsekvent at identificere de retninger, hvor dataene har den største spredning. Lad prøven bestå af vektorer identisk fordelt med vektoren x = (x(1), x(2), … , x(n)). Lad os overveje lineære kombinationer

Y(λ(1), λ(2), …, λ( n)) = λ(1) x(1) + λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Her er vektoren λ = (λ(1), λ(2), …, λ( n)) ligger på enhedssfæren i n-dimensionelt rum.

I principalkomponentmetoden findes først og fremmest retningen af ​​den maksimale spredning, dvs. sådan λ, hvor variansen af ​​den stokastiske variabel når sit maksimum Y(λ) = Y(λ(1), λ(2), …, λ( n)). Så angiver vektoren λ den første hovedkomponent og mængden Y(λ) er projektionen af ​​den tilfældige vektor x til den første hovedkomponents akse.

Overvej derefter hyperplanet i form af lineær algebra n-dimensionelt rum, vinkelret på den første hovedkomponent, og projicere alle elementer af prøven på dette hyperplan. Dimensionen af ​​hyperplanet er 1 mindre end dimensionen af ​​det oprindelige rum.

I det pågældende hyperplan gentages proceduren. Retningen af ​​den største spredning findes i den, dvs. anden hovedkomponent. Derefter identificeres et hyperplan vinkelret på de to første hovedkomponenter. Dens dimension er 2 mindre end dimensionen af ​​det oprindelige rum. Næste er den næste iteration.

Fra lineær algebras synspunkt taler vi om at konstruere et nyt grundlag i n-dimensionelt rum, hvis vektorer er de vigtigste komponenter.

Variansen svarende til hver ny hovedkomponent er mindre end for den foregående. Normalt stopper de, når det er mindre end en given tærskel. Hvis valgt k hovedkomponenter, betyder det, at fra n-dimensionelle rum, vi nåede at flytte til k- dimensionelle, dvs. reducere dimensionen fra n-Før k, praktisk talt uden at forvrænge strukturen af ​​kildedataene .

Til visuel dataanalyse bruges ofte projektioner af de originale vektorer på planet af de to første hovedkomponenter. Normalt er datastrukturen tydeligt synlig, kompakte klynger af objekter og individuelle vektorer skelnes.

Hovedkomponentmetoden er en af ​​metoderne faktoranalyse. Forskellige faktoranalysealgoritmer forenes ved, at der i dem alle er en overgang til et nyt grundlag i det originale n-dimensionelt rum. Begrebet "faktorbelastning" er vigtigt, brugt til at beskrive rollen af ​​den oprindelige faktor (variabel) i dannelsen af ​​en bestemt vektor fra et nyt grundlag.

En ny idé i forhold til principal komponent metoden er, at faktorer er opdelt i grupper baseret på belastningerne. Faktorer, der har en tilsvarende indflydelse på elementerne i det nye grundlag, samles i én gruppe. Derefter anbefales det at efterlade en repræsentant fra hver gruppe. Nogle gange dannes der i stedet for at vælge en repræsentant ved beregning en ny faktor, der er central for den pågældende gruppe. Et fald i dimensionalitet opstår, når man flytter til et system af faktorer, der er repræsentanter for grupper. Andre faktorer kasseres.

Den beskrevne procedure kan udføres ikke kun ved hjælp af faktoranalyse. Vi taler om klyngeanalyse af funktioner (faktorer, variabler). For at opdele funktioner i grupper kan du bruge forskellige klyngeanalysealgoritmer. Det er nok at indtaste afstanden (et mål for nærhed, en indikator for forskel) mellem egenskaberne. Lade x Og U- to tegn. Forskel d(x, Y) mellem dem kan måles ved hjælp af prøvekorrelationskoefficienter:

d 1 (X,Y) = 1 – r n(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

Hvor r n(x, Y) – stikprøve lineær Pearson korrelationskoefficient, ρ n(x, Y) – stikprøve Spearman rangkorrelationskoefficient.

Multidimensionel skalering. Om brugen af ​​afstande (mål for nærhed, indikatorer for forskel) d(x, Y) mellem tegn x Og U en omfattende klasse af multidimensionelle skaleringsmetoder blev grundlagt. Hovedideen med denne klasse af metoder er at repræsentere hvert objekt som et punkt i det geometriske rum (sædvanligvis af dimension 1, 2 eller 3), hvis koordinater er værdierne af skjulte (latente) faktorer, som tilsammen beskrive genstanden tilstrækkeligt. I dette tilfælde erstattes relationer mellem objekter af relationer mellem punkter - deres repræsentanter. Således data om ligheden mellem objekter - ved afstandene mellem punkter, data om overlegenhed - ved den relative position af punkter.

En række forskellige multidimensionelle skaleringsmodeller anvendes i praksis. I dem alle opstår problemet med at estimere den sande dimension af faktorrummet. Lad os overveje dette problem ved at bruge eksemplet med behandling af data om ligheden mellem objekter ved hjælp af metrisk skalering.

Lad der være n genstande OM(1), OM(2), …, O(n), for hvert par objekter OM(jeg), O(j) målet for deres lighed er givet s(jeg, j). Vi tror på, at vi altid s(jeg, j) = s(j, jeg). Oprindelse af tal s(jeg, j) er ikke vigtig for at beskrive algoritmens funktion. De kunne opnås enten ved direkte måling eller ved hjælp af eksperter eller ved beregning ud fra et sæt beskrivende karakteristika eller på anden måde.

I det euklidiske rum den betragtede n objekter skal være repræsenteret ved konfiguration n punkter, og målet for nærhed af repræsentative punkter er den euklidiske afstand d(jeg, j) mellem tilsvarende punkter. Graden af ​​overensstemmelse mellem et sæt af objekter og et sæt af punkter, der repræsenterer dem, bestemmes ved at sammenligne lighedsmatricerne || s(jeg, j)|| og afstande || d(jeg, j)||. Den metriske lighedsfunktion har formen

Den geometriske konfiguration skal vælges således, at det funktionelle S når sin minimumsværdi.

Kommentar. I ikke-metrisk skalering, i stedet for nærheden af ​​nærhedsmålene og afstandene selv, tages der hensyn til nærheden af ​​ordrer på sættet af nærhedsmål og sættet af tilsvarende afstande. I stedet for funktionalitet S Analoger af Spearman og Kendall rangkorrelationskoefficienter anvendes. Med andre ord antager ikke-metrisk skalering, at nærhedsmålinger måles på en ordinær skala.

Lad det euklidiske rum have dimensionen m. Overvej den mindste gennemsnitlige kvadratiske fejl

,

hvor minimum overtages alle mulige konfigurationer n peger ind m-dimensionelt euklidisk rum. Det kan påvises, at det minimum, der anses for at være opnået ved en bestemt konfiguration. Det er klart, at med vækst m værdien α m falder monotont (mere præcist stiger ikke). Det kan vises, at hvornår m > n– 1 er lig med 0 (hvis s(jeg, j) – metrisk). For at øge mulighederne for meningsfuld fortolkning er det ønskeligt at operere i et rum af mindst mulig dimension. I dette tilfælde skal dimensionen dog vælges således, at punkterne repræsenterer objekter uden store forvrængninger. Spørgsmålet opstår: hvordan man rationelt vælger dimensionen, dvs. naturligt tal m?

Inden for rammerne af deterministisk dataanalyse synes der ikke at være noget fornuftigt svar på dette spørgsmål. Derfor er det nødvendigt at studere adfærden af ​​α m i visse probabilistiske modeller. Hvis nærhedsforanstaltninger s(jeg, j) er tilfældige variable, hvis fordeling afhænger af den "sande dimension" m 0 (og muligvis på nogle andre parametre), så kan vi stille estimeringsproblemet i den klassiske matematisk-statistiske stil m 0, se efter konsistente estimater osv.

Lad os begynde at bygge probabilistiske modeller. Lad os antage, at objekterne er punkter i det euklidiske dimensionsrum k, Hvor k stor nok. Det er den "sande dimension". m 0 betyder, at alle disse punkter ligger på dimensionens hyperplan m 0 . Lad os antage for entydigheden, at det betragtede sæt af punkter er en stikprøve fra en cirkulær normalfordeling med varians σ 2 (0). Det betyder, at objekter OM(1), OM(2), …, O(n) er kollektivt uafhængige tilfældige vektorer, som hver er konstrueret som ζ(1) e(1) + ζ(2) e(2) + … + ζ( m 0)e(m 0), hvor e(1), e(2), … , e(m 0) – ortonormal basis i dimensionens underrum m 0, hvori de overvejede punkter ligger, og ζ(1), ζ(2), … , ζ( m 0) er kollektivt uafhængige endimensionelle normale stokastiske variable med matematisk forventning) og varians σ 2 (0).

Lad os overveje to modeller til opnåelse af nærhedsforanstaltninger s(jeg, j). I den første af dem s(jeg, j) adskiller sig fra den euklidiske afstand mellem tilsvarende punkter på grund af, at punkterne er kendte med forvrængninger. Lade Med(1),Med(2), … , Med(n) er de punkter, der overvejes. Derefter

s(jeg, j) = d(c(jeg) + ε( jeg), c(j) + ε( j)), jeg, j = 1, 2, … , n,

Hvor d– Euklidisk afstand mellem punkter i k-dimensionelt rum, vektorer ε(1), ε(2), … , ε( n) repræsenterer en prøve fra en cirkulær normalfordeling i k-dimensionelt rum med nul matematisk forventning og kovariansmatrix σ 2 (1) jeg, Hvor jeg– identitetsmatrix. Med andre ord, ε( jeg) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Hvor e(1), e(2), …, e(k) – ortonormal basis i k-dimensionelt rum, og (η( jeg, t), jeg= 1, 2, … , n, t= 1, 2, … , k) – et sæt uafhængige endimensionelle stokastiske variable med nul matematisk forventning og varians σ 2 (1).

I den anden model pålægges forvrængninger direkte på selve afstandene:

s(i,j) = d(c(jeg), c(j)) + ε( i,j), i,j = 1, 2, … , n, jegj,

hvor (ε( jeg, j), jeg, j = 1, 2, … , n) – kollektivt uafhængige normale stokastiske variable med matematisk forventning) og varians σ 2 (1).

Arbejdet viser, at for begge formulerede modeller er den mindste gennemsnitlige kvadratfejl α m at n→ ∞ konvergerer i sandsynlighed til

f(m) = f 1 (m) + σ 2 (1)( km), m = 1, 2, …, k,

Altså funktionen f(m) er lineær på intervallerne og , og i det første interval falder det hurtigere end i det andet. Det følger den statistik

er et konsistent estimat af den sande dimension m 0 .

Så anbefalingen følger af den probabilistiske teori - at bruge som et skøn over dimensionen af ​​faktorrummet m*. Bemærk, at en sådan anbefaling blev formuleret som en heuristik af en af ​​grundlæggerne af multidimensionel skalering, J. Kruskal. Han kom fra erfaring med praktisk brug af multidimensionel skalering og beregningseksperimenter. Probabilistisk teori gjorde det muligt at retfærdiggøre denne heuristiske anbefaling.

Tidligere

Kapitel 13. PRINCIPAL KOMPONENT METODE

13.1. Essensen af ​​problemet med dimensionalitetsreduktion og forskellige metoder til at løse det

I forskning og praktisk statistisk arbejde skal man forholde sig til situationer, hvor det samlede antal tegn registreret på hvert af de mange objekter, der undersøges (lande, byer, virksomheder, familier, patienter, tekniske eller miljømæssige systemer) er meget stort - ca. hundrede eller mere. Men de tilgængelige multivariate observationer

bør statistisk bearbejdes, forstås eller indtastes i en database for at kunne bruge dem på det rigtige tidspunkt.

En statistikers ønske om at præsentere hver af observationerne (13.1) i form af en vektor Z af nogle hjælpeindikatorer med et væsentligt mindre (end) antal komponenter skyldes primært følgende årsager:

behovet for en visuel repræsentation (visualisering) af de indledende data (13.1), hvilket opnås ved at projicere dem på et specielt udvalgt tredimensionelt rum, et plan eller en tallinje (afsnit IV er afsat til problemer af denne type);

ønsket om lakonisme af de undersøgte modeller på grund af behovet for at forenkle beregningen og fortolkningen af ​​de opnåede statistiske konklusioner;

behovet for betydeligt at komprimere mængden af ​​lagret statistisk information (uden synlige tab i dets informationsindhold), hvis vi taler om registrering og lagring af arrays af typen (13.1) i en speciel database.

I dette tilfælde kan nye (hjælpe) egenskaber vælges blandt de oprindelige eller bestemmes i overensstemmelse med en eller anden regel baseret på et sæt initiale karakteristika, for eksempel som deres lineære kombinationer. Når der dannes et nyt system af funktioner, stilles der forskellige krav til sidstnævnte, såsom det største informationsindhold (i en vis forstand), gensidig ukorrelation, den mindste forvrængning af den geometriske struktur af sættet af initialdata osv. Afhængigt af varianten af ​​formel specifikation af disse krav (se nedenfor, samt afsnit IV) når vi frem til en eller anden dimensionsreduktionsalgoritme. Der er mindst tre hovedtyper af grundlæggende forudsætninger, der bestemmer muligheden for overgang fra et stort antal indledende indikatorer for tilstanden (adfærd, driftseffektivitet) af det analyserede system til et betydeligt mindre antal af de mest informative variabler. Dette er for det første duplikering af information leveret af stærkt indbyrdes forbundne funktioner; for det andet manglen på informationsindhold i funktioner, der ændrer sig lidt, når de flyttes fra et objekt til et andet (lav "variabilitet" af funktioner); for det tredje muligheden for aggregering, dvs. simpel eller "vægtet" summering, efter bestemte kriterier.

Formelt kan opgaven med overgang (med minimale tab i informationsindhold) til et nyt sæt funktioner beskrives som følger. Lad være nogle p-dimensionelle vektorfunktion af de indledende variabler og lad være et bestemt specificeret mål for informativiteten af ​​det -dimensionelle system af funktioner.Det specifikke valg af den funktionelle afhænger af detaljerne i det reelle problem, der løses, og er baseret på et af de mulige kriterier: kriteriet om auto-informativitet, der sigter mod at maksimere bevarelsen af ​​informationen indeholdt i det originale array i forhold til selve de originale funktioner; og kriteriet om eksternt informationsindhold, rettet mod at maksimere "klemning" ud af informationen indeholdt i dette array i forhold til nogle andre (eksterne) indikatorer.

Opgaven er at bestemme et sådant sæt af funktioner Z, der findes i klassen F af tilladte transformationer af indledende indikatorer, at

En eller anden version af specifikationen af ​​denne erklæring (som bestemmer det specifikke valg af informationsindholdsmål) og klassen af ​​tilladte transformationer) fører til en specifik metode til dimensionalitetsreduktion: hovedkomponentmetoden, faktoranalyse, ekstrem gruppering af parametre, etc.

Lad os forklare dette med eksempler.

13.1.1. Hovedkomponentmetode (se § 13.2-§ 13.6).

Det er til de første hovedkomponenter, at forskeren vil komme, hvis han som en klasse af tilladelige transformationer F definerer alle mulige lineære ortogonale normaliserede kombinationer af initiale indikatorer, dvs.

(her) er den matematiske forventning og som et mål for informationsindholdet i det dimensionelle system af indikatorer, udtrykket

(her er D, som før, tegnet på operationen med at beregne variansen af ​​den tilsvarende stokastiske variabel).

13.1.2. Faktoranalyse (se kapitel 14).

Som bekendt (se § 14.1) forklarer faktoranalysemodellen strukturen af ​​sammenhænge mellem de initiale indikatorer ved, at hver af dems adfærd statistisk afhænger af det samme sæt af såkaldte fælles faktorer, dvs.

hvor - "belastningen" af den generelle faktor på den indledende indikator - den resterende "specifikke" tilfældige komponent, og - er parvis ukorrelerede.

Det viser sig, at hvis F er defineret som klassen af ​​alle mulige lineære kombinationer, under hensyntagen til de nævnte begrænsninger på og som et mål for informationsindholdet i det dimensionelle system af indikatorer, skal du vælge en værdi, så er løsningen til optimeringen problem (13.2) falder sammen med vektoren af ​​fælles faktorer i faktoranalysemodellen. Her er korrelationsmatricen for de indledende indikatorer; korrelationsmatricen af ​​indikatorer er den euklidiske norm for matrix A.

13.1.3. Metode til ekstrem gruppering af funktioner (se afsnit 14.2.1).

I denne metode taler vi om at opdele sættet af initiale indikatorer i et givet antal grupper, således at de egenskaber, der tilhører en gruppe, ville være relativt stærkt interkorrelerede, mens de karakteristika, der tilhører forskellige grupper, ville være svagt korrelerede. Samtidig løses problemet med at erstatte hver gruppe af stærkt indbyrdes korrelerede indledende indikatorer med en ekstra "resultant" indikator, som naturligvis bør være i tæt sammenhæng med egenskaberne for dens gruppe. Efter at have defineret alle normaliserede lineære kombinationer som en klasse af tilladte transformationer F af de indledende indikatorer, leder vi efter en løsning ved at maksimere (med hensyn til S og ) den funktionelle

hvor er korrelationskoefficienten mellem variable.

13.1.4. Multidimensionel skalering (se kapitel 16).

I en række situationer, og primært i situationer, hvor indledende statistiske data er indhentet ved hjælp af specielle undersøgelser, spørgeskemaer, ekspertvurderinger, kan der være tilfælde, hvor elementet af primær observation ikke er tilstanden af ​​objektet beskrevet af vektoren, men karakteristikken. af den parvise nærhed (fjernhed) af to objekter (eller tegn) i henhold til tallene

I dette tilfælde har forskeren som en række indledende statistiske data en matrix af størrelse (hvis karakteristika for parvis nærhed af objekter tages i betragtning) eller (hvis karakteristika for parvis nærhed af funktioner tages i betragtning) af formen

hvor mængder fortolkes enten som afstande mellem objekter (træk) i og enten som rækker, der specificerer rækkefølgen af ​​disse afstande. Opgaven med multidimensional skalering er at "nedsænke" vores objekter (egenskaber) i et sådant -dimensionelt rum, dvs. at vælge koordinatakser, således at den indledende geometriske konfiguration af sættet af analyserede objektpunkter (eller punkttræk) specificeret ved hjælp af ( 13.1) eller (13.5), ville vise sig at være mindst forvrænget i betydningen af ​​et eller andet kriterium for den gennemsnitlige "grad af forvrængning" af indbyrdes parvise afstande.

Et af de ret generelle flerdimensionelle skaleringsskemaer bestemmes af kriteriet

hvor - afstanden mellem objekter i det oprindelige rum, - afstanden mellem de samme objekter i det ønskede rum af en lavere dimension - er frie parametre, hvis valg af specifikke værdier er efter forskerens skøn.

Efter at have bestemt målingen af ​​informationsindholdet i det ønskede sæt af funktioner Z, for eksempel som det omvendte af den ovennævnte grad af forvrængning af den geometriske struktur af det oprindelige sæt af punkter, reducerer vi dette problem til den generelle formulering (13.2 ), forudsat

13.1.5. Udvælgelse af de mest informative indikatorer i diskriminantanalysemodeller (se § 1.4; 2.5).

Ovenstående funktionaliteter er mål for auto-informativiteten af ​​det tilsvarende system af funktioner. Lad os nu give eksempler på kriterier for eksternt informationsindhold. Især vil vi være interesseret i informationsindholdet i systemet af indikatorer ud fra synspunktet om den korrekte klassificering af objekter i henhold til disse indikatorer i diskriminantanalyseskemaet. I dette tilfælde definerer vi klassen af ​​tilladte transformationer F baseret på kravene om, at kun repræsentanter for et sæt indledende indikatorer kan overvejes, dvs.

En almindelig indledende tese, når man løser problemet med at identificere de mest informative indikatorer fra det originale sæt, er udsagnet om, at en vektor af indikatorer af en given dimension er jo mere informativ, jo større er forskellen i lovene for dens sandsynlighedsfordeling, defineret i forskellige klasser i det undersøgte klassifikationsproblem. Hvis vi introducerer et mål for parvise forskelle i lovene, der beskriver sandsynlighedsfordelingen af ​​trækvektoren i klasser med tal, så kan vi formalisere ovenstående princip om at vælge de mest informative indikatorer ved at bestemme dem ud fra betingelsen om at maksimere (ved) værdien

De mest almindeligt anvendte mål for forskel mellem lovene for sandsynlighedsfordeling er informationstypeafstanden (Kullback-afstand, Mahalanobis-afstand) såvel som "variationsafstanden" (for flere detaljer, se .

13.1.6. Udvælgelse af de mest informative variable i regressionsmodeller (se).

Når man konstruerer afhængigheder af regressionstype, er et af de centrale spørgsmål at identificere et relativt lille antal variable (fra det a priori-sæt, der har størst indflydelse på adfærden af ​​den resulterende karakteristik, der undersøges).

Således, som i det foregående afsnit, består klasse F af alle mulige sæt af variable udvalgt fra det indledende sæt af faktor-argumenter, og vi har at gøre med kriteriet om eksternt informationsindhold i sådanne sæt. Dens type er normalt specificeret ved hjælp af en multipel bestemmelseskoefficient - en karakteristik af graden af ​​tæt forbindelse mellem indikatoren y og et sæt af variabler. I dette tilfælde, for en fast dimension, vil sættet af variabler naturligvis blive betragtet som det mest informative. (fra synspunktet om nøjagtigheden af ​​at beskrive adfærden af ​​indikatoren y), hvis værdien af ​​målingen af ​​informationsindhold på dette, når sættet sit maksimum.

  • I statistik, maskinlæring og informationsteori er dimensionalitetsreduktion en transformation af data, der består i at reducere antallet af variable ved at opnå hovedvariablerne. Transformation kan opdeles i funktionsvalg og funktionsudtræk.

Beslægtede begreber

Omtaler i litteraturen

– indlæsning og forbehandling af inputdata – manuel og automatisk markering af stimulusmaterialer (udvælgelse af interesseområder), – algoritme til beregning af efterfølgerrepræsentationsmatricen, – konstruktion af en udvidet datatabel med værdierne af inputvariabler, der er nødvendige for efterfølgende analyse, – metode dimensionsreduktion feature space (principal component method), – visualisering af komponentbelastninger til udvælgelse af fortolkbare komponenter, – algoritme til træning af et beslutningstræ, – algoritme til vurdering af et træs forudsigelsesevne, – visualisering af et beslutningstræ.

Relaterede begreber (fortsat)

Spektral klyngeteknikker bruger spektret (egenværdier) af datalighedsmatrixen til at udføre dimensionalitetsreduktion før klyngning i lavere dimensionelle rum. Lighedsmatricen er givet som input og består af kvantitative estimater af den relative lighed mellem hvert par af punkter i dataene.

Spektralmetoder er en klasse af teknikker, der anvendes i anvendt matematik til den numeriske løsning af visse differentialligninger, muligvis involverer den hurtige Fourier-transform. Ideen er at omskrive løsningen af ​​differentialligninger som summen af ​​nogle "basisfunktioner" (som hvordan Fourierrækker er summen af ​​sinusoider), og derefter vælge koefficienterne i summen for at tilfredsstille differentialligningen bedst muligt.

Matematisk analyse (klassisk matematisk analyse) - et sæt af grene af matematik svarende til den historiske sektion kaldet "infinitesimal analyse", kombinerer differential- og integralregning.

Differentiel evolution er en metode til multidimensionel matematisk optimering, der tilhører klassen af ​​stokastiske optimeringsalgoritmer (det vil sige, den fungerer ved hjælp af tilfældige tal) og bruger nogle ideer om genetiske algoritmer, men som i modsætning til dem ikke kræver at arbejde med variabler i binær kode .

Den diskrete elementmetode (DEM, fra den engelske diskrete elementmetode) er en familie af numeriske metoder designet til at beregne bevægelsen af ​​et stort antal partikler, såsom molekyler, sandkorn, grus, småsten og andre granulerede medier. Metoden blev oprindeligt anvendt af Cundall i 1971 til at løse bjergmekaniske problemer.