Metoder for å redusere datadimensjonalitet. Introduksjon til dimensjonsreduksjon

Maskinlæring er ikke noe mer enn et læringsfelt som lar datamaskiner "lære" som mennesker uten behov for eksplisitt programmering.

Hva er prediktiv modellering: Prediktiv modellering er en probabilistisk prosess som lar oss forutsi utfall basert på visse prediktorer. Disse prediktorene er i utgangspunktet funksjoner som spiller inn for å bestemme den endelige utgangen, det vil si utgangen til modellen.

Hva er dimensjonalitetsreduksjon?

I maskinlæringsklassifiseringsproblemer er det ofte for mange faktorer som den endelige klassifiseringen er basert på. Disse faktorene er i utgangspunktet variabler kalt egenskaper. Jo flere funksjoner, desto vanskeligere er det å visualisere treningssettet og deretter jobbe med det. Noen ganger henger de fleste av disse funksjonene sammen og er derfor overflødige. Det er her dimekommer inn i bildet. Dimensjonsreduksjon er prosessen med å redusere antall tilfeldige variabler som vurderes ved å oppnå et sett med hovedvariabler. Dette kan deles inn i funksjonsvalg og funksjonsutvinning.

Hvorfor er dimensjonalitetsreduksjon viktig i maskinlæring og prediktiv modellering?

Et intuitivt eksempel på reduksjon av dimensjonalitet kan diskuteres ved å bruke et enkelt problem med e-postklassifisering der vi må finne ut om en e-post er spam eller ikke. Dette kan innebære et stort antall funksjoner, for eksempel om e-posten har en felles overskrift, innholdet i e-posten, om e-posten bruker en mal osv. Noen av disse funksjonene kan imidlertid overlappe hverandre. I en annen tilstand er det en klassifiseringsproblem som avhenger av både fuktighet og nedbør, kan oppsummeres til en grunnleggende egenskap, siden begge de ovennevnte er sterkt korrelerte. Derfor kan vi redusere antall funksjoner i slike problemer. Et tredimensjonalt klassifiseringsproblem er vanskelig å forestille seg, mens et todimensjonalt klassifiseringsproblem kan kartlegges til et enkelt todimensjonalt rom, og et endimensjonalt problem til en enkel linje. Figuren nedenfor illustrerer dette konseptet, der 3D-funksjonsrommet er delt inn i to 1D-funksjonsrom og senere, hvis de viser seg å være korrelert, kan antallet funksjoner reduseres ytterligere.

Komponenter for dimensjonsreduksjon

Det er to komponenter til dimensjonalitetsreduksjon:

  • Funksjonsvalg: i denne delen prøver vi å finne en delmengde av det opprinnelige settet med variabler eller funksjoner for å få et mindre delsett som kan brukes til å modellere problemet. Dette involverer vanligvis tre måter:
    1. Filter
    2. innpakning
    3. implementert
  • Funksjonsekstraksjon: Dette reduserer dataene i et høydimensjonalt rom til en lavere dimensjon, det vil si et rom med lavere nummer. størrelser.

Metoder for dimensjonsreduksjon

Ulike teknikker som brukes for reduksjon av dimensjonalitet inkluderer:

  • Hovedkomponentanalyse (PCA)
  • Lineær diskrimineringsanalyse (LDA)
  • Generalisert diskrimineringsanalyse (GDA)

Dimensjonsreduksjon kan enten være lineær eller ikke-lineær, avhengig av metoden som brukes. En grunnleggende lineær metode kalt hovedkomponentanalyse, eller PCA, er diskutert nedenfor.

Hovedkomponentanalyse

Denne metoden ble introdusert av Karl Pearson. Det fungerer under forutsetningen at mens data i et høyere dimensjonalt rom kartlegges til data i et lavere dimensjonalt rom, må variansen til dataene i det lavere dimensjonale rommet maksimeres.

Den inkluderer følgende trinn:

  • Konstruer en kovariansmatrise av dataene.
  • Beregn egenvektorene til denne matrisen.
  • Egenvektorene som tilsvarer de største egenverdiene brukes til å gjenopprette det meste av variansen i de opprinnelige dataene.

Derfor sitter vi igjen med færre egenvektorer og noe tap av data kan ha oppstått i prosessen. Men de viktigste avvikene må bevares av de resterende egenvektorene.

Fordeler med dimensjonsreduksjon

  • Dette hjelper med datakomprimering og reduserer dermed lagringsplass.
  • Dette reduserer beregningstiden.
  • Det hjelper også å fjerne overflødige funksjoner, hvis noen.

Ulemper med dimensjonsreduksjon

  • Dette kan føre til noe tap av data.
  • PCA har en tendens til å finne lineære korrelasjoner mellom variabler, noe som noen ganger er uønsket.
  • PCA mislykkes i tilfeller der gjennomsnittet og kovariansen ikke er tilstrekkelig til å definere datasett.
  • Vi vet kanskje ikke hvor mange grunnleggende komponenter vi skal følge i praksis, noen tommelfingerregler gjelder.

Denne artikkelen er levert av Anannei Uberoi. Hvis du liker GeeksforGeeks og har lyst til å bidra, kan du også skrive en artikkel ved å bruke bidra.geeksforgeeks.org eller ved å sende artikkelen på e-post [e-postbeskyttet]. Se artikkelen din vises på GeeksforGeeks-hjemmesiden og hjelp andre nerder.

Datareduksjon

I analytiske teknologier refererer reduksjon av datadimensjonalitet til prosessen med å konvertere den til en form som er mest praktisk for analyse og tolkning. Dette oppnås vanligvis ved å redusere volumet, redusere antall funksjoner som brukes og mangfoldet av betydningene deres.

Ofte er analyserte data ufullstendige når de dårlig reflekterer avhengighetene og mønstrene til forretningsprosessene som studeres. Årsakene til dette kan være et utilstrekkelig antall observasjoner, fravær av tegn som gjenspeiler de essensielle egenskapene til objekter. I dette tilfellet brukes databerikelse.

Dimensjonsreduksjon brukes i motsatt tilfelle, når dataene er overflødige. Redundans oppstår når et analyseproblem kan løses med samme grad av effektivitet og nøyaktighet, men med en mindre datadimensjon. Dette lar deg redusere tiden og beregningskostnadene ved å løse problemet, noe som gjør dataene og resultatene av deres analyse mer tolkbare og forståelige for brukeren.

Redusering av antall dataobservasjoner brukes hvis en løsning av sammenlignbar kvalitet kan oppnås fra en mindre utvalgsstørrelse, og dermed redusere beregnings- og tidskostnader. Dette gjelder spesielt for algoritmer som ikke er skalerbare, der selv en liten reduksjon i antall poster fører til en betydelig gevinst i beregningstid.

Det er fornuftig å redusere antall funksjoner når informasjonen som er nødvendig for en høykvalitets løsning av problemet er inneholdt i en viss undergruppe av funksjoner og det ikke er nødvendig å bruke dem alle. Dette gjelder spesielt for korrelerte funksjoner. For eksempel har egenskapene "Alder" og "Arbeidserfaring" i hovedsak den samme informasjonen, så en av dem kan ekskluderes.

Det mest effektive middelet for å redusere antall funksjoner er faktoranalyse og hovedkomponentmetode.

Å redusere mangfoldet av funksjonsverdier er fornuftig, for eksempel hvis nøyaktigheten av datarepresentasjonen er overdreven og heltall kan brukes i stedet for reelle verdier uten å forringe kvaliteten på modellen. Men dette vil redusere mengden minne okkupert av dataene og beregningskostnadene.

Delmengden av data oppnådd som et resultat av dimensjonalitetsreduksjon bør arve fra det originale settet så mye informasjon som er nødvendig for å løse problemet med en gitt nøyaktighet, og beregnings- og tidskostnadene ved datareduksjon bør ikke devaluere fordelene som oppnås fra det.

En analytisk modell bygget fra et redusert datasett bør være enklere å behandle, implementere og forstå enn en modell bygget fra det originale settet.

Beslutningen om å velge en dimensjonsreduksjonsmetode er basert på a priori kunnskap om egenskapene til problemet som skal løses og de forventede resultatene, samt begrensede tid og dataressurser.

I multivariat statistisk analyse er hvert objekt beskrevet av en vektor hvis dimensjon er vilkårlig (men den samme for alle objekter). Imidlertid kan en person direkte oppfatte bare numeriske data eller punkter på et fly. Å analysere klynger av punkter i tredimensjonalt rom er mye vanskeligere. Direkte oppfatning av høyere dimensjonale data er umulig. Derfor er det ganske naturlig å ønske å gå fra en flerdimensjonal prøve til lavdimensjonale data slik at "du kan se på det."

I tillegg til ønsket om klarhet, er det andre motiver for å redusere dimensjonalitet. De faktorene som variabelen av interesse for forskeren ikke er avhengig av, forstyrrer bare statistisk analyse. For det første brukes ressurser på å samle informasjon om dem. For det andre, som kan bevises, forverrer deres inkludering i analysen egenskapene til statistiske prosedyrer (spesielt øker det spredningen av parameterestimater og distribusjonskarakteristikker). Derfor er det tilrådelig å kvitte seg med slike faktorer.

La oss diskutere, fra et synspunkt om dimensjonalitetsreduksjon, eksemplet på bruk av regresjonsanalyse for å forutsi salgsvolum, diskutert i underavsnitt 3.2.3. For det første var det i dette eksemplet mulig å redusere antall uavhengige variabler fra 17 til 12. For det andre var det mulig å konstruere en ny faktor – en lineær funksjon av de 12 nevnte faktorene, som predikerer salgsvolum bedre enn alle andre lineære kombinasjoner av faktorer. Derfor kan vi si at som et resultat, sank dimensjonen av problemet fra 18 til 2. Det forble nemlig en uavhengig faktor (den lineære kombinasjonen gitt i underavsnitt 3.2.3) og en avhengig faktor - salgsvolum.

Når man analyserer multivariate data, vurderer man vanligvis ikke ett, men mange problemer, spesielt å velge uavhengige og avhengige variabler annerledes. Vurder derfor problemet med dimensjonalitetsreduksjon i følgende formulering. Et multivariat utvalg er gitt. Det er nødvendig å flytte fra det til et sett med vektorer med lavere dimensjon, og bevare strukturen til de originale dataene så mye som mulig, uten å miste, hvis mulig, informasjonen som finnes i dataene. Oppgaven spesifiseres innenfor rammen av hver spesifikke.

Hovedkomponentmetode er en av de mest brukte metodene for dimensjonalitetsreduksjon. Hovedideen er å konsekvent identifisere retningene der dataene har størst spredning. La prøven bestå av vektorer som er identisk fordelt med vektoren X = (x(1), x(2), … , x(n)). La oss vurdere lineære kombinasjoner

Y(λ(1), λ(2), …, λ( n)) = λ(1) x(1) + λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Her er vektoren λ = (λ(1), λ(2), …, λ( n)) ligger på enhetssfæren inn n-dimensjonalt rom.

I hovedkomponentmetoden finner man først og fremst retningen til den maksimale spredningen, dvs. slik λ der variansen til den tilfeldige variabelen når sitt maksimum Y(λ) = Y(λ(1), λ(2), …, λ( n)). Deretter spesifiserer vektoren λ den første hovedkomponenten, og mengden Y(λ) er projeksjonen av den tilfeldige vektoren X til aksen til den første hovedkomponenten.

Deretter, når det gjelder lineær algebra, vurder hyperplanet i n-dimensjonalt rom, vinkelrett på den første hovedkomponenten, og projisere alle elementene i prøven på dette hyperplanet. Dimensjonen til hyperplanet er 1 mindre enn dimensjonen til det opprinnelige rommet.

I hyperplanet som vurderes gjentas prosedyren. Retningen til den største spredningen finnes i den, dvs. andre hovedkomponent. Deretter identifiseres et hyperplan vinkelrett på de to første hovedkomponentene. Dimensjonen er 2 mindre enn dimensjonen til det opprinnelige rommet. Neste er neste iterasjon.

Fra lineær algebras synspunkt snakker vi om å konstruere et nytt grunnlag i n-dimensjonalt rom, hvis vektorer er hovedkomponentene.

Variansen som tilsvarer hver ny hovedkomponent er mindre enn for den forrige. Vanligvis stopper de når den er mindre enn en gitt terskel. Hvis valgt k hovedkomponenter, betyr dette at fra n-dimensjonalt rom vi klarte å flytte til k- dimensjonale, dvs. redusere dimensjonen fra n-før k, praktisk talt uten å forvrenge strukturen til kildedataene .

For visuell dataanalyse brukes ofte projeksjoner av de originale vektorene på planet til de to første hovedkomponentene. Vanligvis er datastrukturen godt synlig, kompakte klynger av objekter og individuelle vektorer skilles.

Hovedkomponentmetoden er en av metodene faktor analyse. Ulike faktoranalysealgoritmer forenes ved at det i alle er en overgang til et nytt grunnlag i originalen. n-dimensjonalt rom. Konseptet "faktorbelastning" er viktig, brukt for å beskrive rollen til den opprinnelige faktoren (variabelen) i dannelsen av en viss vektor fra et nytt grunnlag.

En ny idé sammenlignet med hovedkomponentmetoden er at faktorer deles inn i grupper basert på belastningene. Faktorer som har en tilsvarende innflytelse på elementene i det nye grunnlaget, kombineres i én gruppe. Da anbefales det å la igjen én representant fra hver gruppe. Noen ganger, i stedet for å velge en representant ved beregning, dannes det en ny faktor som er sentral for den aktuelle gruppen. En reduksjon i dimensjonalitet oppstår når man flytter til et system av faktorer som er representanter for grupper. Andre faktorer forkastes.

Den beskrevne prosedyren kan utføres ikke bare ved å bruke faktoranalyse. Vi snakker om klyngeanalyse av funksjoner (faktorer, variabler). For å dele funksjoner inn i grupper kan du bruke ulike klyngeanalysealgoritmer. Det er nok å angi avstanden (et mål på nærhet, en indikator på forskjellen) mellom egenskapene. La X Og U- to tegn. Forskjell d(X, Y) mellom dem kan måles ved å bruke prøvekorrelasjonskoeffisienter:

d 1 (X,Y) = 1 – r n(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

Hvor r n(X, Y) – prøve lineær Pearson-korrelasjonskoeffisient, ρ n(X, Y) – sample Spearman rangkorrelasjonskoeffisient.

Flerdimensjonal skalering. Om bruk av avstander (mål for nærhet, indikatorer på forskjell) d(X, Y) mellom skiltene X Og U en omfattende klasse med flerdimensjonale skaleringsmetoder ble grunnlagt. Hovedideen med denne klassen av metoder er å representere hvert objekt som et punkt i geometrisk rom (vanligvis av dimensjon 1, 2 eller 3), hvis koordinater er verdiene til skjulte (latente) faktorer, som sammen adekvat beskrive objektet. I dette tilfellet erstattes relasjoner mellom objekter med relasjoner mellom punkter - deres representanter. Dermed data om likheten til objekter - etter avstandene mellom punkter, data om overlegenhet - etter den relative plasseringen av punktene.

En rekke ulike flerdimensjonale skaleringsmodeller brukes i praksis. I dem alle oppstår problemet med å estimere den sanne dimensjonen til faktorrommet. La oss vurdere dette problemet ved å bruke eksemplet med å behandle data om likheten til objekter ved å bruke metrisk skalering.

La det være n gjenstander OM(1), OM(2), …, O(n), for hvert par objekter OM(Jeg), O(j) målet for likheten deres er gitt s(Jeg, j). Vi tror at vi alltid s(Jeg, j) = s(j, Jeg). Opprinnelsen til tallene s(Jeg, j) er ikke viktig for å beskrive driften av algoritmen. De kan oppnås enten ved direkte måling, eller ved bruk av eksperter, eller ved beregning fra et sett med beskrivende egenskaper, eller på annen måte.

I det euklidiske rom anses det n objekter må representeres av konfigurasjon n punkter, og målet for nærhet til representative punkter er den euklidiske avstanden d(Jeg, j) mellom tilsvarende punkter. Graden av samsvar mellom et sett med objekter og et sett med punkter som representerer dem bestemmes ved å sammenligne likhetsmatrisene || s(Jeg, j)|| og avstander || d(Jeg, j)||. Den metriske likhetsfunksjonen har formen

Den geometriske konfigurasjonen må velges slik at den funksjonelle S når sin minimumsverdi.

Kommentar. I ikke-metrisk skalering, i stedet for nærheten til nærhetsmålene og avstandene i seg selv, vurderes nærhet til bestillinger på settet med nærhetsmål og settet med tilsvarende avstander. I stedet for funksjonalitet S Analoger av Spearman og Kendall rangkorrelasjonskoeffisienter brukes. Med andre ord, ikke-metrisk skalering forutsetter at nærhetsmål måles på en ordinær skala.

La det euklidiske rommet ha dimensjonen m. Tenk på minste gjennomsnittlige kvadratfeil

,

hvor minimum er tatt over alle mulige konfigurasjoner n peker inn m-dimensjonalt euklidisk rom. Det kan vises at minimum som vurderes oppnås ved en bestemt konfigurasjon. Det er klart det med vekst m verdien α m avtar monotont (mer presist, øker ikke). Det kan vises at når m > n– 1 er lik 0 (hvis s(Jeg, j) – metrisk). For å øke mulighetene for meningsfull tolkning er det ønskelig å operere i et rom av minst mulig dimensjon. I dette tilfellet må imidlertid dimensjonen velges slik at punktene representerer objekter uten store forvrengninger. Spørsmålet oppstår: hvordan velge dimensjonen rasjonelt, dvs. naturlig tall m?

Innenfor rammen av deterministisk dataanalyse ser det ut til at det ikke finnes noe fornuftig svar på dette spørsmålet. Derfor er det nødvendig å studere oppførselen til α m i visse sannsynlighetsmodeller. Hvis nærhetstiltak s(Jeg, j) er tilfeldige variabler hvis fordeling avhenger av den "sanne dimensjonen" m 0 (og muligens på noen andre parametere), så kan vi stille estimeringsproblemet i den klassiske matematisk-statistiske stilen m 0, se etter konsistente estimater osv.

La oss begynne å bygge sannsynlighetsmodeller. La oss anta at objektene er punkter i det euklidiske dimensjonsrommet k, Hvor k stor nok. At den "sanne dimensjonen" er m 0 betyr at alle disse punktene ligger på dimensjonens hyperplan m 0 . La oss for nøyaktighetens skyld anta at settet med punkter som vurderes er et utvalg fra en sirkulær normalfordeling med varians σ 2 (0). Dette betyr at objekter OM(1), OM(2), …, O(n) er kollektivt uavhengige tilfeldige vektorer, som hver er konstruert som ζ(1) e(1) + ζ(2) e(2) + … + ζ( m 0)e(m 0), hvor e(1), e(2), … , e(m 0) – ortonormal basis i dimensjonens underrom m 0 der punktene som vurderes ligger, og ζ(1), ζ(2), … , ζ( m 0) er kollektivt uavhengige endimensjonale normale tilfeldige variabler med matematisk forventning) og varians σ 2 (0).

La oss vurdere to modeller for å oppnå nærhetstiltak s(Jeg, j). I den første av dem s(Jeg, j) skiller seg fra den euklidiske avstanden mellom tilsvarende punkter på grunn av at punktene er kjent med forvrengninger. La Med(1),Med(2), … , Med(n) er punktene som vurderes. Deretter

s(Jeg, j) = d(c(Jeg) + ε( Jeg), c(j) + ε( j)), Jeg, j = 1, 2, … , n,

Hvor d– Euklidisk avstand mellom punkter i k-dimensjonalt rom, vektorer ε(1), ε(2), … , ε( n) representerer et utvalg fra en sirkulær normalfordeling i k-dimensjonalt rom med null matematisk forventning og kovariansmatrise σ 2 (1) Jeg, Hvor Jeg- identitetsmatrise. Med andre ord, ε( Jeg) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Hvor e(1), e(2), …, e(k) – ortonormal basis i k-dimensjonalt rom, og (η( Jeg, t), Jeg= 1, 2, … , n, t= 1, 2, … , k) – et sett med uavhengig uavhengige endimensjonale tilfeldige variabler med null matematisk forventning og varians σ 2 (1).

I den andre modellen pålegges forvrengninger direkte på selve avstandene:

s(jeg, j) = d(c(Jeg), c(j)) + ε( jeg, j), jeg, j = 1, 2, … , n, Jegj,

hvor (ε( Jeg, j), Jeg, j = 1, 2, … , n) – kollektivt uavhengige normale tilfeldige variabler med matematisk forventning) og varians σ 2 (1).

Arbeidet viser at for begge formulerte modellene er minimum gjennomsnittlig kvadratfeil α m at n→ ∞ konvergerer i sannsynlighet til

f(m) = f 1 (m) + σ 2 (1)( km), m = 1, 2, …, k,

Så funksjonen f(m) er lineær på intervallene og , og i det første intervallet avtar den raskere enn i det andre. Det følger den statistikken

er et konsistent estimat av den sanne dimensjonen m 0 .

Så anbefalingen følger av den sannsynlige teorien - å bruke som et estimat på dimensjonen til faktorrommet m*. Merk at en slik anbefaling ble formulert som en heuristikk av en av grunnleggerne av flerdimensjonal skalering, J. Kruskal. Han kom fra erfaring i praktisk bruk av flerdimensjonal skalering og beregningseksperimenter. Probabilistisk teori gjorde det mulig å rettferdiggjøre denne heuristiske anbefalingen.

Tidligere

Kapittel 13. HOVEDKOMPONENTMETODEN

13.1. Essensen av problemet med dimensjonalitetsreduksjon og ulike metoder for å løse det

I forskning og praktisk statistisk arbeid må man forholde seg til situasjoner hvor det totale antallet tegn registrert på hvert av de mange objektene som undersøkes (land, byer, bedrifter, familier, pasienter, tekniske eller miljømessige systemer) er svært stort - ca. hundre eller mer. Imidlertid er tilgjengelige multivariate observasjoner

bør statistisk behandles, forstås eller legges inn i en database for å kunne bruke dem til rett tid.

Ønsket til en statistiker om å presentere hver av observasjonene (13.1) i form av en vektor Z for noen hjelpeindikatorer med et betydelig mindre (enn) antall komponenter skyldes først og fremst følgende årsaker:

behovet for en visuell representasjon (visualisering) av de første dataene (13.1), som oppnås ved å projisere dem på et spesielt valgt tredimensjonalt rom, et plan eller en talllinje (avsnitt IV er viet til problemer av denne typen);

ønsket om lakonisme av de studerte modellene, på grunn av behovet for å forenkle beregningen og tolkningen av de oppnådde statistiske konklusjonene;

behovet for å komprimere volumet av lagret statistisk informasjon betydelig (uten synlige tap i informasjonsinnholdet), hvis vi snakker om registrering og lagring av matriser av typen (13.1) i en spesiell database.

I dette tilfellet kan nye (hjelpe) egenskaper velges blant de originale eller bestemmes i henhold til en regel basert på et sett med initiale egenskaper, for eksempel som deres lineære kombinasjoner. Når man danner et nytt system av funksjoner, stilles det ulike krav til sistnevnte, slik som størst informasjonsinnhold (i en viss forstand), gjensidig ukorrelasjon, minst mulig forvrengning av den geometriske strukturen til settet med initialdata osv. Avhengig av varianten av formell spesifikasjon av disse kravene (se nedenfor, samt avsnitt IV) kommer vi frem til en eller annentme. Det er minst tre hovedtyper av grunnleggende forutsetninger som bestemmer muligheten for overgang fra et stort antall innledende indikatorer for tilstanden (atferd, driftseffektivitet) til det analyserte systemet til et betydelig mindre antall av de mest informative variablene. Dette er, for det første, duplisering av informasjon levert av svært sammenhengende funksjoner; for det andre mangelen på informasjonsinnhold til funksjoner som endres lite når de flyttes fra ett objekt til et annet (lav "variabilitet" av funksjoner); for det tredje muligheten for aggregering, dvs. enkel eller «vektet» summering, i henhold til visse kriterier.

Formelt kan oppgaven med overgang (med minimalt tap i informasjonsinnhold) til et nytt sett med funksjoner beskrives som følger. La være en p-dimensjonal vektorfunksjon av de initiale variablene og la være et visst spesifisert mål på informativiteten til det -dimensjonale systemet av funksjoner. Det spesifikke valget av funksjonen avhenger av spesifikasjonene til det virkelige problemet som løses og er basert på et av de mulige kriteriene: kriteriet om auto-informativitet, rettet mot å maksimere bevaringen av informasjonen i den originale matrisen i forhold til de originale funksjonene selv; og kriteriet for eksternt informasjonsinnhold, rettet mot å maksimere "klemming" ut av informasjonen i denne matrisen i forhold til noen andre (eksterne) indikatorer.

Oppgaven er å bestemme et slikt sett med funksjoner Z, funnet i klassen F av tillatte transformasjoner av innledende indikatorer, som

En eller annen versjon av spesifikasjonen av denne uttalelsen (som bestemmer det spesifikke valget av informasjonsinnholdsmål) og klassen av tillatte transformasjoner) fører til en spesifikk metode for dimensjonalitetsreduksjon: hovedkomponentmetoden, faktoranalyse, ekstrem gruppering av parametere, etc.

La oss forklare dette med eksempler.

13.1.1. Hovedkomponentmetode (se § 13.2-§ 13.6).

Det er til de første hovedkomponentene forskeren vil komme hvis han som en klasse av tillatte transformasjoner F definerer alle mulige lineære ortogonale normaliserte kombinasjoner av initialindikatorer, dvs.

(her) er den matematiske forventningen og som et mål på informasjonsinnholdet i det dimensjonale systemet av indikatorer, uttrykket

(her er D, som før, tegnet på operasjonen med å beregne variansen til den tilsvarende tilfeldige variabelen).

13.1.2. Faktoranalyse (se kapittel 14).

Som kjent (se § 14.1) forklarer faktoranalysemodellen strukturen av sammenhenger mellom de initiale indikatorene ved at oppførselen til hver av dem statistisk avhenger av det samme settet av såkalte felles faktorer, dvs.

hvor - "belastningen" av den generelle faktoren på den innledende indikatoren - den gjenværende "spesifikke" tilfeldige komponenten, og - er parvis ukorrelerte.

Det viser seg at hvis F er definert som klassen av alle mulige lineære kombinasjoner, under hensyntagen til de nevnte begrensningene på og som et mål på informasjonsinnholdet i det dimensjonale indikatorsystemet, velg en verdi, så er løsningen på optimaliseringen oppgave (13.2) faller sammen med vektoren av felles faktorer i faktoranalysemodellen. Her er korrelasjonsmatrisen til de innledende indikatorene; korrelasjonsmatrisen av indikatorer er den euklidiske normen til matrise A.

13.1.3. Metode for ekstrem gruppering av funksjoner (se klausul 14.2.1).

I denne metoden snakker vi om å dele settet med initiale indikatorer i et gitt antall grupper slik at egenskapene som tilhører en gruppe vil være relativt sterkt interkorrelerte, mens egenskapene som tilhører forskjellige grupper vil være svakt korrelerte. Samtidig løses problemet med å erstatte hver gruppe av sterkt interkorrelerte innledende indikatorer med en ekstra "resultant" indikator, som naturligvis bør være i nær sammenheng med egenskapene til gruppen. Etter å ha definert alle normaliserte lineære kombinasjoner som en klasse av tillatte transformasjoner F av de innledende indikatorene, ser vi etter en løsning ved å maksimere (med hensyn til S og ) den funksjonelle

hvor er korrelasjonskoeffisienten mellom variabler.

13.1.4. Flerdimensjonal skalering (se kapittel 16).

I en rekke situasjoner, og først og fremst i situasjoner der innledende statistiske data innhentes ved hjelp av spesielle undersøkelser, spørreskjemaer, ekspertvurderinger, kan det være tilfeller der elementet for primær observasjon ikke er tilstanden til objektet beskrevet av vektoren, men karakteristikken. av den parvise nærhet (avstand) til to objekter (eller tegn) i henhold til tallene

I dette tilfellet har forskeren som en rekke initiale statistiske data en matrise av størrelse (hvis egenskapene til parvis nærhet av objekter vurderes) eller (hvis egenskapene til parvis nærhet til funksjoner vurderes) av skjemaet

hvor mengder tolkes enten som avstander mellom objekter (funksjoner) i og enten som rangeringer som spesifiserer rekkefølgen av disse avstandene. Oppgaven med flerdimensjonal skalering er å "senke" våre objekter (funksjoner) i et slikt -dimensjonalt rom, det vil si å velge koordinatakser slik at den initiale geometriske konfigurasjonen av settet med analyserte objektpunkter (eller punktfunksjoner) spesifisert ved å bruke ( 13.1) eller (13.5), vil vise seg å være minst forvrengt i betydningen av et eller annet kriterium for gjennomsnittlig "grad av forvrengning" av gjensidige parvise avstander.

Et av de ganske generelle flerdimensjonale skaleringsskjemaene bestemmes av kriteriet

hvor - avstanden mellom objekter i det opprinnelige rommet, - avstanden mellom de samme objektene i ønsket rom med en lavere dimensjon - er frie parametere, hvis valg av spesifikke verdier er etter forskerens skjønn.

Etter å ha bestemt informasjonsinnholdet til det ønskede settet med funksjoner Z, for eksempel som inversen av den ovennevnte graden av forvrengning av den geometriske strukturen til det opprinnelige settet med punkter, reduserer vi dette problemet til den generelle formuleringen (13.2 ), forutsatt

13.1.5. Utvalg av de mest informative indikatorene i diskriminantanalysemodeller (se § 1.4; 2.5).

Funksjonene ovenfor er mål på auto-informativiteten til det tilsvarende funksjonssystemet. La oss nå gi eksempler på kriterier for eksternt informasjonsinnhold. Spesielt vil vi være interessert i informasjonsinnholdet i systemet med indikatorer fra synspunktet om riktig klassifisering av objekter i henhold til disse indikatorene i diskriminantanalyseordningen. I dette tilfellet definerer vi klassen av tillatte transformasjoner F basert på kravene om at bare representanter for et sett med innledende indikatorer kan vurderes, dvs.

En vanlig innledende oppgave når man løser problemet med å identifisere de mest informative indikatorene fra det originale settet, er utsagnet om at en vektor av indikatorer for en gitt dimensjon er jo mer informativ, jo større forskjellen er i lovene for sannsynlighetsfordelingen, definert i forskjellige klasser i klassifiseringsproblemet som vurderes. Hvis vi introduserer et mål på parvise forskjeller i lovene som beskriver sannsynlighetsfordelingen til funksjonsvektoren i klasser med tall, kan vi formalisere prinsippet ovenfor om å velge de mest informative indikatorene ved å bestemme dem fra betingelsen om å maksimere (ved) verdien

De mest brukte målene for forskjell mellom lovene for sannsynlighetsfordeling er informasjonstypeavstanden (Kullback-avstand, Mahalanobis-avstand), samt "variasjonsavstanden" (for flere detaljer, se .

13.1.6. Utvalg av de mest informative variablene i regresjonsmodeller (se).

Når du konstruerer avhengigheter av regresjonstype, er et av de sentrale spørsmålene å identifisere et relativt lite antall variabler (fra a priori-settet som har størst betydning for oppførselen til den resulterende karakteristikken som studeres).

Således, som i forrige avsnitt, består klasse F av alle mulige sett med variabler valgt fra det første settet med faktorargumenter, og vi har å gjøre med kriteriet om eksternt informasjonsinnhold i slike sett. Dens type spesifiseres vanligvis ved hjelp av en multippel bestemmelseskoeffisient - en karakteristikk av graden av nær forbindelse mellom indikatoren y og et sett med variabler. I dette tilfellet, for en fast dimensjon, vil settet med variabler åpenbart betraktes som det mest informative. (fra synspunktet om nøyaktigheten av å beskrive oppførselen til indikatoren y), hvis verdien av målingen av informasjonsinnhold på dette settet når sitt maksimum.

  • I statistikk, maskinlæring og informasjonsteori er dimensjonalitetsreduksjon en transformasjon av data som består i å redusere antall variabler ved å skaffe hovedvariablene. Transformasjon kan deles inn i funksjonsvalg og funksjonsutvinning.

Beslektede begreper

Omtaler i litteraturen

– lasting og forbehandling av inngangsdata, – manuell og automatisk merking av stimulusmaterialer (valg av interesseområder), – algoritme for beregning av etterfølgerrepresentasjonsmatrisen, – konstruksjon av en utvidet datatabell med verdiene til inngangsvariabler som er nødvendige for etterfølgende analyse, – metode dimensjonalitetsreduksjon funksjonsrom (hovedkomponentmetode), – visualisering av komponentbelastninger for å velge tolkbare komponenter, – algoritme for å trene et beslutningstre, – algoritme for å vurdere prediksjonsevnen til et tre, – visualisering av et beslutningstre.

Relaterte begreper (fortsettelse)

Spektral clustering-teknikker bruker spekteret (egenverdier) til datalikhetsmatrisen for å utføre dimensjonalitetsreduksjon før clustering i lavere dimensjonale rom. Likhetsmatrisen er gitt som input og består av kvantitative estimater av den relative likheten til hvert par av punkter i dataene.

Spektralmetoder er en klasse med teknikker som brukes i anvendt matematikk for numerisk løsning av visse differensialligninger, muligens involverer Fast Fourier Transform. Tanken er å omskrive løsningen av differensialligninger som summen av noen "basisfunksjoner" (som hvordan Fourier-rekker er summen av sinusoider), og deretter velge koeffisientene i summen for å tilfredsstille differensialligningen best mulig.

Matematisk analyse (klassisk matematisk analyse) - et sett med grener av matematikk som tilsvarer den historiske delen kalt "infinitesimal analyse", kombinerer differensial- og integralregning.

Differensiell evolusjon er en metode for flerdimensjonal matematisk optimalisering som tilhører klassen av stokastiske optimaliseringsalgoritmer (det vil si at den fungerer ved å bruke tilfeldige tall) og bruker noen ideer om genetiske algoritmer, men krever, i motsetning til dem, ikke arbeid med variabler i binær kode. .

Den diskrete elementmetoden (DEM, fra den engelske diskrete elementmetoden) er en familie av numeriske metoder designet for å beregne bevegelsen til et stort antall partikler, som molekyler, sandkorn, grus, småstein og andre granulære medier. Metoden ble opprinnelig brukt av Cundall i 1971 for å løse bergmekaniske problemer.