Forholdet mellom statistikk og andre vitenskaper. Foreløpig dataanalyse

Objektet for forskning innen anvendt statistikk er statistiske data innhentet som et resultat av observasjoner eller eksperimenter. Statistiske data er en samling av objekter (observasjoner, kasus) og tegn (variabler) som karakteriserer dem. For eksempel er forskningsobjektene land i verden og egenskaper, geografiske og økonomiske indikatorer som karakteriserer dem: kontinent; høyde over havet; gjennomsnittlig årlig temperatur; landets plass på listen når det gjelder livskvalitet, andel av BNP per innbygger; samfunnets utgifter til helsetjenester, utdanning og hæren; gjennomsnittlig forventet levealder; andel av arbeidsledighet, analfabetisme; livskvalitetsindeks osv.
Variabler er størrelser som kan få ulike verdier som følge av måling.
Uavhengige variabler er variabler hvis verdier kan endres under eksperimentet, mens avhengige variabler er variabler hvis verdier bare kan måles.
Variabler kan måles på forskjellige skalaer. Forskjellen mellom skalaene bestemmes av informasjonsinnholdet. Følgende typer skalaer vurderes, presentert i økende rekkefølge etter informasjonsinnholdet: nominell, ordinal, intervall, forholdsskala, absolutt. Disse skalaene skiller seg også fra hverandre i antall tillatte matematiske operasjoner. Den "fattigste" skalaen er nominell, siden ikke en eneste aritmetisk operasjon er definert, mens den "rikeste" er absolutt.
Måling på en nominell (klassifisering) skala betyr å bestemme om et objekt (observasjon) tilhører en bestemt klasse. For eksempel: kjønn, tjenestegren, yrke, kontinent, etc. I denne skalaen kan du kun telle antall objekter i klasser - frekvens og relativ frekvens.
Måling på en ordinær (rang) skala, i tillegg til å bestemme medlemsklassen, lar deg organisere observasjoner ved å sammenligne dem med hverandre på en eller annen måte. Denne skalaen bestemmer imidlertid ikke avstanden mellom klassene, men kun hvilken av to observasjoner som er å foretrekke. Derfor kan ikke ordinære eksperimentelle data, selv om de er representert med tall, betraktes som tall og aritmetiske operasjoner kan ikke utføres på dem 5 . I denne skalaen, i tillegg til å beregne frekvensen til et objekt, kan du beregne rangeringen til objektet. Eksempler på variabler målt på en ordinær skala: elevkarakterer, premier i konkurranser, militære rangeringer, landets plassering på listen over livskvalitet m.m. Noen ganger kalles nominelle og ordinale variabler kategoriske, eller gruppering, siden de lar studieobjektene deles inn i undergrupper.
Ved måling på en intervallskala kan rekkefølgen av observasjoner gjøres så nøyaktig at avstandene mellom to av dem er kjent. Intervallskalaen er unik opp til lineære transformasjoner (y = ax + b). Dette betyr at skalaen har et vilkårlig referansepunkt - en konvensjonell null. Eksempler på variabler målt på en intervallskala: temperatur, tid, høyde over havet. Variabler på en gitt skala kan brukes til å bestemme avstanden mellom observasjoner. Avstander er hele tall og alle aritmetiske operasjoner kan utføres på dem.
Forholdsskalaen er lik intervallskalaen, men den er unik opp til en transformasjon av formen y = ax. Dette betyr at skalaen har et fast referansepunkt - absolutt null, men en vilkårlig måleskala. Eksempler på variabler målt på en forholdsskala: lengde, vekt, strøm, pengebeløp, samfunnets utgifter til helsetjenester, utdanning, militær, gjennomsnittlig levealder osv. Målingene på denne skalaen er fullverdige tall og alle aritmetiske operasjoner kan utføres på dem.
En absolutt skala har både en absolutt null og en absolutt måleenhet (skala). Et eksempel på en absolutt skala er talllinjen. Denne skalaen er dimensjonsløs, så målinger på den kan brukes som en eksponent eller basis for en logaritme. Eksempler på målinger på en absolutt skala: arbeidsledighet; andel analfabeter, livskvalitetsindeks osv.
De fleste statistiske metoder tilhører metodene for parametrisk statistikk, som er basert på antakelsen om at en tilfeldig vektor av variabler danner en eller annen multivariat fordeling, vanligvis normal eller transformert til en normalfordeling. Hvis denne antakelsen ikke bekreftes, bør ikke-parametriske metoder for matematisk statistikk brukes.

Korrelasjonsanalyse. Det kan være en funksjonell sammenheng mellom variabler (random variable), som viser seg ved at den ene er definert som en funksjon av den andre. Men det kan også være en annen sammenheng mellom variablene, manifestert i at den ene reagerer på en endring i den andre ved å endre sin fordelingslov. Et slikt forhold kalles stokastisk. Det vises når det er vanlige tilfeldige faktorer som påvirker begge variablene. Som et mål på avhengigheten mellom variabler brukes korrelasjonskoeffisienten (r), som varierer fra –1 til +1. Hvis korrelasjonskoeffisienten er negativ, betyr dette at når verdiene til en variabel øker, reduseres verdiene til den andre. Hvis variablene er uavhengige, er korrelasjonskoeffisienten 0 (det motsatte gjelder bare for variabler som har en normalfordeling). Men hvis korrelasjonskoeffisienten ikke er lik 0 (variablene kalles ukorrelerte), så betyr dette at det er en avhengighet mellom variablene. Jo nærmere r-verdien er 1, jo sterkere er avhengigheten. Korrelasjonskoeffisienten når sine grenseverdier på +1 eller -1 hvis og bare hvis forholdet mellom variablene er lineært. Korrelasjonsanalyse lar oss fastslå styrken og retningen til den stokastiske sammenhengen mellom variabler (random variable). Hvis variablene måles på minst en intervallskala og er normalfordelte, utføres korrelasjonsanalyse ved å beregne Pearson-korrelasjonskoeffisienten; ellers brukes Spearman, Kendals tau eller Gamma-korrelasjoner.

Regresjonsanalyse. Regresjonsanalyse modellerer forholdet mellom en tilfeldig variabel og en eller flere andre tilfeldige variabler. I dette tilfellet kalles den første variabelen avhengig, og resten kalles uavhengig. Valget eller tilordningen av avhengige og uavhengige variabler er vilkårlig (betinget) og utføres av forskeren avhengig av problemet han løser. De uavhengige variablene kalles faktorer, regressorer eller prediktorer, og den avhengige variabelen kalles utfallskarakteristikken eller responsen.
Hvis antallet prediktorer er 1, kalles regresjonen enkel eller univariat; hvis antallet prediktorer er mer enn 1, kalles den multiple eller multifaktorielle. Generelt kan regresjonsmodellen skrives som følger:

Y = f(x 1, x 2, …, x n),

Der y er den avhengige variabelen (respons), x i (i = 1,..., n) er prediktorer (faktorer), n er antall prediktorer.
Ved hjelp av regresjonsanalyse kan du løse en rekke problemer som er viktige for problemet som studeres:
1). Redusere dimensjonen av rommet til analyserte variabler (faktorrom) ved å erstatte en del av faktorene med én variabel - responsen. Dette problemet løses mer fullstendig ved faktoranalyse.
2). Kvantitativ måling av effekten av hver faktor, dvs. Multippel regresjon lar forskeren spørre (og sannsynligvis svare) "hva er den beste prediktoren for ...". Samtidig blir virkningen av individuelle faktorer på responsen tydeligere, og forskeren forstår bedre karakteren av fenomenet som studeres.
3). Beregning av predikerte responsverdier for visse verdier av faktorer, dvs. Regresjonsanalyse danner grunnlaget for et beregningseksperiment for å få svar på spørsmål som "Hva vil skje hvis ...".
4). I regresjonsanalyse dukker årsak-virkningsmekanismen opp i en mer eksplisitt form. I dette tilfellet er prognosen bedre tilgjengelig for meningsfull tolkning.

Kanonisk analyse. Kanonisk analyse er designet for å analysere avhengighetene mellom to lister over funksjoner (uavhengige variabler) som karakteriserer objekter. For eksempel kan du studere forholdet mellom ulike ugunstige faktorer og utseendet til en viss gruppe symptomer på en sykdom, eller forholdet mellom to grupper av kliniske og laboratorieparametre (syndromer) til en pasient. Kanonisk analyse er en generalisering av multippel korrelasjon som et mål på forholdet mellom en variabel og mange andre variabler. Som kjent er multippel korrelasjon den maksimale korrelasjonen mellom en variabel og en lineær funksjon av andre variabler. Dette konseptet har blitt generalisert til tilfellet med forbindelser mellom sett med variabler - funksjoner som karakteriserer objekter. I dette tilfellet er det nok å begrense oss til å vurdere et lite antall av de mest korrelerte lineære kombinasjonene fra hvert sett. La for eksempel det første settet med variabler bestå av attributtene y1, ..., ur, det andre settet består av - x1, ..., xq, så kan forholdet mellom disse settene vurderes som korrelasjonen mellom lineære kombinasjoner a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, som kalles kanonisk korrelasjon. Oppgaven med kanonisk analyse er å finne vektkoeffisienter på en slik måte at den kanoniske korrelasjonen er maksimal.

Metoder for å sammenligne gjennomsnitt. I anvendt forskning er det ofte tilfeller der gjennomsnittsresultatet av noen funksjoner i en serie av eksperimenter er forskjellig fra gjennomsnittsresultatet for en annen serie. Siden gjennomsnitt er måleresultater, er de som regel alltid forskjellige; spørsmålet er om det oppdagede avviket i gjennomsnitt kan forklares med uunngåelige tilfeldige eksperimentelle feil eller om det er forårsaket av visse årsaker. Hvis vi snakker om å sammenligne to gjennomsnitt, så kan Studenttesten (t-testen) brukes. Dette er et parametrisk kriterium, siden det antas at egenskapen har en normalfordeling i hver forsøksserie. For tiden har det blitt moderne å bruke ikke-parametriske kriterier for å sammenligne gjennomsnitt.
Sammenligning av gjennomsnittlige resultater er en av måtene å identifisere avhengigheter mellom variable egenskaper som karakteriserer det studerte settet med objekter (observasjoner). Hvis, når man deler inn forskningsobjekter i undergrupper ved hjelp av en kategorisk uavhengig variabel (prediktor), hypotesen om middelulikheten til en avhengig variabel i undergruppene er sann, betyr dette at det er en stokastisk sammenheng mellom denne avhengige variabelen og den kategoriske. prediktor. Så hvis det for eksempel fastslås at hypotesen om likheten mellom gjennomsnittlige indikatorer for fysisk og intellektuell utvikling av barn i grupper av mødre som røykte og ikke røykte under graviditeten er feil, betyr dette at det er en sammenheng mellom mors røyking av barnet under svangerskapet og dets intellektuelle og fysiske utvikling.
Den vanligste metoden for å sammenligne gjennomsnitt er variansanalyse. I ANOVA-terminologi kalles en kategorisk prediktor en faktor.
Variansanalyse kan defineres som en parametrisk, statistisk metode designet for å evaluere påvirkningen av ulike faktorer på resultatet av et eksperiment, samt for påfølgende planlegging av eksperimenter. Derfor er det i variansanalyse mulig å studere avhengigheten av en kvantitativ egenskap av en eller flere kvalitative egenskaper ved faktorer. Hvis én faktor vurderes, brukes enveis variansanalyse, ellers brukes multifaktoriell variansanalyse.

Frekvensanalyse. Frekvenstabeller, eller single-entry-tabeller som de også kalles, er den enkleste metoden for å analysere kategoriske variabler. Frekvenstabeller kan også med hell brukes til å undersøke kvantitative variabler, selv om de kan forårsake vanskeligheter med å tolke resultatene. Denne typen statistisk forskning brukes ofte som en av de eksplorative analyseprosedyrene for å se hvordan ulike grupper av observasjoner er fordelt i et utvalg, eller hvordan verdien av en egenskap er fordelt over intervallet fra minimum til maksimum verdi. Vanligvis er frekvenstabeller grafisk illustrert ved hjelp av histogrammer.

Krysstabulering (konjugasjon)– prosessen med å kombinere to (eller flere) frekvenstabeller slik at hver celle i den konstruerte tabellen er representert av en enkelt kombinasjon av verdier eller nivåer av de tabellerte variablene. Krysstabulering lar deg kombinere frekvensene for forekomst av observasjoner på forskjellige nivåer av faktorene som vurderes. Ved å undersøke disse frekvensene er det mulig å identifisere sammenhenger mellom tabellvariabler og utforske strukturen til denne forbindelsen. Kategoriske eller kvantitative variabler med et relativt lite antall verdier er typisk tabellert. Hvis du trenger å tabulere en kontinuerlig variabel (la oss si blodsukkernivået), bør du først omkode det, dele endringsområdet inn i et lite antall intervaller (for eksempel nivå: lavt, middels, høyt).

Korrespondanseanalyse. Korrespondanseanalyse, sammenlignet med frekvensanalyse, gir kraftigere beskrivende og utforskende metoder for å analysere tabeller med to og flere oppføringer. Metoden, akkurat som beredskapstabeller, lar deg studere strukturen og forholdet til grupperingsvariablene som er inkludert i tabellen. I klassisk korrespondanseanalyse er frekvensene i beredskapstabellen standardisert (normalisert) slik at summen av elementene i alle celler er lik 1.
Et av målene med korrespondanseanalyse er å representere innholdet i en tabell over relative frekvenser som avstander mellom individuelle rader og/eller kolonner i tabellen i et lavere dimensjonalt rom.

Klyngeanalyse. Klyngeanalyse er en metode for klassifikasjonsanalyse; dens hovedformål er å dele settet med objekter og funksjoner som studeres i grupper eller klynger som er homogene i en viss forstand. Dette er en multivariat statistisk metode, så det antas at de opprinnelige dataene kan være av betydelig volum, dvs. Både antallet forskningsobjekter (observasjoner) og trekkene som karakteriserer disse objektene kan være betydelig store. Den store fordelen med klyngeanalyse er at den gjør det mulig å splitte objekter ikke etter ett kriterium, men etter en rekke egenskaper. I tillegg legger klyngeanalyse, i motsetning til de fleste matematiske og statistiske metoder, ingen begrensninger på typen objekter som vurderes og lar en studere en rekke innledende data av nesten vilkårlig karakter. Siden klynger er grupper av homogenitet, er oppgaven med klyngeanalyse å, basert på egenskapene til objekter, dele opp settet deres i m (m er et heltall) klynger slik at hvert objekt tilhører kun én partisjonsgruppe. I dette tilfellet må objekter som tilhører en klynge være homogene (liknende), og objekter som tilhører forskjellige klynger må være heterogene. Hvis klyngeobjekter er representert som punkter i et n-dimensjonalt trekkrom (n er antall trekk som karakteriserer objekter), så bestemmes likheten mellom objekter gjennom begrepet avstand mellom punkter, siden det er intuitivt klart at jo mindre avstanden er. mellom objekter, jo mer like er de.

Diskriminerende analyse. Diskriminerende analyse innebærer statistiske metoder for å klassifisere multivariate observasjoner i en situasjon hvor forskeren har såkalte treningsprøver. Denne typen analyse er flerdimensjonal, siden den bruker flere egenskaper ved et objekt, hvor antallet kan være vilkårlig stort. Formålet med diskriminantanalyse er å klassifisere det, basert på måling av ulike egenskaper (funksjoner), til et objekt, det vil si å tilordne det til en av flere spesifiserte grupper (klasser) på en optimal måte. I dette tilfellet antas det at kildedataene, sammen med egenskapene til objekter, inneholder en kategorisk (grupperings)variabel som bestemmer om objektet tilhører en bestemt gruppe. Derfor innebærer diskriminantanalyse å kontrollere konsistensen av klassifiseringen utført av metoden med den opprinnelige empiriske klassifiseringen. Den optimale metoden forstås som enten minimum matematisk forventning om tap, eller minimum sannsynlighet for falsk klassifisering. I den generelle saken er diskriminerings(diskriminerings)problematikken formulert slik. La resultatet av å observere et objekt være konstruksjonen av en k-dimensjonal tilfeldig vektor X = (X1, X2, ..., XK), der X1, X2, ..., XK er egenskapene til objektet. Det er nødvendig å etablere en regel som, basert på koordinatverdiene til vektoren X, tilordnes objektet til et av de mulige settene i, i = 1, 2, ..., n. Diskrimineringsmetoder kan deles inn i parametriske og ikke-parametriske. I parametriske er det kjent at fordelingen av egenskapsvektorer i hver populasjon er normal, men det er ingen informasjon om parametrene til disse fordelingene. Ikke-parametriske diskrimineringsmetoder krever ikke kunnskap om den eksakte funksjonelle formen for distribusjoner og tillater løsning av diskrimineringsproblemer basert på ubetydelig a priori-informasjon om populasjoner, noe som er spesielt verdifullt for praktiske anvendelser. Hvis betingelsene for anvendelighet av diskriminantanalyse er oppfylt - uavhengige variabler-tegn (de kalles også prediktorer) må måles minst på en intervallskala, deres fordeling må samsvare med normalloven, det er nødvendig å bruke klassisk diskriminantanalyse , ellers - metoden for generelle modeller for diskriminant analyse.

Faktor analyse. Faktoranalyse er en av de mest populære multivariate statistiske metodene. Hvis klynge- og diskriminantmetoder klassifiserer observasjoner, deler dem inn i grupper av homogenitet, så klassifiserer faktoranalyse egenskaper (variabler) som beskriver observasjoner. Derfor er hovedmålet med faktoranalyse å redusere antall variabler basert på klassifiseringen av variabler og bestemme strukturen av sammenhengene mellom dem. Reduksjon oppnås ved å identifisere skjulte (latente) fellesfaktorer som forklarer sammenhengene mellom de observerte egenskapene til objektet, dvs. I stedet for det opprinnelige settet med variabler, vil det være mulig å analysere data i henhold til utvalgte faktorer, hvor antallet er betydelig mindre enn det opprinnelige antallet interrelaterte variabler.

Klassifiseringstrær. Klassifiseringstrær er en metode for klassifiseringsanalyse som lar en forutsi om objekter tilhører en bestemt klasse avhengig av de tilsvarende verdiene til funksjonene som karakteriserer objektene. Egenskapene kalles uavhengige variabler, og variabelen som indikerer tilhørigheten til objekter til klasser kalles avhengig. I motsetning til klassisk diskriminantanalyse, er klassifiseringstrær i stand til å utføre endimensjonal forgrening på tvers av variabler av forskjellige typer: kategorisk, ordinal og intervall. Det legges ingen begrensninger på fordelingsloven for kvantitative variabler. I analogi med diskriminantanalyse gjør metoden det mulig å analysere bidragene til individuelle variabler til klassifiseringsprosedyren. Klassifiseringstrær kan være, og noen ganger er, veldig komplekse. Bruken av spesielle grafiske prosedyrer gjør det imidlertid mulig å forenkle tolkningen av resultater selv for svært komplekse trær. Muligheten for grafisk presentasjon av resultater og enkel tolkning forklarer i stor grad den store populariteten til klassifiseringstrær i anvendte områder, men de viktigste karakteristiske egenskapene til klassifiseringstrær er deres hierarki og brede anvendelighet. Strukturen til metoden er slik at brukeren har muligheten til å bygge trær av vilkårlig kompleksitet ved å bruke kontrollerte parametere, og oppnå minimale klassifiseringsfeil. Men ved å bruke et komplekst tre, på grunn av det store settet med beslutningsregler, er det vanskelig å klassifisere et nytt objekt. Derfor, når brukeren konstruerer et klassifiseringstre, må brukeren finne et rimelig kompromiss mellom kompleksiteten til treet og kompleksiteten til klassifiseringsprosedyren. Det brede spekteret av anvendelighet til klassifiseringstrær gjør dem til et svært attraktivt verktøy for dataanalyse, men det bør ikke antas at det anbefales brukt i stedet for tradisjonelle klassifiseringsanalysemetoder. Tvert imot, hvis de strengere teoretiske forutsetningene som er pålagt av tradisjonelle metoder oppfylles, og samplingsfordelingen har noen spesielle egenskaper (for eksempel tilsvarer fordelingen av variabler normalloven), så vil bruken av tradisjonelle metoder være mer effektiv . Men som en metode for utforskende analyse eller som en siste utvei når alle tradisjonelle metoder mislykkes, har Classification Trees, ifølge mange forskere, ingen sidestykke.

Hovedkomponentanalyse og klassifisering. I praksis oppstår ofte oppgaven med å analysere høydimensjonale data. Hovedkomponentanalyse- og klassifiseringsmetoden lar oss løse dette problemet og tjener to formål:
– redusere det totale antallet variabler (datareduksjon) for å få "hoved" og "ikke-korrelerte" variabler;
– klassifisering av variabler og observasjoner ved hjelp av faktorrommet som konstrueres.
Metoden ligner faktoranalyse i formuleringen av problemene som skal løses, men har en rekke signifikante forskjeller:
– når man analyserer hovedkomponenter, brukes ikke iterative metoder for å trekke ut faktorer;
– sammen med de aktive variablene og observasjonene som brukes til å trekke ut hovedkomponenter, kan du spesifisere hjelpevariabler og/eller observasjoner; deretter projiseres hjelpevariablene og observasjonene på faktorrommet beregnet fra de aktive variablene og observasjonene;
– de listede egenskapene gjør at metoden kan brukes som et kraftig verktøy for å klassifisere både variabler og observasjoner.
Løsningen på hovedproblemet til metoden oppnås ved å lage et vektorrom av latente (skjulte) variabler (faktorer) med en dimensjon mindre enn den opprinnelige. Den opprinnelige dimensjonen bestemmes av antall variabler som skal analyseres i de opprinnelige dataene.

Flerdimensjonal skalering. Metoden kan betraktes som et alternativ til faktoranalyse, der en reduksjon i antall variabler oppnås ved å isolere latente (ikke direkte observerbare) faktorer som forklarer sammenhengene mellom observerte variabler. Hensikten med flerdimensjonal skalering er å finne og tolke latente variabler som gjør det mulig for brukeren å forklare likhetene mellom objekter gitt punkter i det opprinnelige funksjonsrommet. Indikatorer på likheten mellom objekter i praksis kan være avstander eller grader av sammenheng mellom dem. I faktoranalyse uttrykkes likheter mellom variabler ved hjelp av en matrise av korrelasjonskoeffisienter. I flerdimensjonal skalering kan en vilkårlig type objektlikhetsmatrise brukes som startdata: avstander, korrelasjoner, etc. Til tross for at det er mange likheter i karakteren av spørsmålene som studeres, har metodene for flerdimensjonal skalering og faktoranalyse en rekke signifikante forskjeller. Faktoranalyse krever derfor at dataene som studeres er gjenstand for en multivariat normalfordeling, og sammenhengene må være lineære. Flerdimensjonal skalering pålegger ikke slike begrensninger; det kan være anvendbart hvis en matrise av parvise likheter til objekter er gitt. Når det gjelder forskjeller i oppnådde resultater, søker faktoranalyse å trekke ut flere faktorer - latente variabler sammenlignet med flerdimensjonal skalering. Derfor fører flerdimensjonal skalering ofte til lettere å tolke løsninger. Enda viktigere er det imidlertid at flerdimensjonal skalering kan brukes på enhver type avstand eller likhet, mens faktoranalyse krever at en korrelasjonsmatrise av variabler brukes som input, eller at en korrelasjonsmatrise først beregnes fra en fil med inputdata. Den grunnleggende antakelsen om flerdimensjonal skalering er at det er et visst metrisk rom med essensielle grunnleggende egenskaper som implisitt tjente som grunnlag for de oppnådde empiriske dataene om nærheten mellom par av objekter. Derfor kan objekter representeres som punkter i dette rommet. Det antas også at objekter som er nærmere (i henhold til den opprinnelige matrisen) tilsvarer mindre avstander i rommet av grunnleggende egenskaper. Derfor er flerdimensjonal skalering et sett med metoder for å analysere empiriske data om objekters nærhet, ved hjelp av hvilke dimensjonen til rommet av egenskaper til de målte objektene som er essensielle for en gitt meningsfull oppgave bestemmes og konfigurasjonen av punkter. (objekter) i dette rommet er konstruert. Dette rommet ("flerdimensjonal skala") ligner på vanlig brukte skalaer i den forstand at verdiene til de essensielle egenskapene til de målte objektene tilsvarer visse posisjoner på rommets akser. Logikken til flerdimensjonal skalering kan illustreres med følgende enkle eksempel. La oss anta at det er en matrise med parvise avstander (dvs. likheter mellom noen funksjoner) mellom noen byer. Ved å analysere matrisen er det nødvendig å lokalisere punktene med koordinatene til byer i todimensjonalt rom (på et plan), og bevare de virkelige avstandene mellom dem så mye som mulig. Den resulterende plasseringen av punkter på flyet kan deretter brukes som et omtrentlig geografisk kart. I det generelle tilfellet lar flerdimensjonal skalering en arrangere objekter (byer i vårt eksempel) i et rom med en liten dimensjon (i dette tilfellet er det lik to) for å reprodusere de observerte avstandene mellom dem på en adekvat måte. Som et resultat kan disse avstandene måles i form av de latente variablene som er funnet. Så i vårt eksempel kan vi forklare avstandene i form av paret med geografiske koordinater nord/sør og øst/vest.

Strukturell ligningsmodellering (årsaksmodellering). Nyere fremskritt innen multivariat statistisk analyse og analyse av korrelasjonsstrukturer, kombinert med de nyeste beregningsalgoritmene, fungerte som utgangspunktet for etableringen av en ny, men allerede anerkjent teknikk, strukturell ligningsmodellering (SEPATH). Denne uvanlig kraftige teknikken for multivariat analyse inkluderer metoder fra ulike felt av statistikk, multippel regresjon og faktoranalyse ble naturlig utviklet og kombinert her.
Objektet for strukturell ligningsmodellering er komplekse systemer hvis interne struktur er ukjent ("svart boks"). Ved å observere parametrene til systemet ved hjelp av SEPATH, kan du utforske strukturen og etablere årsak-og-virkning-forhold mellom elementene i systemet.
Formuleringen av det strukturelle modelleringsproblemet er som følger. La det være variabler for hvilke statistiske momenter er kjent, for eksempel en matrise av prøvekorrelasjon eller kovarianskoeffisienter. Slike variabler kalles eksplisitte. De kan være kjennetegn ved et komplekst system. De faktiske sammenhengene mellom observerte eksplisitte variabler kan være ganske komplekse, men vi antar at det finnes en rekke skjulte variabler som forklarer strukturen til disse sammenhengene med en viss grad av nøyaktighet. Ved hjelp av latente variabler bygges altså en modell av sammenhenger mellom eksplisitte og implisitte variabler. I noen problemer kan latente variabler betraktes som årsaker, og eksplisitte som konsekvenser, derfor kalles slike modeller kausale. Det antas at skjulte variabler på sin side kan relateres til hverandre. Strukturen av forbindelser antas å være ganske kompleks, men dens type er postulert - dette er forbindelser beskrevet av lineære ligninger. Noen parametere for lineære modeller er kjent, noen er ikke, og er gratis parametere.
Den grunnleggende ideen med strukturell ligningsmodellering er at man kan teste om variablene Y og X er relatert lineært med Y = aX ved å analysere deres varianser og kovarianser. Denne ideen er basert på en enkel egenskap for gjennomsnitt og varians: Hvis du multipliserer hvert tall med en konstant k, vil også gjennomsnittet multipliseres med k, og standardavviket vil multipliseres med modul k. Tenk for eksempel på et sett med tre tall 1, 2, 3. Disse tallene har et gjennomsnitt på 2 og et standardavvik på 1. Hvis du multipliserer alle tre tallene med 4, kan du enkelt regne ut at gjennomsnittet er 8, standarden avviket er 4, og variansen er 16. Hvis det er sett med tall X og Y relatert til forholdet Y = 4X, bør variansen til Y være 16 ganger større enn variansen til X. Derfor kan vi teste hypotesen om at Y og X er relaterte ligning Y = 4X, sammenligner variansene til variablene Y og X. Denne ideen kan generaliseres på forskjellige måter til flere variabler relatert til et system av lineære ligninger. Samtidig blir transformasjonsreglene mer tungvint, beregningene mer komplekse, men grunnideen forblir den samme - du kan sjekke om variabler er lineært relatert ved å studere deres varianser og kovarianser.

Metoder for overlevelsesanalyse. Metoder for overlevelsesanalyse ble opprinnelig utviklet innen medisinsk, biologisk forskning og forsikring, men ble deretter mye brukt i samfunns- og økonomivitenskapene, så vel som i industrien i ingeniørproblemer (analyse av pålitelighet og feiltider). Tenk deg at effektiviteten til en ny behandling eller et nytt medikament studeres. Åpenbart er den viktigste og mest objektive egenskapen den gjennomsnittlige levetiden til pasienter fra tidspunktet for innleggelse til klinikken eller den gjennomsnittlige varigheten av remisjon av sykdommen. Standard parametriske og ikke-parametriske metoder kan brukes til å beskrive gjennomsnittlige overlevelses- eller remisjonstider. Det er imidlertid et betydelig trekk i de analyserte dataene - det kan være pasienter som overlevde under hele observasjonsperioden, og hos noen av dem er sykdommen fortsatt i remisjon. Det kan også dannes en gruppe pasienter som gikk tapt før slutten av eksperimentet (for eksempel ble de overført til andre klinikker). Ved å bruke standardmetoder for å estimere gjennomsnittet, ville denne gruppen pasienter måtte ekskluderes, og dermed miste hardt opptjent viktig informasjon. I tillegg er flertallet av disse pasientene overlevende (restituert) i løpet av tiden de ble fulgt, noe som gir bevis for den nye behandlingen (medikamentet). Denne typen informasjon, når det ikke er data om forekomsten av hendelsen av interesse for oss, kalles ufullstendig. Hvis det er data om forekomsten av en hendelse av interesse for oss, kalles informasjonen fullstendig. Observasjoner som inneholder ufullstendig informasjon kalles sensurerte observasjoner. Sensurerte observasjoner er typiske når den observerte mengden representerer tiden frem til forekomsten av en kritisk hendelse, og varigheten av observasjonen er begrenset i tid. Bruken av sensurerte observasjoner er spesifikk for metoden som vurderes – overlevelsesanalyse. Denne metoden undersøker de probabilistiske egenskapene til tidsintervaller mellom påfølgende forekomster av kritiske hendelser. Denne typen forskning kalles analyse av varighet frem til termineringsøyeblikket, som kan defineres som tidsintervallene mellom begynnelsen av observasjonen av et objekt og termineringsøyeblikket, der objektet slutter å oppfylle egenskapene spesifisert for observasjon. Formålet med forskningen er å bestemme betingede sannsynligheter knyttet til varighet frem til oppsigelse. Å konstruere livstabeller, tilpasse overlevelsesfordelingen og estimere overlevelsesfunksjonen ved å bruke Kaplan-Meier-prosedyren er beskrivende metoder for å studere sensurerte data. Noen av de foreslåtte metodene tillater sammenligning av overlevelse i to eller flere grupper. Til slutt inneholder overlevelsesanalyse regresjonsmodeller for å estimere sammenhenger mellom multivariate kontinuerlige variabler med verdier som ligner livstider.
Generelle modeller for diskriminantanalyse. Hvis betingelsene for anvendelighet av diskriminantanalyse (DA) ikke er oppfylt - uavhengige variabler (prediktorer) må måles minst på en intervallskala, deres fordeling må samsvare med normalloven, det er nødvendig å bruke den generelle modellen for diskriminant analyse (GDA) metode. Metoden heter det fordi den bruker en generell lineær modell (GLM) for å analysere diskriminantfunksjoner. I denne modulen blir diskriminantfunksjonsanalyse sett på som en generell multivariat lineær modell der den kategoriske avhengige variabelen (responsen) er representert av vektorer med koder som angir ulike grupper for hver observasjon. ODA-metoden har en rekke betydelige fordeler fremfor klassisk diskriminantanalyse. For eksempel er det ingen begrensninger på typen prediktor som brukes (kategorisk eller kontinuerlig) eller på typen modell som defineres; trinnvis valg av prediktorer og valg av den beste undergruppen av prediktorer er mulig; hvis det er et kryssvalideringsutvalg i datafilen kan utvalget av det beste undersettet av prediktorer baseres på feilklassifisering av proporsjoner for kryssvalideringsutvalg, etc.

Tidsserier. Tidsserier er det mest intensivt utviklende, lovende området innen matematisk statistikk. Med tidsserier (dynamisk) mener vi en sekvens av observasjoner av en eller annen attributt X (tilfeldig variabel) ved påfølgende momenter t. Individuelle observasjoner kalles nivåer av serien og er betegnet xt, t = 1, …, n. Når du studerer en tidsserie, skilles flere komponenter ut:
xt =u t +y t +c t +e t, t = 1, …, n,
der u t er en trend, en jevnt skiftende komponent som beskriver netto påvirkning av langsiktige faktorer (befolkningsnedgang, inntektsnedgang, etc.); - sesongmessig komponent, som gjenspeiler repeterbarheten til prosesser over en ikke veldig lang periode (dag, uke, måned, etc.); сt – syklisk komponent, som gjenspeiler repeterbarheten til prosesser over lange tidsperioder over ett år; t – tilfeldig komponent, som gjenspeiler påvirkningen av tilfeldige faktorer som ikke kan tas i betraktning og registreres. De tre første komponentene er deterministiske komponenter. Den tilfeldige komponenten dannes som et resultat av superposisjonen av et stort antall eksterne faktorer, som hver enkelt har en mindre innvirkning på endringer i verdiene til attributt X. Analyse og studie av en tidsserie gjør det mulig å bygge modeller for å forutsi verdiene til attributt X for fremtiden, hvis sekvensen av observasjoner i fortiden er kjent.

Nevrale nettverk. Nevrale nettverk er et datasystem hvis arkitektur ligner på konstruksjonen av nervevev fra nevroner. Nevronene i det laveste laget leveres med verdiene til inngangsparametrene, på grunnlag av hvilke visse beslutninger må tas. For eksempel, i samsvar med verdiene til pasientens kliniske og laboratorieparametre, er det nødvendig å tildele ham til en eller annen gruppe i henhold til alvorlighetsgraden av sykdommen. Disse verdiene oppfattes av nettverket som signaler som overføres til neste lag, svekkes eller forsterkes avhengig av de numeriske verdiene (vektene) som er tildelt interneuronforbindelser. Som et resultat genereres en viss verdi ved utgangen av det øvre lagneuronet, som betraktes som en respons - responsen til hele nettverket på inngangsparametrene. For at nettverket skal fungere, må det være "trent" (trent) på data som verdiene til inngangsparametrene og de riktige svarene på dem er kjent for. Trening består i å velge vekter av interneuronforbindelser som sikrer størst nærhet av svar til kjente riktige svar. Nevrale nettverk kan brukes til å klassifisere observasjoner.

Design av eksperimenter. Kunsten å arrangere observasjoner i en bestemt rekkefølge eller utføre spesielt planlagte tester for å utnytte mulighetene til disse metodene fullt ut er innholdet i emnet "eksperimentell planlegging". For tiden er eksperimentelle metoder mye brukt både innen vitenskap og i ulike felt av praktisk aktivitet. Vanligvis er hovedmålet med vitenskapelig forskning å vise den statistiske signifikansen av effekten av en viss faktor på den avhengige variabelen som studeres. Som regel er hovedmålet med å designe eksperimenter å trekke ut den maksimale mengden objektiv informasjon om påvirkningen av de studerte faktorene på indikatoren av interesse for forskeren (avhengig variabel) ved å bruke det minste antallet dyre observasjoner. Dessverre blir det i praksis i de fleste tilfeller ikke gitt tilstrekkelig oppmerksomhet til forskningsplanlegging. De samler inn data (så mye de kan samle inn), og utfører deretter statistisk behandling og analyse. Men riktig statistisk analyse alene er ikke tilstrekkelig for å oppnå vitenskapelig validitet, siden kvaliteten på all informasjon innhentet fra dataanalyse avhenger av kvaliteten på selve dataene. Derfor blir design av eksperimenter i økende grad brukt i anvendt forskning. Formålet med eksperimentelle designmetoder er å studere påvirkningen av visse faktorer på prosessen som studeres og å søke etter optimale nivåer av faktorer som bestemmer det nødvendige nivået av prosessen.

Kvalitetskontrollkort. I den moderne verden er problemet med kvalitet ikke bare av produserte produkter, men også av tjenester levert til befolkningen ekstremt relevant. Velferden til enhver bedrift, organisasjon eller institusjon avhenger i stor grad av den vellykkede løsningen av dette viktige problemet. Kvaliteten på produkter og tjenester dannes i prosessen med vitenskapelig forskning, design og teknologisk utvikling, og sikres ved god organisering av produksjon og tjenester. Men produksjon av produkter og levering av tjenester, uavhengig av deres type, er alltid forbundet med en viss variasjon i produksjons- og leveringsbetingelsene. Dette fører til en viss variasjon i deres kvalitetsegenskaper. Derfor er spørsmålene om utvikling av kvalitetskontrollmetoder som vil tillate rettidig identifisering av tegn på brudd på den teknologiske prosessen eller levering av tjenester relevante. Samtidig, for å oppnå og opprettholde et høyt kvalitetsnivå som tilfredsstiller forbrukeren, er det nødvendig med metoder som ikke tar sikte på å eliminere feil i ferdige produkter og inkonsekvenser i tjenester, men på å forhindre og forutsi årsakene til at de oppstår. Et kontrolldiagram er et verktøy som lar deg overvåke fremdriften til en prosess og påvirke den (ved hjelp av passende tilbakemeldinger), og forhindrer dens avvik fra kravene som stilles til prosessen. Verktøy for kvalitetskontrollkart gjør utstrakt bruk av statistiske metoder basert på sannsynlighetsteori og matematisk statistikk. Bruken av statistiske metoder gjør det mulig, med begrensede volumer av analyserte produkter, å bedømme med en gitt grad av nøyaktighet og pålitelighet kvaliteten på produserte produkter. Gir prognoser, optimal regulering av problemer innen kvalitetsfeltet, tar de riktige ledelsesbeslutningene ikke på grunnlag av intuisjon, men ved hjelp av vitenskapelig studie og identifisering av mønstre i akkumulerte rekker av numerisk informasjon. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

Derfor er en statistisk tabell vanligvis definert som en form for kompakt visuell presentasjon av statistiske data.

Analyse av tabeller lar deg løse mange problemer når du studerer endringer i fenomener over tid, strukturen til fenomener og deres relasjoner. Dermed fungerer statistiske tabeller som et universelt middel for rasjonell presentasjon, generalisering og analyse av statistisk informasjon.

Eksternt statistisk tabell er et system av horisontale rader og vertikale kolonner konstruert på en spesiell måte, med en felles overskrift, kolonneoverskrifter og rader, i skjæringspunktet mellom hvilke statistiske data registreres.

Hver figur i statistiske tabeller er en spesifikk indikator som karakteriserer størrelsen eller nivåene, dynamikken, strukturen eller relasjonene til fenomener under spesifikke forhold for sted og tid, det vil si en viss kvantitativ og kvalitativ karakteristikk av fenomenet som studeres.

Hvis tabellen ikke er fylt med tall, det vil si at den kun har en generell tittel, kolonne- og radtitler, så har vi et oppsett av en statistisk tabell. Det er med dens utvikling at prosessen med å kompilere statistiske tabeller starter.

Hovedelementene i en statistisk tabell er emne- og predikattabeller.

Emne for tabellen- dette er et objekt for statistisk undersøkelse, det vil si individuelle enheter av en befolkning, deres grupper eller hele befolkningen som helhet.

Tabellpredikat- Dette er statistiske indikatorer som karakteriserer objektet som studeres.

Tabellens emne- og predikatindikatorer må defineres veldig nøyaktig. Som regel er emnet plassert på venstre side av tabellen og utgjør innholdet i radene, og predikatet er plassert på høyre side av tabellen og utgjør innholdet i kolonnene.

Vanligvis, når du arrangerer predikatindikatorer i en tabell, følges følgende regel: først gis absolutte indikatorer som karakteriserer volumet av befolkningen som studeres, deretter beregnede relative indikatorer som gjenspeiler strukturen, dynamikken og forholdet mellom indikatorene.

Konstruksjon av analytiske tabeller

Konstruksjonen av analytiske tabeller er som følger. Hvilket som helst bord består av et subjekt og et predikat. Emnet avslører det økonomiske fenomenet som er omtalt i denne tabellen og inneholder et sett med indikatorer som gjenspeiler dette fenomenet. Predikatet i tabellen forklarer hvilke trekk som gjenspeiler emnet.

Noen tabeller gjenspeiler endringer i strukturen til evt. Slike tabeller inneholder informasjon om sammensetningen av det analyserte økonomiske fenomenet både i grunnlaget og i rapporteringsperioden. Basert på disse dataene bestemmes andelen (spesifikk vekt) for hver del av den totale populasjonen og avvik fra den grunnleggende egenvekten for hver del beregnes.

Separate tabeller kan gjenspeile forholdet mellom økonomiske indikatorer basert på visse egenskaper. I slike tabeller er informasjon om en gitt økonomisk indikator ordnet i stigende eller synkende rekkefølge av numeriske verdier som kjennetegner denne indikatoren.

I økonomisk analyse sammenstilles det også tabeller som gjenspeiler resultatene av å bestemme individuelle faktorers innflytelse på verdien av den analyserte generaliserende (resultative) indikatoren. Ved utarbeidelse av slike tabeller legges det først informasjon om faktorene som påvirker den generaliserende indikatoren, deretter informasjon om selve generaliserende indikatoren, og til slutt om endringen i denne indikatoren i aggregatet, samt på grunn av påvirkningen fra hver analyserte faktor. Separate analytiske tabeller gjenspeiler resultatene av beregning av reserver for å forbedre økonomiske indikatorer, identifisert som et resultat av analysen. Slike tabeller viser både den faktiske og teoretisk mulige størrelsen på påvirkningen av individuelle faktorer, samt den mulige mengden reserve for vekst av den generelle indikatoren på grunn av påvirkningen fra hver enkelt faktor.

Til slutt, i analysen av økonomisk aktivitet, er det også satt sammen tabeller som har til hensikt å oppsummere resultatene av analysen.

Praksisen med statistikk har utviklet følgende regler for sammenstilling av tabeller:
  • Bordet skal være uttrykksfullt og kompakt. Derfor, i stedet for ett tungvint bord for mange egenskaper, er det bedre å lage flere små, men visuelle tabeller som oppfyller oppgaven med studien.
  • Tabelltittelen, kolonne- og linjetitlene bør formuleres nøyaktig og konsist.
  • Tabellen må nødvendigvis angi: objektet som studeres, territoriet og tiden som dataene gitt i tabellen gjelder, måleenheter.
  • Hvis noen data mangler, legg enten en ellipse eller skriv "ingen informasjon" i tabellen; hvis et eller annet fenomen ikke fant sted, sett en strek
  • Verdiene til de samme indikatorene er gitt i tabellen med samme grad av nøyaktighet.
  • Tabellen skal ha totaler for grupper, undergrupper og totalt. Hvis det er umulig å summere dataene, plasseres multiplikasjonstegnet "*" i denne kolonnen.
  • I store tabeller legges det til et mellomrom etter hver femte rad for å gjøre tabellen lettere å lese og analysere.

Typer statistiske tabeller

Blant metodene er den vanligste den tabellformede metoden (metoden) for å vise de digitale dataene som studeres. Faktum er at både de første dataene for analysen og ulike beregninger, så vel som resultatene av forskningen, presenteres i form av analytiske tabeller. Tabeller er en veldig nyttig og visuell form for visning av numerisk informasjon brukt i . I analytiske tabeller er digital informasjon om de økonomiske fenomenene som studeres plassert i en bestemt rekkefølge. Tabellmateriale er mye mer informativt og visuelt sammenlignet med tekstlig presentasjon av materialet. Tabeller lar deg presentere analytisk materiale i form av et enkelt integrert system.

Typen statistisk tabell bestemmes av arten av utviklingen av de underliggende indikatorene.

Det er tre typer statistiske tabeller:
  • enkel
  • gruppe
  • kombinasjon

Enkle bord inneholde en liste over individuelle enheter som er en del av helheten av det analyserte økonomiske fenomenet. I gruppebord digital informasjon i sammenheng med individuelle komponenter i datasettet som studeres, kombineres i visse grupper i samsvar med en hvilken som helst egenskap. Kombibord inneholder separate grupper og undergrupper som de er delt inn i, som karakteriserer det økonomiske fenomenet som studeres. Dessuten utføres en slik inndeling ikke i henhold til ett, men i henhold til flere kriterier. i gruppetabeller gjennomføres en enkel gruppering av indikatorer, og i kombinerte tabeller gjennomføres en kombinert gruppering. Enkle tabeller inneholder ingen gruppering av indikatorer i det hele tatt. Den siste typen tabeller inneholder kun et ugruppert sett med informasjon om det økonomiske fenomenet som analyseres.

Enkle bord

Enkle tabeller har en liste over enheter for befolkning, tid eller territorier i emnet.

Gruppebord

Gruppetabeller er de som har grupperinger av befolkningsenheter basert på én egenskap.

Kombinasjonstabeller

Kombinasjonstabeller har faggruppering av befolkningsenheter etter to eller flere kjennetegn.

Basert på arten av utviklingen av indikatorer for predikatet, skilles de ut:

  • tabeller med en enkel utvikling av indikatorer for predikatet, der det er et parallelt arrangement av indikatorer for predikatet.
  • tabeller med en kompleks utvikling av indikatorer for predikatet, der en kombinasjon av indikatorer for predikatet finner sted: innenfor grupper dannet i henhold til en egenskap, skilles undergrupper i henhold til en annen egenskap.

Tabell med en enkel utvikling av predikatindikatorer

Predikatet til denne tabellen gir data først om fordelingen av elever etter kjønn, og deretter etter alder, dvs. Det er isolerte egenskaper i henhold til to egenskaper.

Tabell med kompleks utvikling av predikatindikatorer

Grener

Antall studenter, personer.

Gjelder også

av dem i alder, år

av dem i alder, år

23 eller mer

23 eller mer

Kveld

Predikatet til denne tabellen karakteriserer ikke bare fordelingen av elever i henhold til hver av de to identifiserte egenskapene, men lar oss også studere sammensetningen av hver gruppe, identifisert av en egenskap - kjønn, og av en annen egenskap - studentalder, dvs. det er en kombinasjon av to egenskaper.

Følgelig gir tabeller med kompleks utvikling av indikatorer for predikatet større muligheter for å analysere indikatorene som studeres og sammenhengene mellom dem. En tabell av enhver type kan ha en enkel og kompleks utvikling av predikatindikatorer: enkel, gruppe, kombinasjon.

Avhengig av stadiet for statistisk forskning, er tabellene delt inn i:
  • utvikling(hjelpemiddel), hvis formål er å oppsummere informasjon om individuelle enheter av befolkningen for å få endelige indikatorer.
  • sammendrag, hvis oppgave er å vise resultatene for grupper og hele befolkningen som helhet.
  • analytisk tabeller, hvis oppgave er å beregne generelle egenskaper og utarbeide et informasjonsgrunnlag for analyse av strukturen og strukturelle skift, dynamikken til fenomenene som studeres og forholdet mellom indikatorer.

Så vi undersøkte den tabellformede metoden for å vise de digitale dataene som studeres, som er mye brukt i analysen av økonomiske fenomener, statistiske data og økonomiske aktiviteter til organisasjoner.


Ikke mist det. Abonner og motta en lenke til artikkelen i e-posten din.

Folks aktiviteter involverer i mange tilfeller arbeid med data, og dette kan i sin tur innebære ikke bare å operere med dem, men også studere, bearbeide og analysere dem. For eksempel når du trenger å kondensere informasjon, finne noen relasjoner eller definere strukturer. Og bare for analyser i dette tilfellet er det veldig praktisk å bruke ikke bare, men også å bruke statistiske metoder.

Et trekk ved statistiske analysemetoder er deres kompleksitet, på grunn av mangfoldet av former for statistiske mønstre, så vel som kompleksiteten i prosessen med statistisk forskning. Vi ønsker imidlertid å snakke om metoder som alle kan bruke, og gjøre det effektivt og med glede.

Statistisk forskning kan utføres ved hjelp av følgende metoder:

  • Statistisk observasjon;
  • Oppsummering og gruppering av statistisk observasjonsmateriale;
  • Absolutte og relative statistiske verdier;
  • Variasjon serien;
  • Prøve;
  • Korrelasjons- og regresjonsanalyse;
  • Dynamisk serie.

Statistisk observasjon

Statistisk observasjon er en planlagt, organisert og i de fleste tilfeller systematisk innsamling av informasjon, hovedsakelig rettet mot fenomener i det sosiale livet. Denne metoden implementeres gjennom registrering av forhåndsbestemte mest slående trekk, hvis formål er å etterpå oppnå egenskapene til fenomenene som studeres.

Statistisk observasjon må utføres under hensyntagen til noen viktige krav:

  • Den må fullt ut dekke fenomenene som studeres;
  • Dataene som innhentes må være nøyaktige og pålitelige;
  • Dataene som innhentes bør være enhetlige og lett sammenlignbare.

Statistisk observasjon kan også ha to former:

  • Rapportering er en form for statistisk observasjon hvor informasjon leveres til spesifikke statistiske avdelinger av organisasjoner, institusjoner eller virksomheter. I dette tilfellet blir dataene lagt inn i spesialrapporter.
  • Spesielt organisert observasjon er en observasjon som er organisert for et bestemt formål, for å innhente informasjon som ikke er tilgjengelig i rapportene, eller for å klargjøre og fastslå påliteligheten til informasjonen i rapportene. Dette skjemaet inkluderer undersøkelser (for eksempel meningsmålinger), folketellinger osv.

I tillegg kan statistiske observasjoner kategoriseres ut fra to kjennetegn: enten ut fra arten av dataregistreringen eller ut fra dekningen av observasjonsenheter. Den første kategorien omfatter undersøkelser, dokumentasjon og direkte observasjon, og den andre kategorien omfatter kontinuerlig og ufullstendig observasjon, d.v.s. selektiv.

For å innhente data ved hjelp av statistisk observasjon kan du bruke metoder som spørreskjemaer, korrespondentaktiviteter, egenberegning (når observerte for eksempel selv fyller ut de relevante dokumentene), ekspedisjoner og rapportering.

Oppsummering og gruppering av statistisk observasjonsmateriale

Når vi snakker om den andre metoden, bør vi først og fremst snakke om sammendraget. Et sammendrag er prosessen med å behandle visse individuelle fakta som utgjør den samlede datamengden som samles inn under observasjon. Hvis sammendraget utføres riktig, kan en enorm mengde individuelle data om individuelle observasjonsobjekter bli til et helt kompleks av statistiske tabeller og resultater. Slik forskning bidrar også til å bestemme de generelle trekkene og mønstrene til fenomenene som studeres.

Tatt i betraktning indikatorene for nøyaktighet og studiedybde, kan en enkel og en kompleks oppsummering skilles, men hvilken som helst av dem bør være basert på spesifikke stadier:

  • En grupperingskarakteristikk er valgt;
  • Rekkefølgen på gruppedannelsen bestemmes;
  • Et system med indikatorer er under utvikling for å karakterisere gruppen og objektet eller fenomenet som helhet;
  • Tabelloppsett er under utvikling hvor oppsummeringsresultatene vil bli presentert.

Det er viktig å merke seg at det finnes ulike former for sammendrag:

  • Sentralisert oppsummering, som krever overføring av det mottatte primærmaterialet til et høyere senter for påfølgende behandling;
  • Desentralisert oppsummering, hvor studiet av data skjer på flere stadier på en stigende måte.

Sammendraget kan utføres ved hjelp av spesialutstyr, for eksempel ved hjelp av dataprogramvare eller manuelt.

Når det gjelder gruppering, skilles denne prosessen ved å dele inn dataene som studeres i grupper i henhold til egenskaper. Funksjonene ved oppgavene som statistisk analyse utgjør, påvirker hva slags gruppering det vil være: typologisk, strukturell eller analytisk. Det er grunnen til at de, for å oppsummere og gruppere, enten tyr til tjenester fra høyt spesialiserte spesialister eller bruker.

Absolutte og relative statistiske størrelser

Absolutte verdier regnes som den aller første formen for presentasjon av statistiske data. Med dens hjelp er det mulig å gi dimensjonale egenskaper til fenomener, for eksempel i tid, i lengde, i volum, i areal, i masse, etc.

Hvis du vil vite om individuelle absolutte statistiske verdier, kan du ty til målinger, estimering, telling eller veiing. Og hvis du trenger å få totalvolumindikatorer, bør du bruke sammendrag og gruppering. Det må tas i betraktning at absolutte statistiske verdier er forskjellige i nærvær av måleenheter. Slike enheter inkluderer kostnad, arbeid og naturlig.

Og relative størrelser uttrykker kvantitative forhold knyttet til fenomenene i det sosiale livet. For å få dem deles alltid noen mengder med andre. Indikatoren den sammenlignes med (dette er nevneren) kalles sammenligningsgrunnlaget, og indikatoren den sammenlignes med (dette er telleren) kalles rapporteringsverdien.

Relative verdier kan være forskjellige, avhengig av innholdet. For eksempel er det verdier for sammenligning, verdier for utviklingsnivå, verdier for intensiteten til en bestemt prosess, verdier for koordinering, struktur, dynamikk, etc. og så videre.

For å studere en populasjon basert på differensierende egenskaper, bruker statistisk analyse gjennomsnittsverdier – oppsummerer de kvalitative egenskapene til et sett med homogene fenomener basert på en eller annen differensierende egenskap.

En ekstremt viktig egenskap ved gjennomsnittsverdier er at de snakker om verdiene til spesifikke funksjoner i hele komplekset som et enkelt tall. Til tross for at individuelle enheter kan ha kvantitative forskjeller, uttrykker gjennomsnittsverdier generelle verdier som er karakteristiske for alle enheter i komplekset som studeres. Det viser seg at ved å bruke egenskapene til én ting, kan man få egenskapene til helheten.

Det bør huskes at en av de viktigste betingelsene for bruk av gjennomsnittsverdier, hvis en statistisk analyse av sosiale fenomener utføres, anses å være homogeniteten til komplekset deres, som det er nødvendig å finne ut av. gjennomsnittlig verdi. Og formelen for å bestemme den vil avhenge av nøyaktig hvordan de første dataene for å beregne gjennomsnittsverdien vil bli presentert.

Variasjonsserie

I noen tilfeller kan det hende at data om gjennomsnittsindikatorene for visse studerte mengder ikke er nok til å behandle, evaluere og i dybden analysere et fenomen eller en prosess. Deretter bør man ta hensyn til variasjonen eller spredningen av indikatorer for individuelle enheter, som også representerer en viktig egenskap ved populasjonen som studeres.

Individuelle verdier av mengder kan påvirkes av mange faktorer, og fenomenene eller prosessene som studeres i seg selv kan være svært forskjellige, dvs. har variasjon (denne varianten er variasjonsserier), årsakene til dette bør søkes i essensen av det som studeres.

De ovennevnte absolutte verdiene er direkte avhengige av måleenhetene for egenskaper, og gjør derfor prosessen med å studere, evaluere og sammenligne to eller flere variasjonsserier mer kompleks. Og relative indikatorer må beregnes som forholdet mellom absolutte og gjennomsnittlige indikatorer.

Prøve

Betydningen av prøvetakingsmetoden (eller mer enkelt, prøvetaking) er at egenskapene til en del brukes til å bestemme de numeriske egenskapene til helheten (dette kalles den generelle populasjonen). Hovedprøvemetoden er den interne forbindelsen som forener delene og helheten, det individuelle og det generelle.

Prøvetakingsmetoden har en rekke betydelige fordeler fremfor andre, fordi Takket være reduksjonen i antall observasjoner, lar det deg redusere mengden arbeid, penger og innsats brukt, samt lykkes med å skaffe data om slike prosesser og fenomener der det enten er upraktisk eller rett og slett umulig å studere dem fullstendig.

Korrespondansen mellom egenskapene til utvalget og egenskapene til fenomenet eller prosessen som studeres vil avhenge av et sett av forhold, og først og fremst av hvordan prøvetakingsmetoden skal implementeres i praksis. Dette kan enten være et systematisk utvalg, etter utarbeidet opplegg, eller uplanlagt, når utvalget er tatt fra den generelle populasjonen.

Men i alle tilfeller må prøvetakingsmetoden være typisk og oppfylle kriteriene om objektivitet. Disse kravene må alltid oppfylles, fordi samsvaret mellom egenskapene til metoden og egenskapene til det som analyseres statistisk vil avhenge av dem.

Derfor, før du behandler prøvemateriale, er det nødvendig å sjekke det grundig, og dermed bli kvitt alt unødvendig og uviktig. Samtidig, når du kompilerer en prøve, er det viktig å unngå amatøraktiviteter. Dette betyr at du ikke i noe tilfelle skal velge bare de alternativene som virker typiske og forkaste alle andre.

Et effektivt utvalg av høy kvalitet må velges objektivt, d.v.s. den må utføres på en slik måte at enhver subjektiv påvirkning og partiske motiver utelukkes. Og for at denne betingelsen skal oppfylles på riktig måte, er det nødvendig å ty til prinsippet om randomisering eller, enklere, til prinsippet om tilfeldig utvalg av alternativer fra hele befolkningen.

Det presenterte prinsippet tjener som grunnlag for teorien om prøvetakingsmetoden, og det må følges når det er nødvendig for å skape en effektiv utvalgspopulasjon, og tilfeller av systematisk seleksjon er ikke noe unntak her.

Korrelasjons- og regresjonsanalyse

Korrelasjonsanalyse og regresjonsanalyse er to svært effektive metoder som lar deg analysere store mengder data for å studere mulig sammenheng mellom to eller flere indikatorer.

Når det gjelder korrelasjonsanalyse, er målene:

  • Måle nærheten av den eksisterende sammenhengen mellom differensierende egenskaper;
  • Identifisere ukjente årsakssammenhenger;
  • Vurder faktorene som påvirker den endelige egenskapen mest.

Og når det gjelder regresjonsanalyse, er oppgavene som følger:

  • Bestem kommunikasjonsformen;
  • Etablere graden av påvirkning av uavhengige indikatorer på den avhengige;
  • Bestem de beregnede verdiene til den avhengige indikatoren.

For å løse alle de ovennevnte problemene er det nesten alltid nødvendig å bruke både korrelasjons- og regresjonsanalyse i kombinasjon.

Dynamics-serien

Ved å bruke denne metoden for statistisk analyse er det veldig praktisk å bestemme intensiteten eller hastigheten som fenomener utvikler seg med, finne trenden for deres utvikling, fremheve svingninger, sammenligne utviklingsdynamikken og finne forholdet mellom fenomener som utvikler seg over tid.

En dynamikkserie er en serie der statistiske indikatorer er sekvensielt plassert over tid, hvis endringer karakteriserer utviklingsprosessen til objektet eller fenomenet som studeres.

Dynamics-serien inkluderer to komponenter:

  • Perioden eller tidspunktet knyttet til tilgjengelige data;
  • Nivå eller statistisk indikator.

Til sammen representerer disse komponentene to ledd i en tidsserie, der det første leddet (tidsperiode) er merket med bokstaven "t", og det andre (nivå) med bokstaven "y".

Basert på varigheten av tidsintervallene som nivåene er sammenkoblet med, kan dynamikkserien være momentan og intervall. Intervallserier lar deg legge til nivåer for å få den totale verdien av perioder som følger etter hverandre, men i øyeblikksserier er det ingen slik mulighet, men dette er ikke påkrevd der.

Tidsserier eksisterer også med like og forskjellige intervaller. Essensen av intervaller i øyeblikk og intervallserier er alltid forskjellig. I det første tilfellet er intervallet tidsintervallet mellom datoene som dataene for analyse er knyttet til (det er praktisk å bruke en slik serie, for eksempel for å bestemme antall handlinger per måned, år osv.). Og i det andre tilfellet, en tidsperiode som et sett med generaliserte data er knyttet til (en slik serie kan brukes til å bestemme kvaliteten på de samme handlingene for en måned, et år, etc.). Intervallene kan være like eller forskjellige, uavhengig av serietype.

Naturligvis, for å lære å anvende hver av metodene for statistisk analyse kompetent, er det ikke nok bare å vite om dem, for faktisk er statistikk en hel vitenskap som også krever visse ferdigheter og evner. Men for å gjøre det enklere, kan og bør du trene opp din tenkning og...

Ellers er forskning, vurdering, bearbeiding og analyse av informasjon svært interessante prosesser. Og selv i tilfeller der det ikke fører til noe spesifikt resultat, kan mange interessante ting læres under forskningen. Statistisk analyse har funnet sin anvendelse i et stort antall områder av menneskelig aktivitet, og du kan bruke den i skole, arbeid, næringsliv og andre områder, inkludert barns utvikling og selvopplæring.

Grunnleggende statistiske kjennetegn er delt inn i to hovedgrupper: mål på sentral tendens og kjennetegn på variasjon.

Sentral tendens i utvalget tillate oss å evaluere slike statistiske egenskaper som aritmetisk gjennomsnitt, modus, median.

Det lettest oppnåelige målet på sentral tendens er modus. Mote (Mo)– dette er verdien i et sett med observasjoner som forekommer oftest. I settet med verdier (2, 6, 6, 8, 7, 33, 9, 9, 9, 10) er modusen 9 fordi den forekommer oftere enn noen annen verdi. I tilfellet når alle verdier i en gruppe forekommer like ofte, anses denne gruppen for å ha ingen modus.

Når to tilstøtende verdier i en rangert serie har samme frekvens og de er større enn frekvensen til noen annen verdi, er modusen gjennomsnittet av de to verdiene.

Hvis to ikke-tilstøtende verdier i en gruppe har like frekvenser, og de er større enn frekvensene til en hvilken som helst verdi, er det to moduser (for eksempel i samlingen av verdier 10, 11, 11, 11, 12, 13, 14, 14, 14, 17, modusene er 11 og 14); i et slikt tilfelle er gruppen av målinger eller estimater bimodal.

Den største modusen i en gruppe er den eneste verdien som tilfredsstiller definisjonen av en modus. Det kan imidlertid være flere mindre moduser i hele gruppen. Disse mindre modusene representerer de lokale toppene av frekvensfordelingen.

Median (meg)– midten av den rangerte serien med måleresultater. Hvis dataene inneholder et partall av distinkte verdier, er medianen punktet som ligger midt mellom de to sentrale verdiene når de bestilles.

Aritmetisk gjennomsnitt for en uordnet serie målinger beregnes ved hjelp av formelen:

Hvor . For eksempel for data 4.1; 4,4; 4,5; 4,7; 4.8 la oss regne ut:

.

Hvert av de ovenfor beregnede sentermålene er best egnet for bruk under visse forhold.

Modusen beregnes enklest - den kan bestemmes med øyet. For svært store datagrupper er det dessuten et ganske stabilt mål på distribusjonssenteret.

Medianen er mellomliggende mellom modusen og gjennomsnittet når det gjelder beregningen. Dette tiltaket er spesielt enkelt å få tak i når det gjelder rangerte data.

Det gjennomsnittlige datasettet involverer for det meste aritmetiske operasjoner.

Verdien av gjennomsnittet påvirkes av verdiene til alle resultater. Medianen og modusen er ikke nødvendig for å bestemme alle verdier. La oss se hva som skjer med gjennomsnittet, medianen og modusen når maksimalverdien i følgende sett dobles:

Sett 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3

Sett 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3

Verdien av gjennomsnittet er spesielt påvirket av resultater som kalles "outliers", dvs. data plassert langt fra midten av gruppen av estimater.

Å beregne modus, median eller gjennomsnitt er en rent teknisk prosedyre. Men å velge blant disse tre tiltakene og deres tolkning krever ofte litt omtanke. Under utvelgelsesprosessen bør du etablere følgende:

– i små grupper kan moten være helt ustabil. For eksempel er modusen til gruppen: 1, 1, 1, 3, 5, 7, 7, 8 lik 1; men hvis en av dem blir til null, og den andre blir til to, vil modusen være lik 7;

– medianen påvirkes ikke av verdiene for "store" og "små" verdier. For eksempel, i en gruppe med 50 verdier, vil ikke medianen endres hvis den største verdien tredobles;

– verdien av gjennomsnittet påvirkes av hver verdi. Hvis en verdi endres med c-enheter, vil den endres i samme retning med c/n-enheter;

– Noen datasett har ikke en sentral tendens, noe som ofte er misvisende når man kun beregner ett mål på sentral tendens. Dette gjelder spesielt for grupper som har mer enn én modus;

– når en gruppe data anses å være et utvalg fra en stor symmetrisk gruppe, er prøvegjennomsnittet sannsynligvis nærmere midten av den store gruppen enn medianen og modusen.

Alle gjennomsnittskarakteristikker gir en generell beskrivelse av en rekke måleresultater. I praksis er vi ofte interessert i hvor langt hvert resultat avviker fra gjennomsnittet. Det er imidlertid lett å tenke seg at to grupper av måleresultater har samme gjennomsnitt, men forskjellige måleverdier. For eksempel, for rad 3, 6, 3 – gjennomsnitt = 4; for serie 5, 2, 5 – også gjennomsnittsverdien = 4, til tross for den betydelige forskjellen mellom disse seriene.

Derfor må gjennomsnittskarakteristikker alltid suppleres med indikatorer på variasjon, eller variabilitet.

Til egenskapene variasjoner, eller svingninger, måleresultater inkluderer variasjonsområdet, spredning, standardavvik, variasjonskoeffisient, standardfeil for det aritmetiske gjennomsnittet.

Den enkleste egenskapen til variasjon er variasjonsspekter. Det er definert som differansen mellom de største og minste måleresultatene. Den fanger imidlertid bare opp ekstreme avvik og fanger ikke opp avvikene til alle resultater.

For å gi en generell karakteristikk kan avvik fra gjennomsnittsresultatet beregnes. For eksempel, for rad 3, 6, 3 vil verdiene være som følger: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Summen av disse avvikene (– 1) + 2 + (– 1) er alltid lik 0. For å unngå dette kvadreres verdiene for hvert avvik: (– 1) 2 + 2 2 + (– 1) 2 = 6.

Verdien gjør avvik fra gjennomsnittet mer åpenbare: små avvik blir enda mindre (0,5 2 = 0,25), og store avvik blir enda større (5 2 = 25). Det resulterende beløpet kalles summen av kvadrerte avvik. Å dele denne summen på antall målinger gir gjennomsnittlig kvadratavvik, eller spredning. Det er betegnet s 2 og beregnes med formelen:

.

Hvis antall målinger ikke er mer enn 30, dvs. n ≤ 30, formelen brukes:

.

Mengden n – 1 = k kalles antall frihetsgrader, som refererer til antall fritt varierende medlemmer av befolkningen. Det er fastslått at ved beregning av variasjonsindekser har ett medlem av den empiriske populasjonen alltid ingen frihetsgrad.

Disse formlene brukes når resultatene er representert av et uordnet (vanlig) utvalg.

Av oscillasjonskarakteristikkene er den mest brukte standardavvik, som er definert som den positive verdien av kvadratroten av variansverdien, dvs.:

.

Standardavvik eller standardavvik karakteriserer graden av avvik for resultatene fra gjennomsnittsverdien i absolutte enheter og har samme måleenheter som måleresultatene.

Denne egenskapen er imidlertid ikke egnet for å sammenligne variabiliteten til to eller flere populasjoner som har forskjellige måleenheter.

Variasjonskoeffisienten er definert som forholdet mellom standardavviket og det aritmetiske gjennomsnittet, uttrykt i prosent. Det beregnes med formelen:

.

I idrettspraksis anses variabiliteten av måleresultater avhengig av verdien av variasjonskoeffisienten som liten
(0 – 10 %), medium (11 – 20 %) og stor (V > 20 %).

Variasjonskoeffisienten er av stor betydning i den statistiske behandlingen av måleresultater, fordi den, som er en relativ verdi (målt i prosent), lar en sammenligne variasjonen til måleresultater med forskjellige måleenheter. Variasjonskoeffisienten kan bare brukes hvis målingene er gjort på en forholdsskala.

2.4.2. Analyse av statistiske data i MS Excel. Analyseverktøy: beskrivende statistikk, korrelasjon.

Microsoft Excel-regneark inkluderer en såkalt analysepakke – et sett med verktøy utviklet for å løse komplekse statistiske problemer. Denne pakken analyserer statistiske data ved hjelp av makrofunksjoner og lar deg oppnå et stort antall resultater ved å utføre én handling. Excels analysepakke inkluderer seksjoner for beskrivende statistikk og korrelasjon, blant andre analyseverktøy.

Verktøyet Descriptive Statistics lar oss få en betydelig liste over beregnede statistiske egenskaper for et stort antall tallserier. Ved å bruke korrelasjonsverktøyet får vi en korrelasjonsmatrise som inneholder alle mulige parvise korrelasjonskoeffisienter. For k-serier vil k (k – 1)/2 korrelasjonskoeffisienter fås.

Analysepakken kalles opp ved hjelp av menypunktet Verktøy – Dataanalyse... Hvis dette menypunktet mangler betyr det at analysepakken ikke er installert. For å installere det, må du kalle opp menypunktet Verktøy – Tillegg... og aktivere tillegget “Analysepakke”, OK (se figur 1).

Figur 1. Aktiver/deaktiver tilleggsdialogboks

Etter å ha aktivert tillegget "Analysepakke", menypunktet Verktøy – Dataanalyse... Når det er valgt, vises følgende dialogboks (Figur 2).

Figur 2. Dialogboks for valg av dataanalyseverktøy

Etter å ha valgt verktøyet Descriptive Statistics og klikket OK, vil en annen dialogboks vises (Figur 3), som krever at du oppgir inndata og hvor resultatene skal sendes ut. Her er det nok å angi celleområdet som inneholder kildedataene i feltet "Inndataintervall". Du kan spesifisere et område med kolonneoverskrifter, i så fall må du aktivere avmerkingsboksen "Etiketter i første rad". For å spesifisere utdataintervallet er det nok å spesifisere bare den øvre venstre cellen i området. Beregningsresultatene vil automatisk oppta det nødvendige antallet rader og kolonner i tabellen.

Figur 3. Dialogboks for verktøy for beskrivende statistikk

La oss se på arbeidet med analyseverktøyet "Descriptive Statistics" ved å bruke følgende eksempel. Under undersøkelsen av en gruppe skolebarn (n = 21) ble følgende indikatorer målt: høyde, kroppsvekt, dynamometri på høyre og venstre arm, vitalkapasitet, Stange-test og Genchi-test. Resultatene ble tabellert (figur 4).

For å få statistiske kjennetegn vil vi bruke analysepakken, verktøyet "Descriptive Statistics". I feltet "Inndataintervall" skriver du inn celleområdet B1:H22. Siden det valgte inndataintervallet inneholder kolonneoverskrifter, må du aktivere avmerkingsboksen "Etiketter i første rad". For å gjøre arbeidet enklere, velg "Nytt regneark" som utdataplassering for resultatet. For utdataene, velg avmerkingsboksene "Endelig statistikk" og "Pålitelighetsnivå: 95 %". Den siste avmerkingsboksen lar deg vise parametrene for konfidensintervallet med en konfidenssannsynlighet på 0,95. Det resulterende resultatet etter litt formatering vil se ut som vist i figur 5.

Figur 4. Resultater av en undersøkelse av en gruppe skoleelever

Figur 5. Resultat av verktøyet Descriptive Statistics

Etter å ha valgt "Korrelasjon"-verktøyet og klikket OK i "Dataanalyse"-dialogboksen (Figur 2, 6), vil en annen dialogboks vises (Figur 7), som krever inndata og hvor resultatene skal sendes ut. Her er det nok å angi celleområdet som inneholder kildedataene i feltet "Inndataintervall". Du kan spesifisere et område med kolonneoverskrifter, i så fall må du aktivere avmerkingsboksen "Etiketter i første rad". For å spesifisere utdataintervallet er det nok å spesifisere bare den øvre venstre cellen i området. Beregningsresultatene vil automatisk oppta det nødvendige antallet rader og kolonner i tabellen.

Figur 6. Dialogboks for valg av dataanalyseverktøy

Figur 7. Korrelasjonsverktøy-dialogboks

La oss vurdere operasjonen til analyseverktøyet "Korrelasjon" ved å bruke eksemplet presentert i figur 4.

For å få en korrelasjonsmatrise vil vi bruke analysepakken, «Correlation»-verktøyet. I feltet "Inndataintervall" skriver du inn celleområdet B1:H22. Siden det valgte inndataintervallet inneholder kolonneoverskrifter, må du aktivere avmerkingsboksen "Etiketter i første rad". For å gjøre arbeidet enklere, velg "Nytt regneark" som utdataplassering for resultatet. Det resulterende resultatet, etter litt formatering, vil se ut som vist i figur 8.

Figur 8. Korrelasjonsmatrise

Ved å utføre enkle operasjoner får vi dermed et stort antall beregningsresultater. Det er verdt å merke seg at selv om informasjonsteknologier åpner for muligheten for forskeren til å få en enorm mengde informasjon for analyse, er utvalget av de mest informative resultatene, den endelige tolkningen og formuleringen av konklusjonene forskerens arbeid.

Grunnleggende begreper for korrelasjonsanalyse av eksperimentelle data. Estimering av korrelasjonskoeffisienten fra eksperimentelle data.

I idrettsforskning finner man ofte en sammenheng mellom de studerte indikatorene. Utseendet varierer. For eksempel bestemmer akselerasjon fra kjente hastighetsdata, Newtons andre lov og andre karakteriserer den såkalte funksjonelle avhengighet, eller forhold, der hver verdi av en indikator tilsvarer en strengt definert verdi av en annen.

En annen type forhold inkluderer for eksempel vektens avhengighet av kroppslengde. Én kroppslengdeverdi kan tilsvare flere vektverdier og omvendt. I slike tilfeller, når en verdi av en indikator tilsvarer flere verdier av en annen, kalles forholdet statistisk.

Mye oppmerksomhet rettes mot studiet av det statistiske forholdet mellom ulike indikatorer i idrettsforskning, siden dette gjør det mulig å avsløre noen mønstre og deretter beskrive dem både verbalt og matematisk med det formål å bruke dem i det praktiske arbeidet til en trener og lærer. .

Blant de statistiske sammenhengene er de viktigste korrelasjonell. Korrelasjon er en statistisk avhengighet mellom tilfeldige variabler, der en endring i en av de tilfeldige variablene fører til en endring i den matematiske forventningen (gjennomsnittsverdien) til den andre. For eksempel kulestøt 3 kg og 5 kg. En forbedring i 3 kg kule gir en forbedring (i gjennomsnitt) i 5 kg kule.

Den statistiske metoden som brukes for å studere sammenhenger kalles korrelasjonsanalyse. Dens hovedoppgave er bestemme form, tetthet og retning forhold mellom de studerte indikatorene. Korrelasjonsanalyse lar deg utforske kun statistiske sammenhenger. Det er mye brukt i testteori for å vurdere deres pålitelighet og informasjonsinnhold. Ulike måleskalaer krever ulike typer korrelasjonsanalyser.

Størrelsen på korrelasjonskoeffisienten beregnes under hensyntagen til skalaen som brukes for målinger.

For å vurdere sammenhengen, når målinger gjøres på en forholds- eller intervallskala og formen på sammenhengen er lineær, brukes Bravais-Pearson-korrelasjonskoeffisienten (korrelasjonskoeffisienter for andre måleskalaer vurderes ikke i denne håndboken). Det er betegnet med den latinske bokstaven - r. Verdien av r beregnes oftest ved å bruke formelen:

,

hvor og er de aritmetiske gjennomsnittsverdiene til indikatorene x og y, og er standardavvikene, n– antall målinger (emner).

I noen tilfeller bestemmes relasjonens nærhet basert på koeffisienten besluttsomhet D, som beregnes med formelen:

.

Denne koeffisienten måler delen av den totale variasjonen i en indikator som forklares av variasjonen i en annen indikator. For eksempel er korrelasjonskoeffisienten r = –0,677 (mellom resultatene i 30 m løping og stående trippelhopp). Bestemmelseskoeffisienten er lik:

Følgelig er 45,8 % av spredningen av idrettsresultatet i trippelhoppet forklart med endringer i resultatene i 30 m. Med andre ord er begge studerte egenskaper påvirket av felles faktorer som forårsaker variasjon i disse egenskapene, og andelen. av vanlige faktorer er 45,8 %. De resterende 100 % - 45,8 % = 54,2 % skyldes faktorer som virker selektivt på egenskapene som studeres.

Å vurdere den statistiske påliteligheten til en korrelasjonskoeffisient betyr å bestemme om det eksisterer et lineært korrelasjonsforhold mellom generelle populasjoner eller ikke, hva som er det samme, å fastslå om korrelasjonskoeffisienten mellom utvalgene skiller seg signifikant eller ubetydelig fra null. Dette problemet kan løses ved å bruke tabeller over kritiske punkter for fordelingen av korrelasjonskoeffisienten i følgende rekkefølge:

1. Statistiske hypoteser fremsettes. Hypotese H 0 antar fraværet av en statistisk signifikant sammenheng mellom de studerte indikatorene ( r genet=0). Hypotese H 1 antar at det er en statistisk signifikant sammenheng mellom indikatorer ( r genet>0).

2. Den observerte verdien av korrelasjonskoeffisienten beregnes r obs..

3. Den kritiske verdien av korrelasjonskoeffisienten er funnet fra tabellen r crit avhengig av prøvestørrelse n, signifikansnivå a og type kritisk region (ensidig eller tosidig).

3. Sammenligner r obs. Og r crit.

Hvis r obs. < r crit– statistisk upålitelig (ubetydelig). Hypotese H 0 aksepteres If r obs.r crit, anses korrelasjonskoeffisienten som statistisk pålitelig (signifikant). Hypotese H 1 er akseptert.

Statistiske data kan presenteres i form av statistiske tabeller, statistiske grafer og statistiske diagrammer.

Statistiske tabeller er utarbeidet som et resultat av oppsummering og gruppering av tilgjengelige observasjonsdata. Statistiske tabeller inneholder nødvendigvis sammendragsindikatorer og består av et emne og et predikat.

Emne for tabellen viser hva tabellen handler om, den er plassert til venstre og representerer innholdet i radene.

Tabellpredikat plassert øverst og representerer innholdet i grafen. Predikatet viser hvilke trekk som kjennetegner emnet.

Statistiske grafer. Konstruksjonen av statistiske grafer er den siste fasen av oppsummering og gruppering av statistiske data. Grafisk representasjon er den mest effektive formen for å presentere statistiske data fra synspunktet deres oppfatning.

Rute kalt en betinget, visuell representasjon av statistiske størrelser og deres relasjoner ved hjelp av geometriske linjer og figurer.

Hver graf må inneholde følgende elementer: et grafisk bilde, et graffelt, målestokkretningslinjer og et koordinatsystem.

Grafisk bilde - geometriske tegn, et sett med punkter, linjer, figurer ved hjelp av hvilke statistiske mengder er avbildet.

Graffelt representerer et rom der geometriske tegn er plassert.

Skalareferansene til en statistisk graf bestemmes av skalaen og skalaen.

Statistisk grafskala - dette er et mål for å konvertere en numerisk verdi til en grafisk,

Skala skala - en linje hvis spesifikke punkter kan leses som spesifikke tall. Skalaen består av en linje (skalabæreren) og et antall punkter markert på den, ordnet i en bestemt rekkefølge.

Ensartet skala er lengden på et segment tatt som en enhet og målt i et eller annet mål.

For å plassere geometriske tegn i graffeltet kreves et koordinatsystem. Det vanligste systemet er rektangulære koordinater.

I henhold til metoden for å konstruere er grafer delt inn i linjegrafer, diagrammer, kartogrammer og kartdiagrammer.

Klassen av lineære grafer inkluderer: polygon, kumulert og Lorenz-kurve.

Polygon kalt en brutt linje hvis segmenter forbinder punkter X og/j (X j - karakteristisk verdi; - frekvens).

Polygonet brukes for en diskret distribusjonsserie.

Akkumulerer- en brutt linje, kompilert fra akkumulerte frekvenser eller frekvenser, hvis koordinater til punktene er X ( Og f. (X j- verdien av karakteristikken, for en intervallserie - øvre grense for verdier (X.);/ ( - akkumulert frekvens).

Startpunktet for den stiplede linjen i intervallfordelingsserien er den nedre grensen for verdien ( X") i den første gruppen.

Lorenz-kurve, eller konsentrasjonskurve, kalles den relative konsentrasjonskurven for den totale verdien av attributtet. Det er en brutt linje, hvor koordinatene til punktene på abscisseaksen er de akkumulerte relative frekvensene, og på ordinataksen den akkumulerte (kumulative totalverdien) av attributtet Xj.

Jo nærmere Lorenz-kurven er en rett linje, desto jevnere er fordelingen av karakteristikken, dvs. konsentrasjonen er mindre. Jo større krumning kurven har, jo mer ujevn er fordelingen, dvs. konsentrasjonen er større.

Statistiske diagrammer. Klassen av diagrammer inkluderer først og fremst et histogram (stolpediagram), samt stolpediagram, bånddiagram, sektordiagram, lineære diagrammer, firkantede diagrammer, sektordiagrammer, krøllete diagrammer, etc.

Stolpediagram - dette er en trinnformet figur som består av rektangler, hvis basis er lik størrelsen på intervallet i gruppen, og høydene er lik tettheten i gruppen (absolutt eller relativ).

Når du konstruerer søylediagrammer, er data avbildet i form av søyler med samme bredde, men med forskjellige høyder, avhengig av de numeriske verdiene til de viste mengdene i en viss skala.

En rekke søylediagrammer er stripe- og stripediagrammer. De skildrer dimensjonene til en funksjon i form av horisontalt plasserte rektangler med samme bredde, men av forskjellige lengder, i forhold til de avbildede verdiene. Begynnelsen av stripene skal være på samme vertikale linje.

Kakediagrammer Det er praktisk å bruke for å skildre strukturen til et fenomen; i dette tilfellet er sirkelen delt inn i sektorer proporsjonale med andelene av deler av fenomenet. Sirkelen tas som en helhet (100%) og er delt inn i sektorer, hvis buer er proporsjonale

verdiene til individuelle deler av de viste mengdene. Buen til hver sektor (eller verdien av den sentrale vinkelen) bestemmes av formelen

der 360° er arealet av sirkelen;

d- egenvekten til det avbildede fenomenet i prosent.

Hvis statistiske data presenteres i absolutte verdier, har formelen for å bestemme buen formen:

Hvor b- størrelsen på det avbildede fenomenet i absolutte verdier.

For å bygge sirkulær Og kvadratiske diagrammer det er nødvendig å utføre foreløpige beregninger, siden tilgjengelige statistiske data (/)) tilsvarer områdene med geometriske former (sirkler eller firkanter).

For å konstruere en sirkel, må du finne radiusen til sirkelen ved hjelp av formelen

For å konstruere et kvadrat, må du finne siden av kvadratet basert på formelen for arealet av kvadratet:

Barbarian tegn brukes til å visuelt karakterisere tre sammenhengende mengder - dette er et rektangel der basen er en indikator, høyden er en annen, og produktet av basen og høyden karakteriserer verdien av den avledede tredje indikatoren.

Formdiagrammer er konstruert på to måter: de sammenlignede statistiske mengdene (/)) er avbildet av figurer - symboler av forskjellig størrelse i forhold til volumene til disse aggregatene, eller med forskjellig antall identiske tegn-symboler, som hver er gitt en viss numerisk verdi.

For å grafisk skildre den romlige fordelingen av enhver statistisk indikator, brukes kartogrammer, som kan være bakgrunn eller punkt.

Kartogram er en kombinasjon av et diagram og et geografisk kart.

På bakgrunnskartogrammer er fordelingen av fenomenet som studeres over territoriet avbildet av forskjellige territorielle farger

nale enheter med forskjellige tettheter av farge eller skyggelegging av varierende intensitet.

På et punktkartogram er symbolene for den grafiske representasjonen av statistiske data punkter som ligger innenfor visse territorielle enheter. Hvert punkt er gitt en bestemt tallverdi.

Et kartogram brukes i tilfeller der det er behov for å vise den territorielle fordelingen av en statistisk funksjon i aggregatet for å identifisere distribusjonsmønsteret til denne funksjonen.

Automatiserte metoder for å lage diagrammer. Diagrammer kan lages på en automatisert måte basert på observasjonsdata generert og gruppert i en tabell. For å sikre klarheten til diagrammet, må datablokken oppfylle visse krav:

  • data bør systematiseres etter mengde og etter grupper, kolonner og rader;
  • data for ulike kategorier må være sammenlignbare;
  • Overskriftene til tabeller, rader, kolonner bør være korte og klare for ikke å ta opp mye plass og sikre en korrekt forståelse av betydningen av det konstruerte diagrammet;
  • Dataene skal ordnes i ett eller flere rektangulære områder med tekstetiketter i øverste rad og venstre kolonne.

Som en del av en integrert pakke Microsoft Office regnearkinformasjon behandles ved hjelp av programmet Microsoft Excel. Et regneark er datamaskinekvivalenten til et vanlig regneark.

Bordprosessor - et spesialprogram (programvarepakke) som gir behandling av informasjon presentert i tabellform.

Microsoft Excel definerer den første raden med data, starter med den første cellen i øvre venstre hjørne av det eksisterende valgte ikke-datodataområdet og slutter med de gjenværende valgte radene og kolonnene.

For å bygge diagrammer i regnearkprosessoren er det mulig å bruke en spesiell diagramveiviser ved hjelp av en plotter Microsoft Graph. Kartveiviseren startes ved å klikke på ikonet i standardverktøylinjen. Det anbefales at du først velger celleområdet som inneholder dataene som brukes til å lage diagrammer. Diagrammer er konstruert i fire trinn:

  • 1) velge type og type diagram;
  • 2) klargjøring av dataområdet og arrangement av rader i rader eller kolonner. Resultatet av å konstruere et diagram når det er plassert

serier i rader og kolonner kan variere betydelig. Som standard viser vinduet kartvisningen for det valgte celleområdet. Hvis du ikke tidligere har valgt dataene, må du gjøre dette i dette vinduet ved å klikke på det stiliserte tabellikonet i feltet Område og fremheve dataene i tabellen. Tab "rad" lar deg legge til og slette rader, spesifisere områdene der de tilsvarende radene presenteres, kategoriakseetiketter;

  • 3) spesifisere tittelen på diagrammet og fullføre nødvendige signaturer;
  • 4) plassere diagrammet på et regneark (på gjeldende eller et separat regneark).

For å redigere diagramelementer må du dobbeltklikke, hvoretter du vil bli tatt til det tilsvarende vinduet for å endre parametrene til det valgte elementet. Betydelig hjelp er gitt av en kontekstavhengig meny som kan hentes frem på individuelle diagramelementer.