I en økonometrisk modell har en lineær regresjonsligning en koeffisient. Prognose ved hjelp av en multippel regresjonsmodell

Prognoser ved hjelp av en multippel modell lineær regresjon innebærer å estimere de forventede verdiene til den avhengige variabelen gitt de gitte verdiene til de uavhengige variablene inkludert i regresjonsligningen. Det er poeng og intervall prognose s.

Punktvarsel er den beregnede verdien av den avhengige variabelen oppnådd ved å erstatte de predikerte (tildelt av forskeren) verdiene til de uavhengige variablene i den multiple lineære regresjonsligningen. Hvis verdiene er gitt, vil den predikerte verdien av den avhengige variabelen (punktprognose) være lik

Intervallvarsel - dette er minimum og maksimal verdi avhengig variabel, i intervallet mellom

som det faller med en gitt grad av sannsynlighet og for gitte verdier av de uavhengige variablene.

Intervallvarsel for lineær funksjon beregnet med formelen

Hvor t T – teoretisk verdi av Students test kl df=n- – t– 1 frihetsgrad; s y – standard feil prognose, beregnet av formelen

(2.57)

Hvor X- matrise av startverdier av uavhengige variabler; X pr - matrise-kolonne av predikerte verdier av uavhengige variabler i formen

La oss finne de predikerte verdiene av skatteinntekter (eksempel 2.1), forutsatt at forholdet mellom indikatorene er beskrevet av ligningen

La oss angi de predikerte verdiene til de uavhengige variablene:

  • – antall sysselsatte Xj: 500 tusen personer;
  • – volum av forsendelser i industrien X 2: RUB 65 000 millioner;
  • – energiproduksjon x3: 15 000 millioner rubler.

La oss finne en punkt- og intervallprognose for skatteinntekter.

For gitte verdier av uavhengige variabler vil skatteinntekter i gjennomsnitt være

Vektoren av predikerte verdier av uavhengige variabler vil ha formen

Prognosefeilen, beregnet med formel (2,57), var 5556,7. Tabellverdi t-test for antall frihetsgrader df = 44 og signifikansnivået a = 0,05 er 2,0154. Følgelig vil de anslåtte verdiene for skatteinntekter være innenfor grensene på 0,95:

fra 18 013,69 – 2,0154-5556,7=6814,1 millioner rubler;

opptil 18 013,69 + 2,0154-5556,7 = 29 212 millioner rubler.

Prognoser av ikke-lineære modeller multippel regresjon kan også utføres ved å bruke formler (2.55)–(2.57), etter å ha linearisert de angitte modellene tidligere.

Multikollinearitet av data

Ved bygging økonometrisk modell det antas at de uavhengige variablene påvirker den avhengige variabelen isolert sett, det vil si at påvirkningen av en enkelt variabel på den resulterende karakteristikken ikke er relatert til påvirkningen av andre variabler. I den virkelige økonomiske virkeligheten er alle fenomener knyttet til en eller annen grad, så det er nesten umulig å oppnå denne antagelsen. Tilstedeværelsen av en sammenheng mellom uavhengige variabler fører til behovet for å vurdere dens innflytelse på resultatene av korrelasjons- og regresjonsanalyse.

Det er funksjonelle og stokastiske sammenhenger mellom forklaringsvariabler. I det første tilfellet snakker de om modellspesifikasjonsfeil som må rettes opp.

En funksjonell sammenheng oppstår hvis spesielt alle variabler som inngår i identiteten er inkludert i regresjonsligningen som forklaringsvariabler. For eksempel kan vi si at inntekt Y består av forbruk C og investering JEG, dvs. identiteten holder. Vi antar at nivået på rentene r avhenger av inntekt, dvs. modellen generelt kan representeres som

En uerfaren forsker, som ønsker å forbedre modellen, kan også inkludere variablene "forbruk" og "investering" i ligningen, noe som vil føre til funksjonell tilkobling mellom forklaringsvariabler:

Funksjonell sammenheng mellom matrisekolonner X vil føre til at det ikke er mulig å finne en unik løsning på ligningen

regresjon, fordi , og finne det omvendte

matriser involverer deling algebraiske tillegg matrise inn i sin determinant, som er gitt

det blir det i alle fall lik null.

Oftere er det en stokastisk sammenheng mellom forklaringsvariablene, noe som fører til en nedgang

verdier av determinanten til matrisen: jo sterkere forbindelsen er,

jo mindre determinanten vil være. Dette fører til en økning ikke bare i parameterestimater oppnådd ved bruk av minste kvadrater, men også i deres standardfeil, som beregnes ved hjelp av formel (2.24):

der, som vi ser, også matrisen brukes Korrelasjonsforholdet kan eksistere både mellom to forklaringsvariabler (. interkorrelasjon), og mellom flere (multikollinearitet).

Det er flere tegn som indikerer tilstedeværelsen av multikollinearitet. Spesielt er slike tegn:

  • - ikke relevant økonomisk teori tegn på regresjonskoeffisienter. For eksempel vet vi at forklaringsvariabelen X har en direkte innvirkning på den forklarte variabelen y, samtidig som regresjonskoeffisienten for denne variabelen er mindre enn null;
  • – betydelige endringer i modellparametere med en liten reduksjon (økning) i volumet av befolkningen som studeres;
  • – ubetydelighet av regresjonsparametere på grunn av høye verdier av standardfeil på parametere.

Eksistensen av en korrelasjon mellom uavhengige variabler kan identifiseres ved å bruke korrelasjonsindikatorer mellom dem, spesielt ved å bruke sammenkoblede korrelasjonskoeffisienter r XiX, som kan skrives som en matrise

(2.58)

Korrelasjonskoeffisient for en variabel med seg selv lik en (G xx = 1), og korrelasjonskoeffisienten til variabelen*, med variabelen *,■ er lik korrelasjonskoeffisienten til variabelen XjC variabel X, (G x x =r x x ). Derfor, gitt matrise er symmetrisk, så bare hoveddiagonalen og elementene under den er indikert:

Høye verdier av par lineære koeffisienter korrelasjoner indikerer tilstedeværelsen av interkorrelasjon, dvs. lineær sammenheng mellom to forklaringsvariabler. Jo høyere verdi, jo høyere interkorrelasjon. Siden når man bygger modeller er det nesten umulig å unngå mangel på sammenhenger mellom forklaringsvariabler, er det neste anbefaling angående inkludering av to variabler i modellen som forklarende. Begge variablene kan inkluderes i modellen dersom sammenhengene er oppfylt

de. nærheten til sammenhengen mellom de resulterende og forklaringsvariablene er større enn nærheten til sammenhengen mellom forklaringsvariablene.

Tilstedeværelsen av multikollinearitet kan bekreftes ved å finne determinanten til matrisen (2.58). Hvis forbindelsen mellom de uavhengige variablene er helt fraværende, vil de ikke-diagonale elementene være lik null, og determinanten til matrisen vil være lik en. Hvis forholdet mellom de uavhengige variablene er nært funksjonelt (dvs. veldig nært), vil determinanten til matrisen rxg være nær null.

En annen metode for å måle multikollinearitet er en konsekvens av å analysere formelen for standardfeilen til regresjonskoeffisienten (2.28):

Som følger av denne formelen, vil standardfeilen være større, jo mindre verdien, som kalles varians inflasjonsfaktor (ellerspredning inflasjonsfaktor ) VIF:

hvor er bestemmelseskoeffisienten funnet for ligningen for avhengighet av variabelen Xj fra andre variabler inkludert i den multippel regresjonsmodellen som vurderes.

Siden verdien reflekterer nærheten til forholdet mellom variabelen Xj og andre forklaringsvariabler, så karakteriserer det i hovedsak multikollinearitet i forhold til denne variabelen Xj. Hvis det ikke er noen forbindelse, vises indikatoren VIF X vil være lik (eller nær) en, styrking av forbindelsen fører til tendensen til denne indikatoren til uendelig. De tror at hvis VIF X >3 for hver variabel *, så oppstår multikollinearitet.

Multikollinearitetsmåleren er også den såkalte indikator (antall) for kondisjonalitet matriser Det er lik forholdet mellom maksimum og minimum egenverdier til denne matrisen:

Det antas at hvis rekkefølgen på dette forholdet overstiger 10s–106, oppstår sterk multikollinearitet.

La oss se etter tilstedeværelsen av multikollinearitet i eksempel 2.1 vi vurderer. Matrisen av parkorrelasjonskoeffisienter har formen

Det kan bemerkes at sammenhengene mellom forklaringsvariablene er ganske nære, spesielt mellom variablene Xj og x2; X] og x3, som indikerer interkorrelasjonen mellom disse variablene. En svakere sammenheng observeres mellom variablene x2 og x3. La oss finne determinanten til matrisen r^..

Den resulterende verdien er nærmere null enn én, noe som indikerer tilstedeværelsen av multikollinearitet i de forklarende variablene.

La oss sjekke gyldigheten av å inkludere alle de tre uavhengige variablene i regresjonsmodellen ved å bruke regel (2.59). Parede lineære korrelasjonskoeffisienter for de avhengige og uavhengige variablene er like

De er større enn indikatorene for nærhet til forholdet mellom de uavhengige variablene, derfor er regel (2.59) oppfylt, alle tre variablene kan inkluderes i regresjonsmodellen.

La oss måle graden av multikollinearitet til variabler ved å bruke variansinflasjonsfaktoren ( VIF). For å gjøre dette er det nødvendig å beregne koeffisientene for bestemmelse for regresjoner:

For å gjøre dette er det nødvendig å bruke OLS på hver regresjon, estimere parametrene og beregne bestemmelseskoeffisienten. For vårt eksempel er beregningsresultatene som følger:

Derfor vil variansinflasjonsfaktoren for hver uavhengig variabel være lik

Alle beregnede verdier overskred ikke kritisk verdi, lik tre, derfor, når modellen konstrueres, kan eksistensen av relasjoner mellom de uavhengige variablene neglisjeres.

For å finne egenverdiene til matrisen (for å beregne kondisjonalitetsindeksen η (2,60)), er det nødvendig å finne en løsning på den karakteristiske ligningen

Matrisen for vårt eksempel ser slik ut

og matrisen, hvor modulen til determinanten må være lik null, vil være som følger:

Karakteristisk polynom i i dette tilfellet vil ha en fjerde grad, noe som gjør det vanskelig å løse problemet manuelt. I dette tilfellet anbefales det å utnytte mulighetene datateknologi. For eksempel i OPS EViews Følgende egenverdier til matrisen oppnås:

Derfor vil kondisjonalitetsindeksen η være lik

som indikerer tilstedeværelsen av sterk multikollinearitet i modellen.

Metoder for å eliminere multikollinearitet er som følger.

  • 1. Analyse av sammenhenger mellom variabler som inngår i regresjonsmodellen som forklarende (uavhengige), med sikte på å velge kun de variablene som er svakt relatert til hverandre.
  • 2. Funksjonelle transformasjoner av nært beslektede variabler. For eksempel antar vi at skatteinntekter i byer avhenger av antall innbyggere og byens areal. Det er klart at disse variablene vil være nært beslektet. De kan erstattes av en enkelt relativ variabel, "befolkningstetthet."
  • 3. Hvis listen over uavhengige variabler av en eller annen grunn ikke kan endres, kan du bruke spesielle metoder for å justere modeller for å eliminere multikolinearitet: ryggregresjon (ryggregresjon), metoden for hovedkomponenter.

applikasjon ryggregresjon innebærer å justere elementene i hoveddiagonalen til matrisen med en eller annen vilkårlig spesifisert positiv verdi τ. Det anbefales å ta en verdi fra 0,1 til 0,4. N. Draper, G. Smith presenterer i sitt arbeid en av metodene for "automatisk" å velge verdien av τ, foreslått av Hoerl, Kennard og Beldwin:

(2.61)

Hvor T– antall parametere (unntatt den frie termen) i den opprinnelige regresjonsmodellen; SS e – restsum av kvadrater hentet fra den opprinnelige regresjonsmodellen uten justering for multikollinearitet; EN– kolonnevektor med regresjonskoeffisienter transformert av formelen

(2.62)

Hvor cij– parameter for variabelen y i den opprinnelige regresjonsmodellen.

Etter å ha valgt verdien av τ, vil formelen for å estimere regresjonsparametrene ha formen

(2.63)

Hvor Jeg- identitetsmatrise; X,- matrise av verdier av uavhengige variabler: original eller transformert i henhold til formel (2.64); Υ τ er en vektor av verdier av den avhengige variabelen: original eller transformert i henhold til formel (2.65).

(2.64)

og utfallsvariabelen

I dette tilfellet, etter å ha estimert parametrene ved hjelp av formel (2.63), er det nødvendig å fortsette til regresjon på de opprinnelige variablene ved å bruke relasjonene

Estimater av regresjonsparametere oppnådd ved bruk av formel (2.63) vil være partiske. Imidlertid, siden determinanten til matrisen er større enn determinanten til matrisen, vil variansen av regresjonsparameterestimater reduseres, noe som vil positivt påvirke de prediktive egenskapene til modellen.

La oss vurdere bruken av ryggregresjon for eksempel 2.1. La oss finne verdien av τ ved å bruke formel (2.61). For å gjøre dette, beregner vi først vektoren til transformerte regresjonskoeffisienter ved å bruke formel (2.62):

Produktet er 1.737-109. Derfor vil den anbefalte τ være

Etter å ha brukt formel (2.63) og transformasjoner i henhold til formel (2.66), får vi regresjonsligningen

applikasjon hovedkomponentanalyse innebærer en overgang fra gjensidig avhengige variabler x til variabler ζ uavhengige av hverandre, som kalles hoved-

komponenter. Hver hovedkomponent, z, kan representeres som en lineær kombinasjon av sentrerte (eller standardiserte) forklarende variabler t:. Husk at sentrering av en variabel innebærer å trekke fra hver i-te verdi av en gitt j-th variabel av gjennomsnittsverdien:

og standardisering (skalering) er delingen av uttrykk (2.67) med standardavviket beregnet for startverdiene til variabelen Xj

Siden uavhengige variabler ofte har annen skala mål, formel (2.68) anses som mer å foretrekke.

Antall komponenter kan være mindre enn eller lik antallet opprinnelige uavhengige variabler R. Komponentnummer Til kan skrives som følger:

(2.69)

Det kan vises at estimatene i formel (2.69) samsvarer med elementene Til- egenvektor til matrisen, hvor T– en størrelsesmatrise som inneholder standardiserte variabler. Nummereringen av hovedkomponentene er ikke vilkårlig. Den første hovedkomponenten har den maksimale variansen den tilsvarer den maksimale egenverdien til matrisen; sistnevnte – minimum varians og minste egenverdi.

Avviksandel Til- komponentene i den totale variansen til uavhengige variabler beregnes ved hjelp av formelen

Hvor X k – egenverdi som tilsvarer denne komponenten; nevneren til formel (2.70) inneholder summen av alle egenverdiene til matrisen.

Etter å ha beregnet verdiene til z-komponentene, bygges en regresjon ved bruk av minste kvadrater. Det er tilrådelig å sentrere (standardisere) den avhengige variabelen i hovedkomponentregresjon (2.71) ved å bruke formler (2.67) eller (2.68).

Hvor t y – standardisert (sentrert) avhengig variabel; – regresjonskoeffisienter for hovedkomponentene; – hovedkomponenter, ordnet i synkende rekkefølge av egenverdier X Til ; δ – tilfeldig rest.

Etter å ha estimert regresjonsparametrene (2.71), kan du fortsette til regresjonsligningen i de opprinnelige variablene ved å bruke uttrykk (2.67)–(2.69).

La oss vurdere bruken av hovedkomponentmetoden på dataene i eksempel 2.1. Merk at matrisen for standardiserte variabler samtidig er en matrise av sammenkoblede lineære korrelasjonskoeffisienter mellom uavhengige variabler. Den er allerede beregnet og er lik

La oss finne egenverdiene og egenvektorene til denne matrisen ved å bruke PPP Eviews. Vi får følgende resultater.

Matrise egenverdier:

Andelen av variansen til de uavhengige variablene reflektert av komponentene var

La oss kombinere egenvektorene til matrisen, og skrive dem som kolonner i matrisen nedenfor F. De er ordnet i synkende rekkefølge av egenverdier, dvs. den første kolonnen er egenvektoren til maksimum eget nummer etc.:

Derfor tre komponenter (tilsvarende tre egenvektorer) kan skrives i skjemaet

Etter å ha standardisert de innledende variablene i henhold til formel (2.68) og beregnet verdiene til komponentene (n verdier av hver komponent) ved bruk av minste kvadrater, finner vi parametrene til ligningen (2.71):

I den resulterende regresjonsligningen er bare parameteren ved den første komponenten signifikant. Dette er et naturlig resultat, tatt i betraktning at denne komponenten beskriver 70,8 % av variasjonen i uavhengige variabler. Siden komponentene er uavhengige, når noen komponenter er ekskludert fra modellen, endres ikke parametrene til ligningen for andre komponenter. Dermed har vi en regresjonsligning med én komponent:

La oss transformere det resulterende uttrykket til regresjon med de opprinnelige variablene

Ved å bruke hovedkomponentmetoden fikk vi altså regresjonsligningen

Eliminering av multikollinearitet ved bruk av ryggregresjon og hovedkomponentmetoden førte til en viss endring i parametrene til den opprinnelige regresjonen, som hadde formen

Merk at disse endringene var relativt små, noe som indikerer en lav grad av multikollinearitet.

  • Se for eksempel Vuchkov I., Boyadzhieva L., Solakov E. Anvendt regresjonsanalyse: per. fra bulgarsk M.: Finans og statistikk, 1987. S. 110.
  • Draper N., Smith G. Dekret. Op. S. 514.

1. For regresjonsmodellen for avhengigheten av gjennomsnittlig pengeinntekt per innbygger til befolkningen (rub., ) fra volumet av brutto regionalprodukt (tusen rubler, x 1) og arbeidsledighet i faget (%, x 2) ligningen er oppnådd. Verdien av regresjonskoeffisienten for variabelen x 2 indikerer at når arbeidsledigheten endres med 1 %, vil den gjennomsnittlige kontantinntekten per innbygger ______ rubler med en konstant verdi av brutto regionalprodukt.

endres til (-1,67)

vil øke med 1,67

vil reduseres med (-1,67)

endres til 0,003

Løsning:

Økonometrisk modell lineær ligning regresjon har formen , hvor y- avhengig variabel, x j – uavhengig variabel ( – nummeret på den uavhengige variabelen i modellen, k– det totale antallet uavhengige variabler i modellen); en,b j y andre faktorer som ikke er uavhengige variabler i modellen). Regresjonskoeffisienten er parameteren b j. Verdien viser hvor mye den avhengige variabelen vil endre seg i gjennomsnitt y, når du endrer den tilsvarende uavhengige variabelen x j per 1 måleenhet. Hvis arbeidsledigheten endres med 1 %, vil den gjennomsnittlige kontantinntekten per innbygger endres med (-1,67) rubler, mens brutto regionalprodukt forblir uendret.

2. I den lineære multiple regresjonsligningen: , hvor er kostnaden for anleggsmidler (tusen rubler); – antall ansatte (tusen personer); y– volum av industriell produksjon (tusen rubler) parameter med variabel x 1, lik 10,8, betyr at med en økning i volumet av anleggsmidler med _____, vil volumet av industriell produksjon _____ med et konstant antall ansatte.

for 1 tusen rubler. ... vil øke med 10,8 tusen rubler.

for 1 tusen rubler. ... vil reduseres med 10,8 tusen rubler

for 1 tusen rubler. … vil øke med 10,8 %

med 1 %...øk med 10,8 %

Løsning:

I den multiple lineære regresjonsligningen , viser parameteren gjennomsnittlig endring i resultatet y når faktoren øker med én enhet, forutsatt at alle andre variabler forblir konstante. I vårt tilfelle, volumet av industriell produksjon y karakterisert ved følgende ligning , parameteren er lik 10,8, derfor med en økning i volumet av anleggsmidler med 1 tusen rubler. volumet av industriell produksjon vil øke med 10,8 tusen rubler. med konstant antall ansatte.

3. Det er kjent at andelen av restvariansen til den avhengige variabelen i dens totale varians er 0,2. Da er verdien av bestemmelseskoeffisienten ...

Løsning:

Bestemmelseskoeffisient er lik andelen varians forklart av regresjon i den totale variansen. Verdi () viser andelen gjenværende varians i totalen eller variansen forårsaket av påvirkning av andre faktorer som ikke er tatt hensyn til i modellen.
. Midler,

4. En økonometrisk modell ble konstruert for profitts avhengighet av salg av en produksjonsenhet (rub., ) fra mengden arbeidskapital til bedriften (tusen rubler, x 1): . Derfor, gjennomsnittlig størrelse fortjeneste fra salg, som ikke avhenger av volumet av arbeidskapitalen til bedriften, er _____ rubler.

Løsning:

Den økonometriske modellen av den lineære ligningen for parvis regresjon har formen: , Hvor y- avhengig variabel, x – uavhengig variabel; en,b– ligningsparametere; – modellfeil (tar hensyn til effekten på den avhengige variabelen y andre faktorer som ikke er uavhengige variabler i modellen). Parameterverdi EN kan beregnes ved hjelp av formelen. Hvis da ; i dette tilfellet sier de at den gjennomsnittlige verdien av variabelen y, uavhengig av variabelverdien X, lik parameterverdien EN. Følgelig er gjennomsnittlig fortjeneste fra salg, som ikke avhenger av volumet av arbeidskapitalen til bedriften, 10,75 rubler.

5. F-statistikken beregnes som forholdet mellom ______ varians og ___________ varians, beregnet per frihetsgrad.

faktoriell...rest

gjenværende...faktoriell

faktoriell... til generell

gjenværende...totalt

Løsning:

F-statistikk beregnes som forholdet mellom faktorvariansen per en frihetsgrad og restvariansen per en frihetsgrad.

Emne 5: Estimering av parametere for lineære regresjonsligninger

1. For en økonometrisk regresjonsligningsmodell er modellfeilen definert som ______ mellom den faktiske verdien av den avhengige variabelen og dens estimerte verdi.

forskjell

summen av kvadrater forskjell

kvadratisk forskjell

summen av forskjellen av kvadrater

Løsning:

En type økonometrisk modell er regresjonsligningen, som kan skrives som det matematiske uttrykket der y- avhengig variabel; x j- uavhengig variabel ( j= 1,…, k; k– antall uavhengige variabler); f– type funksjonell avhengighet ( matematisk funksjon); – tilfeldige faktorer. I dette tilfellet, hvor er den faktiske verdien av den avhengige variabelen, er den beregnede verdien av den avhengige variabelen, og er modellfeilen. La oss uttrykke verdien: . Derfor er det riktige svaret "forskjell".

2. Mengden kalles...

tilfeldig komponent

parameterestimering

parameterverdi

variabel

Løsning:

Mengden kalles tilfeldig komponent, eller forstyrrelse, og inkluderer påvirkning av faktorer som ikke er tatt med i modellen, prøvetakingsfeil og målefeil.

3. I den økonometriske modellen av regresjonsligningen, karakteriserer avviket av den faktiske verdien av den avhengige variabelen fra dens beregnede verdi ...

T.G. TURNEV

PRAKTIKUM OM ØKONOMETRIKK

LINEÆR MODELL FOR PARREGRESJON

Økonometri er en vitenskap som studerer spesifikke kvantitative og kvalitative sammenhenger mellom økonomiske objekter og prosesser ved bruk av matematiske og statistiske metoder og modeller. (Big Encyclopedic Dictionary - M., BRE, 1977)

Økonometriske metoder er først og fremst metoder for statistisk analyse av spesifikke økonomiske data.

Evaluering av resultatene av økonometrisk modellering oppnås ved å løse et kvalitativt og kvantitativt problem. Den kvalitative komponenten er å etablere samsvar mellom den konstruerte modellen og det grunnleggende økonomiske konseptet, og den kvantitative komponenten er å nøyaktig tilnærme tilgjengelig informasjon med beregningsdata.

Fra et praktisk synspunkt inkluderer hovedoppgavene til økonometri:

    konstruksjon av økonometriske modeller – presentasjon av økonomiske modeller i en matematisk form som er praktisk for empirisk analyse. Dette problemet kalt et spesifikasjonsproblem som kan løses på flere måter;

    vurdering av parametrene til den konstruerte modellen, som lar oss karakterisere tilstrekkeligheten til modellen med reelle data. Dette problemet er løst på parameteriseringsstadiet;

    kontrollere kvaliteten på den resulterende modellen som helhet. Denne oppgaven implementert på verifikasjonsstadiet;

    bruk av den konstruerte modellen for prognoser.

Den parvise lineære regresjonsmodellen er et spesialtilfelle av den multivariate regresjonsmodellen. Studien er av uavhengig interesse, siden den har mange av de karakteristiske egenskapene til generelle flerdimensjonale modeller, men er mer visuell og lettere å studere.

Regne- og grafisk arbeid i økonometri

Paret lineær regresjonsmodell

    Konstruer et korrelasjonsfelt og formuler en hypotese om sammenhengens form.

La det være to serier med empiriske data X (x 1 , x 2 , …, x n ) Og Y (y 1 , y 2 , …, y n ) , de tilsvarende punktene med koordinater (x Jeg , y Jeg ), Hvor Jeg=1,2,…, n, vises på koordinatplanet. Dette bildet kalles korrelasjonsfelt. La oss anta ut fra plasseringen av de empiriske punktene at det er en lineær korrelasjon mellom variablene X Og Y.

Generelt teoretisk lineær parregresjonsmodell kan representeres som:

Y=
eller y Jeg =
, Jeg=1,2,…, n;

Hvor Y- forklart (resulterende, avhengig, endogen) variabel,

X - forklarende (faktoriell, uavhengig, eksogen) variabel eller regressor;

- teoretiske parametere (numeriske koeffisienter) for regresjon som skal estimeres;

ε Jeg- tilfeldig avvik (forstyrrelse, feil).

Hovedhypoteser:

3a. M ε Jeg =0, Jeg=1,2,…, n.

3b. D ε Jeg=σ 2, Jeg=1,2,…, n. Betingelsen for at feilavviket skal være uavhengig av observasjonsnummeret kalles homoskedastisitet; tilfellet når homoskedastisitetsbetingelsen ikke er oppfylt kalles heteroskedastisitet.

3s. M( ε Jeg ε j )=0 kl Jegj , ukorrelerte feil for forskjellige observasjoner. Hvis denne betingelsen ikke er oppfylt, snakker om autokorrelasjon feil.

    Forstyrrelser er normalfordelte tilfeldige variabler: ε Jeg N(0, σ 2 ).

Kommentar. For å få en regresjonsligning er de tre første premissene tilstrekkelige. For å vurdere nøyaktigheten av regresjonsligningen og dens parametere, må den fjerde forutsetningen være oppfylt.

Oppgaven med lineær regresjonsanalyse er å bruke tilgjengelige statistiske data til (x Jeg , y Jeg ), Jeg=1,2,…, n, for variablene X og Y får beste estimater ukjente parametere, dvs. bygge den såkalte empirisk regresjonsligning

Hvor
estimering av betinget matematisk forventning M(Y/ X=x i);
estimater av ukjente parametere, kalt empiriske koeffisienter regresjon. I hver konkret tilfelle kan skrives ned

, Jeg=1,2,…, n,

hvor er avvikene e Jeg– feil (rester) av modellen, som er estimater av det teoretiske tilfeldige avviket ε Jeg .

2. Beregn parametrene til prøveligningen for lineær regresjon ved å bruke minste kvadraters metode (OLS).

Den klassiske tilnærmingen til å estimere lineære regresjonsparametere er basert på minste kvadraters metode (OLS). I minste kvadraters metode konstrueres modellparameterestimater for å minimere summen av kvadratiske modellfeil over alle observasjoner. Dermed er minste kvadraters kriteriet skrevet som:

En nødvendig betingelse for eksistensen av et minimum av funksjonen S(b 0 , b 1 ) er likheten til null av dens partielle derivater med hensyn til de ukjente b 0 Og b 1 (for korthets skyld utelater vi summeringsindeksene ved sumtegnet Σ):

Dette ligningssystemet kalles system av normale ligninger for regresjonskoeffisienter.

Ved å løse dette systemet med to lineære ligninger med to ukjente, for eksempel ved substitusjonsmetoden, får vi:

Hvor
prøvemiddel for variablene X og Y.

.

Fra et geometrisk synspunkt betyr å minimere summen av kvadrerte avvik å velge en enkelt rett linje (av alle rette linjer med parametere) som er nærmest i ordinater til systemet av prøvepunkter (x Jeg , y Jeg ), Jeg=1,2,…, n.

Regresjonsligningen er alltid supplert med en indikator på sammenhengens nærhet. Når du bruker lineær regresjon, er denne indikatoren lineær korrelasjonskoeffisient r xy. Det er flere typer lineære korrelasjonskoeffisientformler, de viktigste er:

.

Korrelasjonen mellom variabler kalles direkte if r xy . >0, og det motsatte hvis r xy

For praktiske beregninger er den mest praktiske formelen

,

siden korrelasjonskoeffisienten ifølge den er funnet fra observasjonsdata, og verdien r xy avrundingsfeil påvirkes ikke.

Korrelasjonskoeffisienten tar verdier fra -1 til +1.

Når korrelasjonskoeffisienten er lik 1 forbindelse er representert ved en lineær funksjonell avhengighet. I dette tilfellet er alle observerte verdier plassert på regresjonslinjen.

r xy=0 korrelasjon mellom egenskaper i lineær form fraværende. I dette tilfellet er regresjonslinjen parallell med Ox-aksen.

r xy > 0 – korrelasjonen mellom variabler kalles direkte, og når r xy

For å karakterisere styrken til forbindelsen kan du bruke skalaen Chaddok.

Indeks

tetthet i kommunikasjonen

Karakteristisk

tilkoblingsstyrke

Moderat

Merkbar

Veldig høy

For å vurdere kvaliteten på tilpasning av en lineær funksjon, beregnes kvadratet av den lineære korrelasjonskoeffisienten r xy 2 , kalt bestemmelseskoeffisient. La oss betegne bestemmelseskoeffisienten R 2 , At. vi har

R 2 = r xy 2 .

Bestemmelseskoeffisienten karakteriserer andelen av variansen til den effektive karakteristikken Y forklart ved regresjon i den totale variansen til den effektive karakteristikken. Følgelig verdien 1- R 2 karakteriserer andelen av varians i Y forårsaket av påvirkning av andre faktorer som ikke er tatt med i modellen.

Kommentar. Beregning R 2 korrekt hvis konstanten er inkludert i regresjonsligningen.

Den empiriske regresjonsligningen bestemmes basert på et begrenset antall statistikker. Det er klart at koeffisientene til den empiriske regresjonsligningen er tilfeldige variabler som varierer fra utvalg til utvalg. Når man utfører statistisk analyse, er det behov for å sammenligne empiriske regresjonskoeffisienter b 0 Og b 1 med noen teoretisk forventede verdier
disse koeffisientene. Denne analysen utføres i henhold til skjemaet for statistisk hypotesetesting.

For å teste hypotesen

H 0: b 1 = β 1 ,

H 1: b 1 β 1

statistikk brukes
, som, hvis hypotesen H 0 er sann, har en Studentfordeling med antall frihetsgrader df = n – 2 , Hvor
- standardfeil for regresjonskoeffisienten b 1 ,
.

Det viktigste i det innledende stadiet av statistisk analyse av den konstruerte modellen er oppgaven med å etablere tilstedeværelsen lineær avhengighet mellom Y og X. Dette problemet kan løses ved å teste hypotesen

H 0: b 1 = 0,

H 1: b 1 0.

En hypotese i denne formuleringen kalles vanligvis hypotese om Statistisk signifikant regresjonskoeffisient. Dessuten, hvis nullhypotesen aksepteres, er det grunn til å tro at verdien av Y ikke er avhengig av X - koeffisient b 1 statistisk insignifikant(det er for nær null). Hvis avviket H er 0, vurderes koeffisienten Statistisk signifikant, som indikerer tilstedeværelsen av en viss lineær sammenheng mellom Y og X. Brukes i dette tilfellet t– statistikk har formen:
og under nullhypotesen har en studentfordeling med ( n -2) grader av frihet.

Hvis den beregnede verdien t– statistikk- |t faktum| α større enn kritisk (tabell) t bord, dvs.

|t faktum|>t bord= t(α ; n-2),

deretter hypotese H 0: b 1 = 0, avvises til fordel for alternativet på valgt betydningsnivå. Dette bekrefter den statistiske signifikansen til regresjonskoeffisienten b 1 .

Hvis |t faktum| tabell = t(α; n-2), da forkastes ikke hypotesen H 0. Kritisk verdi t bord= t(α; n-2), α og antall frihetsgrader n -2 finnes i tabell 2 i vedlegget.

I følge en lignende ordning basert på t– statistikk tester hypotesen om koeffisientens statistiske signifikans b 0 :

,

Hvor
Og
- standard feil for regresjonskoeffisientb 0 .

    Konstruer intervallestimater av regresjonsparametrene. Sjekk om de oppnådde resultatene stemmer overens med konklusjonene i forrige avsnitt.

Formlene for å beregne konfidensintervaller er som følger:

som pålitelig (1 – α) dekke de bestemte parameterne.

Hvis null faller innenfor grensene til konfidensintervallene, dvs. Hvis den nedre grensen er negativ og den øvre grensen er positiv, anses den estimerte parameteren som statistisk insignifikant.

    Konstruer en variansanalysetabell for å vurdere betydningen av ligningen som helhet.

Kryss av betydning av regresjonslikningen- betyr å fastslå om den matematiske modellen som uttrykker forholdet mellom variabler passer med tilgjengelige data og om forklaringsvariablene inkludert i ligningen er tilstrekkelige til å beskrive den avhengige variabelen.

En vurdering av betydningen av ligningen som helhet gis vha F– Fisher-kriterium. I dette tilfellet fremsettes nullhypotesen om at regresjonskoeffisienten er lik null, dvs. H0: β 1 =0, derfor påvirker ikke faktoren resultatet.

Direkte betaling F– kriterium innledes med en analyse av variansen til den resulterende karakteristikken Y. Den sentrale plassen i den er okkupert av dekomponeringen totale mengden kvadrerte avvik for variabelen y fra middelverdien i to deler - "forklart" og "rest" ("uforklart"):

= +

Totalsum av kvadrater Sum av kvadrater Restsum

avvik = avvik forklart + kvadrater

regresjon av avvik

La oss betegne SS total =, SS R =
og SS ost =
.

Enhver sum av kvadrerte avvik er relatert til antall frihetsgrader df (grad av frihet), dvs. med antall frihet til uavhengig variasjon av en egenskap.

Antall frihetsgrader er relatert til antall befolkningsenheter n og med antall konstanter bestemt fra det. Antall frihetsgrader for restsummen av kvadrater i lineær parvis regresjon er n - 2 , total sum av kvadrater – n -1 og antall frihetsgrader for faktorsummen av kvadrater, dvs. forklart med regresjon, er lik enhet. Vi har likestilling:

n – 1 = 1+ (n – 2).

Ved å dele hver sum av kvadrater med det tilsvarende antallet frihetsgrader, får vi gjennomsnittlig kvadratavvik eller spredning per frihetsgrad.

;

Å definere variansen per frihetsgrad bringer variansene til en sammenlignbar form. Ved å sammenligne faktoren og restspredningen per en frihetsgrad får vi verdien F-forhold eller F– kriterium, hvis statistikk F under nullhypotese

~ F(1, n-2)

fordelt etter Fishers lov med frihetsgrader (1, n-2).

Hvis den beregnede verdien F-forhold - Ffaktum på et gitt betydningsnivå α mer enn kritisk (tabell) Fbord, dvs.

Ffaktum> Ftabell =F(α;1,n-2),

deretter hypotese H 0: β 1 =0 avvises, anerkjennes den statistiske signifikansen av regresjonsligningen, dvs. det er en sammenheng mellom egenskapene som vurderes, og observasjonsresultatene motsier ikke antagelsen om lineariteten.

Hvis Ffaktum F tabell =F(α;1,n-2), da forkastes ikke hypotesen H 0, regresjonsligningen anses som statistisk insignifikant.

Kritisk verdi Ftabell =F(α;1,n-2), på et gitt betydningsnivå α og antall frihetsgrader 1; n -2 finnes i tabell 1 i vedlegget.

En vurdering av betydningen av en regresjonsligning gis vanligvis i form av en variansanalysetabell.