Regresie falsă

Regresie contrafăcut se referă la o situație în care utilizarea de serii de timp nu staționare într - o regresie liniară a arătat rezultate eronate prea optimiste, care cred o relație între variabile în timp ce acest lucru nu este cazul.

Istoric

Granger și Newbold au arătat în 1974 că multe studii statistice ale seriilor temporale au arătat rezultate false, deoarece nu au luat în considerare problema autocorelării datelor. Într-adevăr, cu o autocorelație puternică, indicele, precum și testele asupra coeficienților, tind să fie prea optimiste și să facă să creadă într-o relație între variabilele care este de fapt doar eronată .

Explicaţie

Este de dorit să se facă o regresie liniară între două serii de timp: cu un zgomot alb .

Dacă și sunt două variabile integrate de ordinul 1 , distribuția clasică a estimatorului coeficientului nu mai este conform legii lui Student , ci conform unei mișcări browniene . Cu toate acestea, utilizarea distribuției Student conduce tocmai la aceste rezultate prea bune.

Într-adevăr, în cazul convențional, convergența estimatorului celor mai mici pătrate este arătată din faptul că matricea varianță-covarianță a eșantionului tinde spre matricea varianță-covarianță a populației, unde „luăm acea Ω â = σ ε ² · ( X  ' X ) −1 . Cu toate acestea, varianța unei variabile nestacionare integrate de ordinul 1 nu este fixă ​​și, prin urmare, estimatorul nu este convergent în probabilitate, datorită faptului că reziduurile în sine sunt integrate de ordinul 1, așa cum a arătat Philips (1986). Ca urmare, testele lui Student și Fisher sunt, de asemenea, inadecvate.

Soluţie

Există mai multe moduri în jurul problemei. Dacă variabilele sunt integrate de ordinul 1, seria diferențelor lor va fi staționară (prin definiția ordinii de integrare). Este apoi suficient să se facă regresia asupra variabilelor de diferență pentru ca aceasta să devină valabilă.

În caz contrar, este posibil să se utilizeze un model cu întârzieri distribuite, adică un model care integrează, de asemenea, întârzierile variabilei explicate și variabilei explicative. (Hamilton, 1994, p 562)

Exemplu

O simulare cu software-ul gratuit de statistici R ilustrează fenomenul:

Regresia a două zgomote albe generate aleatoriu
Rezultatul afișat Codul R

Apel: lm (formula = x ~ y)

Reziduuri

Min 1T Median 3T Max
-2.776e + 00 -6.140e-01 -1.208e-03 6.279e-01 3.205e + 00

Coeficienți

Estima Std. Eroare valoarea t Pr (> | t |)
(Intercepta) 0,03447376 0,04348857 0,79270862 0,42832508
y -0.04997771 0,04306249 -1.16058589 0,24636639

Eroare standard reziduală: 0,972 pe 498 grade de libertate

R-pătrat multiplu: 0,0027, R-pătrat ajustat: 0,000695

Statistică F: 1,35 pe 1 și 498 DF, valoarea p: 0,246

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc summary(lm(x~y)) #Régression linéaire
 

În acest exemplu în care regresăm două zgomote albe, relația este respinsă: R 2 = 0,002 7, iar probabilitatea ca y = 0 să fie de 24%.

Regresia a două plimbări aleatorii generate aleatoriu
Rezultatul afișat Codul R

Apel: lm (formula = x2 ~ y2)

Reziduuri

Min 1T Median 3T Max
-1.357th + 01 -6.564th + 00 -1.047th + 00 6.846e + 00 1.631e + 01

Coeficienți

Estima Std. Eroare valoarea t Pr (> | t |)
(Intercepta) -1.591223e + 01 7.543316e-01 -2.109447e + 01 4.727110e-71
y2 -5.255336e-01 3.562320e-02 -1.475257e + 01 3.990599e-41

Eroare standard reziduală: 7,49 pe 498 grade de libertate

Multiplu R-pătrat: 0,304, R ajustat pătrat: 0,303

Statistica F: 218 pe 1 și 498 DF, valoarea p: <2e-16

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée y2<-cumsum(y) #idem summary(lm(x2~y2)) #Régression linéaire
 

Observăm aici, pe de altă parte, că regresia mersurilor aleatorii , care sunt procese integrate de ordinul 1, sugerează o relație semnificativă: coeficientul R 2 = 0,304, iar probabilitatea ca y să fie zero este mai mică de 0,000 000 1% ar sugera că există o relație între variabile. Statistica lui Fisher, care testează dacă regresia în sine are sens, este de asemenea foarte puternic respinsă.

Regresia diferențelor a două plimbări aleatorii generate aleatoriu
Rezultatul afișat Codul R

Apel: lm (formula = x3 ~ y3)

Reziduuri

Min 1T Median 3T Max
-3.503rd + 00 -6,791e-01 -9.397e-03 6.483e-01 3.133e + 00

Coeficienți

Estima Std. Eroare valoarea t Pr (> | t |)
(Intercepta) 0,009479887 0,046269837 0,204882665 0,837747679
y3 0,091363533 0,048239919 1.893940415 0,058813318

Eroare standard reziduală: 1,03 pe 497 grade de libertate

R-pătrat multiplu: 0,00717, R-pătrat ajustat: 0,00517

Statistică F: 3,59 pe 1 și 497 DF, valoarea p: 0,0588

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée y2<-cumsum(y) #idem x3<-diff(x2) #Série des différences de la marche aléatoire y3<-diff(y2) #idem summary(lm(x3~y3)) #Régression linéaire
 

Când regresăm diferențele de mers aleatoriu, nu mai avem problema unei relații aparente: statisticile Fisher și Student sunt mai puțin respinse și mai ales coeficientul R 2 este egal cu 0,007 17, ceea ce duce la concluzia că nu există nicio relație între aceste variabile.

Note și referințe

  1. Granger, CWJ, Newbold, P. (1974): „Regresii false în econometrie”, Journal of Econometrics , 2, 111-120

Vezi și tu

Bibliografie

Articole similare

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">