Covarianță

În teoria probabilității și statisticile , covarianța dintre două variabile aleatorii este un număr care face posibilă cuantificarea abaterilor lor comune de la așteptările lor respective. De asemenea, este utilizat pentru două serii de date numerice (abateri de la mijloace ). Covarianța a două variabile aleatoare independente este zero, deși inversul nu este întotdeauna adevărat.

Covarianța este o extensie a noțiunii de varianță . Corelația este o formă normalizată covarianței ( dimensiunea covarianță dintre cele două variabile este produsul dimensiunilor lor, în timp ce corelația este o variabilă adimensional ).

Acest concept este generalizat în mod natural la mai multe variabile ( vector aleator ) de matricea de covarianță (sau matricea varianță-covarianță ) care, pentru un set de p variabile aleatoare reale X 1 etc., X p este matricea pătrată al cărei l 'element de rândul i și coloana j reprezintă covarianța variabilelor X i și X j . Această matrice face posibilă cuantificarea variației fiecărei variabile în comparație cu fiecare dintre celelalte. Forma normalizată a matricei de covarianță este matricea de corelație .

De exemplu, dispersia unui set de puncte aleatorii într-un spațiu bidimensional nu poate fi caracterizată pe deplin de un singur număr și nici de varianțele numai în direcțiile x și y  ; o matrice 2 × 2 face posibilă înțelegerea completă a naturii bidimensionale a variațiilor.

Matricea de covarianță fiind un semi- pozitiv definit matrice , poate fi diagonalizată și studiul valorilor proprii și a vectorilor proprii face posibilă caracterizarea distribuției folosind o bază ortogonală  : această abordare este obiectul analizei componentelor principale , care poate fi văzută ca un fel de comprimare a informațiilor.

Definiția covariance

Covarianța a două variabile aleatoare reale X și Y având fiecare o (finită) variance, notat cov ( X, Y ) sau uneori σ XY , este valoarea:

Definiție  - 

unde denotă așteptarea matematică . Varianța lui X este deci Var ( X ) = Cov ( X , X ).

Intuitiv, covarianța caracterizează variațiile simultane ale a două variabile aleatorii: va fi pozitiv atunci când diferențele dintre variabile și mediile lor tind să fie de același semn, negativ în caz contrar.

Conform expresiei sale de definiție, dimensiunea covarianței este produsul dimensiunilor variabilelor. Pe de altă parte, corelația , care este exprimată folosind varianța și covarianța, își ia valorile în [-1, 1] și rămâne adimensională.

Se spune că două variabile aleatorii a căror covarianță este zero sunt necorelate: corelația lor este, de asemenea, zero.

Pentru două variabile aleatorii discrete X și Y luându-și valorile respectiv în două seturi finite și avem

in timp ce:

Definiția matricei de covarianță

Matricea de covarianță a unui vector de p variabile aleatoare , fiecare dintre care are o variație, este matricea pătrată a cărei termen generic este dată de

Matricea de covarianță, uneori observată , este definită de

Definiție  - 

Prin extinderea termenilor:

Proprietăți de covarianță

O generalizare a teoremei König-Huygens pentru varianță implică:

Proprietate  - 

Corolar  -  Dacă X și Y sunt independente atunci .

În general, inversul nu este adevărat.

Contra exemplu

Este suficient să găsim două variabile X și Y cu covarianță zero și care nu sunt independente. Fie z o variabilă discretă care poate lua valorile 1 sau -1 într-un mod echiprobabil (conform unei legi Rademacher ).

Fie X orice variabilă aleatorie independentă de z . Atunci X și Y = z X nu sunt în mod clar independenți. in orice caz

Proprietăți  - 

Bilinearitatea covarianței:

Proprietate  - 

Aceasta reflectă faptul că covarianța este o formă biliniară simetrică pozitivă și că forma pătratică asociată este varianța.

Corolar  - 

Această formulă este analogul . De fapt, majoritatea proprietăților covarianței sunt analoage cu cele ale produsului a doi reali sau produsul punct al a doi vectori.

Proprietate  - 

Această formulă este clasică pentru o formă pătratică asociată cu o formă biliniară simetrică .

Proprietățile matricei de covarianță

Estima

Pornind de la un eșantion de realizări independente ale unui vector aleatoriu, un estimator imparțial al matricei de covarianță este dat de

unde este vectorul mijloacelor empirice.

Estimatorul covarianței a două variabile X și Y este doar un caz special:

Când X urmează o distribuție normală multidimensională , estimatorul de probabilitate maximă este totuși:

În cazul în care datele sunt generate de o lege normală multidimensională, estimatorul de maximă probabilitate urmează o lege Wishart .

Testul de sfericitate Bartlett pentru a judeca dacă coeficienții extra-diagonali ai matricei sunt în general inexistenți.

Pentru procese stocastice care se ocupă cu evoluția unei variabile aleatoare, covarianță dă drumul la conceptele de autocovariance și autocorelație , precum și pentru a estima densitatea spectrală pentru procesele de staționare .

Exemple

Dacă X este un proces centrat izotrop pe ℝ d , autocorelația izotropă satisface ρ (‖ h ‖) ≥  −1 ⁄ d .

Utilizare în statistici

Matricea de covarianță este un instrument esențial pentru analiza multivariată  :

Alte aplicații

Cunoașterea covarianțelor este cel mai adesea esențială în funcțiile de estimare , filtrare și netezire . În fotografia , ele permit să ajungă la dramatic corectă neclară focalizarea și estompează de mișcare, care este extrem de important pentru imagini astronomice. De asemenea, sunt utilizate automat . În sociolingvistică , covarianța desemnează corespondența dintre apartenența la o anumită clasă socială și un anumit limbaj inerent acestei condiții sociale. Matricile de covarianță sunt utilizate pentru metodele de analiză a descompunerii ortogonale kriging și autovalore . În cele din urmă, este încă utilizat în finanțe, pentru a judeca dacă două investiții tind să evolueze în aceeași direcție, în direcții opuse sau dacă valorile lor nu sunt legate.

Vezi și tu

Note și referințe

  1. Variabilele se presupun că aparțin spațiului vectorial al variabilelor aleatoare integrabile pătrate.