Corelație (statistici)

Corelație

Natură	Concept
Subclasă	Relație ( în )
Descris de	Enciclopedia armeană sovietică
Aspect al	Statistic

În probabilitate și statistici , corelația dintre mai multe variabile aleatorii sau statistice este o noțiune de conexiune care contrazice independența lor .

Această corelație este foarte adesea redusă la corelația liniară între variabilele cantitative , adică ajustarea unei variabile față de cealaltă printr-o relație afină obținută prin regresie liniară . Pentru a face acest lucru, calculăm un coeficient de corelație liniară , coeficient al covarianței lor în funcție de produsul abaterilor standard . Semnul său indică dacă valorile mai mari ale unuia corespund „în medie” cu valorile mai mari sau mai mici pentru celălalt. Valoarea absolută a coeficientului, întotdeauna între 0 și 1, nu măsoară intensitatea legăturii, ci preponderența relației afine asupra variațiilor interne ale variabilelor. Un coeficient zero nu implică independență, deoarece sunt posibile alte tipuri de corelație.

Alți indicatori permit calcularea unui coeficient de corelație pentru variabilele ordinale .

Faptul că două variabile sunt „puternic corelate” nu demonstrează că există o relație de cauzalitate între una și cealaltă. Cel mai tipic contraexemplu este acela în care acestea sunt de fapt legate de o cauzalitate comună. Această confuzie este cunoscută sub numele de Cum hoc ergo propter hoc .

Istorie

Corelația este un concept din biologie. Prin opera lui Francis Galton, corelația devine un concept statistic. Cu toate acestea, pentru Galton, noțiunea de corelație nu este precis definită și el o asimilează inițial liniei de regresie a unui model de regresie liniară .

Atunci Karl Pearson a propus în 1896 o formulă matematică pentru noțiunea de corelație și un estimator al acestei cantități.

Corelația a fost introdusă în economie cu Elementele de statistică ale lui Bowley în 1902 și intervenția lui George Udny Yule în 1909. Yule a introdus în special noțiunea de corelație parțială .

Utilizarea coeficientului de corelație a dat naștere la controverse considerabile. De exemplu, Maurice Fréchet s-a opus cu tărie acestui lucru, arătând dificultățile în interpretarea acestui parametru.

Linia de regresie

Calculul coeficientului de corelație între două variabile numerice echivalează cu încercarea de a rezuma legătura care există între variabile utilizând o linie dreaptă. Aceasta se numește reglare liniară .

Cum se calculează caracteristicile acestei linii? Asigurându-ne că eroarea pe care o facem reprezentând legătura dintre variabilele noastre printr-o linie dreaptă este cât mai mică posibil. Cel mai des utilizat criteriu formal, dar nu și singurul posibil, este acela de a minimiza suma tuturor erorilor făcute efectiv la pătrat. Aceasta este denumită o ajustare obișnuită a celor mai mici pătrate . Linia care rezultă din această ajustare se numește linie de regresie. Cu cât este mai bună calitatea generală a reprezentării legăturii dintre variabilele noastre prin această linie dreaptă, cu atât este mai bun coeficientul de corelație liniar asociat. Există o echivalență formală între cele două concepte.

Coeficientul de corelație liniară Bravais-Pearson

Definiție

Coeficientul de corelație între două variabile aleatoare reale X și Y având fiecare o (finită) variance , notat Cor ( X, Y ), sau , uneori , sau , sau pur și simplu , este definit prin: $\ rho _ {{XY}}$ $r_ {p}$ $r$

{\ displaystyle r = {\ frac {\ operatorname {Cov} (X, Y)} {\ sigma _ {X} \ sigma _ {Y}}}}

\ operatorname {Cov} (X, Y)

denotă covarianța variabilelor X și Y ,

\ sigma _ {X}

și denotă abaterile lor standard .

\ sigma _ {Y}

Echivalent:

{\ displaystyle r = {\ operatorname {E} [(X- \ operatorname {E} (X)) (Y- \ operatorname {E} (Y))] \ over \ sigma _ {X} \ sigma _ {Y }} = {\ operatorname {E} (XY) - \ operatorname {E} (X) \ operatorname {E} (Y) \ over \ sigma _ {X} \ sigma _ {Y}}}

{\ displaystyle \ operatorname {E} [...]}

denotă așteptarea matematică a [...].

Matricea de corelație

Matricea de corelație a unui vector de p variabile aleatoare , fiecare dintre care are o variație (finită), este pătrat matrice al cărei termen generic este dată de: ${\ vec X} = {\ begin {pmatrix} X_ {1} \\\ vdots \\ X_ {p} \ end {pmatrix}}$

r _ {{i, j}} = \ operatorname {Cor} \ left (X_ {i}, X_ {j} \ right)

Termenii diagonali ai acestei matrici sunt egali cu 1, este simetric , pozitiv semi - definit și valorile proprii ale acestuia sunt pozitive sau zero.

Estima

Pornind de la un eșantion de realizări independente a două variabile X și Y , un estimator ( părtinitor ) al coeficientului de corelație este dat de: $\ scriptstyle \ \ {(x_ {i}, y_ {i}) \, | \, 1 \ leq i \ leq n \},$

{\ hat {r}} _ {p} = {\ dfrac {{\ hat {\ sigma}} _ {{XY}}} {{\ hat {\ sigma}} _ {X} {\ hat {\ sigma }} _ {Y}}}

{\ hat {\ sigma}} _ {{XY}} = {\ frac {1} {N}} {\ sum _ {{i = 1}} ^ {N} (x_ {i} - {\ bar x }) \ cdot (y_ {i} - {\ bar y})}

{\ hat {\ sigma}} _ {X} = {\ sqrt {{\ dfrac {1} {N}} \ displaystyle \ sum _ {{i = 1}} ^ {N} (x_ {i} - { \ bar x}) ^ {2}}} \,

și

\, {\ hat {\ sigma}} _ {Y} = {\ sqrt {{\ dfrac {1} {N}} \ displaystyle \ sum _ {{i = 1}} ^ {N} (y_ {i} - {\ bar y}) ^ {2}}}

{\ bar x} = {\ dfrac {1} {N}} {\ displaystyle \ sum _ {{i = 1}} ^ {N} x_ {i}} \,

și

\, {\ bar y} = {\ dfrac {1} {N}} {\ displaystyle \ sum _ {{i = 1}} ^ {N} y_ {i}}

care sunt respectiv estimatori ale covarianței, deviațiile standard și speranțelor variabile X și Y .

Observații

Numeric, este inclus în [-1, 1]: este o consecință a inegalității Cauchy-Schwarz ; ${\ hat {r}} _ {p}$
Cele două serii nu sunt corelate liniar dacă este zero. Cele două serii sunt corelate cu atât mai bine cu cât mai aproape de 1 sau -1; ${\ hat {r}} _ {p}$ ${\ hat {r}} _ {p}$
Aplicat la o matrice de corelație, testul de sfericitate al lui Bartlett face posibilă evaluarea dacă coeficienții extra-diagonali sunt diferiți global de zero.

Interpretare

Corelație	Negativ	Pozitiv
Scăzut	de la -0,5 la 0,0	de la 0,0 la 0,5
Puternic	de la -1,0 la -0,5	de la 0,5 la 1,0

Este egal cu 1 în cazul în care una dintre variabile este o funcție afină crescătoare a celeilalte variabile, la -1 în cazul în care o variabilă este o funcție afină și descrescătoare. Valorile intermediare oferă informații despre gradul de dependență liniară dintre cele două variabile. Cu cât coeficientul este mai aproape de valorile extreme -1 și 1, cu atât este mai puternică corelația liniară dintre variabile; folosim pur și simplu expresia „puternic corelată” pentru a califica cele două variabile. O corelație egală cu 0 înseamnă că variabilele nu sunt corelate liniar, ele pot fi totuși corelate neliniar, așa cum se poate vedea pe a treia linie a imaginii opuse.

Coeficientul de corelație nu este sensibil la unitățile fiecărei variabile. Deci, de exemplu, coeficientul de corelație liniară dintre vârsta și greutatea unui individ va fi același indiferent dacă vârsta este măsurată în săptămâni, luni sau ani.

Pe de altă parte, acest coeficient de corelație este extrem de sensibil la prezența valorilor aberante sau extreme (aceste valori sunt numite „deviante”) în setul nostru de date (valori foarte departe de majoritatea celorlalte, care pot fi considerate ca excepții).

Mai mulți autori au propus linii directoare pentru interpretarea unui coeficient de corelație. Cohen (1988) a observat, totuși, că toate aceste criterii sunt, în anumite privințe, arbitrare și nu ar trebui respectate prea strict. Interpretarea unui coeficient de corelație depinde de context și de obiective. O corelație de 0,9 poate fi foarte scăzută dacă se verifică o lege fizică folosind instrumente de calitate, dar poate fi considerată foarte mare în științele sociale, unde poate exista o contribuție mai mare de factori care complică.

Interpretarea geometrică

Cele două serii de valori și pot fi considerate ca vectori într-un spațiu n-dimensional. Să le înlocuim cu vectori centrate: și . $X (x_ {1}, \ ldots, x_ {n})$ $Y (y_1, \ ldots, y_n)$ $X (x_1 - \ bar x, \ ldots, x_n - \ bar x)$ $Y (y_1 - \ bar y, \ ldots, y_n - \ bar y)$

Cosinusul unghiului α dintre acești vectori este dat de următoarea formulă (produs scalar normalizat):

\ cos (\ alpha) = \ dfrac {\ displaystyle \ sum_ {i = 1} ^ N (x_i - \ bar x) \ cdot (y_i - \ bar y)} {\ sqrt {\ displaystyle \ sum_ {i = 1 } ^ N (x_i - \ bar x) ^ 2} \ cdot \ sqrt {\ displaystyle \ sum_ {i = 1} ^ N (y_i - \ bar y) ^ 2}}

Deci , ceea ce explică de ce este întotdeauna între -1 și 1. $\ cos (\ alpha) = r_p$ $r_p$

Coeficientul de corelație nu este altul decât cosinusul unghiului α dintre cei doi vectori centrati!

Dacă r = 1, unghiul α = 0, cei doi vectori sunt coliniari (paraleli).Dacă r = 0, unghiul α = 90 °, cei doi vectori sunt ortogonali.Dacă r = -1, unghiul α este de 180 °, cei doi vectori sunt coliniari în direcții opuse.Mai general: unde este reciprocul funcției cosinusului.

\ alpha = \ arccos (r)

\ arccos

Desigur, din punct de vedere geometric, nu vorbim despre „corelație liniară”: coeficientul de corelație are întotdeauna o semnificație, indiferent de valoarea sa între -1 și 1. Ne oferă informații precise, nu atât despre gradul de dependență între variabile, decât de distanța lor unghiulară în hipersfera n-dimensională.

Dependență

Aveți grijă, este întotdeauna posibil să calculați un coeficient de corelație (cu excepția cazurilor foarte specifice), dar un astfel de coeficient nu reușește întotdeauna să țină cont de relația care există de fapt între variabilele studiate. Într-adevăr, presupune că încercăm să judecăm existența unei relații liniare între variabilele noastre. Prin urmare, nu este potrivit pentru evaluarea corelațiilor care nu sunt liniare și neliniarizabile. De asemenea, își pierde interesul atunci când datele studiate sunt foarte eterogene, deoarece reprezintă o relație medie și știm că media nu are întotdeauna un sens, în special dacă distribuția datelor este multimodală.

Dacă cele două variabile sunt complet independente , atunci corelația lor este egală cu 0. Conversa este totuși falsă, deoarece coeficientul de corelație indică doar o dependență liniară . Alte fenomene, de exemplu, pot fi corelate exponențial sau sub formă de putere (a se vedea seria statistică cu două variabile în matematica elementară ).

Să presupunem că variabila aleatoare X este distribuită uniform pe intervalul [-1; 1] și că Y = X 2 ; atunci Y este complet determinat de X, astfel încât X și Y nu sunt independenți, dar corelația lor este 0.

Aceste considerații sunt ilustrate prin exemple în domeniul statisticii.

X = a * Y (corelație liniară)
Nor de puncte
Y = X 2 : Y este complet determinat de X (X și Y nu sunt independenți), dar corelația lor este 0

Relația cauză și efect

O greșeală obișnuită este să credem că un coeficient ridicat de corelație induce o relație de cauzalitate între cele două fenomene măsurate. În realitate, cele două fenomene pot fi corelate cu același fenomen sursă: o a treia variabilă nemăsurată, de care depind celelalte două. Numărul de arsuri solare observate într-o stațiune de pe litoral , de exemplu, poate fi puternic corelat cu numărul de ochelari de soare vândute; dar niciunul dintre cele două fenomene nu este probabil cauza celuilalt.

Exemplu

În antropometrie , măsurăm pentru un anumit număr de indivizi

statură;
înălțimea bustului;
lungimea membrului superior.

Cu cât acest număr este mai mare, cu atât corelațiile sunt mai reprezentative. Apoi , influența variabilelor una pe cealaltă este calculată prin legi statistice . Obținem următoarea matrice:

Matricea de corelație (valori fictive)

	Statură	Cufăr	Membru senior
Statură	1
Cufăr	0,85	1
Membru superior	0,55	0,63	1

Valoarea 1 înseamnă că cele două variabile sunt exact corelate (perfect corelate), este cazul unei relații exact liniare între două variabile;
0,85 înseamnă că statura joacă 72,25% (= 0,85 × 0,85) față de valoarea înălțimii bustului și așa mai departe ...
Jumătatea lipsă a matricei poate fi completată cu simetrie diagonală dacă corelațiile sunt reversibile.

Precauții de luat

În general, studiul relației dintre variabile, oricare ar fi acestea, trebuie să fie însoțit de o grafică descriptivă, exhaustivă sau nu în reținerea datelor disponibile, pentru a evita să suferim de limite pur tehnice.calculări pe care le folosim. Anscombe cvartet este un exemplu care arată că calculul singur corelația este insuficientă. Cu toate acestea, atunci când vine vorba de a analiza legăturile dintre multe variabile, este posibil ca reprezentările grafice să nu mai fie posibile sau să fie ilizibile în cel mai bun caz. Calculele, ca cele menționate până acum și, prin urmare, limitate prin definiție, ajută apoi la simplificarea interpretărilor care pot fi date despre legăturile dintre variabile, iar acesta este într-adevăr interesul lor principal. Apoi rămâne să verificăm dacă principalele ipoteze necesare pentru citirea corectă a acestora sunt validate înainte de orice interpretare.

În mass-media (Vezi efectul barză )

Trebuie amintit că corelația nu implică neapărat cauzalitatea. Cu toate acestea, în mass-media, o corelație între două variabile este adesea interpretată - în mod greșit - ca și cum ar exista o legătură cauză-efect între aceste două variabile. Această eroare se numește efect de barză și este uneori comisă de mass-media.

De exemplu, în 2018, statisticienii epidemiologiei nutriționale au publicat un studiu care evidențiază o corelație inversă între alimentele organice și riscul de a dezvolta cancer: acest studiu a fost preluat de presa franceză aproape în unanimitate sub titlul „consumul de organice reduce riscul de cancer cu 25 % " , fără a ține seama de cauzele comune probabile, cum ar fi faptul că alimentele organice sunt apanajul populațiilor mai bogate care acordă atenție sănătății lor în general și au, prin urmare, mai puțini factori de risc la bază.

Pentru a batjocori pedagogic acest obicei, Décodeurs du Monde.fr au dezvoltat un instrument de corelație geografică bazat pe date fără legătură, astfel încât să genereze „propriile hărți pentru a nu demonstra nimic” .

Articole similare

Note și referințe

O prezentare video a coeficientului de corelație este disponibilă aici.
Michel Armatte , „ Starea schimbătoare a corelației în econometrie (1910-1944) ”, Revue économique , vol. 52, n o 3,2001, p. 617-631 ( citit online , consultat la 9 septembrie 2011 )
BOWLEY G [1901] Elements of Statistics, Londra, King and Son, ed. A II- a . 1902.335 p.; A 4- a ed. 1920.454 p.; trad. Franceză la ediția a 5- a . de L. Suret și G. Lutfalla, 1929.
Yule GU [în 1909], „Aplicații ale metodei de corelație la statisticile sociale și economice”, BIIS, 28 (1), proces-verbal al celei de-a 12- a sesiuni de la Paris, p. 265-277.
FRECHET M. [1934], „Despre utilizarea așa-numitului coeficient de corelație”, Raport pentru a 22 -a sesiune a IIS din Londra, Buletinul IIS.
Variabilele se presupun că aparțin spațiului vectorial al variabilelor aleatoare integrabile pătrate. $L ^ {2} (\ Omega, {\ mathcal {B}}, \ operatorname {P})$
Jacob Cohen . (1988). Analiza puterii statistice pentru științele comportamentale (ediția a II-a)
Brice Gloux, „ Nu, alimentele organice nu reduc riscul de cancer cu 25% ” , pe contrepoints.org ,25 octombrie 2018.
Decodificatoarele, „ Corelații sau cauzalitate: generați propriile hărți pentru a nu demonstra nimic ” , pe Le Monde ,1 st martie 2019.