Reglare fină

În matematică , o potrivire afină este determinarea unei linii care se apropie cel mai bine de un nor de puncte din plan .

Este utilizat în special în analiza datelor pentru a evalua relevanța unei relații afine între două variabile statistice și pentru a estima coeficienții unei astfel de relații. De asemenea, face posibilă producerea unei linii de tendință pentru a formula prognoze privind comportamentul viitorului apropiat sau o interpolare între două măsurători luate.

Reglarea afină poate fi obținută prin regresie liniară , în special prin metoda celor mai mici pătrate sau prin alte metode bazate, de exemplu, pe o segmentare a valorilor pentru a utiliza fenomenele de netezire . Aceste metode sunt mai mult sau mai puțin adecvate în funcție de contextul obținerii datelor (măsurători experimentale cu zgomot , serii de timp , funcție de distribuție empirică , agregare a rezultatelor parțiale etc.) și resursele disponibile în timpul de calcul sau spațiul de memorie.

Unele dintre aceste metode se generalizează pentru mai mult de două variabile cu regresie liniară multiplă și analiza componentelor principale .

Regresie liniara

Notăm cu ( M i ( x i , y i )) norul de punct pe care căutăm să-l potrivim cu o linie ( d ): y = ax + b .

O metodă de regresie liniară constă în minimizarea reziduurilor y i - a x i - b , adică distanța de la fiecare punct M i la linia d în direcția axei y. Dar, din moment ce punctele nu sunt deja aliniate, nu este posibilă reducerea simultană a tuturor acestor distanțe. Prin urmare, există mai multe metode în funcție de cum sunt agregate aceste distanțe.

Metoda celor mai mici pătrate

Această metodă constă în minimizarea sumei pătratelor reziduale, definită de:

Oricare ar fi distribuția punctelor, există o linie unică care minimizează S , ai cărei coeficienți sunt scriși unde x este media coordonatelor x y este media coordonatelor y:  ; V ( x ) este varianța coordonatelor x iar Cov ( x , y ) este covarianța perechilor de coordonate .

Expresia y-intercept b arată că linia astfel definită trece prin isobarycenter punctelor, de coordonate ( x , y ) .

Există mai multe dovezi posibile pentru a justifica aceste valori, dintre care una constă în considerare S , pentru o dată, ca o funcție pătratică în b din care putem determina minimul, atunci, acest b fiind exprimată prin valoarea sa ca o funcție a unei , găsiți funcția minimă pătratică într- un .

Demonstrație

Pentru un fix, S poate fi scris ca o funcție a lui b Această funcție pătratică, de forma Ab 2 + Bb + C , își atinge minimul când b este egal cu - B / 2 A, deci când Dacă acum înlocuim, în S , b prin valoarea sa ca o funcție a unei , obținem o funcție pătratică într - o  : Această funcție pătratică, de forma Ua 2 + Va + W , atinge minimul său atunci când a este egal cu - V / 2 U, deci atunci când

Minimul este atunci

Calitatea potrivirii afine este apoi măsurată prin coeficientul de corelație liniară unde σ x și σ y sunt abaterile standard ale celor două variabile statistice. Este implicat în evaluarea sumei pătratelor reziduale:

Cu cât coeficientul de corelație este mai aproape de 1 sau –1, cu atât suma pătratelor reziduale este mai aproape de 0. Coeficientul de corelație este, prin urmare, un bun indicator al validității potrivirii afine.

De asemenea, putem înțelege rolul indicator al coeficientului de corelație prin observarea graficului centrat pe punctul mediu (al coordonatelor ( x , y ) ). Dacă potrivirea afină nu este legitimă, vor exista aproximativ cât mai multe puncte în fiecare dintre cadrane și produsele ( x i - x ) ( y i - y ) vor avea semne diferite și se vor compensa reciproc când vom face suma ducând astfel la un mic r în valoare absolută. În timp ce dacă potrivirea afină este legitimă, vor exista două cadrane, de fiecare parte a punctului mediu, care vor conține majoritatea punctelor și punctele corespunzătoare vor fi, prin urmare, caracterizate de același semn în produs ( x i - x ) ( y i - y ) , semn care va deveni astfel în mare parte majoritar și pe care îl veți găsi în suma lor, ceea ce duce la o valoare r mare în valoare absolută.

În cele din urmă, inegalitatea Cauchy-Schwarz ne permite să afirmăm că

cu egalitate numai dacă y i - y sunt proporționale cu x i - x . Deci | r | ≤ 1 cu egalitate numai dacă există un real a astfel încât, pentru toate i , y i - y = a ( x i - x ) . Astfel, mai multe | r | este aproape de 1 cu cât ajustarea afină pare mai legitimă.

O altă metodă de interpretare a rolului jucat de coeficientul de corelație este de a observa fluctuațiile lui Y în jurul valorii sale medii. Există două fenomene care explică aceste fluctuații. Pe de o parte, știm că Y este considerat aproape de o funcție liniară a X . Când X fluctuează în jurul medie cu o variație de V ( x ) , AXE + b fluctuează în jurul lui medie y cu o variație a unui 2 V ( x ) , această cantitate se numește varianță explicată . Celălalt motiv pentru fluctuația Y este că graficul de împrăștiere nu este situat pe linia de potrivire: valorile y i și ax i + b pot fi diferite. Se arată, din expresia anterioară S , varianța este suma varianței și varianței reziduale , adică, a explicat (1 / n ) S .

Raportul de corelație este raportul dintre variația explicată (inevitabilă deoarece X fluctuează) și varianța totală. Acest raport de corelație este egal cu pătratul coeficientului de corelație r 2 . Cu cât raportul de corelație este mai apropiat de 1, cu atât varianța explicată este mai apropiată de varianța totală și cu atât este mai mică varianța reziduală, prin urmare cu atât este mai bună potrivirea afină.

Potrivire afină a lui X cu Y

De asemenea, putem ajusta norul de puncte explicând X cu Y , adică căutând linia ( d ' ) a ecuației X = cY + d care minimizează suma pătratelor distanțelor M i R i unde R i este proiecția lui M i pe ( d ' ) paralel cu axa x.

Coeficienții c și d sunt apoi dați de

Această linie trece, de asemenea, prin punctul de mijloc, dar nu are întotdeauna aceeași pantă ca cea precedentă. Liniile au aceeași pantă dacă a și c sunt opuse între ele, deci dacă ac este 1, sau ac corespunde lui r 2 . Găsim astfel rezultatul: ajustarea lui X cu Y dă aceeași linie cu ajustarea lui Y cu X numai dacă coeficientul de corelație este egal cu 1 sau –1.

Interpretare în geometria euclidiană a dimensiunii n

În spațiu , prevăzut cu produsul scalar canonic , considerăm vectorul X al coordonatelor ( x 1 , x 2 , ..., x n ) , vectorul Y al coordonatelor ( y 1 , y 2 , ..., y n ) , vectorul U al coordonatelor (1, 1, ..., 1).

Putem observa asta

Găsirea liniei care minimizează suma pătratelor reziduale este găsirea numerelor reale a și b astfel încât să fie minimă. Această normă va fi minimă dacă și numai dacă aX + bU este proiecția ortogonală a lui Y în spațiul vectorial generat de X și U , deci de îndată ce

Prima egalitate are ca rezultat

care dă valoarea găsită anterior pentru b . A doua egalitate este apoi tradusă prin

ceea ce dă bine pentru are valoarea găsită anterior.

Putem determina cosinusul unghiului θ format între vectorii Y - y U și X - x U prin formula

.

Această egalitate are sens având în vedere rezultatul dat anterior de inegalitatea Cauchy-Schwarz. Coeficientul de corelație poate fi la fel de cosinusul unghiului dintre doi vectori X și Y . Un coeficient de corelație 1 înseamnă că unghiul dintre acești doi vectori este zero (aliniere perfectă), un coeficient de –1 dă un unghi geometric de π între cei doi vectori (vector cu aceeași direcție, dar cu direcții opuse) și dacă linia Coeficientul de corelație este mai mare în valoare absolută decât √ cu 3 / cu 2 , atunci unghiul geometric format de cei doi vectori este mai mică decât π / 6 sau mai mare decât 5π / 6 .

Minimizarea sumei distanțelor

Poate părea mai ușor să încercați să minimizați suma distanțelor punctelor față de linie, mai degrabă decât suma pătratelor lor. Această metodă a fost, de asemenea, dezvoltată înainte de metoda celor mai mici pătrate. Dar nu există neapărat unicitatea liniei optime, iar determinarea coeficienților este mult mai puțin ușoară.

O astfel de linie optimă trece întotdeauna prin două dintre punctele luate în considerare.

Selecție și segmentare

În cazul în care punctele norului au abscise diferite două câte două, în special în cazul seriilor temporale , unele metode de ajustare se bazează pe selectarea anumitor puncte care se presupune că sunt mai reprezentative sau pe împărțirea tuturor punctelor în două sau trei părți consecutive pe abscisă.

Metoda punctelor observate

O metodă simplistă, dar ușoară de implementat fără calcul, de exemplu pentru a desena manual o linie de tendință pe o reprezentare grafică, constă în trasarea liniei care leagă vizibil două puncte în linie cu celelalte.

Metoda punctului extrem

O metodă mai sistematică decât cea precedentă constă în conectarea celor două puncte de abscisă minimă și maximă.

Metoda lui Mayer

Această metodă de ajustare este mai ușor de configurat. Se pare că a fost folosit de Leonhard Euler și Tobias Mayer . Acesta constă, după aranjarea perechilor ( x i , y i ) în ordinea crescătoare a lui x i , în împărțirea norului în doi nori de dimensiuni egale, în determinarea punctului mediu al fiecăruia dintre subnori și în trasând linia care leagă aceste două puncte medii.

Metoda mediană-mediană

Constă în aranjarea perechilor ( x i , y i ) în funcție de ordinea crescândă a lui x i , apoi împărțirea populației în trei subpopulații de aceeași dimensiune (până la o unitate), și găsirea în fiecare populație a medianei x i și cea a y i . Aceasta conduce la trei perechi de mediane care definesc trei puncte: P 1 ( m 1, x , m 1, y ) , P 2 ( m 2, x , m 2, y ) și P 3 ( m 3, x , m 3, y ) . Linia de reglare este linia care trece prin centrul izobarian al acestor trei puncte și paralelă cu linia ( P 1 P 3 ) .

Analiza componentelor principale

Având în vedere o familie de puncte ale planului, există o singură linie a planului care minimizează suma distanțelor pătrate ale punctelor față de linie, cu condiția ca covarianța dintre abscisă și ordonată să nu fie zero sau că varianța abscisei este diferit de cel al ordonatelor. Această linie dreaptă trece apoi prin centrul izobarian al punctelor.

Mai general, având în vedere o familie de vectori ai , alegerea unui subspațiu afin care minimizează suma pătratelor distanțelor se reduce la analiza componentelor principale  : a matricei covarianță este simetrică pozitiv , diagonalizable , iar suma de Eigen sub- spațiile asociate cu cele mai mari valori proprii dau direcția unui subspatiu afin care trece prin centrul isobarian al punctelor.

Această metodă are sens numai dacă coordonatele sunt omogene, de exemplu dacă reprezintă mărimi exprimate cu aceeași unitate. În caz contrar, putem standardiza în mod opțional fiecare coordonată în prealabil, astfel încât variațiile să fie identice.

utilizare

Probabilitatea unei corelații

În contextul regresiei liniare, potrivirea afină face posibilă testarea existenței unei corelații liniare între două variabile.

Formularea și interpolarea prognozei

Pentru o valoare pe abscisă care nu este reprezentată în norul de puncte, este posibilă estimarea unei valori pe ordonată prin aplicarea funcției afine obținute prin ajustarea afină.

De exemplu, graficul opus reprezintă răspunsurile la sondajele efectuate în perioada 1992-2006 cu privire la procentul de persoane din grupa de vârstă 15-44 care au gustat deja canabis. Fiecare punct corespunde unui sondaj cu data sa pe axa x și procentul de experimentatori pe axa y. Graficul de împrăștiere pare a fi organizat de-a lungul unei linii drepte, ceea ce face posibilă estimarea că un sondaj din 2008 ar fi dat 42% răspunsuri pozitive și că un sondaj din 1994 ar fi dat aproximativ 20% răspunsuri pozitive.

Trasarea unei linii de ajustare nu implică faptul că există o relație cauză-efect între cele două fenomene măsurate și extrapolările pe care cineva este tentat să le efectueze trebuie să fie limitate la vecinătățile apropiate de norul de puncte. Deoarece, dincolo de limitele studiu, comportamentul relativ al celor două variabile ar putea foarte bine să nu mai fie rafinat.

Se potrivește cu alte curbe

În cazul în care parcela de dispersie sugerează o funcție exponențială, putem încerca o ajustare rafinată a logaritmului natural ordonatelor ln ( Y ) , în conformitate cu X . Într-adevăr, dacă ln ( Y ) = aX + b atunci Y = e b × e aX

Dacă graficul de dispersie pare să indice o funcție de putere, potrivirea afină va fi încercată pe ln ( Y ) și ln ( X ) deoarece ln ( Y ) = a ln ( X ) + b atunci Y = e b × X a

Note și referințe

  1. Această terminologie se face referire , de exemplu , în ciclul final al curriculum - ului matematicii în MGT și programul de cape interne ale științelor economice și sociale în Franța.
  2. A se vedea, de exemplu, Dany-Jack Mercier, Cahiers de matematică du Superieure , volumul 1: Statistici, probabilități, homotetii, p. 34 și următoarele , Editions Publibook, 2010, ( ISBN  2748355881 )
  3. Metoda de minimizare a sumei distanțelor punctelor până la linie a fost propusă în 1757, adică cu 50 de ani înainte de cele ale celor mai mici pătrate, conform lui Gilbert Saporta, Probabilități, analiza datelor și statisticilor , § 16.5 „O metodă de regresie robustă”, Éditions Technip, Paris 2011.
  4. D. Birkes, Y. Dodge, Metode alternative de regresie , Wiley 1993.
  5. Curs de Christophe Chéneau p. 13
  6. Prezentarea metodei pe site-ul Sylvie Lacoste
  7. fină pe site-ul Learn Online
  8. (în) Elizabeth J. Walters, Christopher H. Morrell și Richard E. Auer, An Investigation of the Median-Median Method of Linear Regression , Journal of Statistics Education Volumul 14, Numărul 2 (2006)

Vezi și tu

Bibliografie