Analiză discriminantă

Analiză discriminantă
Subclasă Metoda statistică ( d )

Analiza discriminantă ( AFD ) sau pur și simplu analiza discriminantă este o tehnica statistica , care descrie, explica și anticipa apartenența la grupuri predefinite (clase, categorii de variabila pentru a prezice ...) a unui set de observații (indivizi, exemple ...) dintr-o serie de variabile predictive (descriptori, variabile exogene ...).

Analiza discriminantă este utilizată în multe domenii.

Analiza discriminantă este o tehnică cunoscută și acceptată, este descrisă în mod identic de către diferite comunități de prelucrare a datelor: statistici exploratorii ( analiza datelor exploratorii ) prin analiza datelor în recunoașterea tiparelor ( recunoașterea tiparelor ) în învățarea automată ( învățarea automată ), datele minerit (minerit de date ) ...

Tabel de date

În fișierul Flas Beetles Dataset, la care se face referire pe site-ul DASL ( Data and Story Library ), observăm trei familii de purici caracterizați prin unghiul și lățimea edealului lor, organul reproductiv masculin în entomologie.

Avem 74 de observații în acest fișier. Variabila Species indică familia căreia îi aparține fiecare cip, există trei {Con - Concinna, Hei - Heikertingeri, Hep - Heptapotamica}. Puricii sunt descriși cu ajutorul a două variabile continue: lățimea ( lățimea ) și unghiul edagului lor.

Deoarece datele sunt descrise de două variabile, este posibil să se reprezinte graficul de împrăștiere într-un grafic XY cu lățimea pe abscisă și unghiul (unghiul) pe ordonată. Acest lucru nu mai este posibil atunci când numărul descriptorilor este mai mare de doi, unul dintre rolurile analizei discriminante este tocmai acela de a propune o reprezentare grafică adecvată într-un spațiu redus.

Abordări diferite în funcție de obiective

În general, există două abordări principale:

Distincția dintre aceste două abordări nu este atât de clară. De exemplu, este posibil să se derive reguli de atribuire geometrică din analiza factorilor discriminanți.

Analiza discriminantă descriptivă

Analiza discriminantă descriptivă (analiza discriminantă canonică) este o tehnică statistică exploratorie care lucrează pe un set de observații descrise de variabile, împărțite în grupuri. Acesta își propune să producă un nou sistem de reprezentare, alcătuit din combinații liniare ale variabilelor inițiale, care face posibilă separarea cât mai bună a categoriilor.

Spre deosebire de analiza discriminantă predictivă, nu se bazează pe nicio ipoteză probabilistică. Este în esență o metodă geometrică.

Notări - Formulări

Date și evaluări

Avem un eșantion de observații împărțit în grupuri de numere .

Rețineți variabila care definește grupurile, își ia valorile . Avem variabile .

Notăm centrele de greutate ale norilor de puncte condiționate, matricea lor varianță-covarianță .

Pași

Obiectivul analizei discriminante este de a produce un nou spațiu de reprezentare care face posibilă distincția optimă a grupurilor K. Abordarea constă în producerea unei serii de variabile discriminante , necorelate două câte două, astfel încât indivizii din același grup proiectați pe aceste axe să fie cât mai apropiați unul de celălalt și că indivizii din diferite grupuri sunt cât mai departe posibil.

  • Dispersia într-un grup este descrisă de matricea de covarianță a varianței . Putem deduce (până la un factor) matricea de dispersie intragrup
  • Distanța dintre grupuri, între centrele de greutate ale grupurilor, este reflectată de matricea de covarianță a varianței între grupuri (până la un factor) , unde este centrul de greutate al norului global de puncte.
  • Dispersia totală a norului se obține prin matricea de covarianță a varianței totale . În virtutea teoremei lui Huyghens (care este generalizarea multidimensională a formulei de descompunere a varianței):

Prin urmare, prima axă factorială va fi definită de vectorul de direcționare astfel încât cantitatea să fie maximizată . Varianța între clase pe această primă axă factorială va fi maximă.

Soluţie

Soluția acestei probleme de optimizare liniară implică rezolvarea ecuației . Răspunsul ne este oferit direct de calculul valorilor proprii și vectorilor proprii ai matricei .

  • Prin urmare, prima axă factorială este obținută folosind vectorul propriu corespunzător celei mai mari valori proprii . A doua axă factorială este definită de următorul vector propriu etc.
  • Setul de axe factoriale este determinat de valorile proprii diferite de zero ale matricei . În cazul obișnuit în care obținem axe factoriale.
  • În cele din urmă, varianța inter-clasă calculată pe axa factorială , numită și puterea discriminantă a axei , este egală cu valoarea proprie asociată.

Evaluare

Evaluarea este la două niveluri: evaluarea puterii discriminante a unei axe factoriale; evaluați puterea discriminantă a unui set de axe factoriale. Ideea care sta la baza este de a putea determina numărul de axe suficient pentru a distinge grupurile de observații din noul sistem de reprezentare.

Desigur, aceste evaluări au sens numai dacă grupurile sunt discernibile în spațiul de reprezentare inițial. Prin urmare, trebuie să evaluăm mai întâi în ce măsură centrele de greutate ale grupurilor sunt distincte. Cu alte cuvinte, este vorba de a verifica dacă partea lui B din ecuația V = B + W este suficient de mare încât să merite să o descompunem mai târziu.

Test MANOVA

Testul general este ca o analiză a varianței multivariată într-un singur sens. În acest cadru, introducem ipoteza că observațiile urmează o distribuție normală multidimensională. De asemenea, găsim acest test în analiza discriminantă predictivă ( analiza discriminantă liniară ). Statistica testului este Lambda Wilks' , care este egal cu raportul (| | denotă determinantul matricei). Folosind transformarea Rao care urmează o lege Fisher, putem determina dacă ar trebui să acceptăm sau să infirmăm ipoteza egalității centrelor de greutate ale grupurilor.

Proporția varianței explicată

Fiecare axă raportează o parte a varianței inter-clase B. O abordare simplă pentru a aprecia importanța unei axe este de a calcula partea de varianță explicată pe care o poartă, tradusă de valoarea proprie. Proporția valorii proprii, adică raportul dintre valoarea proprie a axei și suma totală a valorilor proprii ale tuturor axelor, ne oferă o bună indicație a rolului unei axe.

Raport de corelație

O altă modalitate de a raporta importanța unei axe este calcularea raportului de corelație. Se bazează pe formula de descompunere a varianței. Pentru o axă factorială , este egal cu raportul (suma pătratelor inter-grup împărțită la suma totală a pătratelor, reprezintă o observație).

O axă va fi cu atât mai interesantă dacă are un raport de corelație ridicat. În software-ul anglo-saxon, rădăcina pătrată a raportului de corelare a axelor se numește a h-a corelație canonică.

Test succesiv de rădăcină

Introducând din nou ipoteza multinormalității și homoscedasticității (vezi analiza discriminantă predictivă), putem testa nulitatea ultimelor rapoarte de corelație. Testul se bazează pe statistica Wilks . Ipoteza nulă (nulitatea raporturilor de corelație) este invalidată pentru valori mici ale .

În ceea ce privește testul global, este implementată o transformare pentru a reveni la legile de distribuție de utilizare comună. Transformarea lui Bartlett este adesea oferită în software. Urmează o lege chi-pătrat cu grade de libertate. Ipoteza nulă este respinsă dacă probabilitatea critică calculată este mai mică decât riscul de primul tip (nivel de încredere) pe care ni l-am stabilit.

Ne întoarcem la testul global MANOVA de mai sus (Lambda lui Wilks) dacă testăm nulitatea raporturilor de corelație pe toate axele factorilor. Cu alte cuvinte , ceea ce este destul de natural, deoarece echivalează cu testarea tuturor axelor.

Un exemplu

Celebrul fișier IRIS ilustrează metoda. A fost propus și folosit de Fisher însuși pentru a ilustra analiza discriminantă. Are 150 de flori descrise de 4 variabile (lungimea și lățimea petalelor și sepalelor) și grupate în 3 categorii (Setosa, Versicolor și Virginica).

Obiectivul este de a produce un plan factorial (3 categorii ⇒ 2 axe) care să permită distingerea acestor categorii cât mai bine posibil, apoi să explice pozițiile lor respective.

Axe factoriale

Calculul produce următoarele rezultate.

Axă Val. curat Proporţie Canonical R Wilks KHI-2 DDL valoarea p
1 32.272 0,991 0,985 0,024 545,58 8 0,0
2 0,277 1.0 0,466 0,783 35.6 3 0,0

Cele două axe sunt semnificative la nivel global. Într-adevăr, lambda Wilks a nulității celor două axe este egală cu 0,023525 ( aici). KHI-2 al lui Bartlett este egal cu 545,57, cu un grad de libertate egal cu (2 x (4-3 + 2 + 1)) = 8, este foarte semnificativ ( valoare p foarte mică).

Observăm, totuși, că prima axă reflectă 99,1% din varianța explicată. Putem întreba în mod legitim dacă a doua axă este relevantă pentru discriminarea grupurilor. Este suficient pentru a testa nulitatea ultimei axe ( ). Lambda este mai mare (0,78), ceea ce duce la un KHI-2 (35,64) mai mic la (1 x (4-3 + 1 + 1)) = 3 grade de libertate, rămâne totuși semnificativ dacă ne-am stabilit o încredere nivel de 5%.

Pe baza acestui rezultat, ar trebui să păstrăm cele două axe. Vom vedea mai jos că acest rezultat ar trebui pus în perspectivă.

Reprezentare grafică

Prin proiectarea punctelor în planul factorial, obținem următoarea poziționare.

Proiectare factorială - Analiză discriminantă descriptivă

Distingem clar cele trei categorii de flori. De asemenea, observăm că prima axă face posibilă izolarea lor în mod adecvat. Pe a doua axă, chiar dacă centrele de greutate ale grupurilor par distincte, diferențierea nu este atât de clară.

Găsim clar în acest grafic ceea ce am simțit cu proporția de varianță explicată. Prima axă este în mare măsură suficientă pentru a discrimina între grupuri. A doua axă, chiar dacă este semnificativă statistic, nu oferă informații suplimentare reale.

De foarte multe ori, tehnicile vizuale oferă un contrapunct foarte relevant pentru rezultatele numerice brute.

Proiecția altor persoane

Pentru a proiecta observații suplimentare în planul factorial, software-ul oferă ecuațiile funcțiilor discriminante. Este suficient să le aplicați la descrierea individului care urmează să fie clasificat pentru a obține coordonatele sale în noul cadru de referință.

În exemplul IRIS, obținem următorii coeficienți.

Variabile Axa 1 Axa 2
Lungime separată -0,819 -0.033
Lățime separată -1,548 -2.155
Lungimea petalei 2.185 0,930
Lățimea petalei 2.854 -2.806
Constant -2.119 6.640
Interpretarea axelor

Ultimul punct, și nu cel mai important, trebuie să înțelegem poziționarea relativă a grupurilor, adică să explicăm cu ajutorul variabilelor inițiale apartenența la categorii.

Pentru aceasta, la fel ca tehnicile factoriale, cum ar fi analiza componentelor principale (PCA) - analiza factorilor discriminanți poate fi văzută și ca un caz special al PCA - software-ul oferă matricea corelației. Spre deosebire de PCA, pot fi produse trei tipuri de corelații: corelația globală dintre axe și variabilele inițiale; corelația intra-clasă, calculată în cadrul grupurilor; corelația inter-clasă calculată din centrele de greutate ale grupurilor ponderate de frecvențele lor.

În exemplul IRIS, dacă rămânem la prima axă, obținem următoarele corelații.

Variabile Total Intra-grupuri Inter-grupuri
Lungime Sep 0,792 0,222 0,992
Lățime sept -0,523 -0.116 -0,822
Lungimea animalului de companie 0,985 0,705 1.000
Lățimea animalului de companie 0,973 0,632 0,994

Corelația dintre clase care traduce poziționarea grupurilor pe axe indică aici că Virginica are mai degrabă lungimi de sepale, lungimi și lățimi ale petalelor importante. Setosa, pe de altă parte, are lungimi de sepală reduse, lungimi și lățimi ale petalelor. Versicolorii ocupă o poziție intermediară.

Citirea este inversată în ceea ce privește lățimea sepalelor.

Note și referințe

  1. Flea Beetles Dataset
  2. DASL

Bibliografie

  • M. Bardos, Discriminant Analysis - Application to risk and financial scoring , Dunod, 2001.
  • Gilbert Saporta , Probabilitate, Analiza datelor și statistici , Paris, Éditions Technip,2006, 622  p. [ detaliu ediții ] ( ISBN  978-2-7108-0814-5 , prezentare online )
  • L. Lebart, A. Morineau, M. Piron, Statistici exploratorii multidimensionale , Dunod, 2000.
  • M. Tenenhaus , Metode statistice în management , Dunod, 1996.
  • Michael Volle , Analiza datelor , Economica,  ediția a IV- a , 1997 ( ISBN  2-7178-3212-2 )