Analiza datelor ( de asemenea , numit analiza exploratorie a datelor sau EDA ) este o familie de metode statistice ale căror caracteristici principale trebuie să fie multidimensională și descriptiv. În sensul francez, terminologia „analiza datelor” desemnează, prin urmare, un subgrup al a ceea ce este mai general numit statistici multivariate . Anumite metode, în cea mai mare parte geometrice , ajută la evidențierea relațiilor care pot exista între diferitele date și la obținerea de informații statistice din acestea, ceea ce face posibilă descrierea mai succintă a principalelor informații conținute în aceste date. Alte tehnici permit gruparea datelor, astfel încât să arate clar ceea ce le face omogene și, astfel, să le înțeleagă mai bine.
Analiza datelor face posibilă prelucrarea unei cantități foarte mari de date și identificarea celor mai interesante aspecte ale structurii sale. Succesul acestei discipline în ultimii ani se datorează, în mare măsură, reprezentărilor grafice oferite. Aceste grafice pot evidenția relații greu de înțeles prin analiza directă a datelor; dar mai presus de toate, aceste reprezentări nu sunt legate de o opinie „a priori” asupra legilor fenomenelor analizate, spre deosebire de metodele statisticii clasice.
Fundamentele matematice de analiză a datelor a început să se dezvolte la începutul XX - lea secol, dar este computerul care a făcut această disciplină operațională, și care a ajutat într - o utilizare foarte larg. Matematica și informatica sunt strâns legate aici.
În sensul francez, terminologia „analiza datelor” desemnează un subset al a ceea ce este mai general numit statistică multivariantă . Analiza datelor este un set de tehnici descriptive, dintre care instrumentul matematic major este algebra matricială și care se exprimă fără a presupune a priori un model probabilistic.
Include analiza componentelor principale (PCA), utilizată pentru date cantitative, și metodele derivate ale acesteia: analiza corespondenței factoriale (CFA) utilizate pe datele calitative (tabelul de asociere) și analiza corespondenței factoriale. Multipli (AFCM sau ACM) generalizând cea anterioară. Analiza canonică și corelația canonică generalizată , care sunt cadre mai teoretice la fel de ușor metode aplicabile, se extind mai multe dintre aceste metode și merge dincolo de tehnicile de descriere. Analiza factorilor multipli este potrivită pentru tabele în care variabilele sunt structurate în grupuri și pot fi cantitative și / sau calitative. Automat de clasificare , The analiza discriminantă (FDA) sau analiza discriminantă utilizate pentru a identifica grupuri omogene în cadrul populației din perspectiva variabilelor studiate.
În plus față de analiza datelor , cea mai recentă analiză independentă a componentelor (ICA), derivată din fizica semnalului și cunoscută inițial ca metodă de separare a sursei oarbe , este mai apropiată intuitiv de metodele de clasificare nesupravegheate. Iconografia corelațiilor pentru date calitative și cantitative, organizează corelațiile dintre variabilele sub formă de grafice. Analiza inter-baterie a lui Tucker este intermediară între analiza canonică și analiza componentelor principale, analiza redundanței numită și analiza componentelor principale pe variabilele instrumentale este similară cu regresia, deoarece variabilele unuia dintre grupurile analizate sunt considerate dependente, celelalte ca fiind independente și că funcția care trebuie maximizată este o sumă a coeficienților de corelație dintre cele două grupuri.
În afară de școala franceză, analiza datelor multivariate este completată de metoda de urmărire a proiecției lui John Tukey și de metodele de cuantificare ale lui Chikio Hayashi , al căror tip de cuantificare III este similar cu analiza corespondenței. Analiza factorială anglo-saxonă, sau „ Analiza factorială ” , este apropiată de analiza în componentele principale, fără a fi echivalentă, deoarece folosește tehnicile de regresie pentru a descoperi „variabilele latente”.
Aceste metode permit în special manipularea și sintetizarea informațiilor provenite din tabele mari de date, utilizând estimarea corelațiilor dintre variabilele care sunt studiate. Instrumentul statistic utilizat este matricea de corelație sau matricea varianță-covarianță .
Părinții analizei moderne de date sunt Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (proiectantul metodelor cunoscute sub numele de „ Științe ale datelor ” ), Douglas Carroll și RN Shepard.
Dar cu mult înainte de timpul lor, tehnicile de bază ale analizei datelor erau deja cunoscute. În Tabelele de situații neprevăzute , de exemplu, sunt prezente mai devreme în istorie: armada invincibil este descrisă de Alvarez Paz Salas și într - o carte publicată în 1588 sub forma unui tabel în care rândurile reprezintă flotele de nave și coloanele pentru caracteristicile precum tonajul, numărul de personal armat etc. Nicolas de Lamoignon de Basville, intendent al regelui Ludovic al XIV-lea , a numărat și a caracterizat mănăstirile și mănăstirile din regiunea Languedoc în 1696.
Clasificarea își găsește stăpânul, între 1735 și 1758, în persoana lui Carl von Linné care a stabilit la acel moment bazele nomenclaturii binomiale și ale taxonomiei moderne. Robert R. Sokal și Peter HA Sneath în 1963 prezintă metode cantitative aplicate taxonomiei .
Conceptele necesare pentru analiza datelor moderne a început să fie stăpânit la începutul secolului al XIX - lea secol. Adolphe Quetelet , astronom și statistician belgian, folosește ceea ce știe de la legea Gaussiană la antropometrie pentru a examina dispersia în jurul valorii medii ( varianța ) măsurătorilor dimensiunilor unui grup de bărbați. Apoi, Francis Galton , pentru că vrea să studieze mărimea taților și a fiilor, este interesat de variația comună ( covarianța și corelația ) a două dimensiuni, care este la originea a ceea ce numim astăzi regresia hui.
Când Karl Pearson și Raphael Weldon pun mâna pe opera lui Francis Galton, ei pot generaliza regresia lui Galton la date multidimensionale, atunci Karl Pearson are ideea de a schimba axele prezentării pentru a le exprima ca o funcție a variabilelor independente în 1901, stabilind astfel premisele analizei componente principale . Aceasta a fost dezvoltată în 1933 de Harold Hotelling, care a definit Analiza canonică în 1936 .
Marion Richardson și Frederic Kuder, în 1933, căutând să îmbunătățească calitatea vânzătorilor de „ Procter & Gamble ” , folosesc ceea ce se numește acum algoritmul ( „ Medierea reciprocă ” ), bine cunoscut în ACP. Herman Otto Hirschfeld , în publicația sa „ O conexiune între corelație și contingență ” , descoperă ecuațiile analizei corespondenței.
Psihometria este cea care dezvoltă cel mai mult analiza datelor. Când Alfred Binet și-a definit testele psihometrice pentru a măsura inteligența la copii, Charles Spearman le-a folosit pentru a defini, în 1904, teoria sa asupra factorilor generali și specifici care măsoară aptitudinea generală și aptitudinea particulară pentru o activitate., Necesare pentru desfășurarea acestei activități. Louis Leon Thurstone a dezvoltat ecuațiile induse de teoria factorilor sub formă de matrice în 1931 și a completat-o studiind termenul de eroare. De asemenea, introduce noțiunea de axe principale de inerție. În 1933, Harold Hotelling a propus utilizarea iterației pentru diagonalizarea matricilor și căutarea vectorilor proprii.
Jean-Paul Benzécri și Brigitte Escofier-Cordier au propus Analiza corespondenței factoriale în 1962-65, dar în 1954 Chikio Hayashi stabilise deja bazele acestei metode sub denumirea Tip III Quantification.
Analiza corespondenței multiple a fost inițiată de Louis Guttman în 1941, Cyril Burt în 1950 și Chikio Hayashi în 1956. Această tehnică a fost dezvoltată în Japonia în 1952 de Shizuhiko Nishisato sub denumirea „ Dual Scaling ” și în Țările de Jos în 1990 sub numele de „ Analiza omogenității " de către colectivul Albert Gifi.
Apariția computerului, și în special a microcomputerului, este un salt tehnologic care face posibile calcule complexe, diagonalizări, căutări de valori proprii pe tabele mari de date, cu întârzieri foarte mari în obținerea rezultatelor. Scurt în comparație cu ceea ce s-a făcut în trecut.
Analiza datelor este utilizată în toate domeniile atunci când există prea multe date pentru a fi înțelese de mintea umană.
În științele umane , această tehnică este utilizată pentru a identifica rezultatele sondajelor de opinie, de exemplu cu Analiza corespondenței multiple sau Analiza corespondenței factoriale. Sociologia se bazează pe analiza datelor pentru a înțelege viața și dezvoltarea unor populații precum Liban a căror evoluție este demonstrat de două studii în 1960 și 1970, prezentat de Jean-Paul Benzécri, iar structura standard de viață și de îmbunătățire a acesteia sunt analizate folosind analiza componentelor principale. Analiza corespondenței multiple este adesea utilizată în sociologie pentru a analiza răspunsurile la un chestionar. Sociologii Christian Baudelot și Michel Gollac folosesc analize de corespondență multiple pentru a studia relația francezilor cu munca lor. Inspirându-se din Pierre Bourdieu pentru a studia un „domeniu” specific, sociologul Frédéric Lebaron folosește MCA pentru a analiza domeniul economiștilor francezi, iar Hjellbrekke și coautorii săi aplică aceeași metodă pentru a analiza câmpul elitelor norvegiene. La fel, François Denord și coautorii săi folosesc un ACM pentru a analiza câmpul de putere din Franța din Who's Who. Încă în lucrările inspirate de Pierre Bourdieu, putem lua, de asemenea, ca exemplu analiza domeniului cinematografiei franceze de către Julien Duval. De Lingvistii utiliza analiza de text și de analiză a datelor tehnici pentru a localiza un membru al spectrului politic prin examinarea frecvenței de utilizare a anumitor cuvinte. Brigitte Escofier-Cordier a studiat câteva elemente ale vocabularului folosit în piesa lui Racine, Phèdre , pentru a arăta cum autorul folosește cuvinte pentru a-și ancora personajele în ierarhia socială. În economie , bilanțurile companiei au fost studiate de C. Desroussilles pentru a descrie structura și dimensiunea acestor organizații folosind clasificarea ascendentă și analiza corespondenței. Structura consumului gospodăriilor în CEE este prezentată de Jean-Paul Benzécri și colab. pe cele două axe ale unei analize de corespondență și un prim pas în stabilirea unei clasificări a activităților economice din industrie arată utilitatea unei analize de corespondență și a unei clasificări ierarhice în acest tip de operațiune.
În domeniul științei și tehnologiei, unii cercetători adoptă aceste metode statistice pentru a descifra mai multe caracteristici ale genomului . Alții folosesc analiza datelor pentru a stabili un proces necesar pentru recunoașterea fețelor . În epidemiologie , Inserm furnizează datele sale, pe care Husson și colab. prin analiza factorială a corespondenței pentru a descrie grupele de vârstă din Franța în funcție de cauzele lor de mortalitate . Jean-Paul Benzécri oferă, de asemenea, exemple de utilizare a analizei corespondenței în contextul învățării , hidrologiei și biochimiei . Un exemplu în științele mediului este cel al studiului urmelor de metale din grâu în funcție de solurile cultivate, care folosește analiza corelațiilor canonice considerate de obicei ca un instrument destul de teoretic. În primul deceniu al acestui secol, Observatoire des Maladies du Bois de la Vigne a căutat să măsoare evoluția a trei boli ale viței de vie, practicând, printre alte metode, analiza corespondențelor multiple și analiza componentelor principale dintr-o epidemiologie a plantelor. proiect .
Domeniul sportului este foarte pasionat de statistici: un medic sportiv se întreabă despre vârsta practicienilor, motivațiile acestora și sportul pe care îl practică. Într-un alt studiu, sportul este interesat de motivațiile sportivilor care variază de la prietenie și camaraderie până la asertivitatea reprezentată pe o axă și de la natură și frumusețe la combativitate pe a doua axă. Sociologul caută să știe dacă sociabilitatea adepților unui sport este influențată de practica sa, biometria umană caracterizează morfologia sportivului în funcție de sportul pe care îl practică, iar în cazul sporturilor de echipă poziția pe care o ocupă în echipă, etc.
Microfinanțare a luat , de asemenea , dețin de analiză a datelor pentru a evalua riscul de a identifica și a populațiilor debitori. Industria asigurărilor folosește analiza datelor pentru conștientizarea riscurilor și stabilirea prețurilor în avans.
Reprezentarea datelor multidimensionale într-un spațiu cu dimensiuni reduse este domeniul analizei factorilor, analizei factorilor de corespondență, analizei componentelor principale, analizei corespondenței multiple. Aceste metode permit reprezentarea norului de puncte care urmează să fie analizat într-un plan sau într-un spațiu tridimensional, fără prea multe pierderi de informații și fără presupuneri statistice prealabile. În matematică , ei exploatează calculul matricial și analiza vectorilor și a valorilor proprii .
Analiza componentelor principale este utilizată pentru a reduce p variabile corelate la un număr q de variabile necorelate, astfel încât variabilele q sunt combinații liniare ale variabilelor p originale, varianța lor este maximă, iar noile variabile sunt ortogonale între ele urmează o anumită distanță. În PCA, variabilele sunt cantitative.
Componentele, noile variabile, definesc un sub-spațiu q-dimensional pe care sunt proiectați indivizii cu pierderi minime de informații. În acest spațiu, norul de puncte este mai ușor de reprezentat, iar analiza este mai ușoară. În analiza corespondenței, reprezentarea indivizilor și variabilelor nu se face în același spațiu.
Măsurarea calității reprezentării datelor poate fi efectuată utilizând calculul contribuției inerției fiecărei componente la inerția totală. În exemplul dat în cele două imagini opuse, prima componentă contribuie cu 45,89% la inerția totală, a doua la 21,2%.
Cu cât variabilele sunt mai apropiate de componente, cu atât mai mult sunt corelate cu ele. Analistul folosește această proprietate pentru interpretarea axelor. În exemplul din fig.11, cele două componente principale reprezintă activitatea principală și cea mai frecventă activitate secundară în care femeile (F) și Bărbații (M) s-au căsătorit (M) sau sunt singuri (C) în SUA (U) sau Europa de Vest (W) își împărtășesc ziua. În fig. 02 este ilustrat cercul de corelații în care variabilele sunt reprezentate în funcție de proiecția lor pe planul primelor două componente. Cu cât variabilele sunt mai bine reprezentate, cu atât sunt mai aproape de cerc. Cosinusul unghiului format din două variabile este egal cu coeficientul de corelație dintre aceste două variabile.
La fel, cu cât unghiul generat de individ și axa componentă este mai mic, cu atât individul este mai bine reprezentat. Dacă doi indivizi, bine reprezentați de o axă, sunt apropiați, ei sunt aproape în spațiul lor. Dacă doi indivizi sunt distanți în proiecție, sunt distanți în spațiul lor.
Scopul AFC - definit de Jean-Paul Benzécri și echipele sale - este de a găsi legături sau corespondențe între două variabile calitative (nominale). Această tehnică procesează tabelele de contingență ale acestor două variabile. De fapt, un AFC este un PCA pe aceste tabele derivat din tabelul inițial furnizat cu du metric . Principiul AFC este identic cu cel al PCA. Axele explicative care stau la baza tabelului de frecvențe ale a două variabile calitative sunt căutate și prezentate într-un grafic.
Există cel puțin două diferențe între PCA și CFA: prima este că putem reprezenta indivizi și variabile în același grafic, a doua se referă la similitudine. Două puncte de linie sunt apropiate în reprezentarea grafică, dacă profilurile coloanei sunt similare. De exemplu, în graficul din fig. 03, Parisul și Yvelines au votat într-un mod similar, ceea ce nu este evident atunci când ne uităm la tabelul de urgență inițial, deoarece numărul alegătorilor este destul de diferit în cele două departamente. La fel, două puncte de coloană (în exemplul din FIGURILE 03 și 04, punctele de coloană sunt candidații) sunt apropiate grafic dacă profilurile rândurilor sunt similare. În exemplu (fig. 04), departamentele au votat pentru Bayrou și Le Pen în același mod. Punctele rând și punctele coloană nu pot fi comparate într-un mod simplu.
În ceea ce privește interpretarea factorilor, Jean-Paul Benzécri este foarte clar:
„... a interpreta o axă înseamnă a găsi ceea ce este analog pe de o parte între tot ceea ce este scris în dreapta originii, pe de altă parte între tot ce se abate spre stânga; și exprimă, concis și precis, opoziția dintre cele două extreme ..... Adesea, interpretarea unui factor este rafinată de considerația celor care vin după el. "
- Jean-Paul Benzécri, Analiza datelor: 2 analize de corespondență
Calitatea reprezentării grafice poate fi evaluată global prin partea explicată de fiecare axă (măsurarea calității globale), prin inerția unui punct proiectat pe o axă împărțit la inerția totală a punctului (măsurarea calității pentru fiecare modalitate), contribuția unei axe la inerția totală sau raportul dintre inerția unui nor (profile_linii sau profile_coloane) proiectate pe o axă de inerția totală a aceluiași nor.
Analiza corespondenței multiple (MCA) este o extensie a AFC.
ACM propune analizarea variabilelor calitative ale observațiilor p (p ≥ 2) pe n indivizi. Deoarece este o analiză factorială, rezultă reprezentarea datelor într-un spațiu redus dimensional generat de factori. MCA este echivalentul PCA pentru variabilele calitative și este redus la AFC atunci când numărul variabilelor calitative este egal cu 2.
În mod formal, un ACM este un AFC aplicat tabelei disjunctive complete , sau altfel un AFC aplicat tabelei Burt , aceste două tabele fiind luate din tabelul inițial. Un tabel disjunctiv complet este un tabel în care variabilele sunt înlocuite cu modalitățile lor și elementele cu 1 dacă modalitatea este îndeplinită 0 altfel pentru fiecare individ. Un tabel Burt este tabelul de contingență al variabilelor p luate în perechi.
Interpretarea se face la nivelul modalităților ale căror proximități sunt examinate. Valorile proprii sunt folosite numai pentru a determina numărul de axe fie prin metoda cotului, fie luând doar valorile proprii mai mari decât . Contribuția inerției modalităților la cea a diferitelor axe este analizată ca în AFC.
Utilizarea variabilelor suplimentare, variabile care nu participă la constituirea axelor și nici la calcularea valorilor proprii, poate ajuta la interpretarea axelor.
Calitatea reprezentării unui individ pe o axă factorială este măsurată de unde este unghiul format de proiecția vectorului individual pe spațiul factorial cu axa factorială. Cu cât valoarea lui este mai aproape de 1, cu atât este mai bună calitatea.
Analiza canonică face posibilă compararea a două grupuri de variabile cantitative aplicate ambelor aceleași persoane. Scopul analizei canonice este de a compara aceste două grupuri de variabile pentru a vedea dacă descriu același fenomen, caz în care analistul se poate descurca fără unul dintre cele două grupuri de variabile.
Un exemplu grăitor este cel al analizelor medicale efectuate pe aceleași probe de către două laboratoare diferite. Analiza canonică generalizează metode la fel de diverse precum regresia liniară , analiza discriminantă și analiza corespondenței factoriale .
Mai formal, dacă și sunt două grupuri de variabile, analiza canonică caută perechi de vectori , combinații liniare ale variabilelor și , respectiv, cele mai corelate posibile. Aceste variabile se numesc variabile canonice. În spațiu sunt vectorii proprii ai proiecțiilor și respectiv pe subspațiul și , unde p și q reprezintă numărul de variabile ale celor două grupuri, generate de cele două seturi de variabile. măsoară corelația dintre cele două grupuri. Cu cât această măsură este mai mare, cu atât cele două grupuri de variabile sunt corelate și exprimă mai mult același fenomen asupra indivizilor.
În ilustrația din figura 08, corelațiile dintre variabilele din cele două grupuri sunt reprezentate de corelogramele superioare, corelația dintre cele două grupuri este explicată mai jos. Dacă culoarea dominantă a fost verde deschis nu s-ar fi detectat nicio corelație. În fig. 07, cele două grupuri de variabile sunt adunate în cercul corelațiilor legate de primele două variabile canonice.
În cele din urmă, analiza canonică generalizată în sensul lui Caroll (după JDCaroll) extinde analiza canonică obișnuită la studiul grupurilor de variabile p (p> 2) aplicate aceluiași spațiu al indivizilor. Admite ca cazuri speciale PCA, AFC și MCA, analiza canonică simplă, dar și regresia simplă și multiplă, analiza varianței , analiza covarianței și analiza discriminantă.
Pentru a utiliza această tehnică, tabelele nu trebuie să fie variabile caracteristice indivizilor, ci „distanțele” dintre indivizi. Analistul dorește să studieze asemănările și diferențele dintre acești indivizi.
Poziționarea multidimensională ( „ scalare multidimensională ” sau MDS) este, prin urmare, o metodă factorială aplicabilă matricelor de distanță între indivizi. Această metodă nu face parte din ceea ce se numește de obicei analiza datelor „în stil francez”. Dar are aceleași caracteristici ca și metodele anterioare: se bazează pe calculul matricial și nu necesită o ipoteză probabilistică. Datele pot fi măsurători ale p variabile cantitative pe n indivizi și, în acest caz, analistul calculează matricea distanțelor sau direct un tabel de distanțe între indivizi.
În așa-numitul caz metric clasic, măsura diferențelor utilizate este o distanță euclidiană. Face posibilă aproximarea diferențelor dintre indivizi în spațiul cu dimensiuni reduse. În cazul non-metric, datele sunt ordinale, de rang de tip. Analistul este mai interesat de ordinea diferențelor decât de întinderea lor. MDS nemetric utilizează un indice de diferențiere (echivalent cu o distanță, dar fără inegalitatea triunghiulară) și permite aproximarea ordinii intrărilor în matricea diferențelor prin ordinea distanțelor în spațiul de dimensiune redusă.
Ca și în PCA, este necesar să se determine numărul de dimensiuni ale spațiului țintă și calitatea reprezentării, se măsoară prin raportul dintre suma inerției subspaiului cu dimensiune redusă și inerția totală. De fapt, metrica MDS este echivalentă cu un PCA în care obiectele analizei MDS ar fi indivizii PCA. În exemplul opus, orașele ar fi indivizii PCA, iar poziționarea GPS ar înlocui distanțele dintre orașe. Dar analiza MDS extinde PCA, deoarece poate utiliza funcții de asemănare / diferență mai puțin restrictive decât distanțele.
Cu poziționarea multidimensională, vizualizarea matricilor de diferențieri, analiza parametrilor de referință și efectuarea vizuală a partiționării în date sau matricile de diferențieri sunt operații ușoare de efectuat.
Analiza factorilor multipli (AMF) este dedicată tabelelor în care un set de indivizi este descris de mai multe grupuri de variabile, indiferent dacă aceste variabile sunt cantitative, calitative sau mixte. Această metodă este mai puțin cunoscută decât cele anterioare, dar potențialul său foarte mare de aplicare justifică o mențiune specială.
Exemple de aplicareÎn toate aceste exemple, este util să se ia în considerare, în analiza însăși și nu numai în interpretare, structura variabilelor în grupuri. Aceasta este ceea ce face AFM care:
Aceste metode, dezvoltate mai recent, sunt mai puțin cunoscute decât cele precedente.
Clasificarea indivizilor este domeniul clasificării automate și al analizei discriminante. Clasificarea constă în definirea claselor, clasificarea este operația care permite plasarea unui obiect într-o clasă definită în prealabil. Clasificarea automată este cunoscută sub numele de minerit de date ( „ minerit de date ” ) clasificare nesupravegheată, analiza discriminantă este una dintre tehnicile statistice cunoscute sub numele de clustering de minerit de date.
Scopul clasificării automate este de a împărți toate datele studiate într-unul sau mai multe subseturi numite clase, fiecare subset trebuind să fie cât mai omogen. Membrii unei clase sunt mai mult ca alți membri ai aceleiași clase decât membrii unei alte clase. Pot fi identificate două tipuri de clasificare: pe de o parte clasificarea (partiționare sau suprapunere) „plat” și pe de altă parte partiționarea ierarhică. În ambele cazuri, clasificarea echivalează cu alegerea unei măsuri de similitudine / disimilaritate, un criteriu de omogenitate, un algoritm și, uneori, un număr de clase care alcătuiesc partiția.
Clasificare "plat"Asemănarea (similaritatea / diferențierea) indivizilor este măsurată printr-un indice de similaritate, un indice de diferențiere sau o distanță. De exemplu, pentru datele binare este frecventă utilizarea unor indici de similaritate, cum ar fi indicele Jaccard , indicele Dice, indicele de concordanță sau cel al lui Tanimoto . Pentru datele cantitative, distanța euclidiană este cea mai potrivită, dar distanța Mahalanobis este uneori adoptată. Datele sunt fie matrici de p variabile calitative sau cantitative măsurate pe n indivizi, fie direct date la distanță sau date de diferențiere.
Criteriul omogenității clasei este exprimat, în general, prin diagonala unei matrici varianță-covarianță (inerție) interclasă sau intraclasă. Acest criteriu face posibilă convergerea algoritmilor de realocare dinamică care minimizează inerția intraclasă sau care maximizează inerția interclasă.
Principalii algoritmi utilizează realocarea dinamică prin aplicarea metodei BW Forgy a centrelor mobile sau a uneia dintre variantele sale: metoda k-means , metoda cloud dinamic sau PAM ( " Partitioning Around Medoids (PAM) " ).
Metodele bazate pe metoda Condorcet , algoritmul de maximizare a așteptărilor , densitățile sunt, de asemenea, utilizate pentru a construi o clasificare.
Nu există o clasificare mai bună decât celelalte, mai ales atunci când numărul de clase din partiție nu este predeterminat. Prin urmare, este necesar să se măsoare calitatea clasificării și să se facă compromisuri. Calitatea clasificării poate fi măsurată utilizând indicele care reprezintă raportul dintre inerția dintre clase și inerția totală, calculat pentru mai multe valori ale numărului total de clase, compromisul fiind obținut prin metoda cotului.
Interpretarea claselor, făcând posibilă înțelegerea scorului, poate fi realizată prin analiza indivizilor care alcătuiesc fiecare clasă. Statisticianul poate număra indivizii din fiecare clasă, poate calcula diametrul claselor - adică distanța maximă dintre indivizii din fiecare clasă. El poate identifica indivizi apropiați de centrul de greutate, poate stabili separarea între două clase - operație constând în măsurarea distanței minime între doi membri ai acestor clase. De asemenea, poate analiza variabilele, de exemplu prin calcularea frecvenței anumitor valori ale variabilelor luate de indivizii fiecărei clase sau prin caracterizarea claselor de anumite valori ale variabilelor luate de indivizii fiecărei clase.
Clasificare ierarhicăDatele de intrare ale unei clasificări ierarhice ascendente (HAC) sunt prezentate sub forma unui tabel de diferențe sau a unui tabel de distanțe între indivizi.
Mai întâi a trebuit să alegem o distanță (Euclidean, Manhattan, Chebyshev sau altul) sau un indice de similaritate (Jacard, Sokal, Sorensen, coeficient de corelație liniară sau altul).
Clasificarea ascendentă propune clasificarea indivizilor folosind un algoritm iterativ. La fiecare pas, algoritmul produce o partiție prin agregarea a două clase ale partiției obținute în etapa anterioară.
Criteriul pentru alegerea celor două clase depinde de metoda de agregare. Cea mai utilizată este metoda lui Ward care constă în agregarea celor două clase care reduc cel mai puțin inerția interclasă. Există și alți indici de agregare, cum ar fi cel al saltului minim ( „ legătură simplă ” ) în care sunt agregate două partiții pentru care două elemente - primul aparținând primei clase, al doilea la al doilea - sunt cele mai apropiate în funcție de distanță. sau cea a diametrului ( „ legătură completă ” ) pentru care cele două clase care trebuie agregate sunt cele care au cea mai îndepărtată pereche de elemente.
Algoritmul ascendent se termină când rămâne doar o clasă.
Calitatea clasificării este măsurată prin raportul dintre inerția dintre clase și inerția totală.
Strategiile mixte, care combină o clasificare „plană” cu o clasificare ierarhică, oferă unele avantaje. Realizarea unui ACH pe clase omogene obținute printr-o clasificare prin realocare dinamică face posibilă prelucrarea unor tabele mari de câteva mii de indivizi, ceea ce nu este posibil doar de către un ACH. Efectuarea unui ACH după eșantionare și o analiză a factorilor face posibilă obținerea unor clase omogene în ceea ce privește eșantionarea.
Analiza factorilor discriminanți (DFA), care este partea descriptivă a analizei discriminante, este, de asemenea, cunoscută sub numele de analiză discriminantă liniară, analiză discriminantă Fisher și analiză discriminantă canonică. Această tehnică proiectează clase predefinite pe planuri factoriale care discriminează cât mai mult posibil. Tabelul de date descrie n indivizi pe care s-au măsurat p variabile cantitative și o variabilă calitativă cu q modalități. Variabila calitativă face posibilă definirea claselor q și a grupării indivizilor din aceste clase. AFD propune găsirea variabilelor q-1, numite variabile discriminante, ale căror axe separă cel mai mult proiecțiile claselor q care taie norul de puncte.
La fel ca în toate analizele factorilor descriptivi, nu se fac în prealabil ipoteze statistice; doar în partea predictivă a analizei discriminante se fac ipoteze a priori .
Măsurarea calității discriminarea se realizează cu ajutorul Wilks , care este egal cu raportul dintre determinant al matricei varianță-covariance intraclasa pe determinarea matricei totale varianță-covarianței. Un Wilks slab indică o discriminare puternică prin designuri factoriale. De exemplu, pentru datele Iris, este 0,0234 pentru primii doi factori. Mai mult, dacă prima valoare proprie este aproape de 1, AFD este de calitate.
Corelația dintre variabile și factori face posibilă interpretarea acestora.
Un AFD este un PCA efectuat pe baricentrele claselor de indivizi formați utilizând modalitățile variabilei calitative. Este, de asemenea, o analiză canonică între grupul de variabile cantitative și cea alcătuită din tabelul disjunctiv al variabilei calitative.
Pornind de la ceea ce scriu Henry Rouanet și coautorii săi, analiza descriptivă a datelor și analiza predictivă pot fi complementare și, uneori, produc rezultate similare.
Abordarea PLS este mai predictivă decât descriptivă, dar legăturile cu anumite analize pe care tocmai le-am văzut au fost clar stabilite.
Algoritmul Herman Wold , numit mai întâi NILES ( „ Estimare neliniară prin Iterative Least SquareS ” ), apoi NIPALS ( „ Nonlinear Estimation by Iterative Partial Least SquareS ” ) a fost conceput pentru analiza componentelor. Main .
În plus, PLS face posibilă găsirea analizei canonice cu două blocuri de variabile, analiza Tucker inter-baterie, analiza redundanței și analiza canonică generalizată în sensul lui Carroll. Practica arată că algoritmul PLS converge către primele valori proprii în cazul analizei inter-baterii a lui Tucker, a analizei canonice cu două blocuri de variabile și a analizei redundanței.
Regresia componentelor principale (PCR) folosind PCR pentru a reduce numărul de variabile prin înlocuirea acestora cu componentele principale care au avantajul de a nu fi corelate. PLS și PCR sunt adesea comparate între ele în literatura de specialitate.
Am menționat deja mai devreme în acest articol, analiza canonică este echivalentă cu regresia liniară atunci când unul dintre cele două grupuri se reduce la o singură variabilă.
Analiza modernă a datelor nu poate fi separată de utilizarea computerelor; pot fi citate multe programe software care permit utilizarea metodelor de analiză a datelor văzute în acest articol. SPSS , Statistica , HyperCube , SAS și CORICO oferă module complete de analiză a datelor; Software R și cu biblioteci precum FactoMineR, Ade4 sau MASS; Braincube, soluție de analiză big data pentru industrie.