Gruparea ierarhică

În domeniul IT și mai precis în domeniul analizei și al clasificării automate a datelor , noțiunea de grupare ierarhică acoperă diferite metode de grupare și este clasificată în două familii principale: metode „de jos în sus” și „descendenți”.

Clasificare ierarhică descendentă

Așa-numitele metode „de sus în jos” pornesc de la o soluție generală la una mai specifică. Metodele din această categorie încep cu un singur cluster care le conține pe toate și sunt apoi împărțite în fiecare etapă conform unui criteriu până când se obține un set de clustere diferite.

Clasificare ierarhică ascendentă (CAH)

Spre deosebire de așa-numitele metode „de sus în jos”, clasificarea ierarhică ascendentă se numește „de jos în sus” deoarece începe de la o situație în care toți indivizii sunt singuri într-o clasă, apoi sunt adunați în clase din ce în ce mai mari. Calificatorul ierarhic provine din faptul că produce o ierarhie H , setul de clase la toate etapele algoritmului, care verifică următoarele proprietăți:

$\ Omega \ în H$ : în partea de sus a ierarhiei, când ne grupăm astfel încât să obținem o singură clasă, toți indivizii sunt grupați;
$\ forall \ omega \ in \ Omega, \ {\ omega \} \ în H$ : în partea de jos a ierarhiei, toți indivizii sunt singuri;
$\ forall (h, h ') \ in H ^ 2, h \ cap h' = \ emptyset$ sau sau : dacă luăm în considerare două clase ale grupării, atunci fie ele nu au niciun individ în comun, fie una este inclusă în cealaltă. $h \ subset h '$ $h '\ subset h$

Este o metodă de clasificare automată utilizată în analiza datelor ; dintr-un set de n indivizi, scopul său este de a distribui acești indivizi într-un anumit număr de clase. $\Omega$

Metoda presupune că avem o măsură de diferență între indivizi; în cazul punctelor situate într-un spațiu euclidian , putem folosi distanța ca măsură a diferenței. Se va remarca diferența dintre indivizii x și y . $disim (x, y)$

Algoritm

Principiu

Inițial, fiecare individ formează o clasă, adică n clase. Încercăm să reducem numărul de clase la , acest lucru se face iterativ. La fiecare pas, două clase sunt combinate, reducând astfel numărul de clase. Cele două clase alese pentru a fi combinate sunt cele care sunt cele mai apropiate, cu alte cuvinte, cele a căror diferență între ele este minimă, această valoare de diferențiere se numește indicele de agregare . Pe măsură ce sunt adunați mai întâi cei mai apropiați indivizi, prima iterație are un indice de agregare scăzut, dar va crește de la iterație la iterație. $nb_ {clase} <n$

Măsurarea diferențierii între clase

Disimilaritatea a două clase conținând fiecare un individ este definită pur și simplu de diferența dintre indivizii săi. $C_1 = \ {x \}, C_2 = \ {y \}$ $disim (C_1, C_2) = disim (x, y)$

Când clasele au mai mulți indivizi, există mai multe criterii care fac posibilă calcularea diferenței. Cele mai simple sunt următoarele:

Saltul minimă păstrează distanțele minime între indivizi și : ; $C_1$ $C_2$ $dissim (C_1, C_2) = \ min_ {x \ în C_1, y \ în C_2} (dissim (x, y))$
Maximă Saltul este disimilaritatea între indivizi și cel mai îndepărtat: ; $C_1$ $C_2$ $dissim (C_1, C_2) = \ max_ {x \ în C_1, y \ în C_2} (dissim (x, y))$
Link - ul mediu este de a calcula distanța medie dintre indivizi și : ; $C_1$ $C_2$ $dissim (C_1, C_2) = average_ {x \ in C_1, y \ in C_2} (dissim (x, y))$
Distanța Ward urmărește să maximizeze inerția dintre clase: cu și numerele celor două clase și centrele lor de greutate respective. $dissim (C_1, C_2) = \ frac {n_1 * n_2} {n_1 + n_2} dissim (G_1, G_2)$ $n_1$ $n_2$ $G_1$ $G_2$

Implementarea pseudo-codului

Intrări:

indivizi: lista indivizilor
nbClasses: numărul de clase pe care dorim să le obținem în cele din urmă

Ieșire :

clase: lista claselor inițial goale, o clasă este văzută ca o listă de indivizi

Pour i=1 à individus.longueur Faire classes.ajouter(nouvelle classe(individu[i])); Fin Pour Tant Que classes.longueur > nbClasses Faire // Calcul des dissimilarités entre classes dans une matrice triangulaire supérieure matDissim = nouvelle matrice(classes.longueur,classes.longueur); Pour i=1 à classes.longueur Faire Pour j=i+1 à classes.longueur Faire matDissim[i][j] = dissim(classes[i],classes[j]); Fin Pour Fin Pour // Recherche du minimum des dissimilarités Soit (i,j) tel que matDissim[i][j] = min(matDissim[k][l]) avec 1<=k<=classes.longueur et k+1<=l<=classes.longueur; // Fusion de classes[i] et classes[j] Pour tout element dans classes[j] Faire classes[i].ajouter(element); Fin pour supprimer(classes[j]); Fin Tant Que

Dendrogramă

O dendrogramă este reprezentarea grafică a unei clasificări ierarhice ascendente; Este adesea prezentat ca un copac binar ale cărui frunze sunt indivizii aliniați pe axa x. Când două clase sau doi indivizi se întâlnesc cu indicele de agregare , linii verticale sunt trasate din abscisa celor două clase la ordonată , apoi sunt conectate printr-un segment orizontal. Dintr-un indice de agregare , putem trage o linie de ordonate care arată o clasificare pe dendrogramă. Versiunile mai complexe ale arborelui de clasificare pot ajuta la construirea unui arboresc de decizie . $\ tau$ $\ tau$ $\ tau$ $\ tau$

Vezi și tu

Articole similare

linkuri externe

O expediție vizuală în cadrul sistemelor de fișiere Linux : studiu al similitudinilor dintre sistemele de fișiere implementate în Linux și exemplu de clasificare ierarhică ascendentă

Bibliografie

Teza „Contextualizare, vizualizare și evaluare în învățarea nesupravegheată” de Laurent Candillier (Universitatea din Lille 3), 2006/09/15, PDF, 250 de pagini.

Note și referințe

(în) Gabor Székely J. și Maria L. Rizzo, „ Hierarchical clustering via Joint Between-Within Distances: Extending's Minimum Variance Method. ” , Jurnalul de clasificare , vol. 22, n o 2Septembrie 2005, p. 151-183 ( DOI 10.1007 / s00357-005-0012-9 )