Poziționare multidimensională

Scalarea multidimensională este un set de tehnici de statistici utilizate în domeniul vizualizării informațiilor pentru a explora similitudinile în datele. Poziționarea multivariată este un caz special al analizei multivariate . De obicei, un algoritm de poziționare multidimensional începe de la o matrice de similaritate între toate punctele pentru a atribui fiecărui punct o poziție într-un spațiu dimensional. Pentru = 2 sau = 3, pozițiile pot fi vizualizate pe un plan sau într-un volum printr-un nor de puncte . $m$ $m$ $m$

Cadrul general

Date puncte dintr-un spațiu dimensional , poziționarea multidimensională constă în reprezentarea acestor puncte într-un spațiu dimensional prin puncte noi , păstrând în același timp proximitățile. Pentru aceasta, ne oferim o matrice de distanță care poate fi definită de distanța euclidiană . Dacă plecăm de la valori de similitudine, trebuie să le transformăm în valori ale distanței matematice adevărate, deoarece trebuie să avem în vedere că distanța și similitudinea sunt noțiuni opuse: cu cât distanța este mai mică, cu atât este mai mare asemănarea și invers .. Prezentată în această lumină, poziționarea multidimensională este o tehnică de reducere a dimensiunii , precum analiza componentelor principale . $NU$ ${\ displaystyle x_ {1}, x_ {2}, \ cdots, x_ {N}}$ $p$ ${\ displaystyle m <p}$ $NU$ ${\ displaystyle y_ {1}, y_ {2}, \ cdots, y_ {N}}$ $D$ ${\ displaystyle d_ {ij} = || x_ {i} -x_ {j} || _ {2}}$

În practică, poziționarea multidimensională constă în găsirea unor vectori de dimensiuni care să minimizeze o funcție de cost numită stres . $NU$ ${\ displaystyle y_ {1}, y_ {2}, \ cdots, y_ {N}}$ $m$ ${\ displaystyle S (y_ {1}, y_ {2}, \ cdots, y_ {N})}$

Poziționare multidimensională metrică

O poziționare multidimensională metrică se referă la o funcție de cost definită de distanța euclidiană sau de produsul punct între puncte . $y_i$

O funcție naturală de cost pentru poziționarea multidimensională este

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ sum _ {i \ neq j} {\ bigl (} d_ {ij} - || y_ {i} -y_ {j} || {\ bigr)} ^ {2}}

dar această formulare nu are în general o soluție explicită.

Pozitionare clasica multidimensionala

Pentru poziționarea clasică multidimensională, funcția de cost este înlocuită cu

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ sum _ {i \ neq j} (b_ {ij} - \ langle y_ {i}, y_ {j } \ rangle) ^ {2}}

Termenul este definit de cu . În general, matricea , matricea de similaritate, poate fi obținută dintr-o matrice de distanță prin dublă centrare: $b _ {{ij}}$ ${\ displaystyle b_ {ij} = <x_ {i} - {\ overline {x}}, x_ {j} - {\ overline {x}}>}$ ${\ displaystyle {\ overline {x}} = {\ frac {1} {N}} \ sum _ {i = 1 \ cdots N} x_ {i}}$ $B$ $D$

{\ displaystyle B = (I - {\ frac {1} {N}} J) D ^ {2} (I - {\ frac {1} {N}} J)}

unde este o matrice de dimensiuni care conține doar una. $J$ $N \ ori N$

Această formulare are avantajul de a avea o soluție explicită prin descompunerea în elemente curate . Fie cele mai mari valori proprii și vectorii proprii corespunzători. Apoi, o soluție pentru poziționarea multidimensională este de a lua ca vectori coloanele matricei , unde este matricea vectorului propriu transpus și este matricea diagonală a valorii proprii. $B$ ${\ textstyle \ lambda _ {1}, \ lambda _ {2}, ..., \ lambda _ {m}}$ ${\ textstyle m}$ ${\ textstyle e_ {1}, e_ {2}, ..., e_ {m}}$ ${\ displaystyle y_ {1}, \ cdots, y_ {N}}$ ${\ textstyle Y = \ Lambda _ {m} ^ {1/2} {E_ {m}} ^ {T}}$ ${\ textstyle {E_ {m}} ^ {T}}$ ${\ textstyle \ Lambda _ {m}}$

Poziționare multidimensională nemetrică

Poziționarea multidimensională nemetrică se referă la metodele care favorizează ordinea proximităților în locul conservării distanțelor. Funcția de cost care trebuie minimizată este

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ sum _ {i \ neq j} {\ bigl (} d_ {ij} -f (|| y_ { i} -y_ {j} ||) {\ bigr)} ^ {2}}

Funcția este permisă să se adapteze în timpul optimizării. Pentru a face acest lucru, putem calcula o regresie monotonă a punctelor . $f$ ${\ displaystyle (|| y_ {i} -y_ {j} ||, d_ {ij})}$

Vezi și tu

Note și referințe

(ro) TF Cox și MAA Cox , scalare multidimensională , Chapman și Hall ,2001
(ro) Trevor Hastie , Robert Tibshirani și Jerome Friedman , Elementele învățării statistice , Springer,2009, A 2 -a ed. , secțiunea 14.8, p. 570

Alain Baccini și Philippe Besse, Explorare statistică, capitolul 7