Valori de învățare

Metrice , de asemenea , numit distanta sau similaritatea, măsoară gradul de înrudire a două elemente ale aceluiași set . Este utilizat în domeniul învățării în aplicații de clasificare sau regresie . Calitatea acestor valori este esențială pentru aceste aplicații, de unde și existența metodelor de învățare la distanță. Aceste metode sunt împărțite în mai multe categorii: supravegheate sau nesupravegheate în funcție de datele puse la dispoziție. Există, de asemenea, o abordare care utilizează mașini de suport vector. (SVM) sau o metodă care utilizează o funcție de nucleu.

Învățarea supravegheată a valorilor

Învățarea supravegheată se bazează pe principiul că algoritmul are acces la datele de instruire cu eticheta lor și trebuie să învețe un model care să prezică eticheta datelor viitoare (prin urmare, eticheta este necunoscută). Acesta cuprinde clasificarea, în care setul de etichete este finit (de exemplu, culori, sex etc.) și regresia, care utilizează etichete continue (de exemplu, temperatură, viteză etc.). Mulți algoritmi supravegheați în învățarea automată se bazează pe noțiunea de metrică (similaritate) între 2 instanțe, cum ar fi, de exemplu, KNN și SVM. Cu toate acestea, performanța acestor algoritmi depinde de metrica utilizată în funcție de problemă. În mod ideal, date similare sunt cele care împărtășesc aceeași etichetă și invers, cu toate acestea, valorile standard nu sunt adecvate și nu reușesc să surprindă pe deplin natura problemei.

Învățare globală

Ideea generală este de a învăța valori pentru a ține împreună datele aceleiași clase și pentru a separa datele diferite. Prin urmare, scopul este de a minimiza constrângerea pereche.

Spre deosebire de învățarea supravegheată clasică, care adnotează fiecare instanță cu o etichetă de clasă, o setare de date este dată de o pereche. Este împărțit în două seturi, constrângerea de echivalență, care grupează perechile de date semantic similare, care trebuie să fie apropiate de metrica învățată, și, constrângerea de inechivalență, care grupează perechile de date semantice diferite care trebuie să fie îndepărtate. alte.

Apoi, se folosește un model de regresie logistică pentru a estima probabilitatea ca două puncte să fie în aceeași clasă.

Învățarea locală

În cazuri specifice, determinarea probabilității a posteriori de apartenență la o clasă nu este eficientă: atunci când analizăm date apropiate de granița dintre două clase și, atunci când dimensionalitatea este prea mare.

De aceea, este necesar să se stabilească modificări locale ale vecinătății unde probabilitățile a posteriori sunt constante și aceasta prin tehnici de metrică adaptate local.

În cazul datelor rare (cauzate de dimensionalitatea ridicată), analizăm relevanța parametrilor, prin urmare este necesar să se mărească distanța pe dimensiunea parametrilor irelevanți și să se reducă cea a celor mai relevanți, deci dimensiunile cu puțină relevanță va fi eliminată.

Pentru datele apropiate de granița dintre două clase, este necesar să creșteți rezoluția spațială în jurul suprafeței de decizie și să reduceți rezoluția peste tot.

Funcția de relevanță locală face posibilă exploatarea diferenței de relevanță a măsurilor unui element de date pentru atribuirea clasei sale.

Pentru a ne asigura că probabilitatea a posteriori în vecinătate este într-adevăr omogenă, efectuăm o analiză discriminantă liniară

Analiză discriminantă liniară locală (LDA)

Metrica distanței estimate îngustează vecinătatea în direcția perpendiculară pe această graniță locală și o alungă paralel cu aceasta.

Analiza de relevanță adaptată local estimează relevanța unei dimensiuni i prin capacitatea sa de a prezice clasa de probabilitate a posteriori local pentru un punct de test dat.

Învățarea metrică locală adaptivă la distanță se poate face și folosind kernel sau SVM.

Analiza componentelor vecine ( NCA )

Ideea este de a învăța o măsură metrică găsind o transformare liniară a datelor transmise ca intrare, astfel încât performanța medie să maximizeze clasificarea de tipul „out-out-out” (LOO).

Această analiză are trei handicapuri: gestionează prost dimensiunile mari, nu garantează convergența către maximul local și are tendința de a supra-învăța atunci când datele sunt insuficiente.

Analiza componentelor relevante (RCA)

Scopul său este de a găsi o transformare care să amplifice variabilele relevante și să le elimine pe cele irelevante. Se bazează pe faptul că covarianțele fiecărei clase sunt egale.

Este un algoritm simplu, dar eficient pentru a învăța o măsură precisă Mahalanobis, este algoritmul optim de reducere a dimensionalității.

La fel ca nucleul PCA, RCA poate fi kernalizat prin manipularea matricei.

Învățarea nesupravegheată a valorilor

Principiu

Spre deosebire de învățarea supravegheată a valorilor, învățarea nesupravegheată a valorilor caracterizează distribuția datelor și relațiile dintre atribute fără discriminare între atributele observate și atributele care urmează să fie prezise. Acesta constă în extragerea valorii din date în care nu apare atributul de predit.

Principalele sarcini ale învățării nesupravegheate a valorilor sunt:

Partiționarea datelor

Constă în gruparea datelor în clase, astfel încât elementele din aceeași clasă să fie similare. Și pentru a face acest lucru, trebuie să definim o măsură de similaritate între elementele datelor: distanța .

De obicei, datele sunt reprezentate ca vectori de numere. Prin urmare, un punct de date este reprezentat sub forma unui vector. Având în vedere doi vectori x 1  și x 2 , trebuie să definim distanța dintre aceste două elemente d (x 1 , x 2 ).

Reducerea dimensiunii

Ideea este de a reduce numărul de atribute care descriu datele. Aceasta are ca rezultat o reprezentare redusă a datelor, ceea ce reprezintă un pas important în vizualizarea datelor. Fiecare abordare de reducere a dimensiunii învață în esență o metrică la distanță fără informații despre etichetă.

Principalii algoritmi pentru învățarea nesupravegheată a valorilor

Metode liniare

Aceste metode dau rezultate interesante numai dacă datele sunt situate în spațiu liniar. Ele se bazează în general pe utilizarea unei distanțe euclidiene .

Analiza componentelor principale (PCA)

Din toate atributele de bază, dorim să determinăm o serie de atribute noi care păstrează distanța dintre elemente. Aceste atribute sunt exprimate ca combinații liniare ale atributelor de bază. Noile atribute ale componentei principale sunt apoi numite.

  • Componentele principale sunt calculate incremental.
  • Cu cât păstrăm mai multe componente, cu atât reprezentarea datelor este mai completă.
Scalare multidimensională (MDS)

Se folosește atunci când cunoaștem distanțele dintre elemente și când căutăm să obținem o reprezentare dimensională redusă a acestor elemente. Exemplul clasic este obținerea hărții unei țări pornind de la cunoașterea distanțelor dintre fiecare pereche de orașe.

Acest algoritm face posibilă construirea punctelor de la distanțele dintre elemente, prin urmare observăm distanțe. Este întotdeauna posibil să se genereze o poziționare a m puncte în m dimensiuni care să respecte distanțele furnizate.

Metode neliniare

Distanța euclidiană presupune că toate variabilele sunt comparabile între ele. Teorema lui Hilbert ne permite să definim alte produse scalare pe baza funcțiilor kernelului K (x, y). K este o măsură de similitudine între punctele setului care urmează a fi procesat. Dacă înlocuim produsul scalar obișnuit cu un nucleu K, vom face metoda neliniară.

ISOMAP

Este o tehnică de reducere a dimensiunii care se bazează pe cunoașterea unei matrici de diferențiere între puncte. Scopul este de a găsi un colector neliniar care să conțină datele.

Pentru punctele apropiate, distanța euclidiană este o bună aproximare a distanței geodezice pe colector. Construim un grafic care leagă fiecare punct de k vecinii săi cei mai apropiați și căutăm lungimea celei mai scurte căi între două puncte ale graficului.

Incorporare liniară locală (LLE)

Este o tehnică de reducere bazată pe descoperirea unui distribuitor neliniar bazat pe aproximarea într-un spațiu dimensional redus a relațiilor geometrice locale din fiecare regiune delimitată de cei mai apropiați k vecini.

În această tehnică, fiecare punct se caracterizează prin reconstrucția sa de la vecinii săi cei mai apropiați.

Suport pentru învățarea bazată pe mașina vectorială (SVM)

Pentru ca o metrică să fie considerată optimă într-un sistem de clasificare, trebuie să ofere o mare consistență a vecinătății, dar și o mare distanță între limitele diferitelor clase. Pentru a face acest lucru, se propune să utilizați mașini vector media care sunt separatoare cu margini mari.

Principiu general

Principiul unei mașini de suport vector este de a găsi un separator care să clasifice datele. Acest separator este optimizat pentru a avea cele mai mari marje posibile între clase și acest separator. În plus, dacă datele nu sunt separabile liniar, SVM-urile vă permit să adăugați dimensiuni la problemă. Dimensiuni care vor aduce posibilitatea separării claselor printr-un hiperplan.

Două mari avantaje ale utilizării unui SVM sunt reprezentarea redusă a datelor, precum și minimizarea limitei superioare a erorii empirice.

Utilizarea SVM permite noi modalități de învățare a valorilor.

Cea mai apropiată învățare în bandă largă bazată pe metrice

În general, metodele de instruire a metricilor clasifică datele care sunt apropiate unele de altele și le vor diferenția de cele care sunt departe de ele. Din păcate, nu cunoaștem distribuția datelor și nimic nu ne permite să afirmăm că două clase sunt neapărat îndepărtate una de alta.

Funcție de minimizat

Pentru a calcula distanța dintre elemente, trebuie să minimizăm o funcție de pierdere care este construită ținând cont de obiectivele care trebuie atinse.

Mai întâi, pentru fiecare exemplu, vom calcula vecinii săi cei mai apropiați folosind metoda KNN de bază.

Funcția noastră de costuri va penaliza distanțele mari între vecini, precum și vecinii apropiați care nu împart aceeași clasă.

Datorită acestui fapt, obținem o funcție apropiată de funcția unui SVM: aceștia împărtășesc faptul că aduc o marjă de unitate între clase și iau în considerare în principal doar exemple apropiate de această graniță.

Problemă semi-definită

Minimizarea acestei funcții poate fi reformulată ca SDP. În acest scop, clasificarea liniară realizată prin intermediul KNN este înlocuită cu o distanță Mahalanobis . Introducerea unei variabile de primăvară  (în) pe exemplele prost clasificate face, de asemenea, posibilă relaxarea constrângerilor asupra vectorilor de învățare și găsirea unui hiperplan care să penalizeze aceste variabile de primăvară.

Maximizarea marjei de bază

Marja este un criteriu utilizat pentru a defini separarea datelor. Există mai multe tipuri diferite de margini.

Marginea moale sau rigidă

Conceptul de rigiditate a unei marje corespunde tendinței sale de a accepta erori. În cadrul unei marje rigide, învățarea va avea un rezultat optim într-un set de instruire, dar acest lucru poate corespunde supraînvățării. În plus, o marjă rigidă necesită date separabile liniar pentru a exista o soluție. Dimpotrivă, o marjă flexibilă permite acceptarea erorilor și prezicerea aplicării învățării în seturi de date reale și generalizarea modelului, datele nu trebuie să fie separabile liniar.

SDP

Se poate formula un SDP care face posibilă maximizarea acestei marje de bază ținând cont de rigiditatea sa.

linkuri externe

  • [Yang] Învățarea metrică la distanță: un sondaj cuprinzător
  • RCA

Referințe

  1. (în) Aurélien Bellet, Amaury Habrard și Marc Sebban, Metric Learning , Morgan & Claypool Publisher,2015, 151  pag. ( citește online )
  2. Aurélien Bellet, Învățarea metrică supravegheată cu garanții de generalizare ,2012, 182  p. ( citește online ) , cap.  1
  3. (în) Trevor Hastie și Rolbert Tibshirani, „  Discriminating Adaptive Near Neighbor Classification  ” , jurnal științific ,1996( citește online )
  4. (în) I-Jing Li și Jiunn-Lin Wu, „  Un nou algoritm de clasificare a celui mai apropiat vecin pe baza centrelor locale de probabilitate  ” , articolul de cercetare ,2014( citește online )
  5. Sergio Bermejo și Joan Cabestany , „  Clasificatoare de vecini mai mari cu marjă mare  ”, Proceeding , Springer-Verlag, iWANN '01,1 st ianuarie 2001, p.  669–676 ( ISBN  3-540-42235-8 , citit online , accesat la 7 decembrie 2015 )
  6. (în) Kilian Q. Weinberger „  Învățarea metrică la distanță pentru clasificarea vecinilor cu marja mare  ” , Journal of Machine Learning Research , n o  10,2009( citește online )