Kernel polinomial

În învățarea automată , nucleul polinomial este o funcție de nucleu utilizată în mod obișnuit cu mașinile de suport vector (SVM) și alte modele de nucleu . Reprezintă similaritatea vectorilor (eșantioane de antrenament) într-un spațiu de grad polinomial mai mare decât cel al variabilelor originale, ceea ce permite antrenarea modelelor neliniare.

Intuitiv, nucleul polinomial ia în considerare nu numai proprietățile eșantioanelor de intrare pentru a determina similitudinea lor, ci și combinațiile acestora. În contextul analizei de regresie , astfel de combinații sunt cunoscute ca trăsături de interacțiune. Spațiul caracteristic (implicit) al unui nucleu polinomial este echivalent cu cel al regresiei polinomiale , dar fără explozia combinatorie a numărului de parametri care trebuie învățați. Când caracteristicile de intrare sunt valori binare (booleene), atunci caracteristicile corespund conjuncției logice a caracteristicilor de intrare.

Definiție

Pentru un polinom de grad $d$ , nucleul polinomial este definit ca:

{\ displaystyle K (x, y) = (x ^ {\ mathsf {T}} y + c) ^ {d}}

unde $x$ și $y$ sunt vectori în spațiul de intrare , adică vectori de caracteristici calculate din eșantioane de testare sau de testare, și $c \geq 0$ este un parametru liber care echilibrează influența termenilor de ordin superior față de termenii de ordin inferior din polinom. Când $c = 0$ , nucleul este numit omogen. (Un nucleu polinomial mai generalizat împarte $x T y$ de un parametru scalar $este$ specificat de utilizator.)

Ca nucleu, $K$ corespunde unui produs punct într-un spațiu caracteristic bazat pe o anumită hartă $Φ$ :

{\ displaystyle K (x, y) = \ langle \ phi (x), \ phi (y) \ rangle}

Natura $Φ$ poate fi văzută dintr-un exemplu. Fie $d = 2$ , obținem astfel cazul particular al nucleului pătratic. După utilizarea teoremei multinomiale a lui Newton (de două ori aplicația externă este teorema binomială a lui Newton ) și grupare,

{\ displaystyle K (x, y) = \ left (\ sum _ {i = 1} ^ {n} x_ {i} y_ {i} + c \ right) ^ {2} = \ sum _ {i = 1 } ^ {n} \ left (x_ {i} ^ {2} \ right) \ left (y_ {i} ^ {2} \ right) + \ sum _ {i = 2} ^ {n} \ sum _ { j = 1} ^ {i-1} \ left ({\ sqrt {2}} x_ {i} x_ {j} \ right) \ left ({\ sqrt {2}} y_ {i} y_ {j} \ dreapta) + \ sum _ {i = 1} ^ {n} \ left ({\ sqrt {2c}} x_ {i} \ right) \ left ({\ sqrt {2c}} y_ {i} \ right) + c ^ {2}}

rezultă că funcționalitatea aplicației este dată de:

{\ displaystyle \ varphi (x) = \ langle x_ {n} ^ {2}, \ ldots, x_ {1} ^ {2}, {\ sqrt {2}} x_ {n} x_ {n-1}, \ ldots, {\ sqrt {2}} x_ {n} x_ {1}, {\ sqrt {2}} x_ {n-1} x_ {n-2}, \ ldots, {\ sqrt {2}} x_ {n-1} x_ {1}, \ ldots, {\ sqrt {2}} x_ {2} x_ {1}, {\ sqrt {2c}} x_ {n}, \ ldots, {\ sqrt {2c} } x_ {1}, c \ rangle}

Uz practic

Deși nucleul RBF este mai popular în clasificarea SVM decât nucleul polinomial, acesta din urmă este foarte popular în procesarea limbajului natural (NLP). Cel mai frecvent grad este $d = 2$ (pătratic), deoarece gradele mari tind să învețe prea mult despre problemele NLP.

Diferite moduri de calculare a nucleului polinomial (atât exact cât și aproximativ) au fost concepute ca alternative la utilizarea algoritmilor de formare neliniară SVM, inclusiv:

extinderea completă a nucleului înainte de învățare / testare cu un SVM liniar, adică calculul complet al hărții $Φ$ ca în regresia polinomială;
Regula de asociere (folosind o variantă a algoritmului a priori ) pentru cele mai frecvente conjuncții de funcționalitate într-un set de instruire pentru a produce o estimare aproximativă a expansiunii;
Indice invers al vectorilor suport.

O problemă cu nucleul polinomial este că poate suferi de instabilitate numerică : când $x T y + c <1, K ( x , y ) = ( x T y + c ) d se apropie de$ zero cu creșterea $d$ , în timp ce când $x T y + c > 1, K ( x , y )$ tinde spre infinit.

Referințe

Yoav Goldberg și Michael Elhadad (2008). splitSVM: Rapid, eficient în spațiu, non-euristic, calcul de nucleu polinomial pentru aplicații NLP. Proc. ACL-08: HLT.
http://www.cs.tufts.edu/~roni/Teaching/CLT/LN/lecture18.pdf
(în) Autor necunoscut " Introducere în învățarea automată: note de clasă 67577 "2009.
(în) Chih-Jen Lin (2012). „ Software de învățare automată: proiectare și utilizare practică ” în Școala de vară Machine Learning .
(ro) Yin-Wen Chang , Cho-Jui Hsieh , Kai-Wei Chang , Michael Ringgaard și Chih-Jen Lin , „ Instruirea și testarea mapărilor de date polinomiale de grad scăzut prin SVM liniar ” , Journal of Machine Learning Research , vol. 11,2010, p. 1471–1490 ( citește online )
(en) T. Kudo și Y. Matsumoto (2003) „Metode rapide pentru analiza textului bazat pe kernel” în Proc. ACL .