Maxim regularizat

În matematică , un maxim regularizării ( neted maxim ) al unei familii indexată $x 1 , ..., x n$ de numere este o aproximare buna a maximă funcției $max ( x 1 , ..., x n )$ , adică o familie parametrizată de funcții $m α ( x 1 , ..., x n )$ astfel încât funcția $m α$ este regulată pentru orice valoare reală a lui $α$ și tinde spre funcția maximă pentru $α \to \infty$ . Conceptul de minim reglementat poate fi definit într-un mod similar. În mai multe cazuri, o familie poate fi utilizată pentru a aproxima cele două funcții, maximul pentru valori pozitive foarte mari, minimul spre infinit negativ:

{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ to - \ infty.}

Termenul poate fi folosit pentru orice funcție de regularizare care se comportă similar cu funcția maximă, fără a fi parametrizată.

Exemple

Pentru valori mari ale parametrului $α > 0$ , funcția $S α$ definită mai jos, uneori numită „ $α$ -softmax”, este o aproximare lină și diferențiată a funcției maxime. Pentru valorile negative ale parametrului mare în valoare absolută, acesta se apropie de minim. Funcția $α$ -softmax este definită de:

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}

$S α$ are următoarele proprietăți:

${\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}$
$S 0$ returnează media aritmetică
${\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}$

Gradientul lui $S α$ este legat de funcția softmax și este egal cu

{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}

Acest lucru face ca funcția softmax să fie interesantă pentru tehnicile de optimizare folosind coborârea în gradient .

Standarde Hölder

O formă de maxim regularizat se poate baza pe o medie generalizată . De exemplu, pentru valori pozitive $x 1 , ..., x n$ , putem folosi o medie de ordine $α > 1$ , adică

{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}

LogSumExp

Un alt maxim regularizat este cunoscut sub numele „LogSumExp”:

{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}

Funcția poate fi normalizată dacă $x i$ sunt toate pozitive, ducând la o funcție definită la $[0, + \infty [ n$ la $[0, + \infty [$ :

{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}

Termenul $( n - 1)$ este un coeficient de corecție pentru a lua în considerare faptul că $exp (0) = 1$ , asigurând astfel că avem $g (0, ..., 0) = 0$ dacă toți $x i$ sunt zero.

Funcția LogSumExp poate fi setată pentru a evita netezirea artefactelor. Numim acest formular „ $α$ -quasimax”, definit prin:

{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { nu}))}

Utilizare în metode numerice

Maximele netede sunt de interes în căutările extrema pe seturi de date discrete sau algoritmi de optimizare a coborârii în gradient.

Vezi și tu

Referințe

(fr) Acest articol este preluat parțial sau în totalitate din articolul Wikipedia din limba engleză intitulat „ Smooth maximum ” ( vezi lista autorilor ) .

(en) M. Lange, D. Zühlke, O. Holz și T. Villmann, „ Aplicații ale l p -norms și a lor aproximări ușoare pentru cuantificarea vectorului de învățare bazat pe gradient ” , Proc. ESANN ,2014, p. 271-276 ( citiți online )
(in) Gabor Takacs " maxim Smooth algoritmi bazați pentru clasificare, regresie și filtrare de colaborare " , Acta Technica Jaurinensis , vol. 3, n o 1,2010, p. 27-63