Maxim regularizat
În matematică , un maxim regularizării ( neted maxim ) al unei familii indexată x 1 , ..., x n de numere este o aproximare buna a maximă funcției max ( x 1 , ..., x n ) , adică o familie parametrizată de funcții m α ( x 1 , ..., x n ) astfel încât funcția m α este regulată pentru orice valoare reală a lui α și tinde spre funcția maximă pentru α → ∞ . Conceptul de minim reglementat poate fi definit într-un mod similar. În mai multe cazuri, o familie poate fi utilizată pentru a aproxima cele două funcții, maximul pentru valori pozitive foarte mari, minimul spre infinit negativ:
mα→max pentru α→∞, mα→min pentru α→-∞.{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ to - \ infty.}![{\ displaystyle m _ {\ alpha} \ to \ max \ {\ textrm {for}} \ \ alpha \ to \ infty, \ m _ {\ alpha} \ to \ min \ {\ textrm {for}} \ \ alfa \ to - \ infty.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e654a2c05fd20588b6658e8240d3b1123fc88c3)
Termenul poate fi folosit pentru orice funcție de regularizare care se comportă similar cu funcția maximă, fără a fi parametrizată.
Exemple
Pentru valori mari ale parametrului α > 0 , funcția S α definită mai jos, uneori numită „ α -softmax”, este o aproximare lină și diferențiată a funcției maxime. Pentru valorile negative ale parametrului mare în valoare absolută, acesta se apropie de minim. Funcția α -softmax este definită de:
Sα(X1,...,Xnu)=∑eu=1nuXeueαXeu∑eu=1nueαXeu{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} \ mathrm {e} ^ {\ alpha x_ {i}}} {\ sum _ {i = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {i}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7a7414e010643db4882ff5a413e2e024e5380d49)
S α are următoarele proprietăți:
- Sα⟶α→+∞max{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}
![{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to + \ infty} {\ longrightarrow}} \ max}](https://wikimedia.org/api/rest_v1/media/math/render/svg/dbacaaf52ef6c11e970a0926a36465ef802aba80)
-
S 0 returnează media aritmetică
- Sα⟶α→-∞min{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}
![{\ displaystyle S _ {\ alpha} {\ underset {\ alpha \ to - \ infty} {\ longrightarrow}} \ min}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4956c0378794be7d478fcca2fa6e75cfebbee6c)
Gradientul lui S α este legat de funcția softmax și este egal cu
∇XeuSα(X1,...,Xnu)=eαXeu∑j=1nueαXj[1+α(Xeu-Sα(X1,...,Xnu))].{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}![{\ displaystyle \ nabla _ {x_ {i}} S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {\ mathrm {e} ^ {\ alpha x_ {i} }} {\ sum _ {j = 1} ^ {n} \ mathrm {e} ^ {\ alpha x_ {j}}}} [1+ \ alpha (x_ {i} -S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}))].}](https://wikimedia.org/api/rest_v1/media/math/render/svg/372c48e5fe4de24ae5c1a21bbb967278994c45ec)
Acest lucru face ca funcția softmax să fie interesantă pentru tehnicile de optimizare folosind coborârea în gradient .
Standarde Hölder
O formă de maxim regularizat se poate baza pe o medie generalizată . De exemplu, pentru valori pozitive x 1 , ..., x n , putem folosi o medie de ordine α > 1 , adică
Sα(X1,...,Xnu)=(1nu∑j=1nuXjα)1α.{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}![{\ displaystyle S _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = \ left ({\ frac {1} {n}} \ sum _ {j = 1} ^ {n} x_ {j} ^ {\ alpha} \ right) ^ {\ frac {1} {\ alpha}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/18300bc4557535c37bbdf886ee9db6491ded14b3)
LogSumExp
Un alt maxim regularizat este cunoscut sub numele „LogSumExp”:
LSE(X1,...,Xnu)=ln(exp(X1)+...+exp(Xnu)){\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}![{\ displaystyle \ mathrm {LSE} (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d5229360a6111437a1b87923b3b0084c1f735dfa)
Funcția poate fi normalizată dacă x i sunt toate pozitive, ducând la o funcție definită la [0, + ∞ [ n la [0, + ∞ [ :
g(X1,...,Xnu)=ln(exp(X1)+...+exp(Xnu)-(nu-1)){\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}![{\ displaystyle g (x_ {1}, \ ldots, x_ {n}) = \ ln (\ exp (x_ {1}) + \ ldots + \ exp (x_ {n}) - (n-1))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/324a090c93ab11015e4ea03b7fba18eee5fbe961)
Termenul ( n - 1) este un coeficient de corecție pentru a lua în considerare faptul că exp (0) = 1 , asigurând astfel că avem g (0, ..., 0) = 0 dacă toți x i sunt zero.
Funcția LogSumExp poate fi setată pentru a evita netezirea artefactelor. Numim acest formular „ α -quasimax”, definit prin:
Îα(X1,...,Xnu)=1αLSE(αX1,...,αXnu)=1αln(exp(αX1)+...+exp(αXnu)){\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { nu}))}![{\ displaystyle {\ mathcal {Q}} _ {\ alpha} (x_ {1}, \ ldots, x_ {n}) = {\ frac {1} {\ alpha}} \ mathrm {LSE} (\ alpha x_ {1}, \ ldots, \ alpha x_ {n}) = {\ frac {1} {\ alpha}} \ ln (\ exp (\ alpha x_ {1}) + \ ldots + \ exp (\ alpha x_ { nu}))}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4cb249d4824a213c54400300550464d9a9c02d0d)
Utilizare în metode numerice
Maximele netede sunt de interes în căutările extrema pe seturi de date discrete sau algoritmi de optimizare a coborârii în gradient.
Vezi și tu
Referințe
-
(en) M. Lange, D. Zühlke, O. Holz și T. Villmann, „ Aplicații ale l p -norms și a lor aproximări ușoare pentru cuantificarea vectorului de învățare bazat pe gradient ” , Proc. ESANN ,2014, p. 271-276 ( citiți online )
-
(in) Gabor Takacs " maxim Smooth algoritmi bazați pentru clasificare, regresie și filtrare de colaborare " , Acta Technica Jaurinensis , vol. 3, n o 1,2010, p. 27-63
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">