En mathématiques, un maximum régularisé (smooth maximum) d'une famille indicée x1, ..., xn de nombres est une approximation lisse de la fonction maximum max(x1,...,xn), par une famille paramétrée de fonctions mα(x1,...,xn) telle que la fonction mα est régulière pour toute valeur réelle de α, et tend vers la fonction maximum pour α → ∞ ou α → 0 . Le concept de minimum régularisé peut être défini de façon similaire. Dans plusieurs cas, une même famille peut servir à approcher les deux fonctions, le maximum pour des valeurs positives très grandes, le minimum vers l'infini négatif :

m α max   pour   α ,   m α min   pour   α . {\displaystyle m_{\alpha }\to \max \ {\textrm {pour}}\ \alpha \to \infty ,\ m_{\alpha }\to \min \ {\textrm {pour}}\ \alpha \to -\infty .}

Le terme peut être utilisé pour toute fonction régularisante se comportant de façon similaire à la fonction maximum, sans être paramétrée.

Exemples

Approximations dérivables de la valeur absolue

En utilisant la définition suivante du maximum de deux nombres :

max ( x 1 , x 2 ) = x 1 x 2 | x 2 x 1 | 2 {\displaystyle \max(x_{1},x_{2})={\frac {x_{1} x_{2} |x_{2}-x_{1}|}{2}}}

on peut définir une fonction maximum régularisé en remplaçant le terme en valeur absolue par une fonction lisse équivalente, comme x 2 α 2 {\textstyle {\sqrt {x^{2} \alpha ^{2}}}} ou x e r f ( α x ) {\textstyle x\,\mathrm {erf} (\alpha x)} , où erf désigne la fonction d'erreur.

Softmax

Pour de grandes valeurs du paramètre α > 0, la fonction Sα définie ci-après, parfois appelée « α-softmax », est une approximation lisse et différentiable de la fonction maximum. Pour des valeurs négatives du paramètre grandes en valeur absolue, elle approche le minimum. La fonction α-softmax est définie par :

S α ( x 1 , , x n ) = i = 1 n x i e α x i i = 1 n e α x i {\displaystyle S_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}\mathrm {e} ^{\alpha x_{i}}}{\sum _{i=1}^{n}\mathrm {e} ^{\alpha x_{i}}}}}

Sα a les propriétés suivantes :

  1. S α α max {\displaystyle S_{\alpha }{\underset {\alpha \to \infty }{\longrightarrow }}\max }
  2. S0 renvoie la moyenne arithmétique
  3. S α α min {\displaystyle S_{\alpha }{\underset {\alpha \to -\infty }{\longrightarrow }}\min }

Le gradient de Sα est lié à la fonction softmax et vaut

x i S α ( x 1 , , x n ) = e α x i j = 1 n e α x j [ 1 α ( x i S α ( x 1 , , x n ) ) ] . {\displaystyle \nabla _{x_{i}}S_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\mathrm {e} ^{\alpha x_{i}}}{\sum _{j=1}^{n}\mathrm {e} ^{\alpha x_{j}}}}[1 \alpha (x_{i}-S_{\alpha }(x_{1},\ldots ,x_{n}))].}

Ceci rend la fonction softmax intéressante pour des techniques d'optimisation utilisant la descente de gradient.[réf. souhaitée]

Normes de Hölder

Une forme de maximum régularisé peut être basée sur une moyenne généralisée. Par exemple, pour des valeurs x1, ..., xn positives, on peut utiliser une moyenne d'ordre α > 1, soit

S α ( x 1 , , x n ) = ( 1 n j = 1 n x j α ) 1 α . {\displaystyle S_{\alpha }(x_{1},\ldots ,x_{n})=\left({\frac {1}{n}}\sum _{j=1}^{n}x_{j}^{\alpha }\right)^{\frac {1}{\alpha }}.}
LogSumExp

Un autre maximum régularisé est connu sous le nom « LogSumExp »:

L S E ( x 1 , , x n ) = ln ( exp ( x 1 ) exp ( x n ) ) {\displaystyle \mathrm {LSE} (x_{1},\ldots ,x_{n})=\ln(\exp(x_{1}) \ldots \exp(x_{n}))}

La fonction peut être normalisée si les xi sont tous positifs, menant à une fonction définie sur [0 , ∞[n vers [0 , ∞[:

g ( x 1 , , x n ) = ln ( exp ( x 1 ) exp ( x n ) ( n 1 ) ) {\displaystyle g(x_{1},\ldots ,x_{n})=\ln(\exp(x_{1}) \ldots \exp(x_{n})-(n-1))}

Le terme (n – 1) est un coefficient de correction pour prendre en compte que exp(0) = 1, assurant ainsi qu'on ait bien g(0, ... ,0) = 0 si tous les xi sont nuls.

La fonction LogSumExp peut être paramétrée pour éviter les artefacts de lissage. On appelle cette forme « α-quasimax », définie par:

Q α ( x 1 , , x n ) = 1 α L S E ( α x 1 , , α x n ) = 1 α ln ( exp ( α x 1 ) exp ( α x n ) ) {\displaystyle {\mathcal {Q}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {1}{\alpha }}\mathrm {LSE} (\alpha x_{1},\ldots ,\alpha x_{n})={\frac {1}{\alpha }}\ln(\exp(\alpha x_{1}) \ldots \exp(\alpha x_{n}))}

Utilisation dans des méthodes numériques

Les maximums lisses ont un intérêt dans les recherches d'extrema sur des ensembles de données discrètes ou des algorithmes d'optimisation par descente du gradient.

Voir aussi

  • LogSumExp
  • Fonction softmax
  • Moyenne généralisée

Références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Smooth maximum » (voir la liste des auteurs).


  • Portail de l'analyse

Quelle est la régularité

01 RegularizationKarteikarten Quizlet

Les régularités 1 YouTube

Definiere unartig Fotos und Bildmaterial in hoher Auflösung Alamy

Les régularités