Résumé

L'entraînement d'un réseau de neurones consiste à minimiser une fonction de perte dans un espace de très haute dimension. La descente de gradient stochastique navigue cet espace en spiralant progressivement vers un minimum local. La géométrie de cet espace — ses cols, ses vallées, ses plateaux — détermine la vitesse et la qualité de la convergence.

Cet article est en cours de rédaction.