Soutenance de thèse de Victor BOUTIN

Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Neurosciences
établissement
Aix-Marseille Université
Mots Clés
Codage parcimonieux,Codage prédictif,Modèle hiérarchique,Réseaux récurrents convolutifs,Bio-inspiration,Perception visuelle
Keywords
Sparse coding,Predictive coding,Hierarchical model,Convolutional recurrent network,Bio-inspiration,visual perception
Titre de thèse
Etude d'un algorithme hiérarchique de codage parcimonieux et prédictif : vers un modèle bio-inspiré de la perception visuelle
Sparse deep predictive coding : a bio-inspired model of visual perception
Date
Vendredi 13 Mars 2020 à 14:00
Adresse
Faculté de Médecine, 27 Boulevard Jean Moulin, 13005 Marseille
Salle de thèse avec Visio-conférence
Jury
Directeur de these M. Laurent PERRINET INT (institut des neurosciences de la Timone) / Aix-Marseille Université
Rapporteur M. Simon THORPE CerCo (centre de recherche cerveau et cognition)
Rapporteur M. Ryad BENOSMAN Institut de la vision / Université Pierre et Marie Curie
CoDirecteur de these M. franck RUFFIER ISM (Institut des sciences du mouvement) / AMU (Aix-Marseille Université)
Examinateur Mme Sandrine ANTHOINE 2M (Institut de Mathématiques de Marseille) / AMU (Aix-Marseille Université)
Examinateur M. Yves FREGNAC Institut de Neurosciences Paris-Saclay
Examinateur M. Sid KOUIDER Laboratoire. de Sciences Cognitives et Psycholinguistique

Résumé de la thèse

La représentation concise et efficace de l'information est un problème qui occupe une place centrale dans le secteur de l'apprentissage machine. Le cerveau, et plus particulièrement le cortex visuel, ont depuis longtemps trouvé des solutions performantes et robustes afin de résoudre un tel problème. A l'échelle locale, le codage parcimonieux est l'un des mécanismes les plus prometteurs pour modéliser le traitement de l'information au sein des populations de neurones. Le codage parcimonieux introduit une compétition entre les neurones afin de décrire un stimulus visuel en limitant au maximum le nombre de neurones actifs. A l'échelle structurelle, les modèles dits ascendants décrivent le cortex visuel comme une succession d'unités de traitement dans lesquelles l'information se propage de la rétine vers les couches profondes du cortex. Ces modèles ont expliqué avec succès un grand nombre de phénomènes neuro-physiologiques et ont servi d'inspiration afin de construire des algorithmes de reconnaissance d'objets extrêmement performants. Néanmoins, les modèles ascendants n'expliquent pas le grand nombre de connections récurrentes et descendantes que l'on trouve dans le cortex visuel. Ces connections sont connues pour moduler l'activité des neurones en incluant de l'information contextuelle. La théorie du codage prédictif a été suggérée pour modéliser les connections ascendantes, récurrentes, et descendantes que l'on retrouve entre les différentes régions corticales. Cette thèse propose de combiner codage parcimonieux et codage prédictif au sein d'un modèle hiérarchique et convolutif. Nous avons entrainé ce modèle sur différentes bases de données afin de l'analyser avec une perspective à la fois computationnelle et biologique. D'un point de vue computationnel, nous démontrons que les connections descendantes, introduites par le codage prédictif, permettent un convergence meilleure et plus rapide du modèle. De plus, nous analysons les effets des connections descendantes sur l'organisation des populations de neurones, ainsi que leurs conséquences sur la manière dont notre algorithme se représente les images. Nous montrons que les connections descendantes réorganisent les champs d'association de neurones afin de permettre une meilleure intégration des contours. En outre, nous observons que ces connections permettent une meilleure reconstruction des images bruitées. Nos résultats suggèrent que les mécanismes à l'oeuvre dans le cerveau sont une source d'inspiration afin de développer des algorithmes de vision artificielles plus performants.

Thesis resume

Building models to efficiently represent images is a central problem in the machine learning community. The brain and especially the visual cortex, has long find economical and robust solutions to solve such a problem. At the local scale, Sparse Coding (SC) is one of the most successful frameworks to model neural computation in the visual cortex. It directly derives from the efficient coding hypothesis and could be thought as a competitive mechanism that describes visual stimulus using a limited number of neurons. At the structural scale, feedforward models of vision have accounted for numerous neurophysiological evidences in the ventral visual pathway and provide the most successful frameworks for object recognition tasks. Nevertheless, these models do not leverage the high density of feedback and lateral interactions observed in the visual cortex. In particular, these connections are known to add contextual and attentional modulations to feedforward signals. The Predictive Coding (PC) theory has been proposed to model top-down and bottom-up interaction between cortical regions. The presented thesis introduces a model combining Sparse Coding and Predictive Coding in a hierarchical and convolutional architecture. Our model, called the Sparse Deep Predictive Coding (SDPC) was trained on several challenging databases including faces and natural images. We analyze the SPDC from a computational and a biological perspective. In terms of computation, the recurrent connectivity bring by the PC framework, allows the SDPC to converge to lower prediction errors with a higher convergence rate. In addition, we combine neuroscientific evidences and machine learning methods to analyze the impact of recurrent processing at both neural organization and representational level. At neural organization level, the feedback signal of the model accounted for a reorganization of the V1 association fields that promotes contour integration. At the representational level, the SDPC exhibited significant denoising ability, highly correlated with the strength of the feedback from V2 to V1. The SDPC demonstrates that neuro-inspiration might be the right path to design more powerful and more robust computer vision algorithms.