Le traitement biologique des scènes visuelles naturelles

Parmi les fonctions cognitives, la perception visuelle est une pression majeure de l'évolution. Le système visuel a de ce fait développé des solutions rapides et robustes pour intégrer correctement l'ensemble de l'information lumineuse : rien n'est plus facile que d'ouvrir les yeux et de transformer ce flux d'images en une information fiable sur le monde environnant. En particulier, traiter en temps réel le mouvement de plusieurs objets différents, aux contours potentiellement bruités et dans des conditions d'éclairage changeantes, ce que nous faisons actuellement en lisant ce document, nous semble particulièrement aisé, mais -paradoxalement- notre connaissance des mécanismes que nous utilisons est encore largement incomplète.

Mon objectif de recherche est d'étendre la compréhension de ces modèles de réseaux de neurones impulsionnels pour implémenter des algorithmes de la perception visuelle. Les brèves impulsions du potentiel membranaire se propageant au fil des neurones sont une caractéristique universelle des systèmes nerveux et permettent de construire des modèles événementiels efficaces de traitement dynamique de l'information. Dans un but fonctionnel, je désire notamment implémenter dans ces modèles des stratégies d'inférence grâce à des mécanismes d'apprentissage auto-organisés fixant les relations spatio-temporelles entre les neurones. A cette fin, mon projet de recherche vise en particulier à étudier et réaliser un modèle de réseau de neurones inférentiel, dynamique et auto-organisé pour la vision du mouvement.

Ce document présentera mon projet de recherche en décrivant mes travaux sur la perception visuelle du mouvement qui implémentent en pratique des règles neuronales d'inférence. Je définirai mon projet de recherche en présentant ses enjeux scientifiques et son cadre théorique, puis les méthodes que nous utiliserons pour implémenter de façon générique des algorithmes neuronaux d'inférence pour la perception. Ces solutions ouvriront la voie vers une théorie dynamique et intégrative de la vision qui vise à enrichir notre compréhension des mécanismes cognitifs et pour laquelle nous évoquerons des applications technologiques.

Perception du mouvement et règles d'inférences


Mes travaux de modélisation pour l'image statique peut facilement s'étendre à des modèles pour les flux d'images. Outre l'augmentation de la complexité des charges computationnelles,on observe qu'avec un modèle impulsionnel d'une aire corticale visuelle incluant des interactions latérales (Perrinet et al.(2003)), le code n'est plus dépendant d'un temps d'initialisation et qu'il s'adapte tel quel au codage des données temporelles. Afin de décrire des scènes visuelles naturelles pour lesquelles il existe de fortes corrélations spatiales mais aussi temporelles, nous allons étendre le dictionnaire utilisé par notre algorithme en utilisant des filtres spatio-temporels. En diffusant spatialement l'information selon des équations dynamiques, ces algorithmes permettent de confronter localement des mesures bruitées ou ambiguës issues des données visuelles pour aboutir potentiellement à une solution dynamique de catégorisation. Toutefois, il est difficile de savoir précisément quelle forme d'interaction latérale sera optimale pour cette tâche et si ces paramètres dépendent de facteurs intrinsèques à l'entrée comme le niveau de bruit.

Pour cela, il est nécessaire dans un premier temps d'étudier les représentations possibles du flux visuel et auxquelles nous ferons correspondre les valeurs d'activités neuronales. Ces activités peuvent en parallèle coder la force d'un signal mais aussi la probabilité de détection (ou cohérence) de ce signal. Cette dernière mesure, représentée dans une carte spatiale adjointe à la carte des activités neuronales, est mise à jour dynamiquement et va moduler dynamiquement la diffusion de l'information: la compétition entre les différentes catégories prend donc explicitement en compte une mesure du niveau de confiance de notre connaissance sur l'information visuelle. Dans ce sens, on peut étendre la richesse de ce modèle en assignant à chaque neurone un ensemble d'états possibles (qui va donc correspondre à une distribution de stimuli préférés). Pour la perception du mouvement dans le champ visuel, nous allons par exemple attribuer à chaque position spatiale un ensemble de vecteurs de mouvement possibles (direction et vitesse), formant ainsi un champ de mouvement probabiliste. La représentation des activités neuronales va coder explicitement une mesure totalement distribuée de notre connaissance de l'information : on obtient ainsi une représentation distribuée probabiliste de l'information.

Une fois cette représentation définie, il faut préciser quel ensemble de relations spatio-temporelles peut conduire à une évolution correcte et non ambiguë de la dynamique vers le champ de mouvement physique. Dans ce cadre, nous allons supposer que les neurones vont se comporter localement comme des observateurs idéaux, c'est à dire qu'ils vont inférer de la meilleure façon qui leur est possible le mouvement local : ils vont ainsi modifier leur état vers l'état correspondant au maximum de probabilité des différents états inférés comme pouvant représenter l'entrée locale. En effet, on peut, par une modélisation bayesienne basée sur les statistiques des entrées, déterminer la probabilité de détection d'un état (ici le vecteur des vitesses possibles en un point donné) en fonction des mesures locales des différents neurones. En fixant le coût relatif de chaque décision, on va pouvoir déterminer la décision optimale pour chaque neurone et nous y relierons alors un événement neuronal.

Application à la perception visuelle du mouvement


J'ai étudié ce formalisme dans le cas particulier des expériences psychophysiques menées par Castet et al.(1993). Ces travaux portent sur la perception du mouvement d'une ligne blanche sur un fond noir en fonction de son orientation par rapport à son mouvement horizontal (voir Fig. A). Différents paramètres (tels que son orientation, sa longueur et son contraste) sont manipulés pour tester leurs effets sur la vitesse perçue de la ligne. Les observations psychophysiques montrent tout d'abord que le mouvement perçu de la ligne est biaisée vers la direction orthogonale à la ligne. Ces résultats sont une conséquence du problème de l'ouverture : cette direction est en effet la plus probable pour un neurone dont le champ récepteur de rayon fini ne permet de détecter qu'une information locale. De plus, la vitesse est perçue plus faible que la vitesse réelle, reflétant alors la préférence du système perceptif pour les vitesses faibles, celles-ci correspondant a priori à des situations plus probables dans les scènes naturelles (Fig. B.3). Ces expériences montrent aussi que pour des stimuli progressivement plus ambigus (quand le contraste baisse par exemple) ces biais sont plus forts.

Comme montré par Weiss et al.(2002), ce comportement peut être quantifié dans un modèle par une règle d'inférence bayesienne. Ce modèle réplique les observations psychophysiques : une baisse relative du contraste va correspondre à une plus grande imprécision par rapport aux probabilités des différentes vitesses possibles données par les capteurs, c'est à dire à une réponse perceptive plus proche de la probabilité a priori (le prior) et de l'intégration des valeurs brutes inférées par les neurones. Toutefois la détection du mouvement dans ce dernier modèle est basée sur l'hypothèse de constance de la luminance qui se trouve validée dans de nombreuses situations de laboratoire, mais qui est contestée pour des situations naturelles plus complexes. De plus, la correspondance entre ce modèle formel et les expériences psychophysiques est basée sur le réglage d'un paramètre libre et ne correspond à aucun apprentissage sur des situations courantes. Il n'explique pas non plus la dépendance des résultats en fonction de la longueur de la ligne, dépendance qui doit correspondre à la modulation spatiale de l'intégration des différentes informations neuronales. Les résultats psychophysiques mettent en évidence qu'une ligne plus longue est plus ambiguë (le nombre relatif de neurones donnant des réponses ambiguës augmente) et donc à la fois une perception du mouvement plus biaisée vers l'orthogonale à la ligne mais aussi une vitesse perçue plus faible.

Afin d'implémenter un modèle qui résolve ces problèmes, nous avons modélisé l'aire sensible au mouvement (MT) comme un réseau dynamique de colonnes corticales qui implémente le processus inférentiel en plusieures étapes. Nous pourrons calculer les distributions de probabilité des activités neuronales connaissant la vitesse en entrée (voir Fig. B.1 et B.2). Cet apprentissage utilise la synthèse de flux d'images ayant des statistiques spatio-temporelles proches des images naturelles. Comme on connaît alors le mouvement moyen du stimulus, on peut apprendre les probabilité des différents vecteurs de mouvement possibles en fonction des entrées brutes. Ainsi, en modélisant l'entrée de MT comme la représentation probabiliste distribuée brute correspondant aux probabilités des différentes vitesses pouvant correspondre au flux visuel, on pourra construire des réponses neuronales impulsionnelles comme un observateur idéal des données brutes.


fig_motion.png

Figure: Perception dynamique du champ de mouvement (A) Pour un stimulus polygonal bruité clair sur un fond noir animé d'un mouvement vers le bas, des neurones sensibles au mouvement détectent sur un rayon fini (disque rouge) le mouvement dans l'image. (B) Cette information peut être décrite dans l'espace des vitesses comme la probabilité de détection d'un mouvement. Celle-ci correspond à une détection fine pour des stimuli riches comme le coin (B1) mais à une détection ambiguë pour la ligne (problème de l'ouverture, B2). Couplée à un calcul des vitesses a priori (B3) et à une propagation latérale de l'information détectée, on peut ainsi inférer dynamiquement le champ de vitesse le plus probable. (C) En accord avec les expériences psychologiques, ce champ de vitesse est initialement mésestimé vers la perpendiculaire à la ligne, pour être progressivement résolu.


Cette représentation de connaissance pourra alors prévoir sa propre évolution temporelle. En effet, l'entrée probabiliste brute permet de déduire une première idée du champ de mouvement qui permet alors de prévoir le champ de vitesse à l'instant suivant un simple apprentissage. Ainsi, dans le cas du stimulus 'ligne' de Castet et al.(1993), la représentation qui correspondra à une meilleure correspondance entre la prédiction et l'observation sera excitée: le mouvement physique sera ainsi progressivement résolu. En réglant dans le formalisme de l'observateur idéal le meilleur compromis entre la prédiction et l'observation, ce modèle permettra donc d'écrire des équations dynamiques de l'activité des neurones qui permettront le cas échéant la convergence du système vers une solution de champ de mouvement.


Cette formalisation permet de construire de nouveaux paradigmes pour expliquer la performance des systèmes biologiques. En particulier, l'interprétation probabiliste de l'activité des neurones permet de construire des modèles fonctionnels se basant sur des comportements dynamiques des réseaux de neurones et construits en fonction des statistiques des entrées. Ces modèles confrontent les résultats des neurosciences, de la psychologie et de la modélisation mathématique pour déterminer quels mécanismes neuronaux sont mis en jeu dans la perception biologique. Toutefois, ces modèles restent simplistes par rapport à la complexité que l'on devine dans l'anatomie des couches corticales biologiques mais aussi dans la diversité des comportements expérimentaux. Je vais donc présenter dans mon projet de recherche comment des modèles performants doivent profiter de toute la richesse des systèmes dynamiques parallèles qui sont implémentés dans les surfaces corticales.

Ces modèles, en permettant de simuler des aspects de la dynamique du système nerveux central, possèdent de nombreuses applications scientifiques (simulation d'expérimentations animales) et médicales. En effet, la comparaison des simulations avec des systèmes "sains" ou des systèmes dont les caractéristiques (dynamiques par exemple) sont modifiées peut permettre de délivrer des diagnostics à partir de tests perceptifs ou comportementaux (oculomoteurs par exemple) construits à partir du modèle et de les relier à des pathologies ou lésions particulières Ce projet nécessite de faire intervenir la convergence de plusieurs domaines ---neurosciences de la vision, psychologie et modélisation--- et j'espère avoir montré dans ce projet la richesse des contributions potentielles, aussi bien des expériences aux modèles que des modèles vers les expériences, qui réalisent les objectifs de l'équipe de recherche "Dynamique de la perception visuelle et de l'action" à l'INT.


Bibliographie


TagMotion

welcome: please sign in