Thèse soutenue par Raphaël Ceré, le 15 octobre 2021, Institut de géographie et durabilité (IGD)
De nombreuses stratégies permettent de simplifier l’information numérique dont le volume ne cesse de croitre. En analyse de données, de nombreuses stratégies de simplification par l’exécution totale ou partielle d’opérations par des machines, dites automatiques, sont utilisées. Dans ce domaine, la vision par ordinateur aborde ce problème par la segmentation d’image par exemple. Plus précisément, il s’agit de méthodes qui visent à regrouper automatiquement les plus petites unités (pixels) d’une image en de plus grands ensembles. Ici, en analyse spatiale, il s’agit de regrouper automatiquement des petits éléments géographiques en de plus grands ensembles. En fait, l’automatisation de ce processus à travers les mathématiques, les statistiques et l’informatique s’inspire à bien des égards du processus de regroupement automatique humain : la capacité cognitive à percevoir les formes. Cet entrelacement humain-machine nous permet actuellement d’aller au-delà de nos capacités humaines, celles du géographe par la même occasion, dans la détection de régularités ; un enjeu majeur pour une société de l’information.
L’approche du problème de la segmentation qui est proposée dans cette recherche se base principalement sur des réseaux irréguliers et pondérés en lien avec l’autocorrélation spatiale. Dans sa forme généralisée, l’autocorrélation spatiale se révèle être un indicateur particulièrement robuste de régularités dans les données spatiales. De plus, grâce à la combinaison élémentaire formulée de la distance spatiale et de la dissimilarité entre toutes les paires d’éléments, le problème de la segmentation peut être approché par de l’optimisation d’énergie libre pour regrouper ces éléments. Sur des principes de thermodynamique et de mécanique statistique, il s’agit de mettre en compétition la distance spatiale sous la forme d’une matrice d’échange et la différence sous la forme d’une matrice de distance ultramétrique par un processus itératif de minimisation dans un système contrôlé par une température. Ce système prend ici la forme d’une fonctionnelle d’énergie libre pour déterminer l’appartenance d’éléments à un certain nombre de groupes pour un certain minimum trouvé. Plus nombreux que les groupes, les éléments peuvent être des unités géographiques de différentes tailles, c.-à-d. de pondération variable, ou de pondération uniforme dans les cas d’un recensement hectométrique et de pixels dans une image ; pour citer des exemples illustrés dans cette recherche. Depuis une partition d’appartenance éléments-groupes initiale, la déclinaison d’algorithmes a pour but de maximiser la proximité et la similarité des éléments au sein de chaque groupe, maximiser une certaine homogénéité intra-groupe, de manière supervisée ou non et de manière floue, c.-à-d. probabiliste, par l’ajout d’un terme entropique. De nature flexibles, les fonctionnelles sont librement paramétrables quant au mode de l’appartenance, le Ncut généralisé ou la Modularité, combinée à une température qui intervient comme régulateur entre la proximité spatiale et/ou la similarité des éléments étudiés. Enfin, sous diverses perspectives, elles permettent de révéler de manière itérative la présence de formes par la recherche d’un minimum local qui définit une simplification possible d’un grand nombre d’éléments en un petit nombre de groupes ou en d’autres termes : une partition. Cette stratégie de simplification machine a l’avantage de tenir compte des capacités intuitives d’un opérateur humain, une supervision d’un géographe par exemple, tout en tenant compte d’une stratégie automatique, non-supervisée.
En plus de proposer des approches originales, les différentes publications qui composent cette recherche illustrent des applications concrètes sur des images, des données spatiales socio-économiques suisses ainsi que sur de l’information descriptive textuelle.