Thèse soutenue par Fabian Guignard, le 21 juin 2021, Institut des dynamiques de la surface terrestre (IDYST)
Les observations référencées dans l’espace et le temps surviennent dans de nombreux domaines. Malgré l’intérêt croissant pour ce type de données, la boîte à outils permettant leur exploration, leur compréhension et leur modélisation est incomplète. Traitant des dépendances non-linéaire, les algorithmes d’apprentissage automatique (Machine Learning, ML) sont bien adaptés pour prédire des phénomènes complexes. Cependant, l’interpolation d’observations spatio-temporelles avec du ML est encore peu étudiée. De plus, la quantification de l’incertitude, qui permet d’évaluer la confiance de chacune des prédictions de l’algorithme, est souvent insatisfaisante, voir même inexistante.
Ce travail porte sur l’exploration et l’interpolation de telles données. Il propose un cadre aux algorithmes de ML afin de les modéliser, ainsi que des méthodes de quantification de l’incertitude pour un type particulier de réseaux de neurones. De plus, il propose également l’utilisation de mesures provenant de la théorie de l’information comme outils d’investigation.
Les contributions méthodologiques de cette thèse peuvent trouver une vaste quantité d’applications dans plusieurs domaines de recherche où l’exploration, la compréhension, l’interpolation et la prévision de phénomènes spatio-temporels complexes sont de la plus haute importance. Dans ce travail, elles sont appliquées à diverses données environnementales telles que la vitesse du vent, la température et la pollution urbaine, ceci à diverses échelles spatiales (de l’échelle urbaine à l’échelle mondiale) et fréquence temporelles (de 1Hz à une fréquence journalière).
Une attention particulière est portée à la vitesse du vent en Suisse. L’interpolation est effectuée avec plusieurs type de réseaux neuronaux à l’aide de variables explicatives tirées de la topographie du terrain, fournissant pour chaque heure sur dix ans une carte de vitesse du vent à une résolution spatiale de 250 mètres. Ce type de modélisation est crucial pour procéder à des estimations de potentiels d’énergies renouvelables, ainsi que des évaluations des risques et des dangers naturels. La connaissance de son incertitude à chaque point de l’espace et du temps nous permet de quantifier la précision de l’estimation, ce qui est indispensable pour fournir des outils pertinents d’aide à la décision.