Thèse soutenue par Jean Golay, le 29 octobre 2018, Institut des dynamiques de la surface terrestre (IDYST)
Ces dernières décennies, la quantité de données générées à travers le monde a considérablement augmenté, ce qui a conduit à l’établissement d’imposantes bases de données contenant un grand nombre de variables superflues. Ces variables sont redondantes si elles ne véhiculent pas d’informations qui ne soient pas déjà contenues dans les autres variables préalablement retenues. Elles peuvent aussi être non pertinentes si elles n’ont aucun rapport avec la tâche d’apprentissage statistique à effectuer (p. ex. tâches de régression ou de classification). Par conséquent, ces variables compliquent sérieusement l’extraction de connaissances à partir des données.
Le but de la sélection de variables (c.-à-d. « feature selection » en anglais) est donc d’identifier et de ne retenir que les variables qui sont porteuses d’informations nouvelles et qui sont pertinentes pour un cas d’étude donné.
Cette thèse propose une nouvelle approche pour atteindre ce but en utilisant une nouvelle mesure de corrélation non-linéaire. L’idée fondamentale consiste à considérer que, si deux variables sont parfaitement corrélées, l’une d’elles est redondante. Cette idée peut être étendue aux problèmes impliquant de larges groupes de variables, ainsi que des variables, dites de « sortie », qui doivent être modélisées en fonction de variables d’« entrée ».
Plus précisément, c’est la dimension intrinsèque d’un jeu de donnée qui est utilisée pour quantifier la corrélation (éventuellement non-linéaire) qui existe entre des variables ou entre des groupes de variables. Mais, qu’est-ce que la dimension intrinsèque ? Pour répondre à cette question, il convient de préciser qu’il existe un consensus dans la communauté du « machine learning » selon lequel les données ne seraient pas réellement « à haute dimension ». Au lieu de cela, elles résideraient dans des sous-espaces dont la dimension, dite intrinsèque, serait bien inférieure au nombre de variable considérées. En d’autres termes, la dimension intrinsèque est la dimension d’un sous-espace dans lequel se trouvent les données d’un cas d’étude.
Le fait que les données n’occuperaient qu’un sous-espace est une conséquence de la redondance évoquée précédemment (c.-à-d. la corrélation qui existe souvent entre des variables). Mais quel est le lien exact entre la redondance (ou la corrélation) et la dimension intrinsèque ? Si on échantillonne simultanément deux variables aléatoires totalement corrélées de manière linéaire, la visualisation 2- dimensionnelle des valeurs obtenues représentera des points parfaitement alignés le long de la diagonale d’un carré. Dans ce cas simple, la dimension intrinsèque des données est égale à 1, ce qui correspond à la dimension topologique d’une ligne. Il y a donc une différence de 1 unité entre la dimension intrinsèque des données et la dimension du jeu de données. En effet, cette seconde dimension est égale à la dimension topologique d’un carré, à savoir 2, puisqu’il y a deux variables. La différence entre les deux dimensions permet ainsi de déterminer qu’une des deux variables est redondante. Autrement dit, en choisissant aléatoirement une des deux variables et en l’éliminant, aucune information n’aura été effacée.
Naturellement, les données traitées dans des cas d’étude réels ne sont pas aussi simples que celles décrites dans le paragraphe précédent. C’est la raison pour laquelle, cette thèse considère le cas plus général où la dimension intrinsèque n’est pas nécessairement entière. Elle peut aussi être fractale. D’autre part, il ne suffit pas d’analyser uniquement les redondances qui peuvent exister entre des pairs de variables. Il faut aussi tenter de considérer toutes les combinaisons possibles de variables, alors que leur nombre augmente exponentiellement avec la dimension des jeux de données.
L’approche proposée dans cette thèse est testée avec des données simulées pour lesquelles la vraie solution est connue, ainsi qu’avec des données issues de cas d’études réels. Des comparaisons avec des techniques de pointe sont également analysées, et les résultats attestent les bonnes performances de l’approche développée.