{"id":3728,"date":"2018-10-29T11:53:37","date_gmt":"2018-10-29T10:53:37","guid":{"rendered":"http:\/\/wp.unil.ch\/geoblog\/?p=3728"},"modified":"2018-11-01T09:51:12","modified_gmt":"2018-11-01T08:51:12","slug":"feature-selection-based-on-a-new-estimator-of-intrinsic-dimension","status":"publish","type":"post","link":"https:\/\/wp.unil.ch\/geoblog\/2018\/10\/feature-selection-based-on-a-new-estimator-of-intrinsic-dimension\/","title":{"rendered":"Feature Selection Based on a New Estimator of Intrinsic Dimension"},"content":{"rendered":"<p><em>Th\u00e8se soutenue par Jean Golay, le 29 octobre 2018, Institut des dynamiques de la surface terrestre (IDYST)<\/em><\/p>\n<p>Ces derni\u00e8res d\u00e9cennies, la quantit\u00e9 de donn\u00e9es g\u00e9n\u00e9r\u00e9es \u00e0 travers le monde a consid\u00e9rablement augment\u00e9, ce qui a conduit \u00e0 l&rsquo;\u00e9tablissement d&rsquo;imposantes bases de donn\u00e9es contenant un grand nombre de variables superflues. Ces variables sont <em>redondantes<\/em> si elles ne v\u00e9hiculent pas d&rsquo;informations qui ne soient pas d\u00e9j\u00e0 contenues dans les autres variables pr\u00e9alablement retenues. Elles peuvent aussi \u00eatre non pertinentes si elles n&rsquo;ont aucun rapport avec la t\u00e2che d&rsquo;apprentissage statistique \u00e0 effectuer (p. ex. t\u00e2ches de r\u00e9gression ou de classification). Par cons\u00e9quent, ces variables compliquent s\u00e9rieusement l&rsquo;extraction de connaissances \u00e0 partir des donn\u00e9es.<!--more--><\/p>\n<p>Le but de la <em>s\u00e9lection de variables<\/em> (c.-\u00e0-d. \u00ab feature selection \u00bb en anglais) est donc d&rsquo;identifier et de ne retenir que les variables qui sont porteuses d&rsquo;informations nouvelles et qui sont pertinentes pour un cas d&rsquo;\u00e9tude donn\u00e9.<\/p>\n<p>Cette th\u00e8se propose une nouvelle approche pour atteindre ce but en utilisant une nouvelle mesure de corr\u00e9lation non-lin\u00e9aire. L&rsquo;id\u00e9e fondamentale consiste \u00e0 consid\u00e9rer que, si deux variables sont parfaitement corr\u00e9l\u00e9es, l&rsquo;une d&rsquo;elles est redondante. Cette id\u00e9e peut \u00eatre \u00e9tendue aux probl\u00e8mes impliquant de larges groupes de variables, ainsi que des variables, dites de \u00ab sortie \u00bb, qui doivent \u00eatre mod\u00e9lis\u00e9es en fonction de variables d&rsquo;\u00ab entr\u00e9e \u00bb.<\/p>\n<p>Plus pr\u00e9cis\u00e9ment, c&rsquo;est la <em>dimension intrins\u00e8que<\/em> d&rsquo;un jeu de donn\u00e9e qui est utilis\u00e9e pour quantifier la corr\u00e9lation (\u00e9ventuellement non-lin\u00e9aire) qui existe entre des variables ou entre des groupes de variables. Mais, qu&rsquo;est-ce que la dimension intrins\u00e8que ? Pour r\u00e9pondre \u00e0 cette question, il convient de pr\u00e9ciser qu&rsquo;il existe un consensus dans la communaut\u00e9 du \u00ab machine learning \u00bb selon lequel les donn\u00e9es ne seraient pas r\u00e9ellement \u00ab \u00e0 haute dimension \u00bb. Au lieu de cela, elles r\u00e9sideraient dans des sous\u00ad-espaces dont la dimension, dite intrins\u00e8que, serait bien inf\u00e9rieure au nombre de variable consid\u00e9r\u00e9es. En d&rsquo;autres termes, la dimension intrins\u00e8que est la dimension d&rsquo;un sous-espace dans lequel se trouvent les donn\u00e9es d&rsquo;un cas d&rsquo;\u00e9tude.<\/p>\n<p>Le fait que les donn\u00e9es n&rsquo;occuperaient qu&rsquo;un sous-espace est une cons\u00e9quence de la redondance \u00e9voqu\u00e9e pr\u00e9c\u00e9demment (c.-\u00e0-d. la corr\u00e9lation qui existe souvent entre des variables). Mais quel est le lien exact entre la redondance (ou la corr\u00e9lation) et la dimension intrins\u00e8que ? Si on \u00e9chantillonne simultan\u00e9ment deux variables al\u00e9atoires totalement corr\u00e9l\u00e9es de mani\u00e8re lin\u00e9aire, la visualisation 2- dimensionnelle des valeurs obtenues repr\u00e9sentera des points parfaitement align\u00e9s le long de la diagonale d&rsquo;un carr\u00e9. Dans ce cas simple, la dimension intrins\u00e8que des donn\u00e9es est \u00e9gale \u00e0 1, ce qui correspond \u00e0 la dimension topologique d&rsquo;une ligne. Il y a donc une diff\u00e9rence de 1 unit\u00e9 entre la dimension intrins\u00e8que des donn\u00e9es et la dimension du jeu de donn\u00e9es. En effet, cette seconde dimension est \u00e9gale \u00e0 la dimension topologique d&rsquo;un carr\u00e9, \u00e0 savoir 2, puisqu&rsquo;il y a deux variables. La diff\u00e9rence entre les deux dimensions permet ainsi de d\u00e9terminer qu&rsquo;une des deux variables est redondante. Autrement dit, en choisissant al\u00e9atoirement une des deux variables et en l&rsquo;\u00e9liminant, aucune information n&rsquo;aura \u00e9t\u00e9 effac\u00e9e.<\/p>\n<p>Naturellement, les donn\u00e9es trait\u00e9es dans des cas d&rsquo;\u00e9tude r\u00e9els ne sont pas aussi simples que celles d\u00e9crites dans le paragraphe pr\u00e9c\u00e9dent. C&rsquo;est la raison pour laquelle, cette th\u00e8se consid\u00e8re le cas plus g\u00e9n\u00e9ral o\u00f9 la dimension intrins\u00e8que n&rsquo;est pas n\u00e9cessairement enti\u00e8re. Elle peut aussi \u00eatre fractale. D&rsquo;autre part, il ne suffit pas d&rsquo;analyser uniquement les redondances qui peuvent exister entre des pairs de variables. Il faut aussi tenter de consid\u00e9rer toutes les combinaisons possibles de variables, alors que leur nombre augmente exponentiellement avec la dimension des jeux de donn\u00e9es.<\/p>\n<p>L&rsquo;approche propos\u00e9e dans cette th\u00e8se est test\u00e9e avec des donn\u00e9es simul\u00e9es pour lesquelles la vraie solution est connue, ainsi qu&rsquo;avec des donn\u00e9es issues de cas d&rsquo;\u00e9tudes r\u00e9els. Des comparaisons avec des techniques de pointe sont \u00e9galement analys\u00e9es, et les r\u00e9sultats attestent les bonnes performances de l&rsquo;approche d\u00e9velopp\u00e9e.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Th\u00e8se soutenue par Jean Golay, le 29 octobre 2018, Institut des dynamiques de la surface terrestre (IDYST) Ces derni\u00e8res d\u00e9cennies, la quantit\u00e9 de donn\u00e9es g\u00e9n\u00e9r\u00e9es \u00e0 travers le monde a consid\u00e9rablement augment\u00e9, ce qui a conduit \u00e0 l&rsquo;\u00e9tablissement d&rsquo;imposantes bases de donn\u00e9es contenant un grand nombre de variables superflues. Ces variables sont redondantes si elles [&hellip;]<\/p>\n","protected":false},"author":47,"featured_media":3358,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":"","_links_to":"","_links_to_target":""},"categories":[49465],"tags":[],"class_list":{"0":"post-3728","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-theses-soutenues"},"_links":{"self":[{"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/posts\/3728","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/comments?post=3728"}],"version-history":[{"count":0,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/posts\/3728\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/media\/3358"}],"wp:attachment":[{"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/media?parent=3728"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/categories?post=3728"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp.unil.ch\/geoblog\/wp-json\/wp\/v2\/tags?post=3728"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}