{"id":223,"date":"2017-05-24T17:07:38","date_gmt":"2017-05-24T15:07:38","guid":{"rendered":"http:\/\/wp.unil.ch\/histoireparlesdonnees\/?page_id=223"},"modified":"2017-05-24T18:05:04","modified_gmt":"2017-05-24T16:05:04","slug":"methodologie","status":"publish","type":"page","link":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/methodologie\/","title":{"rendered":"M\u00e9thodologie"},"content":{"rendered":"<p><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/\">Introduction<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/corpus-et-bibliographie\/\">Corpus<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/methodologie\/\">M\u00e9thodologie<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/resultats\/\">R\u00e9sultats<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/interpretation\/\">Interpr\u00e9tation<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/avantages-et-limites\/\">Avantages et limites<\/a> <strong>\u00b7<\/strong> <a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/conclusion\/\">Conclusion<\/a><\/p>\n<p>Les trois corpus que nous avons pr\u00e9sent\u00e9s pr\u00e9c\u00e9demment sont riches en nombre d\u2019articles. L\u2019analyse de texte individuelle prendrait un temps cons\u00e9quent. Nous pr\u00e9sentons dans cette partie quelques outils informatiques et les m\u00e9thodes que nous utilisons pour analyser ces corpus. Nous soulignons ensuite, les difficult\u00e9s que nous avons rencontr\u00e9es suivies des visualisations obtenues.<\/p>\n<p>Nous disposons de quatre outils informatiques pour effectuer notre analyse : Iramuteq, un logiciel d\u00e9di\u00e9 au traitement du langage naturel en fran\u00e7ais ; Gephi, un outil de visualisation des graphes?; Excel, un logiciel tableur?; Python, un langage de programmation avec un large panel d\u2019outils de calcul scientifique.<\/p>\n<p>A l\u2019aide de ces outils informatiques, nous construisons notre analyse en trois parties : l\u2019extraction des donn\u00e9es brutes, le traitement du texte et la visualisation. Nous extrayons d\u2019abord les textes qui nous int\u00e9ressent et les attributs associ\u00e9s de l\u2019archive du <em>Temps<\/em>. Puis, nous utilisons Iramuteq et Python pour filtrer les erreurs d\u2019OCR, lemmatiser le corpus, regrouper les segments de texte et \u00e9valuer la similitude entre les mots. Nous utilisons ensuite Gephi et Excel pour afficher le graphe de similitude ou tracer les courbes d\u2019\u00e9volution d\u2019une mani\u00e8re plus claire et esth\u00e9tique afin de faciliter notre analyse interpr\u00e9tative.<\/p>\n<h3>Extraction des donn\u00e9es<\/h3>\n<p>Nous extrayons les articles qui nous int\u00e9ressent de l\u2019archive du <em>Temps<\/em> suivant le crit\u00e8re impos\u00e9 par chaque corpus. Ces trois corpus contiennent non seulement les textes, mais aussi des attributs tels que la date de publication et le num\u00e9ro de la page sur laquelle figure l\u2019article. Ces attributs peuvent \u00eatre utilis\u00e9s par la suite pour d\u00e9finir un certain nombre de sous-corpus. Par exemple, nous pouvons cibler diff\u00e9rents \u00e9v\u00e9nements historiques en nous limitant \u00e0 certaines dates.<\/p>\n<h3>Analyse des donn\u00e9es<\/h3>\n<p>Nous utilisons ensuite Iramuteq pour effectuer les t\u00e2ches suivantes :<\/p>\n<ul>\n<li>Etape 1. D\u00e9composer les textes en segments de texte ou en mots (tokenizer)<\/li>\n<li>Etape 2. Lemmatiser les mots (\u00e0 l\u2019infinitif pour les verbes, en majuscule singulier pour les noms et les adjectifs)<\/li>\n<li>Etape 3. Compter le nombre d\u2019occurrences des mots pour tous les mois ou toutes les ann\u00e9es<\/li>\n<li>Etape 4. Regrouper les segments de texte afin de retrouver les grands th\u00e8mes abord\u00e9s par les articles<\/li>\n<li>Etape 4.bis. Calculer la valeur ?<sup>2<\/sup> de chaque groupe de mots \u00e0 chaque ann\u00e9e (et \u00e0 chaque mois)<\/li>\n<li>Etape 4.ter. Calculer la similitude (ou la distance) entre les mots. Nous utilisons la similitude de Mountford comme l\u2019indice de similitude par d\u00e9faut.<\/li>\n<\/ul>\n<p>Ces \u00e9tapes co\u00efncident avec les fonctionnalit\u00e9s int\u00e9gr\u00e9es dans Iramuteq. Pour plus de flexibilit\u00e9, nous utilisons Python \u00e0 partir du r\u00e9sultat de l\u2019\u00e9tape 3 pour remplacer le nombre d\u2019occurrences par la m\u00e9thode TF-IDF (<em>Term Frequency-Inverse Document Frequency<\/em>) afin de mettre en avant l\u2019importance d\u2019un mot relativement au corpus.<\/p>\n<h3>Visualisation<\/h3>\n<p>Nous utilisons diff\u00e9rents outils pour visualiser les r\u00e9sultats des \u00e9tapes pr\u00e9c\u00e9dentes. D\u2019une mani\u00e8re g\u00e9n\u00e9rale, nous utilisons Gephi pour dessiner un graphe; Iramuteq pour le r\u00e9sultat du regroupement des mots, puis Python et Excel quand il s\u2019agit d\u2019une courbe. La courbe de fr\u00e9quence du mot \u00ab?neutralit\u00e9?\u00bb \u00e0 travers la p\u00e9riode de Guerre froide permet de voir la corr\u00e9lation entre la fr\u00e9quence d\u2019\u00e9vocation du mot \u00ab neutralit\u00e9 \u00bb et les \u00e9v\u00e9nements majeurs. Le graphe de similitude et le regroupement se concentrent plus sur la relation entre le mot \u00ab neutralit\u00e9 \u00bb et les autres mots-cl\u00e9s tels que la \u00ab s\u00e9curit\u00e9 \u00bb, le \u00ab commerce \u00bb, etc. Cette analyse permet de d\u00e9crire le contexte historique o\u00f9 les enjeux sont repr\u00e9sent\u00e9s par des mots, puis de situer la neutralit\u00e9 dans ce contexte. Nous nous attendons \u00e0 ce que l\u2019importance de ces th\u00e8mes varie au fil du temps.<\/p>\n<h3>Difficult\u00e9s rencontr\u00e9es<\/h3>\n<p>Les outils informatiques permettent de traiter un nombre gigantesque de donn\u00e9es. Mais le r\u00e9sultat obtenu est souvent difficile \u00e0 interpr\u00e9ter et sa qualit\u00e9?d\u00e9pend beaucoup de celle des donn\u00e9es. Cela est d\u2019autant plus vrai pour notre analyse historique \u00e0 base des journaux num\u00e9ris\u00e9s.<\/p>\n<p>Du c\u00f4t\u00e9 des donn\u00e9es, la source contient des mots inexistants dus \u00e0 l\u2019imperfection du programme de reconnaissance optique de caract\u00e8re (OCR). A cause des mots coup\u00e9s et des caract\u00e8res mal reconnus, il est tr\u00e8s difficile, voire impossible de faire une analyse au niveau de la phrase. Afin d\u2019\u00e9viter ce probl\u00e8me, nous abandonnons la structure de phrase en transformant tous les textes en ensembles de mots non-ordonn\u00e9s. Nous utilisons ensuite Iramuteq pour enlever les hapax &#8211; c\u2019est-\u00e0-dire les formes qui n\u2019apparaissent qu\u2019une fois dans le corpus &#8211; et lemmatiser tous les mots. Cette proc\u00e9dure permet de r\u00e9duire notre base de donn\u00e9es \u00e0 des mots actifs (sans bruits, sans articles, etc.) facilitant les analyses. Cependant, certains mots ont perdu leur valeur apr\u00e8s ce traitement. Par exemple, nous ne distinguons plus \u00ab?unir?\u00bb et \u00ab?Unis?\u00bb. Ce dernier, en majuscule, est uniquement employ\u00e9 avec \u00ab?les Etats-Unis?\u00bb, mais est maintenant consid\u00e9r\u00e9 comme un verbe. Par ailleurs, nous constatons que certains mots mal orthographi\u00e9s restent dans le corpus, car la m\u00eame erreur peut se produire \u00e0 plusieurs reprises.<\/p>\n<p>En g\u00e9n\u00e9ral, l\u2019ensemble des mots que nous obtenons \u00e0 la sortie du traitement mentionn\u00e9 est d\u2019une qualit\u00e9 satisfaisante. Les mots importants y figurent tous, malgr\u00e9 un potentiel changement du sens et quelques bruits autour. Une autre difficult\u00e9, du c\u00f4t\u00e9 de l\u2019analyse, est le choix des algorithmes et des m\u00e9thodes de visualisation. Par exemple, nous utilisons la similitude de Mountford \u00e0 la place de la m\u00e9thode par d\u00e9faut, la cooccurrence. La cooccurrence telle qu\u2019elle est d\u00e9finie dans Iramuteq favorise le lien entre n\u2019importe quel mot et un mot courant tel que la \u00ab Suisse \u00bb, tandis que la similitude de Mountford s\u2019oppose \u00e0 l\u2019apparition de ces mots courants. Avant d\u2019arriver \u00e0 ce choix, nous avons test\u00e9 plusieurs possibilit\u00e9s. Celui de Mountford a \u00e9t\u00e9 choisi en conciliant le temps de calcul et le r\u00e9sultat obtenu. A noter aussi que la similitude mesur\u00e9e par ces simples formules math\u00e9matiques ne correspond pas toujours \u00e0 une vraie similitude dans un texte. Nous avons choisi ce qui nous apparaissait le plus intuitif, mais il se peut que d\u2019autres mesures fonctionnent aussi.<\/p>\n<p>Le choix du param\u00e8tre pour la visualisation pose un probl\u00e8me similaire. Le graphe construit par Iramuteq n\u2019est pas forc\u00e9ment un graphe g\u00e9om\u00e9trique, par cons\u00e9quent un tel graphe ne peut pas se dessiner sur un plan traditionnel. Nous utilisons principalement les modes <em>ForceAtlas2<\/em> et <em>OpenOrd<\/em> de Gephi pour r\u00e9soudre ce probl\u00e8me en rempla\u00e7ant les contraintes strictes sur la longueur des ar\u00eates par la force de r\u00e9pulsion. Il est difficile d\u2019\u00e9valuer la diff\u00e9rence entre la nouvelle distance entre les mots et la distance dans le graphe original, mais ces m\u00e9thodes permettent de visualiser les diff\u00e9rents groupes de n\u0153uds [Martin et al. (2011), <em>OpenOrd: An Open-Source Toolbox for Large Graph Layout<\/em>, SPIE Conference on Visualization and Data Analysis (VDA).] [Jacomy et al. (2011). <em>Forceatlas2, a continuous graph layout algorithm for handy network visualization<\/em>. Medialab center of research, 560.]\n<p style=\"text-align: right\"><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/traitement-mediatique-de-la-neutralite-suisse\/resultats\/\">-&gt;<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduction \u00b7 Corpus \u00b7 M\u00e9thodologie \u00b7 R\u00e9sultats \u00b7 Interpr\u00e9tation \u00b7 Avantages et limites \u00b7 Conclusion Les trois corpus que nous avons pr\u00e9sent\u00e9s pr\u00e9c\u00e9demment sont riches en nombre d\u2019articles. L\u2019analyse de texte individuelle prendrait un temps cons\u00e9quent. Nous pr\u00e9sentons dans cette<\/p>\n","protected":false},"author":1001264,"featured_media":0,"parent":138,"menu_order":1,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"class_list":["post-223","page","type-page","status-publish"],"_links":{"self":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/223","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/users\/1001264"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/comments?post=223"}],"version-history":[{"count":0,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/223\/revisions"}],"up":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/138"}],"wp:attachment":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/media?parent=223"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}