{"id":230,"date":"2017-05-24T17:04:25","date_gmt":"2017-05-24T15:04:25","guid":{"rendered":"http:\/\/wp.unil.ch\/histoireparlesdonnees\/?page_id=230"},"modified":"2023-01-26T11:50:41","modified_gmt":"2023-01-26T10:50:41","slug":"methodologie","status":"publish","type":"page","link":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/limportance-de-la-chine-dans-la-presse-liberale-romande-au-xxe-siecle\/methodologie\/","title":{"rendered":"M\u00e9thodologie"},"content":{"rendered":"<div style=\"background-color: #eee;padding: 20px 20px;margin: 10px;float: right;width: 300px\">\n<h1 style=\"font-size: 20px;line-height: normal\">L\u2019importance de la Chine dans la presse lib\u00e9rale romande au XXe si\u00e8cle<\/h1>\n<ul style=\"margin-bottom: 0;padding-bottom: 0\">\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/limportance-de-la-chine-dans-la-presse-liberale-romande-au-xxe-siecle\/\">Introduction<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/limportance-de-la-chine-dans-la-presse-liberale-romande-au-xxe-siecle\/contexte-historique\/\">Contexte historique<\/a><\/li>\n<li>M\u00e9thodologie digitale<\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/limportance-de-la-chine-dans-la-presse-liberale-romande-au-xxe-siecle\/interpretation-des-resultats\/\">Interpr\u00e9tation des r\u00e9sultats<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/limportance-de-la-chine-dans-la-presse-liberale-romande-au-xxe-siecle\/exemples-articles-indesirables\/\">Exemples d\u2019articles ind\u00e9sirables<\/a><\/li>\n<\/ul>\n<\/div>\n<p><img alt=\"\" decoding=\"async\" class=\"alignright wp-image-257 size-full\" src=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_methdologie.png\" alt=\"\" width=\"406\" srcset=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_methdologie.png 446w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_methdologie-140x300.png 140w\" sizes=\"(max-width: 446px) 100vw, 446px\" \/><\/p>\n<p>Notre m\u00e9thodologie peut se r\u00e9sumer ainsi\u00a0: recherches pr\u00e9liminaires dans les archives pour estimer la taille et la quantit\u00e9 d\u2019information \u00e0 g\u00e9rer, travail d\u2019indexation d\u2019un ensemble cibl\u00e9 d\u2019articles dans une base de donn\u00e9es con\u00e7ue pour ce type de document, recherches d\u00e9taill\u00e9es dans les articles pour constituer un corpus d\u00e9di\u00e9 \u00e0 la Chine, \u00e9tiquetage des articles, analyse quantitative et enfin, r\u00e9alisation de visualisations par rapport aux th\u00e8mes trait\u00e9s.<\/p>\n<h2>Corpus<\/h2>\n<p>La constitution du corpus est la premi\u00e8re \u00e9tape. Apr\u00e8s une br\u00e8ve analyse de l\u2019ensemble des donn\u00e9es avec de simples scripts, cette m\u00e9thode nous a paru impraticable pour obtenir des r\u00e9sultats rapides et affiner de fa\u00e7on incr\u00e9mentale notre base de documents. Nous avons op\u00e9r\u00e9 avec une recherche par mots-cl\u00e9s \u2013 dont la liste est similaire \u00e0 celle pr\u00e9sent\u00e9e plus loin \u2013 sur l\u2019ensemble des articles. Nous en avons obtenu environ 100&#8217;000.<\/p>\n<p>Pour \u00e9valuer la qualit\u00e9 de nos premiers r\u00e9sultats, nous avons appliqu\u00e9 la strat\u00e9gie suivante\u00a0: \u00e0 plusieurs reprises, nous avons choisi cinquante articles au hasard et nous avons relev\u00e9 les articles ind\u00e9sirables pour identifier leurs caract\u00e9ristiques. En annexe figurent des classes typiques trouv\u00e9es avec cette m\u00e9thode.<\/p>\n<h2>Base de donn\u00e9es<\/h2>\n<p>Cette premi\u00e8re analyse nous a donn\u00e9 une vue d\u2019ensemble des articles portant sur notre sujet, mais ne nous a pas permis de les collecter. Afin de faciliter la recherche, nous avons choisi un moteur d\u2019indexation de documents, c\u2019est-\u00e0-dire un logiciel vou\u00e9 \u00e0 recevoir des documents en \u00e9tat brut et \u00e0 les transformer (indexer) dans une repr\u00e9sentation pratique et rapide pour la recherche. Ces transformations peuvent \u00eatre par exemple la lemmatisation \u2013 c\u2019est-\u00e0-dire le fait de ne garder que les racines des mots, de d\u00e9couper les mots en n-grammes (groupes de mots) ou de garder une repr\u00e9sentation phon\u00e9tique des mots \u2013 et la cr\u00e9ation d\u2019annuaires invers\u00e9s \u2013\u00a0une structure qui permet, pour un mot donn\u00e9 de retrouver les articles correspondants.<\/p>\n<p>Concr\u00e8tement, nous avons choisi Elasticsearch pour ce r\u00f4le et avons ins\u00e9r\u00e9 la totalit\u00e9 des articles des archives. Les transformations appliqu\u00e9es aux documents sont les suivantes\u00a0: premi\u00e8rement suppression des \u00e9lisions (par exemple \u00ab\u00a0l\u2019arbre\u00a0\u00bb consid\u00e9r\u00e9 comme \u00ab\u00a0le arbre\u00a0\u00bb par le moteur d\u2019indexation), suppression des caract\u00e8res sp\u00e9ciaux qui ne sont g\u00e9n\u00e9ralement pas utilis\u00e9s \u00e0 la r\u00e9daction pour enlever les artefacts de la reconnaissance optique et, enfin, lemmatisation des entr\u00e9es.<\/p>\n<p>Cette indexation effectu\u00e9e, nous avons pu profiter de la puissance du logiciel pour faire des recherches aussi bien par mots-cl\u00e9s, bool\u00e9ennes (inclure ceci ET pas cela, inclure ceci OU cela) ou par phrase exacte (\u00ab\u00a0R\u00e9volution culturelle\u00a0\u00bb). Nous avons demand\u00e9 les documents qui figuraient parmi l\u2019une des conditions suivantes sur le titre et le contenu (la casse ne compte pas)\u00a0:<\/p>\n<ul>\n<li>Mots-cl\u00e9s\u00a0: Chine, chinois, chinoise, p\u00e9kin, bejing, nankin, changai, shangai, tian&#8217;anmen, tiananmen, guangdong, sichuan, chengdu, wuhan, xiaping, mao, sino, shaoqi<\/li>\n<li>Expressions exactes\u00a0: \u00ab\u00a0R\u00e9volution Culturelle\u00a0\u00bb, \u00ab\u00a0sino-japonais\u00a0\u00bb, \u00ab\u00a0Empire du milieu\u00a0\u00bb, \u00ab\u00a0bande des quatre\u00a0\u00bb, \u00ab\u00a0sino-helv\u00e9tique\u00a0\u00bb<\/li>\n<\/ul>\n<p>Cette requ\u00eate a permis d\u2019obtenir plus de 150&#8217;000 articles. Nos premi\u00e8res recherches \u00e0 l\u2019aide de scripts avaient mis en \u00e9vidence des articles ind\u00e9sirables\u00a0: horaires de magasins, \u00e9v\u00e9nements culturels en Suisse sans rapport avec la Chine, horaires de spectacles ou encore d\u00e9p\u00eaches internationales dont le contenu porte sur beaucoup de sujets, mais dont seule une phrase est r\u00e9serv\u00e9e \u00e0 la Chine. Ces articles \u00e9taient compris dans les r\u00e9sultats de cette requ\u00eate. Pour les omettre, nous avons mis en place deux strat\u00e9gies.<\/p>\n<p>La premi\u00e8re consiste \u00e0 utiliser le score attribu\u00e9 \u00e0 un document par Elasticsearch lors d\u2019une requ\u00eate. Cet indice est calcul\u00e9 \u00e0 partir de trois param\u00e8tres\u00a0: la fr\u00e9quence du terme (le nombre d\u2019apparitions d\u2019un terme recherch\u00e9 dans un document), la fr\u00e9quence inverse (le nombre d\u2019apparitions du terme dans la totalit\u00e9 des documents) et enfin, le nombre de mots total pour une apparition. Par exemple, un terme recherch\u00e9 apparaissant dans un titre de dix mots aura un impact plus important qu\u2019un terme trouv\u00e9 dans un article de plusieurs centaines de mots \u2013\u00a0il s\u2019agit ici de la probabilit\u00e9 que l\u2019article trouv\u00e9 parle du sujet qui nous int\u00e9resse. La seconde est bas\u00e9e sur le filtrage des mauvais articles. Nous avons interrog\u00e9 Elasticsearch avec une requ\u00eate portant sur les articles que nous voulions enlever\u00a0: \u00ab\u00a0d\u00e9p\u00eache\u00bb, \u00ab\u00a0D\u00e9p\u00eaches internationales\u00a0\u00bb (pr\u00e8s de 5&#8217;000 r\u00e9sultats).<\/p>\n<h2>\u00c9tiquetage des articles<\/h2>\n<p>Une fois les articles s\u00e9lectionn\u00e9s, nous mettons en place un \u00e9tiquetage automatique des articles pour la suite du travail\u00a0:<\/p>\n<ul>\n<li>Pr\u00e9sence en Une ou sur la derni\u00e8re page du journal<\/li>\n<li>Pr\u00e9sence de la Suisse dans l\u2019article<\/li>\n<li>Publication (Gazette de Lausanne ou Journal de Gen\u00e8ve)<\/li>\n<li>Ann\u00e9e de publication<\/li>\n<\/ul>\n<p>Suite \u00e0 nos premi\u00e8res exp\u00e9riences avec Iramuteq, nous avons aussi modifi\u00e9 certains articles, par exemple pour repr\u00e9senter \u00ab\u00a0Parti\u00a0\u00bb sous forme de \u00ab\u00a0Parti_Communiste\u00a0\u00bb afin qu\u2019il ne soit pas confondu avec la racine \u00ab\u00a0Partir\u00a0\u00bb. Nous avons proc\u00e9d\u00e9 de mani\u00e8re identique pour \u00ab\u00a0New York\u00a0\u00bb, \u00ab\u00a0\u00c9tats Unis\u00a0\u00bb et \u00ab\u00a0Chine populaire\u00a0\u00bb.<\/p>\n<h2>Analyse de texte<\/h2>\n<p>La derni\u00e8re partie de notre travail m\u00e9thodologique r\u00e9side dans l\u2019analyse des textes. Il s\u2019agit ici de d\u00e9terminer les th\u00e9matiques abord\u00e9es dans la totalit\u00e9 des articles de notre corpus non pas en prenant un article comme unit\u00e9, mais des segments de textes. Ainsi un article peut appartenir \u00e0 plusieurs th\u00e8mes. Nous avons choisi d\u2019utiliser le logiciel Iramuteq car il contenait l\u2019ensemble des outils pour analyser le fran\u00e7ais. Sur la base d\u2019analyses statistiques, le logiciel classe les segments de textes de chaque article en un nombre variable de profils. Le nombre de classes et leur contenu sont enti\u00e8rement d\u00e9termin\u00e9s par la m\u00e9thode de Reinert. Il s\u2019agit d\u2019une approche non supervis\u00e9e car elle n\u2019apprend pas en suivant un exemple donn\u00e9 par un humain. Ensuite, il est possible d\u2019utiliser les \u00e9tiquettes d\u00e9finies pour appliquer ce type d\u2019analyse \u00e0 un ensemble d\u2019articles plus restreints ou pour projeter une classe d\u2019articles dans le temps (\u00e0 travers les ann\u00e9es) ou dans le journal (gr\u00e2ce aux marqueurs de pages). Nous effectuons les analyses suivantes\u00a0: classification du corpus entier, des articles en Une et des articles de derni\u00e8res pages.<\/p>\n<figure><img alt=\"\" loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-274 aligncenter\" src=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_dendogramme.png\" alt=\"\" width=\"339\" height=\"132\" srcset=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_dendogramme.png 339w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/2_dendogramme-300x117.png 300w\" sizes=\"auto, (max-width: 339px) 100vw, 339px\" \/><figcaption>Figure 2 Dendrogramme des classes trouv\u00e9es par Iramuteq<\/figcaption><\/figure>\n<p>Six classes parmi neuf sont retenues pour l\u2019analyse\u00a0: 2 \u00e0 5, 8 et 9. Malgr\u00e9 d\u2019intenses recherches, dont l\u2019analyse des antiprofils, classification comme sous corpus, parcours manuels des segments de textes, nous ne sommes pas parvenus \u00e0 extraire des informations utiles des classes restantes. Ces classes contenaient beaucoup de segments ind\u00e9sirables et de contenu hors sujets.<\/p>\n<h2>Visualisations<\/h2>\n<p>Les visualisations ont \u00e9t\u00e9 r\u00e9alis\u00e9es \u00e0 partir de la classification produite par Iramuteq. Chaque classe retenue est repr\u00e9sent\u00e9e par un graphe mettant en \u00e9vidence l\u2019importance de la relation entre les mots composant les segments de texte. Ainsi, deux mots appartenant \u00e0 une classe figurant souvent c\u00f4te \u00e0 c\u00f4te auront un lien tr\u00e8s important sur le graphe. L\u2019int\u00e9r\u00eat de cette visualisation est non seulement de pr\u00e9senter les th\u00e9matiques, les personnages ou les lieux, mais aussi de repr\u00e9senter des communaut\u00e9s<a id=\"_ftnref1\" href=\"#_ftn1\"><sup>[1]<\/sup><\/a> de mots. Les graphes de classes sont issus de donn\u00e9es brutes mises en forme \u00e0 l\u2019aide du logiciel Gephi. Chaque graphe a re\u00e7u un traitement sp\u00e9cifique pour mettre en valeur les th\u00e9matiques\u00a0: nous avons color\u00e9 les n\u0153uds en nous basant sur une analyse de communaut\u00e9, ajust\u00e9 la taille des n\u0153uds en fonction de leur importance (soit en terme de nombre de liens entrant et sortant ou en nous basant sur les donn\u00e9es brutes fournies par Iramuteq) et nous avons agr\u00e9g\u00e9 les mots similaires qui avaient \u00e9chapp\u00e9 \u00e0 notre filtrage initial. Par exemple, les multiples graphies des lieux et des personnages. Ce regroupement s\u2019est av\u00e9r\u00e9 efficace puisqu\u2019il nous a permis de choisir comment agr\u00e9ger l\u2019importance d\u2019un n\u0153ud dans le graphe. Des n\u0153uds de petite taille figurent intentionnellement autour des sujets importants pour mettre en \u00e9vidence le vocabulaire rattach\u00e9. Enfin, nous avons d\u00e9cid\u00e9 de contextualiser nos diff\u00e9rents graphes en les mettant en perspective avec un histogramme repr\u00e9sentant la p\u00e9riode de temps o\u00f9 ces classes ont \u00e9t\u00e9 consid\u00e9r\u00e9es comme pertinente par l\u2019algorithme. Ces histogrammes sont bas\u00e9s sur les valeurs obtenues \u00e0 partir d\u2019un test statistique \u00a0sur chaque segment de texte. Ces donn\u00e9es sont issues d\u2019Iramuteq. Nous utilisons les \u00e9tiquettes repr\u00e9sentant les ann\u00e9es pour ce test. Les classes seront d\u00e9crites en d\u00e9tail dans la partie suivante.<\/p>\n<p><a id=\"_ftn1\" href=\"#_ftnref1\">[1]<\/a> clustering en anglais<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019importance de la Chine dans la presse lib\u00e9rale romande au XXe si\u00e8cle Introduction Contexte historique M\u00e9thodologie digitale Interpr\u00e9tation des r\u00e9sultats Exemples d\u2019articles ind\u00e9sirables Notre m\u00e9thodologie peut se r\u00e9sumer ainsi\u00a0: recherches pr\u00e9liminaires dans les archives pour estimer la taille et la<\/p>\n","protected":false},"author":1001264,"featured_media":0,"parent":24,"menu_order":10,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"class_list":["post-230","page","type-page","status-publish"],"_links":{"self":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/230","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/users\/1001264"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/comments?post=230"}],"version-history":[{"count":0,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/230\/revisions"}],"up":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/24"}],"wp:attachment":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/media?parent=230"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}