{"id":263,"date":"2017-05-24T18:16:31","date_gmt":"2017-05-24T16:16:31","guid":{"rendered":"http:\/\/wp.unil.ch\/histoireparlesdonnees\/?page_id=263"},"modified":"2017-05-24T18:30:06","modified_gmt":"2017-05-24T16:30:06","slug":"corpus-et-methodologie","status":"publish","type":"page","link":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/corpus-et-methodologie\/","title":{"rendered":"Corpus et m\u00e9thodologie"},"content":{"rendered":"<ul>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/\">Introduction<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/contexte\/\">Contexte<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/corpus-et-methodologie\/\">Corpus et m\u00e9thodologie<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/resultats-et-visualisation\/\">R\u00e9sultats et visualisation<\/a><\/li>\n<li><a href=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/les-travaux\/evolution-linguistique-du-debat-public-autour-de-limmigration-en-suisse\/conclusion\/\">Conclusion<\/a><\/li>\n<\/ul>\n<h2>Donn\u00e9es<\/h2>\n<p>Les sources mises \u00e0 notre disposition, les archives num\u00e9ris\u00e9es de la Gazette de Lausanne et du Journal de Gen\u00e8ve jusqu\u2019en 1998, constituent notre fen\u00eatre sur le d\u00e9bat public engendr\u00e9 par ces divers \u00e9v\u00e8nements. En plus de contenir des articles parlant pr\u00e9cis\u00e9ment des initiatives en cours, ces archives sont un reflet de la soci\u00e9t\u00e9 romande tout au long de la p\u00e9riode qui nous int\u00e9resse. On y constate par exemple (<em>cf.<\/em> graphique ci-dessous) que les maximas du nombre d\u2019occurrences du terme <em>immigration<\/em>, et donc le nombre d\u2019articles en parlant, semblent correspondre \u00e0 des p\u00e9riodes de r\u00e9elle augmentation de l\u2019immigration.<\/p>\n<figure id=\"attachment_298\" aria-describedby=\"caption-attachment-298\" style=\"width: 821px\" class=\"wp-caption aligncenter\"><img alt=\"\" loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-298\" src=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig2.png\" alt=\"\" width=\"821\" height=\"300\" srcset=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig2.png 821w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig2-300x110.png 300w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig2-768x281.png 768w\" sizes=\"auto, (max-width: 821px) 100vw, 821px\" \/><figcaption id=\"caption-attachment-298\" class=\"wp-caption-text\">Immigration, \u00e0 gauche, et occurrence du terme immigration, \u00e0 droite<\/figcaption><\/figure>\n<p>En outre, ces donn\u00e9es exhibent une caract\u00e9ristique qui nous int\u00e9resse particuli\u00e8rement, celle de l\u2019\u00e9volution de leur vocabulaire. Elles ne pr\u00e9sentent donc pas seulement une image factuelle de leur \u00e9poque, mais aussi lexicale. Notre travail s\u2019appuiera sur cette particularit\u00e9 de nos sources.<\/p>\n<p>&nbsp;<\/p>\n<h2>M\u00e9thodologie<\/h2>\n<p>Le but de notre travail \u00e9tant d\u2019analyser la d\u00e9rive linguistique des articles li\u00e9s \u00e0 l\u2019immigration en Suisse, nous essayerons de reproduire la m\u00e9thode d\u00e9velopp\u00e9e par Vincent Buntinx au DHLab de l\u2019EPFL, mais uniquement sur un sous-ensemble d\u2019articles et non pas sur toutes les archives.<\/p>\n<p>Il s\u2019agit donc dans un premier temps d\u2019identifier le sous-ensemble d\u2019articles traitant de notre th\u00e8me. La difficult\u00e9 de cette \u00e9tape sera de d\u00e9terminer exactement les crit\u00e8res de s\u00e9lection, ou non, d\u2019un article. La recherche par mot-cl\u00e9, <em>i.e.<\/em> collectionner tous les articles contenant, par exemple, le mot <em>immigration<\/em>, sera privil\u00e9gi\u00e9e. De tels mots-cl\u00e9s devront \u00eatre choisis de mani\u00e8re \u00e0 minimiser leur d\u00e9pendance \u00e0 une p\u00e9riode pr\u00e9cise et devront \u00eatre assez g\u00e9n\u00e9raux pour ne pas introduire de biais dans l\u2019ensemble s\u00e9lectionn\u00e9. Comme notre approche est plus quantitative que qualitative, la taille du corpus ainsi constitu\u00e9 ne sera pas un obstacle.<\/p>\n<p>Une fois les donn\u00e9es choisies, elles seront analys\u00e9es pour en extraire ce que Buntinx appelle leur <em>noyau lexical<\/em>, et ce pour chaque ann\u00e9e. Il sera ainsi possible de d\u00e9terminer l\u2019\u00e9volution de ce noyau et de d\u00e9couvrir si celle-ci est influenc\u00e9e par le vocabulaire utilis\u00e9 par les initiatives populaires.<\/p>\n<p>&nbsp;<\/p>\n<h2>Elaboration de notre corpus<\/h2>\n<p>La premi\u00e8re \u00e9tape est de filtrer les articles afin de ne garder que ceux qui traitent de l\u2019immigration en Suisse. Apr\u00e8s avoir restreint la p\u00e9riode d\u2019int\u00e9r\u00eat aux ann\u00e9e 1950-1998, nous avons cherch\u00e9 \u00e0 mettre en place un crit\u00e8re de s\u00e9lection des articles. Ceci a \u00e9t\u00e9 fait de mani\u00e8re exp\u00e9rimentale, en partant de la tactique na\u00efve consistant \u00e0 garder tous les articles contenant le mot \u00ab\u00a0immigration\u00a0\u00bb, puis en raffinant petit \u00e0 petit le filtre.<\/p>\n<p>Afin de pouvoir proc\u00e9der par it\u00e9rations, chaque nouveau filtre n\u2019\u00e9tait appliqu\u00e9 et \u00e9valu\u00e9 que sur un \u00e9chantillon de 15&#8217;000 articles s\u00e9lectionn\u00e9s au hasard dans l\u2019entier de l\u2019archive. Cela nous a permis d\u2019\u00e9viter le temps de calcul consid\u00e9rable n\u00e9cessaire au filtrage de la totalit\u00e9 des donn\u00e9es.<\/p>\n<p>La proc\u00e9dure finale consiste d\u2019abord \u00e0 contr\u00f4ler qu&#8217;un article contient le mot \u00ab\u00a0suisse\u00a0\u00bb puis de ne garder un tel article que s\u2019il contient au moins douze instances d\u2019un mot de la liste de mots-cl\u00e9s suivantes\u00a0:<\/p>\n<p>Apatride, assimilation, naturalisation, sans papier, immigration, \u00e9tranger, saisonnier, r\u00e9fugi\u00e9, asile, x\u00e9nophobe, int\u00e9gration, raciste, clandestin, indig\u00e8ne, travailleur \u00e9tranger (ainsi que leurs variations de singulier\/pluriel et de genre).<\/p>\n<figure id=\"attachment_413\" aria-describedby=\"caption-attachment-413\" style=\"width: 910px\" class=\"wp-caption aligncenter\"><img alt=\"\" loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-413\" src=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig34.png\" alt=\"\" width=\"910\" height=\"315\" srcset=\"https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig34.png 910w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig34-300x104.png 300w, https:\/\/wp.unil.ch\/histoireparlesdonnees\/files\/2017\/05\/03_fig34-768x266.png 768w\" sizes=\"auto, (max-width: 910px) 100vw, 910px\" \/><figcaption id=\"caption-attachment-413\" class=\"wp-caption-text\">Nombre et distribution des articles li\u00e9s \u00e0 l&#8217;immigration<\/figcaption><\/figure>\n<p>Nous avons finalement obtenu un corpus constitu\u00e9 de 2786 articles. Malgr\u00e9 la pr\u00e9sence de certains articles peu coh\u00e9rents avec notre sujet, la construction du filtre par it\u00e9ration offre une bonne garantie de la l\u00e9gitimit\u00e9 de ce corpus. Si le filtre ne fonctionnait pas, les courbes des deux graphiques ci-dessus se ressembleraient plus.<\/p>\n<h2>M\u00e9thodologie digitale<\/h2>\n<p>Avant d\u2019appliquer la m\u00e9thode introduite plus haut \u00e0 notre corpus, nous avons d\u00e9cid\u00e9 de retirer du texte une liste de mots tr\u00e8s communs (articles, pr\u00e9positions, etc.) afin de r\u00e9duire la part de bruit dans nos donn\u00e9es.<\/p>\n<p>Dans le but de d\u00e9terminer la mani\u00e8re dont le langage utilis\u00e9 dans les articles li\u00e9s \u00e0 l\u2019immigration \u00e9volue d\u2019une ann\u00e9e \u00e0 l\u2019autre, nous avons d\u00fb choisir une notion de distance linguistique entre deux ensembles de textes. L\u2019id\u00e9e sur laquelle nous nous sommes concentr\u00e9s est celle de <em>noyau lexical<\/em> et de la distance entre noyaux, qui permet selon Buntinx d\u2019obtenir une bonne repr\u00e9sentation de la d\u00e9rive linguistique.<\/p>\n<p>Le <em>noyau lexical K<sub>x,y<\/sub><\/em> d\u2019un corpus de texte entre l\u2019ann\u00e9e <em>x <\/em>et <em>y <\/em>est l\u2019ensemble des mots apparaissant au moins une fois chaque ann\u00e9e entre l\u2019ann\u00e9e <em>x <\/em>et l\u2019ann\u00e9e <em>y.<\/em> De plus, les mots sont ordonn\u00e9s dans le noyau par leur fr\u00e9quence dans le texte entier. Une fois le noyau obtenu, la distance entre deux ann\u00e9es dans le corpus devient une fonction de la diff\u00e9rence de l\u2019ordre des mots d\u2019une ann\u00e9e \u00e0 l\u2019autre. L\u2019\u00e9valuation des distances entre ann\u00e9es est pr\u00e9sent\u00e9e dans la prochaine section.<\/p>\n<p>Dans un deuxi\u00e8me temps, nous avons d\u00e9cid\u00e9 de comparer non pas les distances telles que Buntinx les d\u00e9finit mais la taille m\u00eame des noyaux (nombres de mots), afin de mieux observer les \u00e9volutions locales du langage. Nous avons donc essay\u00e9 de mieux capturer le vocabulaire d\u2019une p\u00e9riode en calculant pour chaque ann\u00e9e le noyau entre celle-ci et les cinq ann\u00e9es suivantes. Nous postulons que les diff\u00e9rences de taille entre ces noyaux de cinq ans constituent une bonne repr\u00e9sentation de la vitesse des changements linguistiques dans cette r\u00e9gion temporelle.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduction Contexte Corpus et m\u00e9thodologie R\u00e9sultats et visualisation Conclusion Donn\u00e9es Les sources mises \u00e0 notre disposition, les archives num\u00e9ris\u00e9es de la Gazette de Lausanne et du Journal de Gen\u00e8ve jusqu\u2019en 1998, constituent notre fen\u00eatre sur le d\u00e9bat public engendr\u00e9 par<\/p>\n","protected":false},"author":1001264,"featured_media":0,"parent":91,"menu_order":1,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"class_list":["post-263","page","type-page","status-publish"],"_links":{"self":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/263","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/users\/1001264"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/comments?post=263"}],"version-history":[{"count":0,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/263\/revisions"}],"up":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/pages\/91"}],"wp:attachment":[{"href":"https:\/\/wp.unil.ch\/histoireparlesdonnees\/wp-json\/wp\/v2\/media?parent=263"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}