Méthodologie - L'histoire par les données

Introduction · Corpus · Méthodologie · Résultats · Interprétation · Avantages et limites · Conclusion

Les trois corpus que nous avons présentés précédemment sont riches en nombre d’articles. L’analyse de texte individuelle prendrait un temps conséquent. Nous présentons dans cette partie quelques outils informatiques et les méthodes que nous utilisons pour analyser ces corpus. Nous soulignons ensuite, les difficultés que nous avons rencontrées suivies des visualisations obtenues.

Nous disposons de quatre outils informatiques pour effectuer notre analyse : Iramuteq, un logiciel dédié au traitement du langage naturel en français ; Gephi, un outil de visualisation des graphes?; Excel, un logiciel tableur?; Python, un langage de programmation avec un large panel d’outils de calcul scientifique.

A l’aide de ces outils informatiques, nous construisons notre analyse en trois parties : l’extraction des données brutes, le traitement du texte et la visualisation. Nous extrayons d’abord les textes qui nous intéressent et les attributs associés de l’archive du Temps. Puis, nous utilisons Iramuteq et Python pour filtrer les erreurs d’OCR, lemmatiser le corpus, regrouper les segments de texte et évaluer la similitude entre les mots. Nous utilisons ensuite Gephi et Excel pour afficher le graphe de similitude ou tracer les courbes d’évolution d’une manière plus claire et esthétique afin de faciliter notre analyse interprétative.

Extraction des données

Nous extrayons les articles qui nous intéressent de l’archive du Temps suivant le critère imposé par chaque corpus. Ces trois corpus contiennent non seulement les textes, mais aussi des attributs tels que la date de publication et le numéro de la page sur laquelle figure l’article. Ces attributs peuvent être utilisés par la suite pour définir un certain nombre de sous-corpus. Par exemple, nous pouvons cibler différents événements historiques en nous limitant à certaines dates.

Analyse des données

Nous utilisons ensuite Iramuteq pour effectuer les tâches suivantes :

Etape 1. Décomposer les textes en segments de texte ou en mots (tokenizer)
Etape 2. Lemmatiser les mots (à l’infinitif pour les verbes, en majuscule singulier pour les noms et les adjectifs)
Etape 3. Compter le nombre d’occurrences des mots pour tous les mois ou toutes les années
Etape 4. Regrouper les segments de texte afin de retrouver les grands thèmes abordés par les articles
Etape 4.bis. Calculer la valeur ?² de chaque groupe de mots à chaque année (et à chaque mois)
Etape 4.ter. Calculer la similitude (ou la distance) entre les mots. Nous utilisons la similitude de Mountford comme l’indice de similitude par défaut.

Ces étapes coïncident avec les fonctionnalités intégrées dans Iramuteq. Pour plus de flexibilité, nous utilisons Python à partir du résultat de l’étape 3 pour remplacer le nombre d’occurrences par la méthode TF-IDF (Term Frequency-Inverse Document Frequency) afin de mettre en avant l’importance d’un mot relativement au corpus.

Visualisation

Nous utilisons différents outils pour visualiser les résultats des étapes précédentes. D’une manière générale, nous utilisons Gephi pour dessiner un graphe; Iramuteq pour le résultat du regroupement des mots, puis Python et Excel quand il s’agit d’une courbe. La courbe de fréquence du mot «?neutralité?» à travers la période de Guerre froide permet de voir la corrélation entre la fréquence d’évocation du mot « neutralité » et les événements majeurs. Le graphe de similitude et le regroupement se concentrent plus sur la relation entre le mot « neutralité » et les autres mots-clés tels que la « sécurité », le « commerce », etc. Cette analyse permet de décrire le contexte historique où les enjeux sont représentés par des mots, puis de situer la neutralité dans ce contexte. Nous nous attendons à ce que l’importance de ces thèmes varie au fil du temps.

Difficultés rencontrées

Les outils informatiques permettent de traiter un nombre gigantesque de données. Mais le résultat obtenu est souvent difficile à interpréter et sa qualité?dépend beaucoup de celle des données. Cela est d’autant plus vrai pour notre analyse historique à base des journaux numérisés.

Du côté des données, la source contient des mots inexistants dus à l’imperfection du programme de reconnaissance optique de caractère (OCR). A cause des mots coupés et des caractères mal reconnus, il est très difficile, voire impossible de faire une analyse au niveau de la phrase. Afin d’éviter ce problème, nous abandonnons la structure de phrase en transformant tous les textes en ensembles de mots non-ordonnés. Nous utilisons ensuite Iramuteq pour enlever les hapax – c’est-à-dire les formes qui n’apparaissent qu’une fois dans le corpus – et lemmatiser tous les mots. Cette procédure permet de réduire notre base de données à des mots actifs (sans bruits, sans articles, etc.) facilitant les analyses. Cependant, certains mots ont perdu leur valeur après ce traitement. Par exemple, nous ne distinguons plus «?unir?» et «?Unis?». Ce dernier, en majuscule, est uniquement employé avec «?les Etats-Unis?», mais est maintenant considéré comme un verbe. Par ailleurs, nous constatons que certains mots mal orthographiés restent dans le corpus, car la même erreur peut se produire à plusieurs reprises.

En général, l’ensemble des mots que nous obtenons à la sortie du traitement mentionné est d’une qualité satisfaisante. Les mots importants y figurent tous, malgré un potentiel changement du sens et quelques bruits autour. Une autre difficulté, du côté de l’analyse, est le choix des algorithmes et des méthodes de visualisation. Par exemple, nous utilisons la similitude de Mountford à la place de la méthode par défaut, la cooccurrence. La cooccurrence telle qu’elle est définie dans Iramuteq favorise le lien entre n’importe quel mot et un mot courant tel que la « Suisse », tandis que la similitude de Mountford s’oppose à l’apparition de ces mots courants. Avant d’arriver à ce choix, nous avons testé plusieurs possibilités. Celui de Mountford a été choisi en conciliant le temps de calcul et le résultat obtenu. A noter aussi que la similitude mesurée par ces simples formules mathématiques ne correspond pas toujours à une vraie similitude dans un texte. Nous avons choisi ce qui nous apparaissait le plus intuitif, mais il se peut que d’autres mesures fonctionnent aussi.

Le choix du paramètre pour la visualisation pose un problème similaire. Le graphe construit par Iramuteq n’est pas forcément un graphe géométrique, par conséquent un tel graphe ne peut pas se dessiner sur un plan traditionnel. Nous utilisons principalement les modes ForceAtlas2 et OpenOrd de Gephi pour résoudre ce problème en remplaçant les contraintes strictes sur la longueur des arêtes par la force de répulsion. Il est difficile d’évaluer la différence entre la nouvelle distance entre les mots et la distance dans le graphe original, mais ces méthodes permettent de visualiser les différents groupes de nœuds [Martin et al. (2011), OpenOrd: An Open-Source Toolbox for Large Graph Layout, SPIE Conference on Visualization and Data Analysis (VDA).] [Jacomy et al. (2011). Forceatlas2, a continuous graph layout algorithm for handy network visualization. Medialab center of research, 560.]