Traitement informatique

??Nous avons, dans un premier temps, téléchargé tous les textes pour les années choisies. Une fois les articles récupérés, il a fallu les filtrer pour ne conserver que ceux qui nous intéressent. Pour ce faire, nous avons automatisé le filtrage à l’aide d’un script (en python), c’est à dire un programme qui permet de manipuler les fichiers. Il parcourt les articles à la recherche de mots-clés. Du fait de la transcription de mots asiatiques en alphabet latin, les mots-clés pour le filtrage ont été sélectionnés en tenant compte des différentes latinisations possibles. C’est pourquoi nous avons choisi les mots-clés ‘’Vietnam’’, ‘’Viêtnam’’, ‘’Viet Nam’’ et ‘’Viêt Nam’’ pour la Guerre du Vietnam. Lorsqu’un article est sélectionné, son contenu est directement ajouté à un fichier texte et formaté de façon à être interprétable par le logiciel de traitement de corpus utilisé, Iramuteq, notamment en retirant tous les symboles «*» présents. Enfin, pour permettre une interprétation plus poussée des corpus, nous avons réalisé un second script qui parcourt les articles sélectionnés et remplace toutes les occurrences de «Vietnam du Sud» par «Vietnam_du_sud», «Corée du nord» par «Corée_du_nord», etc. Nous avons ainsi obtenu quatre corpus, un par journal et par guerre.

??Dans le but d’analyser ce corpus d’articles, nous avons utilisé le logiciel Iramuteq se fondant sur le logiciel de traitement statistique R. Cette méthode est basée sur la décomposition de chaque article en segments de plus petites tailles plus faciles à traiter. Les mots de chaque segment sont ensuite lemmatisés. Un traitement statistique est appliqué aux segments de texte de façon à les regrouper en classes qui sont ensuite hiérarchisées de manière descendante. Les dendrogrammes des classes sont présents en pièces jointes par souci de lisibilité. Pour notre étude, nous avons utilisé l’analyse de similitudes de façon à visualiser les liens entre les mots dans chaque classe en utilisant la cooccurrence. Plus l’indice de cooccurrence est élevé, plus les mots apparaissent ensemble dans les mêmes segments de classes de chaque classe. Ces indices de cooccurrence seront ensuite exportés de façon à les visualiser grâce au logiciel Gephi.

??Nous avons ensuite analysé nos différentes classes à l’aide du logiciel Gephi. Ce logiciel d’analyse et de visualisation de réseaux nous a permis d’obtenir des graphes exposant les relations entre les différents mots utilisés au sein du corpus. Pour cela, nous avons utilisé les graphes d’analyse de similitudes réalisés via Iramuteq. Nous avons exporté ces graphes sur le logiciel Gephi. Nous leur avons appliqué l’algorithme Force Atlas 2, qui permet l’optimisation d’un graphe de façon rapide et précise. Les visualisations obtenues permettent une analyse différente de celle de la répartition par classes de la méthode Reinert. Elles révèlent la proximité de différents mots issus d’une même classe.

??Au cours de notre analyse sur le corpus de la Guerre de Corée, nous nous sommes aperçus que les articles contenant le mot «?décorée?» ont également été sélectionnés même s’il n’avait pas de lien avec le conflit. Cependant, nous avons choisi de ne pas exclure ces articles, étant donné que la classification Reinert regroupe les segments de textes similaires, tous les segments de textes contenant «?décorée?» ont été regroupé dans une classe indépendante des autres. En effet, il y avait un risque de supprimer des articles utiles à notre analyse (par exemple contenant les mots «?nordcoréen?»).