Méthodes numériques

 Recherche par mots-clé par Python

Langage Python, choisi pour sa simplicité et son efficacité.

Dans les détails, un script python s’occupe de parcourir les archives xml à la recherche des mots-clés. Ceux-ci doivent être cités de manière identique dans le texte et le dictionnaire, au caractère près. Une expression contenant plusieurs mots doit ainsi apparaitre dans le même ordre avec tous les mots identiques. Les majuscules ont aussi leur importance et ne sont pas équivalentes aux minuscules. C’est pourquoi la construction des dictionnaires relève d’une grande importance et doit constamment être améliorée grâce à de nouvelles analyses.

Analyse par Iramuteq et Gephi

Logiciel Iramuteq, permet des analyses sémantiques sur notre corpus de texte.

Le résultat de la recherche par mots-clé par Python est mis en forme dans un unique fichier texte lisible par le logiciel Iramuteq (« Logiciel Iramuteq », [11]) qui effectue des analyses sémantiques du corpus. Les principaux apports de ce programme viennent de l’analyse de similitudes et la classification par méthode Reinert ou hiérarchique descendante(CHD). La première permet de rendre compte des liens entre les mots, la dernière regroupe les occurrences de tous les mots en classes, rendant l’étude des textes plus facile.

 

Fig. 5 : Analyse iramuteq utilisant les variables pour extraire ici les articles de première page. Utilisation d’un dictionnaire simple.

 

L’analyse de similitudes deviendra plus précise avec l’affinement des dictionnaires. Graphiquement, le logiciel Gephi (« Logiciel Gephi », [10]) est utilisé pour améliorer leur présentation. De cette manière, les graphiques deviennent plus aérés et un tri des mots les plus pertinents est possible par l’utilisateur.

Fig. 6 : Résultat d’une analyse de similitude par Iramuteq, a) avant et b) après traitement par Gephi. Dictionnaire simple.
Fig 7 : Exemple d’un dictionnaire double qui permet une recherche de corrélations entre les mots « Suisse » et « Brejnev », puis traitement par Gephi.

 

 

Extraction de mots dans un contexte et historique des occurrences

Pour finir la liste des méthodes d’analyse, un autre script python se concentrera, lui, exclusivement sur les occurrences de certains mots. Grâce à l’utilisation d’un dictionnaire principal, le programme est capable de compter les apparitions de certaines expressions seulement lorsqu’elles sont en présence d’un mot du dictionnaire. Il permet ainsi d’analyser des mots communs très récurrents dans les articles mais uniquement lorsqu’ils sont pertinents face au thème recherché. Un exemple peut être le mot « paix », qui apparait dans une multitude de contextes, mais seul celui de l’Union Soviétique nous intéresse. De cette manière, le mot « paix » qui apparaitrait ailleurs sera ignoré, et le résultat final devient analysable comme sur la figure 8.

Fig 8 : Exemple d’extraction de mots dénotant la paix et la coopération. Utilisation d’un dictionnaire simple lié à Brejnev. Les différentes évolutions temporelles sont normalisés et translatées pour une meilleure comparaison.

Comme on peut le voir, la période intermédiaire entre Prague(1968) et le début de la guerre d’Afghanistan(1979) est plus riches en mots

Difficultés

    • Les premières listes de mots-clés furent basées uniquement sur des considérations historiques, il va être capital de pouvoir prouver que tous les événements importants y sont bien représentés. Si nécessaire, quelques adaptations seront effectuées.
    • Le traitement correct des caractères par le script est capricieux : les majuscules par exemple sont différentes de leurs homologues minuscules. Ceci peut être un avantage comme un inconvénient : le programme peut rater certains mots qui auraient mené à un article très pertinent, mais peut aussi différencier certains noms propres de leurs homologues communs.
    • La programmation en python doit être rigoureuse afin de ne pas introduire d’erreurs d’analyse postérieure.
      Le logiciel Iramuteq a parfois du mal à interpréter certaines déclinaisons de mots. Par exemple &laquo parti &raquo de parti communiste, qui apparaît un grand nombre de fois, sera interprété comme une déclinaison du verbe partir, ce qui n’est pas le cas. Une solution possible, qui fut appliquée a certain corpus, est de filtrer ce type de mots dans les scripts python, de les réécrire avec un tiret bas au lieu de l’espace.
    • L’interprétation des analyses sémantiques d’Iramuteq est laissée à l’œ humain. Parfois elle est évidente, parfois elle peut être très compliquée. Comme notre démarche se base beaucoup sur les résultats antérieurs pour les affiner ensuite, cette étape sera très importante.