L’URSS de Brejnev vue par les médias suisses
Afin d’effectuer une recherche pertinente et efficace, la base de données, constituée des archives de la Gazette de Lausanne et du Journal de Genève, doit être restreinte en accord avec le contexte historique. Ainsi, seuls les articles parus entre 1962 et 1984 sont pris en compte dans notre analyse. Ils correspondent respectivement à la montée au pouvoir de Brejnev et aux années qui suivent sa mort.?Evidemment, toutes les données présentes dans notre corpus ne concernent pas notre sujet et ne sont donc pas utiles. Un filtre à base de mots-clés lui est appliqué afin d’en extraire les articles pertinents. Différents dictionnaires doivent être définis afin de correspondre au mieux aux aspects étudiés. Une série de mots, ni exhaustive ni optimale, peut être établie pour certains sujets grâce à une analyse historique préalable:
- Prague
- Prague, Tchécoslovaquie, tchèque, Dubcek, Novotny, socialisme à visage humain, 1968 [7]
- Afghanistan
- Afghanistan, PDPA (People’s Democratic Party of Afghanistan, créé à l’époque), Bhutto, Taraki, Amin (principaux acteurs (Ouimet 2003)), Chtorm-333 (nom de l’opération), Borissov, Sokolov (principaux généraux durant l’invasion)
- Traités
- désarmement, SALT, Helsinki, non prolifération [9]
- Personnages
- Brejnev, Kossyguine, Sakharov, Andropov, Soljénitsyne, Dubcek, Novotny, Kennedy, Lyndon B. Johnson, Richard M. Nixon, Gerald R. Ford, Jimmy Carter, Ronald Reagan, Conseillers Fédéraux Suisse
Différents critères sont utilisés lors du filtrage et adaptés en fonction de la qualité des résultats donnés par une analyse sémantique. En voici une liste approximative :
- « contenir au moins un mot du dictionnaire » ; Fig 1,2
- « contenir tous les mots du dictionnaire au moins une fois »
- « contenir au moins X fois un mot appartenant au dictionnaire »
- « contenir au moins un mot de chaque dictionnaire » (si plusieurs dictionnaires); Fig 3
De plus, les textes acceptés sont identifiés par plusieurs attributs qui permettent d’affiner leur analyse : la date de publication de l’article, le journal d’origine et le numéro de la page où l’article apparaît.
Une méthode complémentaire à la recherche par mots-clés consiste à donner un poids à chaque article du corpus en fonction de sa pertinence vis-à-vis des mots-clés choisis (e.g nombre de mots-clés trouvés). Puis, d’autres logiciels peuvent filtrer ce nouveau corpus en fonction de cette variable. A la différence de notre premier filtre, tous les articles du corpus sont ici retenus. Ainsi, le résultat est plus complet mais aussi beaucoup plus lourd et long à analyser et trier.