Méthodologie

Table des matières

 

Afin de répondre à la problématique posée en introduction, nous avons effectué différents types d’analyse sur notre corpus. Nous avons réalisé des analyses quantitatives en utilisant les outils informatiques à notre disposition, principalement Iramuteq, en combinaison avec une analyse plus qualitative en se basant sur les Unes numérisées du site des archives du Temps. Chaque méthode présente ses avantages et ses inconvénients, que nous décrivons ci-dessous.

Nous avons exploité plusieurs approches. Dans un premier temps, nous avons effectué une analyse globale des thèmes traités en Unes et dans le reste des journaux, ceci afin de déterminer quels genre d’informations se retrouvent en Unes et quelles informations ne le sont pas. Nous avons aussi réalisé une comparaison avec d’autres journaux de bords politiques différents, dans le but de déterminer comment l’orientation politique d’un journal influe sur les thèmes traités par celui-ci. Pour ce faire, nous avons comparé le traitement de certains événements précis présents en Une de nos deux journaux libéraux et d’un journal socialiste.

Information sur le corpus

La base de donnée à notre disposition est constituée de la totalité des éditions des journaux la Gazette de Lausanne et le Journal de Genève, en format XML. Ainsi, puisque nous ne travaillons que sur les Unes et durant la seconde moitié du 20e siècle, nous avons commencé par extraire les articles correspondant à ces critères à l’aide d’un script Python. Cela nous donne un corpus composé de 88 millions de mots provenant de 200 000 articles et pesant 3.2 Go. Afin de pouvoir effectuer une analyse quantitative sur l’intégralité de notre période, nous avons réduit la taille de notre corpus en effectuant un échantillonnage: chaque semaine un jour est choisi aléatoirement, afin de minimiser le biais, et uniquement les articles de ce jour sont comptés pour cette semaine. Les articles de moins de 300 mots sont exclus, la grande majorité étant des publicités.  Ceci nous permet de réduire nos données à 11 millions de mots provenant de 17 000 articles. L’échantillonnage d’un jour par semaine divise par sept et l’élagage des petits articles réduit le nombre de mots de 11% et le nombre d’articles de 30%

Analyses statistiques

Afin de déterminer le type de sujets présents habituellement en Unes, nous utilisons la méthode de Reinert fournie par Iramuteq. Cette analyse regroupe les segments de textes par thème, nous permettant de catégoriser les différents articles. Grâce à ces données, nous pouvons non seulement déterminer les principaux thèmes présents en Unes, mais aussi voir quels sont ceux qui sont absents ou peu présents en faisant une comparaison avec le reste du journal. De plus, grâce à ces données, nous pouvons comparer les thèmes présents en Une de chacun de nos journaux.

En croisant ces données avec les dates de publication des articles analysés, nous pouvons mettre en avant l’évolution des thèmes traités en Une. Ces analyses doivent être effectuées en groupant les articles par mois, année, ou même décennie; les données étant trop irrégulières pour pouvoir mener des études sur de plus courtes périodes.

Ces analyses ont été reproduites sur le reste du journal afin de comparer le type d’information présente en Une et dans les autres pages.

 

Résultats intermédiaires

Après avoir effectué une classification hiérarchique descendante sur l’intégralité de nos Unes, nous nous sommes rendu compte qu’un graphique complet n’était pas lisible. Nous l’avons donc découpé en périodes de dix ans et nous avons regroupé les données par mois. Voici un exemple pour les années de 1940 à 1949 (fig. 1).

 

Fig. 1 Méthode de Reinert sur les Unes de la GDL pour les années 1940 à 1949.

 

Les résultats sont très irréguliers et nous pensons qu’il sera difficile de les interpréter tels quels. On remarque toutefois que certains pics sont présent, comme le thème des conflits en septembre 1944. Nous pensons que ce genre de pics peut représenter un événement qui a été beaucoup couvert par la Gazette de Lausanne et avons donc voulu faire une analyse uniquement pour ce mois-ci, cette fois-ci pour tous les jours du mois (fig. 2).

Sur la figure 2, on constate que le nombre de groupes a diminué et aussi que le groupe “Conflit” de la figure 1 a été divisé en deux parties, l’une plus centrée sur la Seconde Guerre mondiale en France et l’autre avec des mots se référant plus à l’URSS et au communisme.

 

Fig. 2 Méthode de Reinert sur les Unes de la GDL, en septembre 1944.

 

L’analyse sur toute notre période nous permet de déterminer des tendances mais pas de déceler de subtiles variations localisées sur de courts intervalles de temps. A partir des graphiques obtenus, nous nous penchons donc sur certains pics afin d’effectuer une analyse plus poussée. Par exemple, on remarque que les 2 et 16 septembre 1944, le groupe que nous avons décidé d’appeler “Libération de la France” est ici largement majoritaire, nous pouvons donc nous baser directement sur les pages scannées correspondantes dans la base de donnée sur le site du Temps, ceci afin de déterminer quels sont le types d’informations qui sont les plus présents en Unes.

De plus, nous avons utilisé plus de classes dans l’interprétation; en effet, la faible quantité de classes utilisées dans les analyses précédentes ne permet pas d’obtenir des résultat assez précis pour en tirer des conclusions.

->