Méthodologie

Choix des articles du corpus

En ce qui concerne la méthodologie utilisée, plusieurs corpus représentant chacun des acteurs grâce à des mots clés (c.f. Annexe) ont été constitués. Ces mots clés sont choisis de manière à représenter les acteurs de la manière la plus objective possible. Les différents corpus ainsi constitués Les différents corpus ainsi constitués sont composés de:

  • Le féminisme : 100% des articles contenant au moins un des mots clés correspondants, soit 3480 articles.
  • Les mouvements féministes : 100%, soit 316 articles dont 291 dans l’intersection.
  • L’État : 8%, soit 12 839 articles dont 592 dans l’intersection.
  • Les partis politiques : 16%, soit 14 260 articles dont 481 dans l’intersection.
  • Les entreprises : 9%, soit 12 226 articles dont 292 dans l’intersection.
  • Les personnalités publiques : 8%, soit 9 807 articles dont 332 dans l’intersection.
  • Les médias : 8%, soit 13 325 articles dont 622 dans l’intersection.

Pour quelques corpus, le nombre d’article était trop grand pour que Iramuteq fonctionne dans un temps raisonnable, il a donc été nécessaire de prendre qu’une partie de ces articles pour former les corpus. Les pourcentages mentionnés représentent la partie des articles qui ont été pris en compte pour la formation de chaque corpus.

Le but est dans un premier temps de constituer des corpus les plus inclusifs possibles sur chacun des acteurs, avant de créer autant de sous-corpus en faisant à chaque fois une intersection avec le corpus Féminisme.

Analyse quantitative

Cela permettra de faire des analyses générales par thème pour contextualiser chaque sujet avant de chercher s’il y a des différences notables quand, uniquement des articles parlant du féminisme sont considérés. Ces sous-corpus permettront ensuite de chercher à caractériser la perception des relations de chaque acteur avec le féminisme.

Une fois ces corpus créés, une analyse quantitative selon trois méthodes sera faite. La première, une analyse fréquentielle du nombre d’articles par corpus par rapport au temps, permettra de comparer plus précisément ces corpus et de remarquer des situations potentiellement intéressantes. Une seconde analyse aura la forme d’un topic modelling (analyse de Reinert) afin de mettre en évidence les thèmes principaux de chaque corpus. La dernière analyse sera une étude de sentiments qui permettra de déterminer le sentiment général d’un texte ou d’un corpus ainsi que sa positivité et sa négativité.

Sentiment Analysis

Cette analyse vise à donner à chaque texte un score indiquant le niveau de joie, de tristesse, de dégoût ou de colère en utilisant une base de données de mots de vocabulaire à connotation. De plus cette méthode permet de déterminer si le texte est positif ou négatif en utilisant le même procédé.

Un classificateur Naive Bayes a été entraîné sur un jeu de donnée FEEL (French Expanded Emotion Lexicon) puis utilisé pour extraire la polarité sentimental des articles.

Toutefois, une analyse qualitative des scores a démontré les faiblesses de cette méthode. Les articles ont en effet des scores trop similaires, ce qui rend ces derniers inutilisables de même que l’étude de leur variance.

La méthode d’analyse sentimentale quantitative a donc été mise de côté pour l’analyse de nos hypothèses.

< >