Critiques des méthodes utilisées - L'histoire par les données

Table des matières

D’abord, nous avons dû limiter l’étude dans le temps, pour des raisons de calcul. Nous ne pouvons donc pas continûment observer l’évolution des formes dans les journaux ; or, la vision du conflit peut très bien évoluer en dehors des années de guerre. Aussi, le choix des formes pour la spécificité n’est pas justifié de manière rigoureuse, et dans certains cas nous avons traité des mots qui faisaient partie d’une paire comme séparés, comme « nations » et « unies ». Au niveau des données, nous n’avons pas utilisé toutes les variables à disposition (page, etc.). Enfin, les dates choisies sont espacées de manière irrégulière, et donc les changements d’opinions potentiels s’opèrent sur des intervalles de temps différents.

Dans la partie Machine Learning, il y a plusieurs défauts :

1. Le modèle que nous utilisons a été conçu pour l’analyse des sentiments de textes plus simples, par exemple des critiques de films. Pour les discours plus nuancés comme les analyses géopolitiques, le modèle utilisé est certainement trop simpliste.

2. Le corpus utilisé contient tous les articles contenant au moins une fois les mots « Israël » ou « Palestine ». Le mot « Israël » apparait 5968 fois, « Palestine » n’apparait que 2824 fois. Nous suspectons que le mot « Palestine » est principalement utilisé dans les articles sur le conflit israélo-palestinien (donc à connotation plutôt négative), alors que le mot « Israël » apparait aussi dans des articles plus généraux.