Avantages et limites

Introduction · Corpus · Méthodologie · Résultats · Interprétation · Avantages et limites · Conclusion

Les visualisations que nous avons interprétées dans cet article relèvent de méthodes intuitives basées sur une analyse fréquentielle des mots-clés. En dehors des avantages computationnels, il est possible d’interpréter les résultats obtenus, dans la plupart des cas, intuitivement. Par exemple, la classification Reinert a fait apparaître les grands thèmes de notre corpus en les représentant avec des mots courants. De telles méthodes permettent de réduire un corpus gigantesque tel que le nôtre en une courbe de fréquence ou un simple dendrogramme, ce qui favorise les analyses générales.

Cependant, rester dans la généralité peut devenir un désavantage, car les études historiques ont aussi besoin d’analyses plus fines. En plus de cette limite, nous en avons aussi repéré deux autres. Premièrement, influencées par l’intuition, nos méthodes offrent peu de nouvelles perspectives. Nous nous restreignons à l’occurrence, à la cooccurrence et aux mots-clés tout au long de notre analyse et nous n’avons rien observé de contre-intuitif. De plus, les sources utilisées sont connues et la thématique étudiée a été de nombreuses fois analysée par l’historiographie. Une autre limite, également liée à cette idée de nouvelle perspective, est la justification des paramètres. Le choix de ces paramètres est souvent injustifié. Certains sont empiriques, comme le seuil sur le nombre d’occurrences lors du calcul de TF-IDF pour ne considérer que les mots courants (et de mettre les «?bons?» mots au premier rang). Certains sont purement arbitraires. Le choix de l’indice de similitude en est un. Bien que certains paramètres offrent une nouvelle perspective en donnant un résultat inattendu, il est difficile d’interpréter l’influence de ces paramètres et donc impossible d’explorer cette perspective.

->