Towards Computational Historiographical Modeling: Corpora and Concepts

Jusqu’à présent, les humanités numériques se sont largement contentées d’emprunter des méthodes à d’autres domaines et n’ont guère développé de méthodologie propre. La focalisation sur les méthodes et les outils représente un obstacle majeur à la construction de modèles computationnels qui pourraient nous aider à acquérir de nouvelles connaissances sur les questions de recherche des sciences humaines plutôt que de simplement automatiser des traitements essentiellement quantitatifs.

Photo : ThisisEngineering RAEng sur Unsplash

Dans ce projet, nous nous concentrons donc sur deux questions que nous avons identifiées comme particulièrement urgentes et qui, ensemble, constituent une lacune critique dans la recherche :

  1. Quel que soit le domaine d’application, la recherche en humanités numériques a tendance à s’appuyer fortement sur les corpus, c’est-à-dire les collections de textes, d’images, etc. Cependant, les implications épistémologiques ont jusqu’à présent été largement ignorées. Nous proposons de considérer les corpus comme des dispositifs phénoménotechniques, comme des instruments scientifiques : les corpus sont, d’une part, des modèles du phénomène étudié ; d’autre part, le phénomène est construit à travers le corpus. Nous voulons donc étudier les corpus en tant que modèles pour répondre à des questions telles que : comment les corpus modélisent-ils et produisent-ils des phénomènes ? Quels sont les points communs et les différences entre les différents types de corpus ? Comment décrire formellement les corpus-modèles afin de prendre en compte leurs propriétés pour les recherches qui les utilisent ?
  2. Les modèles de phénomènes complexes reposent généralement sur de nombreux concepts, par exemple le féodalisme, l’État, les classes, etc. Ces concepts sont en fait des références à des « sous-modèles », qui servent de blocs de construction pour des modèles plus grands. Traditionnellement, ces modèles étaient largement implicites. Cela devient un sérieux problème épistémologique en humanités numériques, car ces concepts sont à la base de la sélection des données et de la construction des corpus. Par exemple, un corpus de lettres est basé sur le concept de « lettre » (par opposition à d’autres écrits). L’absence de formalisation de ces concepts est l’une des principales faiblesses des humanités numériques : si les analyses quantitatives sont hautement formalisées, leurs fondements qualitatifs sont fragiles. En utilisant le concept de « textualité » comme étude de cas, nous examinerons les concepts en tant que modèles : comment fonctionnent-ils et comment sont-ils utilisés ? Existe-t-il des similitudes structurelles qui nous permettraient de créer un métamodèle pour formaliser les concepts ?

Le projet examine ces questions dans un contexte historique, mais nous envisageons que les résultats soient transférables. Nous espérons apporter une contribution importante à la formation de la théorie et aider les humanités numériques à passer de solutions ad hoc à une compréhension plus générale des questions en jeu.

Direction du projet
Michael Piotrowski, Professeur associé, Section des sciences du langage et de l’information

Équipe de recherche
Deux chercheur·euse·s FNS

Durée du projet
2022-2026