Names of Lausanne: the evolution of family names in administration records (1803-1900)

Les progrès récents en Humanités Numériques offrent de nouvelles possibilités pour la création de bases de données massives à partir de documents d’archives. La constitution de ces bases de données repose sur des techniques avancées de reconnaissance optique de caractères, qui fonctionnent maintenant à la fois pour les documents imprimés et manuscrits. La saisie systématique de documents administratifs anciens comme les actes d’état civil, les annuaires et les cadastres permet notamment de reconstituer l’évolution d’une population, pour le bénéfice d’une variété d’études historiques en études urbaines, en démographie ou en linguistique. Jusqu’à présent, la constitution de ces bases de données reposait surtout sur la transcription manuelle des informations : cette méthode s’avère non seulement lente et coûteuse, mais généralement aussi sélective, puisqu’elle ne retient des documents transcrits que les éléments pertinents au projet ciblé. Le développement des techniques de reconnaissance optique permet une transcription plus efficiente et la constitution de bases de données moins spécifiques, exploitables dans une variété de domaines.

Le potentiel de recherche de telles bases génériques doit cependant être validé par des études de cas concrètes. Dans cet esprit, le projet CROSS «Names of Lausanne», co-dirigé par Marie-Hélène Côté (SLI) et Isabella Di Lenardo (EPFL), combine l’extraction automatique à grande échelle de divers documents administratifs et la recherche en anthroponymie (domaine de la linguistique portant sur les noms de personne). Il vise à constituer une base de données générique de la population de Lausanne entre 1804 et 1900, à partir surtout de deux sources (auxquelles s’ajoutent les annuaires de commerce, antécédents des pages jaunes, à partir de 1887) :

  • les actes d’état civil, déjà numérisés par les Archives cantonales vaudoises : registres de paroisse jusqu’en 1821 et registres de la première époque de l’état civil (1821-1875). Ces registres recensent les données personnelles, essentielles pour représenter les individus dans leur singularité : nom, naissance, décès et déplacements entre communes.
  • les recensements, préservés aux Archives de la Ville de Lausanne : recensements communaux réalisés annuellement de 1804 à 1898 (avec interruption entre 1814 et 1831) et recensement fédéral de 1900. Les données des recensements informent sur les ménages à travers leur adresse de résidence, le nom du propriétaire et les caractéristiques (nom, âge, famille, profession, origine) de l’habitant.

Le projet vise à évaluer la pertinence de l’extraction automatique à grande échelle de l’information contenue dans ces documents d’archives pour la recherche en anthroponymie, tout en constituant une base de données générique. Il s’agira notamment :

  • d’établir les méthodes de saisie automatique des sources manuscrites;
  • de vérifier si la qualité de cette saisie est suffisante pour les études linguistiques, qui reposent notamment sur l’évolution des variantes orthographiques des noms;
  • de déterminer comment les données qui répondent traditionnellement aux besoins des historien·ne·s et des urbanistes peuvent être utilisées pour des études linguistiques;
  • de mettre sur pied une plateforme de recherche où la base de données pourra être exploitée non seulement pour la recherche universitaire, mais également par les institutions patrimoniales et éducatives;
  • de favoriser la recherche participative, par laquelle les citoyen·ne·s pourront contribuer à améliorer les transcriptions et documenter les performances des outils d’extraction.

Direction du projet
Marie-Hélène Côté, professeur ordinaire, Section des sciences du langage et de l’information
Isabella Di Lenardo, lecturer, Faculté de l’environnement naturel, architectural et construit (EPFL)

Équipe de recherche
Rémi Petitpierre, chercheur post-doctorant
Un·e chercheur·euse·s postdoctorant·e

Durée du projet
2021