Numérisation

La première tâche que nous avons eu à réaliser est la numérisation, c’est-à-dire obtenir une image pour chaque page de l’ouvrage. Nous avons considéré plusieurs possibilités pour mener à bien cet objectif. La première fut Microsoft Office Lens, une application pour smartphones. Son avantage principal est sa facilité d’utilisation. La seconde fut d’utiliser des scanners haute résolution. Plus long à utiliser, ils offrent cependant une qualité d’image supérieure. Afin de maximiser la qualité des premières étapes de la chaîne de traitement, c’est la deuxième option que nous avons choisie.

Reconnaissance de caractères

Maintenant que nous avons à disposition une image pour chaque page du livre, il faut en extraire du texte pour pouvoir traiter le corpus efficacement, de façon automatisée. Pour ce faire, nous avons utilisé l’outil tesseract. Il est considéré comme le choix le plus précis parmi les solutions gratuites. Pourtant, le résultat obtenu n’a pas été à la hauteur de nos attentes. Par exemple, les noms propres n’étant pas dans le dictionnaire de tesseract, ils sont mal orthographiés dans la grande majorité des cas. Les tableaux, non reconnus par tesseract, ont entraîné de nombreuses erreurs de mise en page, dans les rapports chiffrés notamment. Pour réduire les imprécisions au minimum et augmenter la qualité des données fournies aux tâches suivantes, nous avons décidé d’effectuer une correction manuelle des erreurs. Nous en avons profité pour supprimer les passages en anglais et les notes de bas de pages. La raison pour laquelle nous avons enlevé les passages en anglais est simple. En effet, en règle générale, les outils du traitement de la langue naturelle sont conçus pour une langue bien particulière. Il aurait donc été très compliqué de gérer à la fois la partie anglaise et la partie française. Nous avons également décidé d’enlever les notes de bas de page car elles sont hors de leur contexte original (à la fin de la page). Pour pouvoir en tirer parti, il aurait fallu les rattacher à leur contexte et cela n’était pas possible car la reconnaissance de caractères n’arrive pas à détecter correctement les nombres en indices (qui font référence à la note de bas de page en question).

Séparation des lettres et extraction des méta-données

Les en-têtes des lettres nous donnent des informations très intéressantes. Elles contiennent, dans le meilleur des cas, l’auteur, le destinataire, la date, le lieu et le type de correspondance (lettre, télégramme, etc). Le nombre de lettres dans le corpus étant relativement faible (68), fonder notre travail uniquement sur les méta-données nous aurait laissés avec une quantité de données trop faible. Nous avons donc dû traiter le corpus lui-même. La première étape fut de séparer le texte en lettres. En effet, dans la mesure où les lettres peuvent être très espacées temporellement, il est donc très probable qu’elles traitent de sujets différents, ou du moins, le fasse dans un contexte historique différent. Nous avons donc jugé cette séparation judicieuse.

Tentatives infructueuses

En possession du corpus nettoyé et des méta-données, nous avons tenté de nombreuses approches qui se sont révélées malheureusement infructueuses. Nous avions en tête d’analyser les relations entre les différentes personnalités présentes dans le corpus et d’observer comment elles évoluent au cours du temps. Pour cela, nous avions besoin de trouver dans le texte l’ensemble des groupes de mots faisant référence à des personnes. Ceci est une tâche courante dans le domaine du traitement de la langue et de nombreux outils existent pour le faire. Cependant, ils sont en très large majorité destinés à manipuler la langue anglaise. Il y a actuellement peu de programmes capables de le faire pour le français. Nous avons essayé tous ceux dont nous avions connaissance, mais malheureusement les résultats n’ont pas été au rendez-vous avec un taux de réussite très faible. Nous avons également tenté de réaliser la même tâche avec les lieux (pays, villes, régions etc..), mais la faible quantité d’occurrences et les écarts temporels très variables entre les différentes lettres ont rendu le résultat impossible à interpréter.

Reconnaissance manuelle des entités

Dans la mesure où les outils de reconnaissance d’entités nommées (c’est-à-dire trouver les personnes, lieux, organisations dans un texte) n’étaient pas suffisamment efficaces et que ces informations nous semblaient indispensables, nous nous sommes résignés à effectuer cette tâche manuellement (pour les personnalités uniquement) en utilisant l’index des noms propres présent à la fin de l’ouvrage. Malheureusement, ces occurrences n’étaient pas suffisantes pour pouvoir donner une interprétation historique satisfaisante. Nous avons donc décidé de joindre toutes les informations que nous avions à disposition (dates, personnes, lieux, destinataire, etc.), et de les importer dans un logiciel appelé Iramuteq.

 

<- Méthodologie Iramuteq ->