Stylométrie : l’art de démasquer les auteurs, entre science et fiction

Quelles sont les limites qui freinent encore la reconnaissance académique et judiciaire de la stylométrie ?

Souvent mise en avant dans les séries policières, la stylométrie promet d’aider à révéler l’identité des auteurs grâce à l’analyse de leur écriture. Mais derrière cette aura de certitude scientifique se cachent des limites qui freinent pourtant sa pleine reconnaissance au sein des mondes académique et judiciaire. Analyse de Valentina Cammarota, doctorante en sciences forensiques à l’UNIL.

C’est une analyse stylométrique qui a révélé au grand jour que J. K. Rowling, célèbre auteure de la saga Harry Potter, était en réalité la plume à l’origine du roman policier The Cuckoo’s Calling. Véritable coup de théâtre dans le milieu ! Bien que poussée par les avancées technologiques des années 2000, la stylométrie n’est cependant pas une discipline née de la dernière pluie. Certaines affaires, toutefois, l’ont poussée sur la scène médiatique. 

Histoire de la stylométrie

Cette frise chronologique résume les étapes clés de l’évolution de la stylométrie et de la description quantitative des textes, de manière non exhaustive. Elle se base majoritairement sur la revue de littérature publiée en juin 2024 dans Forensic Science International : Synergy par Valentina Cammarota, Silvia Bozza, Claude-Alain Roten et Franco Taroni.

En octobre 1984, le corps d’un enfant de 4 ans, Grégory Villemin, est retrouvé mort ligoté dans une rivière des Vosges. Quarante ans plus tard, le crime n’est toujours pas élucidé. S’il s’agit, à ce jour encore, de l’une des affaires criminelles les plus célèbres et médiatisées de France, on ne peut immanquablement parler de stylométrie sans l’évoquer. Couplée à des analyses graphologiques, la stylométrie avait été utilisée dans cette affaire pour tenter d’identifier l’auteur de lettres anonymes envoyées aux parents de Grégory avant et après sa mort. Malheureusement, elle n’a pas su fournir de preuves suffisantes. 

Stylométrie helvétique

Début 2021, après une tornade de rumeurs quant à la relance potentielle de l’enquête sur l’affaire du petit Grégory, la société d’analyse stylométrique suisse OrphAnalytics, lancée en 2014 par un alumnus de l’UNILconfirmait publiquement avoir été mandatée par les responsables de l’enquête pour produire un nouveau rapport d’analyse. Affaire à suivre, donc. En attendant, les compétences en stylométrie de la start-up ont continué de se démarquer sur le plan judiciaire, en démasquant entre autres les créateurs du mouvement extrémiste américain QAnon

Si, en un sens, ces différents exemples tendent à bercer notre imaginaire, faisant résonner en nous les souvenirs des dernières séries policières dévorées sur Netflix, ils donnent aussi envie d’en savoir plus sur cette prometteuse discipline, visiblement à cheval entre la science et le judiciaire. Alors la stylométrie, qu’est-ce que c’est ?

Un véritable couteau suisse

La stylométrie donc, ce n’est ni la science des stylos, ni un outil infaillible pouvant révéler au grand jour un coupable, sur la base d’une note que ce dernier aurait oubliée derrière lui. Plus complexe, nuancée et moins romantique que ce que l’on tend à s’imaginer, la discipline analyse l’écriture non pas d’un point de vue calligraphique, mais en se penchant sur le style. Comment un texte est-il construit ? Documents manuscrits ou numérisés, qu’importe. Ce qui l’intéresse, c’est la forme du fond.

La stylométrie s’appuie sur deux postulats simples : chaque individu possède une façon d’écrire unique, et celle-ci évolue dans le temps. « Écrire, c’est un processus sémiologique, explique Valentina Cammarota, doctorante à l’École des sciences criminelles (ESC) de l’UNIL qui réalise une thèse sur le sujet. On réfléchit tous de manière différente. Donc si deux individus écrivent sur la même chose, forcément les deux résultats ne seront pas identiques. »

À la croisée des chemins entre linguistique et informatique, l’analyse stylométrique cherche, via des processus statistiques complexes, ces petits éléments qui diffèrent. « D’après la littérature scientifique, il existe des milliers de marqueurs, explique la chercheuse. Dans mon travail, je les ai définis par catégories. » Impossible, donc, de tous les citer. Mais les plus courants sont notamment les marqueurs de caractères, les marqueurs syntaxiques ou encore les marqueurs lexicaux. « Ces derniers sont les premiers à avoir été utilisés en stylométrie », précise d’ailleurs la spécialiste. Ainsi, en comparant plusieurs textes de deux (ou plusieurs) auteurs, la stylométrie utilise ces éléments pour tenter de créer une « empreinte digitale » stylistique d’un texte. 

Focus sur le travail de thèse de Valentina Cammarota

Dans sa recherche, entamée en 2020, la doctorante, aujourd’hui doctorante dans le cadre d’un financement FNS, s’intéresse à la récurrence des caractères. « Je ne cible pas les mots, mais je me focalise sur la fréquence de séquences de caractères. Lorsqu’on a un texte, le logiciel que j’utilise va prendre et découper en n-grams, séquences dont il existe différents types, l’entièreté du document fourni. » Pour expliquer les différents n-grams, la spécialiste propose de se pencher par exemple sur le mot « arbre » : « Dans ce cas, les unigrammes correspondraient à A, R, B, R, E, les bigrammes à AR, RB, BR, RE et les trigrammes à ARB, RBR, BRE. » Pour ce faire, Valentina Cammarota utilise un logiciel d’OrphAnalytics (voir encadré) qui lui permet de repérer les séquences pertinentes dans les textes analysés et de déterminer leur fréquence.

« L’approche de Valentina Cammarota est différente des méthodes d’analyse existantes »

Franco Taroni, professeur à l’Ecole des Sciences Criminelles de l’UNIL

Son superviseur de thèse, Franco Taroni, complète : « La matrice de fréquences des n-grams sera ensuite exploitée dans le cadre d’un modèle probabiliste, afin d’en dégager la valeur selon les hypothèses d’intérêt dans le contexte d’une affaire (par exemple, le texte a été écrit par Monsieur A. ou par Monsieur B. ou par une tierce personne). » Il ajoute : « L’approche de Valentina Cammarota est différente des méthodes d’analyse existantes car elle respecte les lignes guides européennes en matière de présentation de la valeur probante d’une information scientifique. Elle utilise une approche probabiliste à 100%. »

Ainsi, le but du travail de recherche de la doctorante n’est pas de déterminer qui est l’auteur d’un texte, mais plutôt de comprendre dans quelle mesure les observations stylométriques extraites des textes soutiennent ou pas les hypothèses concernant l’identité de l’auteur du texte en question. Pour ce faire, elle exploite le modèle probabiliste dit « bayésien ». Dans la dernière partie de sa thèse, elle espère parvenir à mettre en place une méthodologie robuste, d’un point de vue scientifique, permettant de détecter et quantifier, sur la base des caractères, l’apport d’un ou plusieurs auteurs dans un texte. « Jusqu’ici, ma recherche semble prometteuse », se réjouit-elle. Aux plumes frauduleuses donc de commencer à trembler !

Au-delà d’un grand nombre de marqueurs, il existe aussi différentes façons de les analyser. « Statistique descriptive, machine learning, approches de distance », énumère entre autres la chercheuse, de manière non exhaustive. La stylométrie, donc, c’est un peu une discipline « couteau suisse ». « Telle quelle, on peut dire qu’il s’agit d’une science regroupant une pluralité d’approches, précise la spécialiste. Et parmi elles, certaines s’avèrent plus objectives et robustes que d’autres. » Alors pourra-t-elle un jour devenir un outil de pointe, à l’instar de l’ADN ou des empreintes digitales ?

Quels problèmes ?

Si elle semble prometteuse, la stylométrie ne parvient pourtant pas encore à s’inscrire de manière ferme dans les mondes scientifique et judiciaire. Dans une revue de littérature publiée au début de l’été dans Forensic Science International : Synergy, Valentina Cammarota et ses collègues explorent l’utilisation potentielle de la stylométrie en sciences forensiques, en soulignant les défis actuels qui tendent à freiner son acceptation comme un outil pleinement reconnu.

Selon nos collègues du Temps, la police suisse n’a par exemple jamais eu recours à cette discipline. Aux États-Unis en revanche, « il y a eu quelques cas d’utilisation de la stylométrie en sciences forensiques. Mais il s’agit encore d’un outil discuté sur le plan judiciaire, précise la chercheuse. Car les preuves qu’il fournit ne sont pas toujours admissibles. Et les conséquences des décisions prises par un juge ou un tribunal dans une affaire criminelle peuvent être plus lourdes que lorsqu’on utilise une analyse stylométrique à des fins de recherche. »

« Pour que la stylométrie puisse être pleinement reconnue sur le plan judiciaire ou dans les sciences forensiques, je pense qu’une des lacunes principales, c’est la méthode d’évaluation des résultats, explique Valentina Cammarota, qui déplore une absence de procédures probabilistes cohérentes. Les méthodes d’évaluation existantes ne sont pas suffisamment robustes et objectives. Elles manquent surtout de rigueur mathématique pour quantifier la force de la preuve. » Soit « en fournissant un rapport de vraisemblance qui aide à déterminer dans quelle mesure les observations faites lors des analyses de textes peuvent soutenir la paternité d’un texte, compte tenu du cadre d’hypothèses impliquées dans un ensemble particulier de circonstances. Un élément pourtant crucial dans le contexte judiciaire. »

Focus sur le logiciel utilisé par Valentina Cammarota

Développé par OrphAnalytics, le logiciel utilisé par la doctorante permet d’obtenir des PCoA (analyse en coordonnées principales). Une méthode statistique qui offre la possibilité de visualiser des similitudes ou des différences entre des objets dans un espace à plusieurs dimensions. Concrètement, elle transforme une matrice de distances entre ces objets en coordonnées, pour ensuite les représenter dans un graphique en deux ou trois dimensions. Ce procédé permet de mieux comprendre les relations entre les objets.

Au final, « on obtient des graphiques avec des nuages de points,explique la chercheuse. Après, c’est à vous de les interpréter, précise-t-elle. Et le problème de ces résultats graphiques, c’est qu’ils peuvent quelquefois se révéler très subjectifs. Le nuage bleu est-il plus proche du nuage rouge ou vert ? Certaines fois, c’est vraiment au milieu. » Elle ajoute : « Le logiciel ne se limite cependant pas uniquement à ça. Il fournit aussi d’autres formes graphiques, mais cela reste toujours du domaine du visuel. » Des éléments donc difficilement justifiables auprès d’un tribunal.

Cet exemple illustre une analyse réalisée par Valentina Cammarota. Les points bleus représentent les quatre extraits de la pièce indiciaire, publiée par X. Les points rouges correspondent aux extraits de deux autres ouvrages rédigés par X.

Les points verts illustrent les extraits des ouvrages rédigés par Y. Dans ce cas le jeu d’hypothèse est le suivant : H1 : X est l’auteur de l’ouvrage ; H2 : Y est l’auteur de l’ouvrage. « Les personnes qui exploitent uniquement une représentation graphique pourraient vous dire qu’il y a un rapprochement majeur de l’ouvrage analysé aux textes écrits par X. Mais en fonction de l’illustration, il peut y avoir des groupes de points très distincts (offrant une séparation encore meilleure que celle de l’illustration ci-dessus), alors que d’autres fois il y a des mélanges de points et l’interprétation visuelle se révèle très difficile, explique Valentina Cammarota. Dans ma thèse j’essaie de développer une méthodologie pour interpréter les résultats obtenus, en utilisant des outils non graphiques. Donc cette image, je ne l’interprète pas. Au mieux, elle peut orienter, mais je ne me prononce pas sur la base de PcoA. » Et la doctorante de souligner : « Et selon une philosophie bayésienne, partagée par un groupe nombreux à l’ESC et recommandée par les lignes guides de l’ENFSI (European Network of Forensic Science Institutes), on ne se prononce pas sur les résultats en fonction d’un jeu d’hypothèses et on ne se prononce pas sur les hypothèses en jeu. »

De plus, il n’existe aujourd’hui aucun consensus quant au choix des marqueurs de style les plus légitimes, « ce qui crée des variations conséquentes dans les résultats et rend difficiles les comparaisons entre les différentes études existantes ». Dans la littérature scientifique, « chacun utilise des données et des méthodes différentes. Ce qui rend difficile, pour ne pas dire impossible, de relier les informations », souligne la doctorante.

De manière générale, énormément de variables entrent en ligne de compte dans une analyse stylométrique, et « pour l’heure on n’en mesure pas suffisamment l’impact ». La façon d’écrire, par exemple, varie avec le temps et avec l’âge d’une personne. « Généralement, on évite de prendre des textes qui datent de plus de cinq ans pour une analyse », précise la spécialiste. Il peut arriver aussi que les individus modifient délibérément leur style d’écriture afin de tromper les analyses, ce qui compromet alors la fiabilité des résultats. La stylométrie est également difficile à mettre en pratique sur des textes courts. Alors, pour l’heure, l’idéal, selon Valentina Cammarota, serait « de combiner la stylométrie avec des approches plus classiques, telle que la linguistique forensique ou, selon les cas, avec une approche traditionnelle d’expertise des écritures, des signatures et/ou de documents imprimés et dactylographiés ».

La stylométrie à l’UNIL

« Durant ma formation à l’École des sciences criminelles de l’UNIL, la stylométrie n’a jamais été évoquée, témoigne Valentina Cammarota. La première fois que j’ai entendu parler de la possibilité d’identifier un auteur à partir du style de son écriture, c’était peu avant de commencer ma thèse. J’étais confuse… Je pensais que cela renvoyait à l’analyse de l’écriture manuscrite. » Depuis 2020, l’UNIL a en effet lancé un programme de recherche chargé de tester la fiabilité des algorithmes de la société valaisanne OrphAnalytics. Le travail de thèse de Valentina Cammarota s’inscrit dans ce cadre-là. Le groupe de recherche, composé de Franco Taroni, professeur ordinaire à l’École des sciences criminelles, et Silvia Bozza, chargée de cours, compte désormais trois personnes, en plus du personnel d’OrphAnalytics SA, « dont le soutien technique est fondamental », précise Valentina Cammarota. À ne pas confondre avec le groupe de recherche en charge des expertises dans le domaine des documents à l’UNIL, « mais qui s’intéresse plutôt à l’écriture en elle-même, précise la doctorante. Et à ce qui touche aux systèmes d’impression. »

Pour en savoir plus sur le projet de recherche

Les recherches du groupe de Valentina Cammarota s’inscrivent dans le cadre d’un financement du Fonds national suisse (FNS).

Pour consulter le projet ou aller plus loin :