Corv, le nouvel outil de transcription audio et vidéo pour les données de recherche

La transformation de fichiers audio ou vidéo en texte, appelée transcription, est une tâche longue, et parfois complexe lors du traitement de données personnelles sensibles. La DCSR propose un nouvel outil pour cette tâche, hébergé au cœur de l’UNIL, et respectueux de la protection des données.

Corv (qui signifie « corbeau » en romanche) est une interface web pour un outil de transcription (transformation audio/vidéo vers texte) automatique sécurisé, adapté pour les données de recherche normales, personnelles, sensibles (selon la Loi fédérale sur la protection des données), et liées à la santé (selon la Loi fédérale relative à la recherche sur l’être humain).

Corv est né de la volonté de disposer d’un outil de transcription de texte local à l’UNIL, respectueux des législations en vigueur sur la protection des données, et qui utilise des éléments open source préexistants, pour lesquels la DCSR a développé une interface graphique web, facilitant leur accès sans prérequis de connaissances en informatique.

L’interface de Corv, souhaitant aller au plus simple.
L’interface de Corv, souhaitant aller au plus simple.

Un outil respectueux de la protection des données

L’outil est accessible depuis le réseau de l’UNIL ou au travers de son réseau privé virtuel (VPN). Cette mesure de sécurité permet de s’assurer que seules les personnes au sein de l’UNIL ont accès aux données. Tous les fichiers que vous envoyez sont transmis, stockés, et traités sur des serveurs internes de l’UNIL, ce qui limite le risque d’interception par des tierces parties, et toutes les opérations sont réalisées sans que vos données ne soient envoyées sur Internet.

Vous recevez un courriel lorsque le traitement de vos données est terminé, et, après le téléchargement des résultats, tous les fichiers sont immédiatement supprimés de nos serveurs. Aucune trace des données ne subsiste, et seules des métadonnées statistiques sont conservées, en conformité avec le Guide du préposé fédéral de la protection des données.

Diarisation, qui a dit quoi ?

En plus de transcrire le texte, Corv reconnaît les locuteur·trice·s au sein d’un enregistrement grâce à la diarisation, un procédé consistant à diviser un enregistrement audio en segments correspondant à différentes personnes qui parlent. L’objectif principal de la diarisation est d’attribuer des identifiants aux différentes voix présentes dans l’audio, permettant ainsi d’identifier qui parle à quel moment, dans les contextes de réunions, d’entretiens ou de discussions où plusieurs intervenant·e·s peuvent s’exprimer à tour de rôle.

Pour réaliser la diarisation, on utilise des algorithmes d’apprentissage automatique qui analysent les caractéristiques des voix, telles que le ton, le volume, et le rythme de la parole. Ces algorithmes doivent être capables de détecter les pauses et les changements de locuteur dans le flux audio, tout en ignorant les bruits de fond qui pourraient interférer avec l’identification des intervenants.

un résultat de transcription, utilisant la diarisation.
Un résultat de transcription, utilisant la diarisation.

Ce n’est pas magique !

De manière générale, l’outil sera toujours moins bon qu’un être humain : si vous avez du mal à comprendre quelque chose, l’outil aura davantage de mal à le comprendre. La qualité de l’enregistrement est primordiale pour une transcription réussie, et, pour un résultat optimal, nous vous recommandons de prêter attention aux points suivants :

  • Qualité de l’enregistrement (matériel d’enregistrement, compression, format, etc.).
  • Bruits environnementaux (voitures, vent, bavardage ambiant, etc.).
  • Plusieurs personnes parlant en même temps.

Un enregistrement de qualité minimale, avec beaucoup de bruits environnementaux et plusieurs personnes parlant en même temps, demandera nécessairement davantage de travail de relecture et de correction pour l’opérateur·trice qu’un enregistrement de qualité normale, avec peu de bruits environnementaux et la prise de parole réalisée à tour de rôle.

Gardez également en tête que cet outil est une aide à la transcription : une à plusieurs relectures restent nécessaires, ne serait-ce que pour corriger les noms propres.

Pour aller plus loin

Illustration d’en-tête et mascotte Corv : @cata.clombe
Sous licence CC 4.0