{"id":2306,"date":"2024-09-02T10:30:00","date_gmt":"2024-09-02T08:30:00","guid":{"rendered":"https:\/\/wp.unil.ch\/newsci\/?p=2306"},"modified":"2024-08-30T14:29:02","modified_gmt":"2024-08-30T12:29:02","slug":"corv-le-nouvel-outil-de-transcription-audio-et-video-pour-les-donnees-de-recherche","status":"publish","type":"post","link":"https:\/\/wp.unil.ch\/newsci\/corv-le-nouvel-outil-de-transcription-audio-et-video-pour-les-donnees-de-recherche\/","title":{"rendered":"Corv, le nouvel outil de transcription audio et vid\u00e9o pour les donn\u00e9es de recherche"},"content":{"rendered":"\n<p><a href=\"https:\/\/corv.unil.ch\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>Corv<\/strong><\/a> (qui signifie \u00ab corbeau \u00bb en <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Romanche\" target=\"_blank\" rel=\"noreferrer noopener\">romanche<\/a>) est une interface web pour un outil de transcription (transformation audio\/vid\u00e9o vers texte) automatique s\u00e9curis\u00e9, adapt\u00e9 pour les donn\u00e9es de recherche normales, personnelles, sensibles (selon la <a href=\"https:\/\/www.fedlex.admin.ch\/eli\/cc\/2022\/491\/fr\" target=\"_blank\" rel=\"noreferrer noopener\">Loi f\u00e9d\u00e9rale sur la protection des donn\u00e9es<\/a>), et li\u00e9es \u00e0 la sant\u00e9 (selon la <a href=\"https:\/\/www.fedlex.admin.ch\/eli\/cc\/2013\/617\/fr\" target=\"_blank\" rel=\"noreferrer noopener\">Loi f\u00e9d\u00e9rale relative \u00e0 la recherche sur l\u2019\u00eatre humain<\/a>).<\/p>\n\n\n\n<p><strong>Corv<\/strong> est n\u00e9 de la volont\u00e9 de disposer d&rsquo;un outil de transcription de texte local \u00e0 l&rsquo;UNIL, respectueux des l\u00e9gislations en vigueur sur la protection des donn\u00e9es, et qui utilise des \u00e9l\u00e9ments <em>open source<\/em> pr\u00e9existants, pour lesquels la DCSR a d\u00e9velopp\u00e9 une interface graphique web, facilitant leur acc\u00e8s sans pr\u00e9requis de connaissances en informatique.<\/p>\n\n\n\n<figure class=\"wp-block-image alignwide size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"612\" src=\"https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-1024x612.png\" alt=\"L\u2019interface de Corv, souhaitant aller au plus simple.\" class=\"wp-image-2308\" srcset=\"https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-1024x612.png 1024w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-300x179.png 300w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-768x459.png 768w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-1536x918.png 1536w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-540x323.png 540w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-1080x646.png 1080w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload-1320x789.png 1320w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/interface_upload.png 1920w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><em>L\u2019interface de Corv, souhaitant aller au plus simple.<\/em><\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Un outil respectueux de la protection des donn\u00e9es<\/h2>\n\n\n\n<p>L\u2019outil est accessible <strong>depuis le r\u00e9seau de l\u2019UNIL<\/strong> ou au travers de son <a href=\"https:\/\/www.unil.ch\/ci\/fr\/home\/menuinst\/catalogue-de-services\/reseau-et-telephonie\/acces-hors-campus-vpn.html\" target=\"_blank\" rel=\"noreferrer noopener\">r\u00e9seau priv\u00e9 virtuel (VPN)<\/a>. Cette mesure de s\u00e9curit\u00e9 permet de s\u2019assurer que seules les personnes au sein de l\u2019UNIL ont acc\u00e8s aux donn\u00e9es. Tous les fichiers que vous envoyez sont transmis, stock\u00e9s, et trait\u00e9s sur des <strong>serveurs internes de l&rsquo;UNIL<\/strong>, ce qui limite le risque d&rsquo;interception par des tierces parties, et toutes les op\u00e9rations sont r\u00e9alis\u00e9es sans que vos donn\u00e9es ne soient envoy\u00e9es sur Internet.<\/p>\n\n\n\n<p>Vous recevez un courriel lorsque le traitement de vos donn\u00e9es est termin\u00e9, et, apr\u00e8s le t\u00e9l\u00e9chargement des r\u00e9sultats, tous les fichiers sont imm\u00e9diatement supprim\u00e9s de nos serveurs. <strong>Aucune trace des donn\u00e9es ne subsiste<\/strong>, et seules des m\u00e9tadonn\u00e9es statistiques sont conserv\u00e9es, en conformit\u00e9 avec le <a href=\"https:\/\/www.edoeb.admin.ch\/dam\/edoeb\/fr\/Dokumente\/datenschutz\/leitfaden_tom.pdf.download.pdf\/TOM_FR.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Guide du pr\u00e9pos\u00e9 f\u00e9d\u00e9ral de la protection des donn\u00e9es<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Diarisation, qui a dit quoi\u00a0?<\/h2>\n\n\n\n<p>En plus de transcrire le texte, <strong>Corv reconna\u00eet les locuteur<\/strong>\u00b7<strong>trice<\/strong>\u00b7<strong>s au sein d\u2019un enregistrement gr\u00e2ce \u00e0 la diarisation<\/strong>, un proc\u00e9d\u00e9 consistant \u00e0 diviser un enregistrement audio en segments correspondant \u00e0 diff\u00e9rentes personnes qui parlent. L&rsquo;objectif principal de la diarisation est d&rsquo;attribuer des identifiants aux diff\u00e9rentes voix pr\u00e9sentes dans l&rsquo;audio, permettant ainsi d&rsquo;identifier qui parle \u00e0 quel moment, dans les contextes de r\u00e9unions, d&rsquo;entretiens ou de discussions o\u00f9 plusieurs intervenant\u00b7e\u00b7s peuvent s&rsquo;exprimer \u00e0 tour de r\u00f4le.<\/p>\n\n\n\n<p>Pour r\u00e9aliser la diarisation, on utilise des algorithmes d&rsquo;apprentissage automatique qui analysent les caract\u00e9ristiques des voix, telles que le ton, le volume, et le rythme de la parole. Ces algorithmes doivent \u00eatre capables de d\u00e9tecter les pauses et les changements de locuteur dans le flux audio, tout en ignorant les bruits de fond qui pourraient interf\u00e9rer avec l&rsquo;identification des intervenants.<\/p>\n\n\n\n<figure class=\"wp-block-image alignwide size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"612\" src=\"https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-1024x612.png\" alt=\"un r\u00e9sultat de transcription, utilisant la diarisation.\" class=\"wp-image-2309\" srcset=\"https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-1024x612.png 1024w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-300x179.png 300w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-768x459.png 768w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-1536x918.png 1536w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-540x323.png 540w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-1080x646.png 1080w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result-1320x789.png 1320w, https:\/\/wp.unil.ch\/newsci\/files\/2024\/08\/CORV_result.png 1920w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><em>Un r\u00e9sultat de transcription, utilisant la diarisation.<\/em><\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Ce n\u2019est pas magique\u00a0!<\/h2>\n\n\n\n<p>De mani\u00e8re g\u00e9n\u00e9rale, <strong>l&rsquo;outil sera toujours moins bon qu&rsquo;un \u00eatre humain<\/strong> : si vous avez du mal \u00e0 comprendre quelque chose, l&rsquo;outil aura davantage de mal \u00e0 le comprendre. La qualit\u00e9 de l\u2019enregistrement est primordiale pour une transcription r\u00e9ussie, et, pour un r\u00e9sultat optimal, nous vous recommandons de pr\u00eater attention aux points suivants :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Qualit\u00e9 de l&rsquo;enregistrement (mat\u00e9riel d&rsquo;enregistrement, compression, format, etc.).<\/li>\n\n\n\n<li>Bruits environnementaux (voitures, vent, bavardage ambiant, etc.).<\/li>\n\n\n\n<li>Plusieurs personnes parlant en m\u00eame temps.<\/li>\n<\/ul>\n\n\n\n<p>Un enregistrement de qualit\u00e9 minimale, avec beaucoup de bruits environnementaux et plusieurs personnes parlant en m\u00eame temps, demandera n\u00e9cessairement davantage de travail de relecture et de correction pour l\u2019op\u00e9rateur\u00b7trice qu\u2019un enregistrement de qualit\u00e9 normale, avec peu de bruits environnementaux et la prise de parole r\u00e9alis\u00e9e \u00e0 tour de r\u00f4le.<\/p>\n\n\n\n<p>Gardez \u00e9galement en t\u00eate que cet outil est une <em>aide <\/em>\u00e0 la transcription&nbsp;: <strong>une \u00e0 plusieurs relectures restent n\u00e9cessaires<\/strong>, ne serait-ce que pour corriger les noms propres.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.unil.ch\/ci\/fr\/home\/menuinst\/catalogue-de-services\/recherche\/transcription-automatique-de-fichiers-audios-et-videos.html\">Acc\u00e9der au service<\/a><\/div>\n<\/div>\n\n\n\n<div style=\"height:75px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h3 class=\"wp-block-heading\">Pour aller plus loin<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Donn\u00e9es personnelles sensibles : <a href=\"https:\/\/wiki.unil.ch\/ci\/books\/research-data-storage\/page\/faq-tresorit#bkmrk-qu%27est-ce-qu%27une-don\">https:\/\/wiki.unil.ch\/ci\/books\/research-data-storage\/page\/faq-tresorit#bkmrk-qu%27est-ce-qu%27une-don<\/a><\/li>\n\n\n\n<li>Donn\u00e9es normales, personnelles, sensibles, c\u2019est quoi\u00a0?<br><a href=\"https:\/\/wiki.unil.ch\/ci\/books\/research-data-storage\/page\/faq-tresorit#bkmrk-qu%27est-ce-qu%27une-don\">https:\/\/wiki.unil.ch\/ci\/books\/research-data-storage\/page\/faq-tresorit#bkmrk-qu%27est-ce-qu%27une-don<\/a><\/li>\n\n\n\n<li>Les recommandations de s\u00e9curit\u00e9 utilis\u00e9es par Corv (t\u00e9l\u00e9chargement)\u00a0:<br><a href=\"https:\/\/www.edoeb.admin.ch\/dam\/edoeb\/fr\/Dokumente\/datenschutz\/leitfaden_tom.pdf.download.pdf\/TOM_FR.pdf\">https:\/\/www.edoeb.admin.ch\/dam\/edoeb\/fr\/Dokumente\/datenschutz\/leitfaden_tom.pdf.download.pdf\/TOM_FR.pdf<\/a><\/li>\n\n\n\n<li>WhisperX, l\u2019outil <em>open source<\/em> utilis\u00e9 par Corv\u00a0:<br><a href=\"https:\/\/github.com\/m-bain\/whisperX\">https:\/\/github.com\/m-bain\/whisperX<\/a><\/li>\n<\/ul>\n\n\n\n<p>Illustration d&rsquo;en-t\u00eate et mascotte Corv : <a href=\"https:\/\/www.instagram.com\/cata.clombe\/\" target=\"_blank\" rel=\"noreferrer noopener\">@cata.clombe<\/a><br><a href=\"https:\/\/creativecommons.org\/licenses\/by\/4.0\/\">Sous licence CC 4.0<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La transformation de fichiers audio ou vid\u00e9o en texte, appel\u00e9e transcription, est une t\u00e2che longue, et parfois complexe lors du traitement de donn\u00e9es personnelles sensibles. La DCSR propose un nouvel outil pour cette t\u00e2che, h\u00e9berg\u00e9 au c\u0153ur de l\u2019UNIL, et respectueux de la protection des donn\u00e9es.<\/p>\n","protected":false},"author":108,"featured_media":2307,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"template-full-width-cover.php","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[11,10],"tags":[18],"class_list":["post-2306","post","type-post","status-publish","format-standard","has-post-thumbnail","category-recherche","category-teletravail-et-outils-quotidiens","tag-affiche"],"_links":{"self":[{"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/posts\/2306","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/users\/108"}],"replies":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/comments?post=2306"}],"version-history":[{"count":4,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/posts\/2306\/revisions"}],"predecessor-version":[{"id":2315,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/posts\/2306\/revisions\/2315"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/media\/2307"}],"wp:attachment":[{"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/media?parent=2306"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/categories?post=2306"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wp.unil.ch\/newsci\/wp-json\/wp\/v2\/tags?post=2306"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}