Prédire l'imprévisible : le potentiel des données synthétiques

Nous vivons une époque marquée par l’imprévisibilité, qu’il s’agisse de l’économie mondiale, du climat ou de la géopolitique. Anticiper les risques est devenu essentiel pour renforcer la résilience future de nos sociétés. Cela suppose de donner du sens à des informations toujours plus complexes, en s’appuyant sur de nouveaux outils. Dans cette série, nous explorons le travail de chercheuses et chercheurs qui œuvrent à améliorer notre capacité à anticiper l’avenir.

Que ce soit en économie, en gestion des affaires, ou encore en sciences actuarielles par exemple, les données sont devenues un atout inestimable pour la conception des algorithmes et des modèles mathématiques. Mais lorsque les données réelles se font rares, sont sensibles ou biaisées, l’innovation s’en trouve freinée. C’est là où les données synthétiques entrent en jeu, offrant alors une alternative prometteuse.

Il s’agit d’utiliser des données générées artificiellement, qui imitent les caractéristiques des informations du monde réel tout en préservant l’intégrité statistique. Si les données ne contiennent aucun détail permettant d’identifier l’assuré, elles sont généralement conformes aux réglementations en matière de confidentialité et peuvent être plus facilement partagées.

« Les données synthétiques peuvent être utilisées pour tester de nouveaux systèmes que les assureurs pourraient vouloir utiliser avant de les acheter, sans divulguer d’informations confidentielles. Deuxièmement, les données synthétiques peuvent compléter des ensembles de données réelles qui ne seraient disponibles qu’en petite quantité, par exemple lorsqu’un assureur pénètre un nouveau marché et ne dispose pas de données suffisantes pour entraîner un modèle capable de prédire de manière raisonnable la fréquence ou la gravité des sinistres », explique Yevhen Havrylenko, professeur assistant au département des sciences actuarielles de HEC Lausanne.

Il ajoute : « Un ensemble de données augmenté peut aider les assureurs à mieux comprendre comment différentes variables interagissent et à mieux quantifier l’impact de variables individuelles sur la fréquence ou la gravité des risques. Les compagnies d’assurance pourraient ainsi être en mesure de fixer le prix de leurs produits de manière plus précise et plus équitable. Cependant, l’augmentation du volume de données n’améliore pas automatiquement les modèles, cela dépend des cas d’utilisation spécifiques. ».

Les modèles d’IA générative basés sur des réseaux neuronaux sont de plus en plus utilisés pour créer des données synthétiques. Cependant, il s’agit souvent de modèles de type « boîte noire », car il est difficile de comprendre comment ils génèrent des résultats. De plus, ils nécessitent généralement un travail préparatoire important et un ajustement minutieux pour chaque nouvel ensemble de données.

Le Prof. Havrylenko et ses co-auteurs ont découvert que l’algorithme MICE-RF (Multiple Imputation by Chained Equations and Random Forests) est une alternative compétitive, plus transparente et plus facile à utiliser que les approches basées sur les réseaux neuronaux.

« À notre avis, la méthodologie MICE-RF est moins compliquée, nécessite moins de travail préparatoire pour les nouveaux ensembles de données et est plus facile à utiliser dès sa sortie de l’emballage, ce qui est particulièrement pertinent pour les praticiens. C’est quelque chose dont la communauté des assureurs dans son ensemble n’avait pas conscience », explique le professeur assistant.

M. Havrylenko estime que la méthode MICE-RF pourrait être adoptée par d’autres chercheurs·euses et compagnies d’assurance au fil du temps.

« À l’avenir, les données synthétiques pourraient améliorer les prévisions dans certains scénarios. Cependant, la manière dont les données sont générées est importante. Il existe un débat dans le secteur de l’assurance sur la nécessité d’expliquer les modèles, y compris ceux qui génèrent des données synthétiques. Cela dépend du niveau de transparence du modèle. En général, les régulateurs veulent plus de clarté pour s’assurer que les assureurs agissent correctement et ne discriminent pas certaines personnes », explique-t-il.

M. Havrylenko et ses collègues étudient des moyens de renforcer la génération de données, par exemple différentes stratégies d’augmentation des données, l’impact de la taille des données d’entraînement et la manière d’encoder les contraintes commerciales. L’objectif est d’aider les assureurs à mieux prévoir la fréquence et la gravité des sinistres et ainsi à fixer des tarifs d’assurance plus équitables pour les clients.

Référence :