Les quantités considérables de données qui sont produites aujourd’hui offrent aux entreprises une opportunité unique d’améliorer l’expérience client. Toutefois, pour que les entreprises et les clients puissent en bénéficier pleinement, nous avons besoin de nouvelles méthodes de traitement de l’information.
5 min de lecture
Le professeur Periklis Andritsos et ses co-auteurs ont développé des techniques et des algorithmes qui permettent de traiter et d’exploiter les données brutes plus efficacement.

Nous évoluons à l’ère de l’information. Selon IBM, 90% des données dans le monde ont été créées au cours de ces dernières années. Chaque jour, nous produisons 2,5 trillions d’octets de données. On serait tenté de croire que notre société pourrait devenir plus équilibrée, plus heureuse et plus productive grâce à ce trésor de données. Ce qui devrait être le cas… si seulement nous pouvions leur donner un sens.
Aujourd’hui, l’information est souvent créée et consommée à la volée, en temps réel
Nous sommes rapidement passés d’une situation où les individus étaient principalement des consommateurs d’information à une situation où ils sont devenus à la fois créateurs et consommateurs. Et, alors qu’autrefois l’information était essentiellement statique – produite, traitée, puis mise à disposition dans un format fixe – aujourd’hui, elle est souvent créée et consommée à la volée, en temps réel. De nature transitoire, elle change fréquemment.
Une grande partie de cette information devrait constituer un avantage pour les entreprises, à condition bien sûr qu’elle soit traitée pour être utilisée ensuite facilement. Depuis quelque temps, nous disposons de technologies de bases de données qui permettent aux informations correctement structurées d’être utilisées efficacement. Mais aujourd’hui, les données sont produites à partir de sources et de plates-formes différentes, et ce, en très grande quantité. Les anciennes techniques utilisées pour rassembler et limiter les données ne sont plus aussi efficaces. Traiter de grands jeux de données, comprenant des données semi-structurées et non structurées, peut vite devenir un travail lent, coûteux et laborieux.
Analyse, tri et recherche de données
Andritsos et ses collègues se concentrent sur le défi que représentent les données pour les sites web comparateurs de prix
Heureusement, de nouvelles technologies et méthodes font leur apparition dans le combat qui consiste à trier et analyser le déluge constant de données. Le travail de Periklis Andritsos, expert en systèmes d’information, et de ses co-auteurs Fei Chiang et Renée Miller, présenté dans leur article « Data Driven Discovery of Attribute Dictionaries », en est un bon exemple.
Andritsos et ses collègues se concentrent sur le défi que représentent les données pour les sites web comparateurs de prix. Ces sites recueillent et rassemblent des informations brutes sur les produits, et les stockent de manière à ce qu’elles puissent être consultées par les clients. À l’heure actuelle, les informations brutes sur les produits doivent être inspectées, triées et marquées manuellement, pour optimiser la recherche par les clients. Et il s’agit là d’une tâche extrêmement laborieuse. Cependant, les équipes de recherche ont créé un nouveau cadre et des algorithmes qui permettent de traiter l’information brute de manière plus efficace.
Leur travail se concentre sur les dictionnaires d’attributs qui procurent une liste de référence des caractéristiques d’attributs valides pour un produit donné. Des appareils photo pourraient par exemple avoir un attribut intitulé « fabricant » avec des valeurs correspondant à Canon, Nikon et Sony. Les dictionnaires font partie de la solution logicielle de base de données qui facilite la recherche d’information par les clients.
The aim is to construct a smaller representation of the original product dataset
Après leur développement initial, ces dictionnaires doivent être mis à jour au fur et à mesure que le site comparateur de prix reçoit de nouvelles offres de produits issues de diverses sources. Les données des offres sont livrées sous la forme d’un ensemble d’informations en vrac, généralement des descriptions textuelles contenant un certain nombre de « jetons » ou de « valeurs », séparés par des espaces qui ressemblent à ceci: « Sony XBR 1080 32″ LCD HDTV 120Hz ».
Le but est de construire une représentation plus petite du jeu des données du produit, et de le faire de manière essentiellement automatisée. La méthode développée par Andritsos et ses collègues comprend trois étapes. Au départ s’active un processus dans le dictionnaire qui identifie les cas où les mêmes valeurs, telles que « LCD HDTV » par exemple, se produisent ensemble. Les groupes – ou segments – de valeurs qui se répètent fréquemment sont éliminés, réduisant ainsi la taille du jeu de données.
Cependant, ce processus peut produire des segments contenant des valeurs similaires (et donc des informations similaires), mais dans un ordre différent, comme, par exemple, « grand écran LED », « LED grand écran » et « écran LED grand ». Les chercheurs utilisent un autre algorithme pour comparer les informations contenues dans ces segments et, le cas échéant, les affinent en supprimant ou en ajoutant des valeurs. Cela réduit ainsi davantage le nombre de candidats pour les dictionnaires d’attributs.
Un autre défi demeure: celui de connecter les segments épurés aux dictionnaires d’attributs. Les attributs qui doivent être traités – fabricant, modèle, taille d’écran, résolution, par exemple – sont fournis par l’utilisateur. Dans un premier temps, on ne sait pas quels segments font partie de quels dictionnaires d’attributs. Cependant, une fois que l’utilisateur a alimenté chaque dictionnaire en connectant quelques segments au dictionnaire correspondant, le reste du processus est entièrement automatique. Ainsi, les segments qui correspondent à des entrées déjà présentes dans le dictionnaire sont écartés, tandis que les segments restants sont évalués en fonction de leur similarité structurelle par rapport aux segments du dictionnaire – par exemple « Win XP pro » et « windows XP professionnel » ont une structure similaire.
Surpasser les méthodes établies
Ces nouveaux algorithmes se sont révélés nettement plus performants
Ces nouveaux algorithmes et techniques d’exploration de données ont été évalués au regard des méthodes courantes, et se sont révélés nettement plus performants. L’équipe a également intégré les résultats de ses travaux dans un outil qui peut mettre en œuvre cette nouvelle méthode sur les sites web.
Cette étude constitue une avancée importante. Elle a potentiellement d’autres applications, bien au-delà de son utilisation dans les sites comparateurs de prix, et pourrait être utile pour le traitement et l’analyse de données semi-structurées et non-structurées dans des contextes très divers. L’équipe continue de réviser et d’améliorer sa technique de traitement et d’analyse des données, et il s’agit là d’une bonne nouvelle, compte tenu du volume de données sans cesse croissant auquel les entreprises sont confrontées.
Lire l’article original: Data Driven Discovery of Attribute Dictionaries, Fei Chiang, Periklis Andritsos, Renée J. Miller, 2016.
Crédit photo: Ali Kerem Yüsel/ istockphoto