Données massives : une mine d’or encore sous-exploitée

Depuis quelques années, tous les secteurs d’activité sans exception, sont touchés par une problématique d’exploitation de leurs données textuelles, en quête de nouveaux services pour les consommateurs. Un souci de temps ? De méthodes ? Ou encore de qualification ? Comment faire, alors que dans cet univers du Big Data, la quasi-totalité des données est textuelle ?

Que ce soient dans les Institutions Européennes, les banques, le retail, ou encore les services enligne… les consommateurs sont désormais en attente de personnalisation, voire même d’individualisation des contenus qui lui sont proposés. Merci Netflix pour ses recommandations en fonction de nos préférences et habitudes. De nombreuses sociétés sont capables de proposer cette valeur ajoutée à leurs clients, et ces derniers veulent la retrouver aujourd’hui dans chacun de leurs services !

Derrière cela, au-delà des technologies de pointe utilisées, on retrouve également une valeur très précieuse : la donnée. Tout le monde s’accorde à le dire : la donnée devient un asset des sociétés qui, bien exploitée, peut être échangée et potentiellement revendue. Connaître et comprendre la donnée que l’on possède devient une nécessité, voire même une obligation pour faire face aux exigences réglementaires actuelles (GDPR, PSD2…).

Parallèlement, environ 80% des données possédées par les sociétés sont non-structurées et sont, entre autre, constituées de textes libres. C’est, par exemple, le cas des corpus documentaires qui restent aujourd’hui une mine d’informations riche et indispensable des entreprises ; les mails reçus de leurs clients ou leurs tiers ; mais aussi toutes les zones de textes libres dans les formulaires. Bien que les textes soient riches en informations, ils sont cependant les plus complexes à exploiter par les machines.

Cette mine d’informations dans les sociétés reste sous exploitée, et les recherches dans ces bases de données restent peu intelligentes. Prenons l’exemple des banques : elles sont en possession d’un grand nombre de données pertinentes sur leurs clients qui sont dans la majorité des cas sous- exploitées. Pourtant, ces données, si elles sont bien utilisées, peuvent créer de réels produits personnalisés à forte valeur ajoutée pour leurs clients. En effet, certaines technologies et méthodologies spécifiques permettraient aujourd’hui aux banques d’avoir une vue 360° sur leurs clients et de créer des segmentations et visualisations data ciblées et intelligentes.

Pour couronner le tout, le multilinguisme vient s’ajouter à cette problématique, une situation courante au Grand-Duché du Luxembourg, où trois langues sont officiellement reconnues.

Depuis longtemps, on pensait que la meilleure solution pour faciliter le traitement de ces données, était de limiter les zones textuelles libres dans les formulaires. Mais la richesse de l’information est souvent diminuée en utilisant des zones statistiques : quoi de mieux pour mesurer la satisfaction d’un service qu’un commentaire, sous forme d’un tweet par exemple, plutôt qu’une note allant de 1 à 5. Les chiffres statistiques sont aussi souvent subjectifs et liés à la bonne compréhension de l’utilisateur.

Exploiter toute la richesse des textes libres rend nécessaire l’utilisation de techniques d’Intelligence Artificielle qui permettent de traiter toute la richesse du langage naturel. On parle de langage naturel en opposition au langage informatique qui est structuré et bien formalisé. Ces techniques sont basées sur l’apprentissage automatique – le Machine Learning ou plus innovant encore, le Deep Learning qui sont également utilisées par les Bots afin de capturer automatiquement un comportement humain sous la forme d’un « modèle ». Dans la réalité, ces modèles sont souvent intégrés à un processus et

des outils issus du Big Data, nécessitant des compétences technologiques particulières, bien que des solutions répondant à ces enjeux soient disponibles aujourd’hui sur le marché.

L’objectif est donc de créer des modèles à partir de données d’apprentissage. Pour certaines applications, des modèles prédéfinis existent déjà sur le marché comme par exemple l’analyse de tweets pour l’étude de sentiments positifs ou négatifs sur un produit.

Toutefois, les modèles existants sur le marché ne peuvent pas être utilisés pour des applications qui nécessitent des connaissances métiers spécifiques à l’entreprise. Et dans ces cas de figure, des modèles distincts doivent être créés. Le savoir-faire des Data Scientists est alors indispensable pour intégrer des connaissances métiers et des techniques de machine learning, et pour analyser des données.

Les enjeux sont aujourd’hui énormes : Réussir à combiner l’exploitation des textes libres aux nouvelles technologies, pour permettre aux entreprises de s’aligner sur leurs services, d’innover, et surtout de générer de nouveaux services personnalisés aux consommateurs.

À lire sur IT Nation