Après une période d’expérimentation, l’IA générative entame une phase de déploiement dans des solutions opérationnelles. Les modèles de langage avancés sont désormais accessibles à davantage d’équipes technologiques matures, abaissant les barrières à l’entrée.
Or, l’IA doit ingérer des données pertinentes et fiables pour donner des résultats probants dans ses applications. C’est pourquoi, lorsque les données client interviennent, il faut qualifier avant tout ce qui constitue leur socle, à savoir les données de contact client. En jeu : la fiabilité des résultats de l’IA, la confiance des utilisateurs et la réussite des cas d’usage. Explications.
L’IA à la conquête d’une data fiable
L’IA générative consomme des données à une échelle et à une vitesse sans précédent, puisant massivement dans de vastes répertoires de données pour répondre aux requêtes des utilisateurs. Ce faisant, l’IA amplifie l’importance de la fiabilité des données.
En effet, la boulimie de données de l’IA générative soulève un défi de taille pour les équipes en charge des données : les questions posées à l’IA par les utilisateurs ne pouvant être ni anticipées ni contrôlées, il est impossible de savoir quels jeux de données préparer et nettoyer pour alimenter les réponses de l’IA. Or, sans données qualifiées, les résultats de l’IA risquent d’être erronés et peu fiables, suscitant la méfiance des professionnels censés adopter ses cas d’usage.
Autrement dit, l’IA accentue l’incidence d’une mauvaise qualité des données. Exemple avec les données de contact client : lorsqu’elles contiennent des erreurs ou des inexactitudes (emails en double, noms erronés, adresses incorrectes…), la connaissance et la vue à 360 degrés des clients sont imparfaites et l’IA prolonge ces carences. Elle ne peut pas remonter d’informations fines, par exemple pour assister un commercial selon sa zone de chalandise ou le profil de ses clients, si le référentiel comprend des données d’adresse erronées ou des doublons issus des différents emails d’un même client.
L’IA sans Data Quality : une prise de risque
Sans données qualifiées, l’IA soulève le risque de réponses potentiellement biaisées, et l’adoption de ses cas d’usage peut se heurter à la réticence des utilisateurs. C’est d’ailleurs ce que confirme une étude de Mc Kinsey selon laquelle 70 % des initiatives d’IA échouent principalement en raison de données de mauvaise qualité qui compromettent la fiabilité des résultats.
En effet, de la requête de l’utilisateur à la génération de la réponse, le processus s’avère sujet à de nombreux points de défaillance si l’IA brasse des données non qualifiées. Par exemple, l’IA peinera à associer correctement les données client entre elles si des imperfections dans les données de contact brouillent le périmètre de contactabilité.
De plus, une fois les données d’entraînement ingérées, il devient difficile de contrôler quels utilisateurs ont accès à quels éléments de données, créant de nouveaux niveaux d’incertitude ainsi que des risques en termes de protection des données. Notamment, la donnée de contact client non qualifiée ouvre des brèches que les hackers savent exploiter. En témoigne la fraude identitaire dont de nombreux scénarios détournent les données de contact et de nom dont la véracité et l’exactitude n’ont pas été correctement validées avec un outil performant de Data Quality. C’est le cas, entre autres, de la saisie d’une fausse adresse pour échapper aux relances d’un échéancier de paiement, ou du SIM Swapping pour valider indûment une transaction.
La Data Quality passe aujourd’hui sur le devant de la scène
« Garbage in, garbage out », cette logique se manifeste particulièrement dans les projets d’IA. Ainsi, 67 % des dirigeants d’entreprises se préoccupent des risques opérationnels liés à l’IA, principalement en raison de problèmes de gouvernance des données et de leur qualité*. Afin d’éviter que des résultats ne nuisent à l’adoption des cas d’usage de l’IA et à la confiance des utilisateurs, l’heure est aux approches proactives de la qualité des données. Il s’agit d’ailleurs d’une évolution significative puisque la Data Quality a longtemps eu tendance à être traitée de façon réactive, à tort.
Autre motivation à résoudre les problèmes de qualité des données en amont des opérations : justifier les investissements dans l’IA, ce que l’exploitation de données mal qualifiées met à mal en dégradant la rentabilité et la valeur commerciale des projets. À cet égard, le coût d’une erreur de saisie a été estimé entre 10 $ et 100 $ en termes de réputation, de non-conformité réglementaire et d’opportunités manquées si elle n’est tout simplement pas corrigée**. La Data Quality devient donc un prérequis pour rentabiliser les projets d’IA grâce à des données qualifiées et cohérentes à l’échelle de l’organisation.
Enfin, les volumes massifs de données utilisés dans les modèles de l’IA accroissent la consommation d’énergie du numérique, donc son impact carbone. Nettoyer les données permet de limiter ces incidences en évacuant les données inutiles des traitements, économies d’émissions carbone à la clé comme le démontre l’Eco-Calculateur Numérique de DQE . À noter également, selon une étude menée en 2023, les entreprises qui ont recours à des capacités avancées pour maîtriser leurs données de développement durable ont 43 % plus de chances d’atteindre une meilleure rentabilité que leurs concurrents*. L’enjeu mérite d’être pris en compte.
Lors du dernier Club Utilisateurs de DQE, plusieurs entreprises ont partagé leurs expériences sur les bénéfices d’une donnée qualifiée et les enjeux des projets d’IA dans leurs organisations. Voici quelques témoignages marquants :
- Byredo : « La sécurisation des données est un enjeu central pour offrir des solutions d’IA performantes à l’ensemble des services engagés dans l’expansion internationale de notre entreprise. »
- SFR Business : « Nous avons besoin d’un véritable "agent augmenté", doté d’outils basés sur l’IA, pour assurer un contrôle optimal de la qualité des données, tout en gérant la complexité croissante de notre catalogue produits et de nos personas clients. »
- Belambra : « Grâce à des outils adaptés, nos équipes de la relation client peuvent se concentrer sur des actions génératrices de valeur, comme augmenter les ventes, tout en réduisant les tâches liées au SAV. »
- Rossel Advertising France : « Intégrer la qualité des données au cœur de nos transformations digitales n’est pas seulement un enjeu IT. C’est un défi collectif qui concerne toute l’entreprise si nous voulons réussir nos projets d’IA. »
Les 3 axes d’une donnée qualifiée au service de l’IA
Face aux enjeux de Data Quality inhérents à l’IA, les entreprises doivent mettre toutes les chances du côté de leurs nouveaux cas d’usage en préparant le terrain à trois niveaux :
- L'humain : dans un projet d’IA, il importe de rassembler tous les métiers concernés dans l’entreprise afin de combiner leurs visions opérationnelles et l’expertise technique. En termes de Data Quality, notamment de données de contact client, cette approche collégiale permet de comprendre les usages des données et les problèmes associés qu’il faut résoudre avant d’activer l’IA. Renforcer la culture de la donnée client participe aussi à soigner la qualité des données, notamment en sensibilisant aux mauvaises pratiques qu’il faut éliminer – imports manuels de fichiers Excel mal qualifiés, modifications intempestives dans la base, saisies incomplètes voire fantaisistes…
- La gouvernance : qui dit IA, dit gestion des données et de leur qualité à grande échelle. D’où la nécessité d’une gouvernance solide des données pour optimiser les flux qui alimentent l’IA. La Data Quality fait d’office partie de l’équation.
- La technologie : un outil de Data Quality capable de collecter, réconcilier et unifier des volumes massifs de données client en profils unifiés, précis et à jour s’avère essentiel pour garantir la fiabilité et l'efficacité des modèles d'IA. De plus, l’outil de data Quality doit être capable d’effectuer une curation en temps réel de vastes volumes de data pour que l’IA ingère des données entrantes qualifiées sans délai.
Ainsi, l’importance de la qualité des données dépasse largement les considérations techniques. Elle est au cœur de la réussite ou de l’échec des projets d’IA, affectant à la fois la rentabilité et la compétitivité des entreprises dans un contexte de transformation numérique accélérée.
*Source : DataTrails, octobre 2023
**Source : Data Driven: Profiting from Your Most Important Business Asset, Thomas C. Redman, 2008
**Source : Data Driven: Profiting from Your Most Important Business Asset, Thomas C. Redman, 2008
À propos de DQE
Parce que la qualité des données est essentielle à la connaissance client et à la construction d’une relation pérenne, depuis 2008 DQE met à la disposition de ses clients des solutions innovantes et complètes facilitant la collecte de données fiables.