Après le succès de l’édition précédente sur le thème du traitement d’images, CScience a de nouveau pris part au café Datable organisé par le tiers-lieu d’innovation lyonnais TUBÀ. Pour ce rendez-vous de clôture de la saison 2023-2024, il nous invite à découvrir comment l’intelligence artificielle peut corriger des bases de données et ainsi en améliorer la qualité, avec la présentation d’un cas concret par le co-fondateur d’AudioWizard Mathieu Chammah.
Une vingtaine de personnes se sont réunies ce mardi 9 juillet dans les locaux de TUBÀ et derrière leurs écrans pour assister à la l’ultime rencontre Datable avant une pause estivale. Une consultante indépendante sur les données de santé, un responsable du numérique au sein de la Métropole de Lyon, des membres du CEREMA (Centre d’études et d’expertise sur les risques, l’environnement, la mobilité et l’aménagement)… Des personnalités de tout horizon, à l’image de la diversité inhérente au monde de la data, sont venues assister à la présentation d’un cas concret par le co-fondateur d’AudioWizard Mathieu Chammah. « J’espère que vous repartirez tous avec des idées à appliquer chez soi ou en entreprise et qu’on trouvera des solutions tous ensemble » a-t-il lancé dès le début de sa présentation, résumant en quelques mots l’ADN des cafés Datable.
« J’espère que vous repartirez tous avec des idées à appliquer chez soi ou en entreprise et qu’on trouvera des solutions tous ensemble »
— Mathieu Chammah, co-fondateur d’AudioWizard
À la recherche de qualité et de scalabilité
Mathieu Chammah a fondé AudioWizard en 2020 avec son ami d’enfance Thibaut Gressier, ex-audioprothésiste, présent lui aussi à l’événement. Cette start-up lyonnaise propose un logiciel de gestion destiné aux professionnels de la santé – principalement dans l’audioprothèse, l’optique et la prothèse dentaire. Après quatre solides années d’existence, une base sérieuse de 560 clients et un flux d’environ 1 200 utilisateurs quotidiens, les deux fondateurs ont commencé à se demander comment ils pourraient faciliter le traitement de l’immense quantité de données qu’ils utilisent au quotidien.
Ils sont partis d’un constat : Les données de leurs clients sont mal standardisées et parfois incomplètes lorsqu’ils les reçoivent. Elles induisent une maintenance importante avec les évolutions quotidiennes en interne et en externe et ont une répercussion directe sur les temps de traitement, la satisfaction client ou encore les coûts.
Comment y remédier ? En automatisant le traitement de ces données. Les équipes d’AudioWizard travaillent donc depuis plusieurs mois sur un programme en interne capable de détecter et de corriger les anomalies dans les bases de données de leurs clients… Dix fois plus rapidement.
Une démonstration pratique avec un cas d’école
Mathieu Chammah déroule quelques pages de sa présentation pour expliquer le processus en 4 étapes simples. Il se base sur un exemple répandu : une cellule où la couleur est écrite en lettres (bleu métallique) au milieu d’une colonne entière où les couleurs sont désignées par le code RVB (pour Rouge Vert Bleu), en chiffres donc. Une simple erreur qui peut mettre à l’arrêt tout le logiciel de gestion des clients d’AudioWizard.
Le processus est simple. Il y a avant tout une validation des données dites « classiques » et une correction manuelle des erreurs prédictives. C’est uniquement après cette étape manuelle – qui ne laisse qu’un pourcentage résiduel d’erreur – qu’intervient l’intelligence artificielle. Elle est d’abord « promptée », c’est-à-dire qu’on lui donne des règles à respecter en déterminant par exemple quelles données sont obligatoires, leur format, et bien sûr l’autorisation ou non de l’IA à le corriger. Le programme est alors exécuté : il recherche les erreurs ligne par ligne et établi un résumé avec les fautes détectées, classées par catégories. L’étape suivante propose logiquement de faire corriger ces erreurs par l’IA. Ici, Mathieu Chammah précise que le coût peut s’avérer élevé s’il y a un grand volume de données. Si l’on décide de recourir à l’IA pour corriger les erreurs, le programme est lancé et un autre résumé est proposé quelques minutes après reprenant toutes les erreurs rectifiées par les algorithmes. Le tout en quelques minutes.
Des interrogations sur la sécurité et l’impact
« Et nos données restent confidentielles et sécurisées ? » La question préférée du public – à juste titre – dès lors qu’on parle de data et d’IA a été mise sur la table. À cela Mathieu Chammah répond que tout ce qui passe via l’API (l’interface de programmation d’application qui permet de connecter un logiciel à un autre logiciel afin d’échanger des données et des fonctionnalités) n’est pas enregistré par les services d’OpenAI et ne nourrit donc pas leurs algorithmes – à l’inverse de ChatGPT où les données sont réutilisées.
Une autre interrogation demeure. Le recours à la technologie a-t-il du sens si le nombre d’erreurs est marginal ? Les avis dans la salle sont partagés. Pour certains, l’IA à un coût financier, pour d’autres un coût énergétique. Ici encore, Mathieu Chammah indique qu’il est possible d’utiliser des programmes disponibles en « open source » (accessibles au grand public) qui tourneraient sur leurs réseaux en interne, voire d’utiliser Mistral IA, qui a l’avantage d’être en France et non pas de l’autre côté du globe comme ChatGPT. Il ajoute que chaque exécution du programme coûte moins de deux euros : « C’est vingt fois moins cher que ChatGPT 5.0, et on plus on avance dans le temps, moins ce sera coûteux ».
Mais c’est son associé Thibaut Gressier qui a le mot de la fin : « On est passé d’une centaine d’heures manuelles à une trentaine de minutes en cliquant sur un bouton. » Un gain de temps colossal qui justifie le recours à l’intelligence artificielle.
« On est passé d’une centaine d’heures manuelles à une trentaine de minutes en cliquant sur un bouton. »
— Thibaut Gressier, co-fondateur d’AudioWizard
Imaginer un programme accessible à tous
« Donc ça c’était notre modèle, mais on peut le transposer sur vos bases de données » conclut Mathieu Chammah. Plus précisément, le programme en cours de développement chez AudioWizard s’applique à trois catégories de bases de données. La première, nommée Vachard 255 ou « le grand fourre-tout », permet de passer facilement des chiffres aux lettres. La seconde regroupe les bases de données « vides » où l’on pourrait demander à l’IA d’ajouter un titre à chaque colonne d’un tableur, par exemple. Et enfin, elle permet aussi de vérifier et supprimer les injections de codes malveillants au format XSS (un type de faille de sécurité permettant d’injecter du contenu dans une page), et autres tentatives de piratage dans les bases de données.
Mais les équipes d’AudioWizard vont plus loin : elles souhaitent développer un produit SaaS (qui désigne les « logiciels en tant que service ») dédié, applicable à tout secteur d’activité et accessible en ligne pour tout le monde. « J’espère que ça vous a aidé à imaginer des solutions de votre côté et je serais ravi de vous donner un coup de main pour les développer, voire adapter notre logiciel à vos besoins », glisse Mathieu Chammah pour le mot de la fin. Leur modèle sera prêt dès la rentrée et passera rapidement en phase d’industrialisation.
« J’espère que ça vous a aidé à imaginer des solutions de votre côté et je serais ravi de vous donner un coup de main pour les développer, voire adapter notre logiciel à vos besoins »
— Mathieu Chammah, co-fondateur d’AudioWizard
Rendez-vous le jeudi 12 septembre pour le prochain café datable, avec un cas pratique présenté cette fois par une grande entreprise. C’est l’opérateur privé de transport public lyonnais Keolis qui viendra parler des usages de l’IA dans le champs de la mobilité, notamment pour améliorer l’information voyageurs.
Pour aller plus loin :
TUBÀ invite l’école du Wagon à dévoiler le potentiel du traitement d’images par l’IA pour le trail
Crédit Image à la Une : Laurie Bruno