- Speaker #0
Bonjour et bienvenue dans ce nouvel épisode de AI Impact, le podcast qui s'intéresse aux applications concrètes du machine learning et de l'IA en production et en entreprise. Aujourd'hui, j'ai le plaisir de recevoir Jérémy. Jérémy, bonjour.
- Speaker #1
Bonjour, Kémon.
- Speaker #0
Merci pour ta disponibilité. Jérémy, tu as un parcours hyper riche, passé par l'enseignement, responsable de data de scale-up, mano-a-mano, VP, compto. Donc on va beaucoup parler de ton profil, ton parcours et ce que tu as appris tout au long de ces expériences. Est-ce que tu peux me dire ce que tu imaginais devenir étant petit ? Est-ce que tu t'imaginais faire ce que tu as fait ou autre chose ?
- Speaker #1
Ouais, alors en fait, j'étais un peu nerd et je le suis toujours, mais petit, je voulais faire des maths et donc c'est ce que j'ai fait. J'ai fait de la recherche.
- Speaker #0
Déjà petit, 5-6 ans ?
- Speaker #1
Alors 5-6 ans peut-être pas, mais 5-6 ans je ne vais pas le souvenir d'avoir des velléités professionnelles. Mais c'était un peu le problème d'avoir que ma passion soit une matière scolaire.
- Speaker #0
Wow, ok, c'est une chance aussi.
- Speaker #1
C'est pas évident.
- Speaker #0
Du coup, est-ce que tu peux nous expliquer ce que tu as fait, par quel parcours tu es passé et comment tu es arrivé à être responsable d'Atta plus tard ?
- Speaker #1
Oui, alors du coup, j'ai eu une formation de stats. Je suis allé à l'ENSEE, l'école de l'INSEE, avec une super formation de stats. Je voulais continuer à faire des maths à la sortie de l'école, mais mes parents en avaient marre de payer pour mes études. Donc, je suis rentré. Il y avait un concours à l'époque, je ne sais pas s'il existe toujours, pour rentrer. À l'époque, on disait l'UNSK, chante, aujourd'hui on dit Paris-Saclay. En troisième année, et d'être payé du coup, j'ai passé la grecque de maths. J'ai fait une thèse au Lundi. labos de l'école dans le domaine du traitement des images il y a un super labo de traitement des images et puis j'ai eu un poste à Télécom Paris dans l'équipe de STAT où du coup j'ai fait de l'enseignement et de la recherche. Ça a duré 3 ans ensuite j'ai eu un poste dit de Chermix CNRS qui m'a amené à Télécom Sud Paris et j'y suis resté 6 ans. Super. donc oui ça fait J'ai fait 9 ans d'enseignement recherche et j'ai mis du temps à réaliser que, entre ma vision très romantique que j'en avais avant de commencer et le quotidien, il y avait un écart que j'ai fini par reconnaître et accepter qu'entre le rêve, la passion et la réalité, il n'y avait plus d'intersection. et donc j'ai essayé
- Speaker #0
de passer à autre chose et quel conseil tu donnerais parce qu'il y en a peut-être qui nous écoutent qui sont comme ça en fin de cursus ingénieur qui se pose la question de savoir à ce qu'ils poursuivent en thèse pour faire de la recherche ou est-ce qui sont sincères dans le marché du travail trouve un poste d'entreprise qu'est ce qui est ce que tu veux Je conseillerais à quelqu'un comme ça qui se pose la question, c'est quoi pour toi les bonnes raisons de se lancer en thèse ?
- Speaker #1
Alors, moi dessus j'ai un conseil un peu général, mais je ne sais pas s'il s'applique à tout, c'est d'essayer pour ne pas avoir de regrets. Donc si jamais le questionnement est léger, c'est-à-dire qu'on dira pourquoi pas la thèse, qu'il n'y a pas vraiment une sorte de feu sacré, bon, ça ne vaut peut-être pas la peine de passer trois ans à essayer. Mais sinon, je pense que c'est une expérience qui est hyper enrichissante. Même si c'est pour ne pas faire d'enseignement recherche après, c'est vraiment une école. On apprend l'autonomie, on apprend le fait de se lancer dans des projets très ambitieux sur lesquels les critères de succès sont à plusieurs mois, plusieurs années. On apprend à rédiger, on apprend à lire.
- Speaker #0
Et c'est des qualités aujourd'hui aussi que tu mets à profit dans les expériences que tu as eues par la suite et que tu as mis en application. c'est pas quelque chose qui est complètement, soit la rigueur scientifique où le regard, la hauteur de vue par rapport à un problème, comment l'attaquer, comment le découper, et le cadre d'expérimentation, la rigueur à mettre en place pour... se poser les bonnes questions et arriver à des éléments conclusifs, ça c'est des choses que tu retrouves même dans les métiers d'Ataïa aujourd'hui.
- Speaker #1
Oui absolument, c'est des choses que moi j'ai mises en place et qui m'ont des compétences qui m'ont servi et c'est aussi des compétences que je recherche quand j'embauche, non pas que je cherche à embaucher uniquement des docteurs mais quand j'embauche un docteur je sais par quoi elle ou il est passé et en général c'est rassurant de savoir que du coup c'est une personne qui a des compétences pour aller lire une biblio, pour aller exposer ses idées, même quand elles sont techniques, savoir les expliquer de telle manière à ce qu'elles soient facilement comprises, ou en tout cas d'être capable de faire des efforts là-dessus.
- Speaker #0
Très clair. Donc la recherche, l'enseignement, et là, qu'est-ce qui fait que d'un coup tu pars sur autre chose ?
- Speaker #1
C'est un concours de circonstances, c'est un enchaînement de hasards heureux. Je reprendrai la tirade d'Edouard Berle et l'histoire de rencontre. En fait, j'ai un copain qui bosse chez Cédiscount à l'époque, et qui me bosse autour du problème d'optimiser le moteur de recherche. Et qui me dit, viens voir, c'est un chouette sujet, parce que c'est à la fois... Il y a des choses assez techniques et conceptuellement difficiles. Mais si on y arrive, c'est un impact très important. Pour un e-commerceur, le moteur de recherche, c'est une sorte de porte d'entrée.
- Speaker #0
Et donc, optimisation de la recherche, d'information. Là, tu rejoins une petite équipe, une grosse équipe. Comment ?
- Speaker #1
Alors là, on arrive, on parlait de thèse, j'arrive en tant qu'encadrant de thèse-chiffre.
- Speaker #0
D'accord.
- Speaker #1
Donc, on travaille avec un doctorant, Yang, qui intègre Cédis Kunt en tant que doctorant-chiffre. Et moi, je l'encadre. Et c'est ça qui me met le pied à l'étrier de mieux comprendre finalement quels sont les problèmes que rencontre l'occurrence Cédis Kound. Et par rapport à la vision que j'avais avant, qui sont des problèmes un peu imaginés. là où vraiment sont les difficultés. Et on a de la chance, c'est que le travail de Yang et au-delà, le travail de Mathieu qui m'a accueilli dans son équipe porte ses fruits. Et donc ça me permet de voir un premier projet réussi sur comment les... Je reprends. On a été où ?
- Speaker #0
Que le travail de la personne que tu as en cadre
- Speaker #1
porte ses fruits. Ce qui me permet de voir un projet qui va finalement de l'idéation, il y a une composante, je ne vais pas dire scientifique, mais aussi scientifique, qui va jusqu'à la mise en production et qui a un impact mesurable sur le moteur de recherche d'un e-commerçant qui a des millions d'utilisations par jour.
- Speaker #0
Oui. Super. Et donc là, tu prends goût à justement le fait d'avoir de l'impact et de pouvoir construire des produits qui soient utilisés.
- Speaker #1
Voilà. Et donc finalement, là, je retrouve un peu mon idéal qui est de se dire, je retrouve cette situation très chouette. Il y a des choses un peu compliquées qui sont impactantes. Et donc, j'essaie de trouver d'autres. Et puis après, c'est vraiment une histoire de personnes. Stéphane qui est à la technique chez Cdiscount par Privalia, Privalia se fait racheter par Vente Privée et un beau jour Vente Privée m'appelle en me demandant si je veux venir monter l'équipe Data chez eux.
- Speaker #0
Et donc toi qui étais à la tête d'équipe Data de différentes tailles pour certaines où tu as dû construire ces équipes from scratch est-ce que tu peux nous éclairer un petit peu sur les décisions en tant que Head of Data que tu dois prendre quand tu dois monter une équipe, que tu as un sponsor interne qui a des attentes ou pas d'ailleurs, mais tu dois en fait... Travailler des projets, des cas d'usage qui ont de l'impact en production pour le business. Quel type de cheminement intellectuel tu fais pour prendre des décisions avec un budget, d'embaucher tel ou tel profil ? En tout cas, quelle a été toi ta réflexion là-dessus ?
- Speaker #1
Oui, alors être responsable data et IA dans une entreprise, c'est un numéro d'équilibriste parce qu'il faut aller très rapidement vers la valeur. Parce que la crainte de la plupart des entreprises, soit avec lesquelles j'ai bossé ou que je connais et qui est légitime, c'est de se dire cette équipe data qui va nous coûter, est-ce qu'elle va nous rapporter ? Est-ce qu'elle aura un impact ? Ou est-ce que je vais embaucher une équipe de chercheurs qui vont découvrir et puis laisser un bac à sable rempli de jouets et rien de tangible ? Et donc, très rapidement, il faut rassurer là-dessus. Très rapidement, il faut aller vers de l'impact chiffré, mesuré. Et en même temps, il faut travailler les fondations. Parce que si on ne fait que ça, on enchaîne des petites victoires et on ne crée pas un socle qui permet à une équipe data de grandir.
- Speaker #0
C'est-à-dire identifier les sujets. parmi le prisme des projets qu'on pourrait attaquer qui pourra apporter de la valeur ce par les fruits à portée de main en termes de valeur et de complexité à mettre en place ces actes tu veux dire absolument et or isa mais alors donc chez les ventes privées c'est le ce
- Speaker #1
Premier projet qui a apporté ses fruits, c'est la personnalisation. Pas très loin finalement du moteur de recherche chez Sémiscoun, c'est un peu différent parce que chez un e-commerce en classique, c'est des millions, des dizaines de millions de produits. Chez Vente Privée, c'était à l'époque... 200, 300 ventes. par jour. Et donc, les utilisateurs les plus férus de l'application n'hésitaient pas à scroller et d'étendre jusqu'au bout. Mais néanmoins, on pouvait observer que l'ordre des premières ventes était quand même clé. C'est-à-dire que tout le monde n'avait pas le temps d'aller jusqu'au bout. Et donc, si on s'y prenait bien et qu'on arrivait à montrer des ventes qui intéressaient les utilisateurs, on était capable de mesurer le taux de conversion et de mesurer l'incrément de taux de conversion et de faire des choses qui ont un impact. assez rapide.
- Speaker #0
Et ça c'est hyper important en fait dans la sélection des sujets c'est que là tu prends un sujet comme tu le dis où on a un output qui est clair c'est à dire la conversion ou l'acte d'achat et on est capable de effectivement aussi de faire un état des lieux de l'existant qu'est ce que c'est en moyenne le taux de conversion et on voit effectivement qu'un des prédicteurs de ce taux de conversion c'est le ranking ou à quelle la position du produit donc ça c'est clair et c'est un sujet dont tu peux démontrer la valeur assez simplement. Et qu'est-ce qu'elle a été un peu ton retour d'expérience entre le moment où vous avez identifié ce sujet-là et le moment où il a été poussé en production ? Est-ce que ça aussi c'est l'avantage dans des projets plus B2C, c'est que tu peux avoir aussi une fréquence d'occurrence des événements qui est assez élevée, donc tu peux observer assez vite c'est ce que tu testes a un impact et de la valeur. Est-ce que c'est quelque chose que vous avez vu assez vite ?
- Speaker #1
Oui,
- Speaker #0
absolument.
- Speaker #1
Du coup, l'AB test est roi dans ce genre de domaine. Et c'est vraiment ce que tu dis, c'est-à-dire qu'il y a suffisamment de trafic pour que statistiquement, on voit des différences sans avoir à attendre... des mois et en réalité, en quelques jours, on peut voir des différences.
- Speaker #0
Ok. Et malgré tout, en fait, est-ce qu'il y avait déjà des personnes qui avaient des profils plus stateux, mathématiciens dans ces équipes ? Ou est-ce que c'était nouveau ? Et si oui, est-ce que tu vois le... Le gap d'avoir une idée et puis de commencer à construire un petit modèle qui pourrait avoir un intérêt, le gap que ça marche chez soi en local et que ça marche en production pour des millions de utilisateurs, il y a un pas. Est-ce que ça a été un point de douleur ?
- Speaker #1
Non, le fait de passer en production, ça n'a pas été une affaire trop compliquée parce que j'avais recruté des profils qui étaient à la fois dans les aspects conceptuels et qui étaient très bons. Ce n'était pas nécessairement les mêmes. d'ailleurs, mais c'est l'intérêt de construire une équipe avec différentes compétences. Donc, on a réussi à mettre en production assez vite, de mémoire, quelques mois après avoir démarré le projet, trois, quatre mois de mémoire, on avait déjà les premiers résultats.
- Speaker #0
Super.
- Speaker #1
L'astuce ici a été de commencer par des idées vraiment très simples. Et donc, une des idées les plus simples qu'on peut avoir dans ce domaine-là et qui marche, c'est de se dire que finalement, alors ça s'applique à Fond de privé, à Vipi, mais ça doit sans doute s'appliquer ailleurs. D'ailleurs, c'est que chez Vipi, les données sont déclaratives. C'est-à-dire qu'il n'y a pas de clic anonyme. Les gens se déclarent avec un email et renseignent des informations sur eux. On ne sait pas si elles sont 100% vraies, mais peu importe. Et donc finalement, l'idée de se dire, proposons des ventes qui marchent bien pour les mêmes catégories, pour les mêmes genres et les mêmes tranches d'âge. Une idée qui est très simple. et qui portent ses fruits très rapidement. Et donc, là-dessus, peut-être le conseil, si j'en ai un, c'est de commencer simple et de sophistiquer, parce que ça permet à la fois de rassurer tout le monde, et à la fois d'avoir des premiers résultats, un peu comme si on cherchait des investissements qui nous permettent de donner confiance aux investisseurs.
- Speaker #0
C'est hyper intéressant, parce qu'en fait, on aurait pu se dire « Ouais, on va faire de la data science dans le sens hyper personnalisation, à la maille de chaque consommateur » , mais en fait, rien que l'idée c'est de se dire, ne serait-ce que faire de la personnalisation un peu macro, indépendamment du comportement de chacun, ça apporte déjà de la valeur. Et déjà, en fait, ça rassure, comme tu dis, les stakeholders sur la porte que vous avez.
- Speaker #1
Ce qui nous a le plus mis en difficulté, finalement, c'est de voir qu'une grosse partie de l'incrément est venue de là. C'est-à-dire qu'ensuite, on a arrêté là. On a essayé de faire des choses plus compliquées, où on allait hyper personnaliser. Et on est arrivé à la fin sur des systèmes de recommandations modernes, avec des réseaux de neurones, triplettes losses, mais l'incrément qu'on a obtenu en passant de ces règles simples au réseau de neurones modernes est plus petit que de rien jusqu'aux règles simples. Ah super ! Donc il y a une sorte de rendement décroissant. Mais il y a des incréments, on peut aller plus loin que des règles simples et finalement même des petits points d'amélioration du taux de conversion, vu les volumes, se traduisent en un impact chiffré qui est important et donc qui vaut le coup.
- Speaker #0
Est-ce que tu as comme ça en tête un autre projet, que ce soit chez Vipi, chez Conto ou ailleurs, dont tu veux parler ? qui aurait eu aussi un impact avec peut-être une typologie de données un peu différente puisque j'imagine que chez conto il ya aussi en termes de variété d'informations sur des profils il ya aussi de la transaction mais aussi des informations des justificatives sur les pertes sur des justificatifs d'identité, de revenus ou sur des entreprises. Est-ce que ça c'était un gros sujet, une matière première pour les sujets d'attaque que vous aviez ?
- Speaker #1
Oui, il y a plein de sujets, plein d'autres sujets qui sont amenables à l'IA. Effectivement, chez Conto, le sujet de la reconnaissance d'informations sur les documents et les documents financiers en particulier, de capter les informations importantes sur les factures pour éviter aux clients d'avoir à renseigner quel est le fournisseur, quel est le de mon temps. Quelle est la TVA ? Ça, c'est des choses très importantes. Si on revient à Vipi, il y a aussi la question de la catégorisation. Quand on fabrique une vente, il y a le fait de fabriquer son contenu digital et donc de remplir les produits, de mettre les produits dans des cases. Ça, c'est un t-shirt, ça, c'est un polo. Tout ça aussi, ça s'automatise. Chez ManoMano, effectivement, toujours les questions des moteurs de recherche, mais aussi la question de quand on a un catalogue comme celui du bricolage, qui est très spéciale. spécialisés, avec des produits très techniques. Et pour autant, les informations techniques des produits sont très importantes pour les clients. Le nombre de tours minutes d'une perceuse, la capacité... Être capable sur des millions, des dizaines de millions de produits, d'avoir un système qui vérifie et qui extrait ces informations à partir des fiches produits et qui les met dans les bonnes cases est super important. Voilà quelques use cases, la catégorisation de produits, la personnalisation. les moteurs de recherche, l'extraction d'informations dans les documents financiers. Je ne parlerai pas de la lutte contre la fraude. Autant de sujets qui portent leurs fruits et qui sont basés par l'IA.
- Speaker #0
Et comment... C'est hyper intéressant tous ces sujets-là qui sont hyper variés en termes de données, en termes de typologie de problèmes à adresser. Est-ce qu'à travers ces expériences dans différentes entreprises, différentes cultures d'entreprises, tu as vu des systèmes qui marchent mieux que d'autres en termes de... gestion de projet et gestion d'attente aussi de ces projets là et de vélocité des équipes parce qu'on connaît un peu les on va dire les limites des méthodes agiles un peu traditionnelle quand en fait le résultat n'est pas garanti c'est à dire que quand on parle de data science l'input est variable l'output est aussi pas déterministe et comment en fait tu arrivais quand même avec tes équipes à atteindre une destination qui est meilleure que celle qu'on est aujourd'hui, tout en manageant cette variabilité avec aucune garantie qu'on y arrivera à 100%, mais quand même qu'on sera dans un meilleur état que ce qu'on est actuellement. Avec le contexte dont tu parlais de dire qu'en fait on finance une équipe data, ça coûte cher et on attend des résultats. Est-ce que toi tu as vu un peu en termes d'organisation plus opérationnelle des systèmes qui fonctionnaient mieux que d'autres dans l'animation d'équipe, dans le découpage des sujets, dans le fait de prioriser certains sujets, même qui sont comme tu le disais, importants en termes de socle et de fondation et qui sont plus expérimentés, enfin, qui nécessitent plus d'expérimentation, mais qu'il faut quand même faire pour en fait se garantir qu'on crée du knowledge, qu'on garde les meilleurs et que demain, peut-être qu'on se crée un avantage stratégique en attaquant des sujets un peu plus complexes que les sujets comme on a évoqué qui peuvent être des fruits à portée de main. Est-ce que toi, t'as t'as trop trouver un peu une formule magique pour composer avec tous ces éléments et en même temps rassurer l'organisation pendant ces différentes étapes.
- Speaker #1
Non, je n'ai pas trouvé de... Ceci étant, j'ai été très marqué par mon expérience chez Conto et par le... mon apprentissage du lean. Ce que ça a eu comme impact très concret, c'est que je regarde maintenant avec un autre oeil les organisations où il y a des gens qui font la tête et d'autres qui font les jambes. Et si je devais remettre en place des organisations, je prendrais un soin particulier à m'assurer que les gens qui font les jambes font aussi la tête. C'est-à-dire qu'il n'y a que des têtes. Et ça, ça a l'air de rien, mais si on suit...
- Speaker #0
Pour être très concret, il y a les gens qui managent et puis les gens qui codent.
- Speaker #1
Exactement. Et ces organisations, on voit quelqu'un en charge du produit qui ne fait pas. Et puis quelqu'un qui est une sorte de jumeau qui est en charge de la pure réalisation technique. J'aime mieux maintenant avoir une forme d'unité et de se dire que les gens qui sont techniques, ça ne les empêche pas de s'intéresser aux clients. Je pense que ça, c'est quelque chose d'important pour moi. Et la deuxième chose, c'est d'être en coût fixé à l'avance, c'est-à-dire que le budget temps est connu à l'avance. On verra ce qu'on arrivera à faire dans ce budget temps, mais on a deux options. soit on se dit le le budget temps est fixé et puis on regarde ce qu'on délivre dans ce budget temps. Soit on se dit que finalement, c'est le critère de succès qui est fixé et on investira jusqu'à arriver. Pour moi, je trouve que dans des sujets où il y a de l'incertitude, c'est plus rassurant. de se fixer des coûts que de se fixer des critères de réussite.
- Speaker #0
Oui. Et on a beaucoup d'exemples, en fait, où, et souvent, c'est dans l'organisation peut-être un peu moins mature sur la connaissance de la data ou de l'IA, de se dire, ça marche, ça ne marche pas. Ou alors, il faut que ça marche à 95 %. Et il y a des domaines où c'est hyper important, dans le médical ou dans des domaines où, en fait, on met quelque chose dans les mains de... clients et il y a soit des enjeux réglementaires ou des enjeux d'image de la boîte qui peuvent être en cause si le modèle n'est pas très performant. Mais l'idée de dire, on se fixe un temps et ce temps-là, peut-être qu'à la fin, il y aura juste un POC ou quelque chose dont on considérera que c'est techniquement peu faisable ou ça va demander peut-être un an pour y arriver et on y va ou on n'y va pas, mais c'est une décision éduquée plutôt que de se dire, voilà un critère d'acceptance et on mouline tant qu'on n'y est pas.
- Speaker #1
Exactement, on fait une expérience et Euh... Et on planifie les choses d'emblée comme ça. On espère qu'elle sera couronnée de succès. Elle ne le sera peut-être pas, mais on sait qu'on aura investi un coût qu'on est prêt à investir. Et ensuite, on prendra la décision de savoir est-ce qu'on continue l'expérience, est-ce qu'on la passe à l'échelle ou est-ce qu'on en tente une autre.
- Speaker #0
Super. Attends, je fais une petite pause. Est-ce qu'il y a des sujets comme ça que tu as envie d'évoquer ? Chez dans une direction...
- Speaker #1
Oui, tu sais, on peut revenir sur le... On s'est posé la question de l'impact de l'IA. Oui. Et je ne t'ai pas encore parlé de l'impact des stats. et on peut revenir là-dessus
- Speaker #0
Très bien Alors on a un peu parlé de pas mal de cas d'usage qui sont en production est-ce que tu peux nous parler parce que tu as un bagage mathématique statistique important, est-ce que tu peux nous parler de l'importance aussi des fonds fondamentaux, maths, stats, et comment toi tu as pu le voir ou infuser en fait cette compétence dans tes équipes et l'importance de pas uniquement peut-être penser juste à la destination, c'est-à-dire la mise en production, mais qu'est-ce qu'on peut apporter autrement aussi quand on est data scientiste ?
- Speaker #1
C'est une question qui est importante pour moi, et en particulier quand on met en place une organisation data, aujourd'hui on est très marqué par la puissance des réseaux de neurones, par le l'IA moderne. Et on a tendance à oublier l'importance des données pour aider à prendre des bonnes décisions. Et donc, on parlait d'impact et tu me demandais tout à l'heure quels étaient les projets impactants à base d'IA que j'ai pu encadrer ou observer dans mon expérience. mais en termes d'impact les projets parmi les plus impactants qu'on ait menés sont autour d'utiliser les données non pas pour automatiser et pour aider à prendre des bonnes décisions. Je donne un exemple pour ne pas rester trop abstrait. C'est connu que la publicité en ligne est une source de coûts importante. Néanmoins, quand on investit des fois des millions d'euros sur telle ou telle présence digitale, on n'est pas toujours sûr de savoir est-ce qu'on a bien fait et qu'est-ce qu'on a reçu en retour ? plateforme souvent propose des chiffres, propose de chiffrer l'impact,
- Speaker #0
mais son juge est parti.
- Speaker #1
Exactement, leur juge rend la confiance compliquée. Et de ce point de vue-là, on a mis en place des expériences et on a eu des surprises. En particulier, il y a plusieurs... un cas de figure assez classique qui consiste à enchérir sur sa propre marque, le nom de sa propre marque sur les différents canaux marketing. Et c'est une question légitime de se dire est-ce que vraiment c'est rentable ? Est-ce que les gens qui cherchent, mettons, sur un moteur de recherche, Conto ou ManoMano ou Vipi, vont aller cliquer sur le site d'un concurrent ?
- Speaker #0
Oui.
- Speaker #1
Si vraiment c'est leur unique... Et donc ça, ça se mesure et on a eu des surprises. L'impact de ces projets-là sont, à la fin, ce chiffre en millions d'euros.
- Speaker #0
D'accord.
- Speaker #1
Autre exemple, il y a eu une époque... Et là-dessus,
- Speaker #0
pour revenir à ce que tu dis, c'est que, en fait, le travail... Et la finalité du travail, ce n'était pas nécessairement le passage à l'échelle ? Non,
- Speaker #1
ce n'était pas la mise en production.
- Speaker #0
C'est pour se dire, pour la prochaine campagne, où on doit investir peut-être des millions d'euros sur cet aspect marketing, qu'est-ce qu'on fait ?
- Speaker #1
Exactement. Donc c'est-à-dire, ici, ces millions d'euros qu'on a investis... nous ont ramené combien de nouveaux clients. Et là où ça devient intéressant et où on revient sur la question des stats, c'est qu'à faire, c'est pas facile. Pourquoi c'est pas facile ? Parce que finalement, on en parlait tout à l'heure, l'outil clé pour ce genre de mesures d'impact, c'est l'AB test. Mais ici, l'AB test est compliqué, impossible. Parce que pour faire un AB test propre, il faudrait être la plateforme Oui. de diffusion des contenus. Quand on est une marque, on arrive après le clic. On n'est pas capable de se dire ce qui se serait passé si la plateforme avait montré un résultat différent. Alors, les plateformes proposent des outils d'Apéthès, mais encore une fois, leur positionnement rend ce genre de contrat et de collaboration compliqués.
- Speaker #0
Donc dans l'exemple que tu donnes, c'est si je suis VP et que je mets de la pub quand une personne sur le moteur de recherche cherche VP, est-ce que j'ai plus de conversion que si je ne mets pas de pub ?
- Speaker #1
Exactement. question là il faut utiliser des méthodologies statistiques compliqué parce que les méthodologies simples la bt est nous ne sont pas disponibles yes et donc il faut mettre en place des groupes de contrôle synthétique on se dit voilà on va essayer d'apprendre comment se comporte, dans l'occurrence ici, Vipi, peu importe, la marque en fonction du temps. Et on va essayer de mesurer un écart par rapport à ce qu'on prédit. Par exemple, par rapport à ce qu'on aurait anticipé maintenant qu'on a coupé la pub, maintenant qu'on l'a activée, qu'est-ce qu'on observe comme écart ? Et donc, pour un e-commerceur, le groupe de contrôle synthétique, c'est d'imaginer, essayer de prédire son trafic aujourd'hui ou demain en fonction d'un certain nombre de prédicteurs. Son trafic dans d'autres pays, son trafic la semaine d'avant, la météo.
- Speaker #0
Oui. Et du coup, effectivement, là, c'est un impact interne, mais que tu peux aussi mesurer. ton message, c'est aussi de dire, en fait, quand on est data scientiste, même si on peut travailler sur des sujets importants avec de l'impact, Merci. comme tu dis, en millions d'euros, mais qui n'ont pas nécessairement vocation à être embarqués dans un produit et à être déployés à l'échelle. C'est OK. Et c'est même peut-être là où il y aura le plus, comme tu disais, de complexité ou de valeur parfois, en tout cas, dans la complexité du problème mathématique. C'est de la haute couture. C'est quelque chose que tu fais tailor-made pour ce projet-là. Et peut-être dans six mois, on va changer la tête du modèle parce qu'il faut l'adapter
- Speaker #1
C'est ça, et surtout les profils pour mener à bien ce genre de projet ne sont pas tout à fait les mêmes profils qui ont été formés à mettre en production des modèles de deep learning ou à entraîner des modèles de deep learning. C'est vraiment des économètres. C'est des profils qui ont été formés à interpréter les coefficients dans une régression, leurs signes, qui sont capables de faire des tests de significativité, qui comprennent la notion de p-valeur.
- Speaker #0
Et ça se perd, j'ai l'impression.
- Speaker #1
Et c'est pour ça que j'en parle aussi ici, parce que du coup, il y a eu une sorte de cannibalisation de toutes les formations vers le...
- Speaker #0
le code, ce qui est une très bonne chose parce que c'est effectivement une compétence clé quand on fait de la data, mais qui a pu aller trop loin. C'est-à-dire que du coup, en négligeant complètement les fondamentaux stats. Dernier exemple, et je m'arrêterai là-dessus, pour montrer à quel point les questions de causalité et de corrélation de stats sont des questions importantes, y compris dans la vie de tous les jours. Je me rappelle, chez ManoMano, on se posait la question à un moment de... la qualité d'expérience des livraisons auprès d'un client parce que c'est une marketplace et donc finalement c'est les différents vendeurs qui sont en charge de la livraison et donc il y a une expérience un peu hétérogène en fonction des vendeurs qui sont très bons et d'autres qui le sont pas Et la question qui se posait, c'est quel est l'impact d'un retard de livraison sur le réachat ? Est-ce qu'on est capable de voir, quand un client souffre d'un retard de livraison, est-ce qu'il réachète moins ? Et si on s'y prend mal, on peut arriver à des choses très surprenantes. Par exemple, si on suit une idée assez naïve, qui est de se dire, on va faire deux groupes de clients. Il y a ceux qui ont eu des retards de livraison, et il y a ceux qui n'ont jamais eu de retard de livraison. Et on regarde les taux de réachat dans les deux groupes, pour nous aggrouper. en fait on se pince on refait nos calculs On calcule, on hallucine, mais le groupe des clients qui ont eu un retard de livraison réachète plus que le groupe de clients qui n'a pas eu de retard de livraison. Alors on se dit, mais il y a un problème dans les données, un problème dans le bucket, etc. Et non, en fait, c'est le genre de paradoxe avec lequel les statisticiens sont formés et sont familiers, mais qui peut être déroutant et qui peut passer inaperçu. là il est quelque part il choque et donc il incite à informer de débugage. Mais on peut imaginer ce genre de situation qui ne choque pas et qui amène à des résultats bons, parce que nos mécanismes d'alerte n'ont pas été déclenchés. Donc ici, l'explication du paradoxe, elle est assez simple, c'est qu'il y a un biais d'échantillonnage. Quand on va regarder les deux groupes, finalement, dans le groupe des retards de livraison, il y a beaucoup plus de réacheteurs, naturellement. Pourquoi ? Parce que plus on achète, plus on a le chance d'avoir de retards de livraison. Finalement, quand on regarde le groupe de ceux qui ont des retards de livraison, naturellement, on aura plus de réacheteurs.
- Speaker #1
Des gens qui sont accoutumés à acheter déjà.
- Speaker #0
Donc la question, une fois qu'on a compris ce biais, elle reste complexe. Bien sûr. C'est-à-dire, d'accord, mais nous, ce qui nous intéressait, c'est toutes choses égales par ailleurs, et c'est ça qu'il ne faut pas oublier, quel est l'impact d'un retard de livraison ? Et donc, une fois qu'on a compris ça, l'enjeu, c'est méthodologiquement, comment est-ce qu'on fait pour répondre à cette question ? Toutes choses égales par ailleurs, quel est l'impact d'un retard de livraison ? En tout cas, on ne peut pas s'y prendre en disant, voilà, on va faire un pack de livraison, retard de livraison, groupe...
- Speaker #1
Le prendre comme critère discriminatif. discriminant de la population.
- Speaker #0
Et donc ensuite, c'est tout un savoir-faire. Et si on a été uniquement formé à l'architecture des réseaux de neurones, on est complètement démuni sur ce genre de questions.
- Speaker #1
Oui, et tout en s'assurant que la population qu'on va égentiller, est-ce qu'elle est représentative ? Est-ce que les conclusions qu'on va tirer de ce sous-segment, est-ce que la taille est suffisamment importante pour que ce soit significatif aussi ? Tous ces réflexes qu'on a quand on fait, comme tu le disais, quand on fait des statistiques un peu avancées à l'école, etc., on peut les perdre assez vite, ou en tout cas, même dans le cadre de l'école, c'est pas la réponse qu'on a.
- Speaker #0
Il n'y a pas de mise en production. On ne se demande pas si tous les jours, on va prendre une décision de changer la logistique. Mais on veut prendre une décision basée sur des vrais chiffres. Et ici, on se rend compte que c'est plus difficile qu'il y paraît de faire une analyse de causalité.
- Speaker #1
Super. Je suis curieux d'avoir ton avis sur l'impact de l'adoption de l'IA générative qui est présente partout. Il y a beaucoup de boîtes qui se posent la question de comment intégrer cette technologie dans leurs process, leurs produits, leurs business et comment prendre de meilleures décisions. Est-ce que toi, tu as une conviction vis-à-vis de ces projets-là ou de l'intérêt apporté à ces sujets-là quand on est un décideur ? Merci.
- Speaker #0
Oui, alors je pense que je suis, comme tout le monde, complètement bluffé par la vitesse à laquelle font les choses. Et je pense qu'aujourd'hui, plus personne ne se pose la question de savoir est-ce qu'il faut aller vers l'IA générative ou pas. Tout le monde a compris que c'était une source de valeur inévitable. Ce qui me frappe, c'est à quelle vitesse on est passé finalement de système de chat à des systèmes qui agissent. un autodébit Au début, les gens manipulaient ChatGPT ou d'autres systèmes et s'amusaient tout en étant impressionnés par la qualité des échanges. Et puis, finalement, on s'est dit, mais est-ce qu'on ne peut pas en tirer un ? un avantage dans l'automatisation. Et donc, on change de paradigme, au lieu d'appeler ces systèmes-là... à la main, on les appelle de manière programmatique. Mais ça, c'est assez classique. Et puis, une fois qu'on est capable d'appeler ces systèmes de manière programmatique, finalement, on se dit, mais on a besoin d'avoir un système qui ne nous répond pas tout un paragraphe quand on pose la question, quel est le nom du fournisseur dans cette facture ? Mais qui répond à quelque chose de normalisé. Et donc, on se met à utiliser les LLM pour, au lieu de faire des conversations, renvoyer des données structurées. Un dictionnaire, nom du fournisseur.
- Speaker #1
avec un output structurel,
- Speaker #0
TVA, etc. Donc une fois que les LLM sont bons à sortir des, mettons des JSON, l'étape d'après c'est de se dire mais alors du coup est-ce qu'ils pourraient pas appeler des fonctions ? Et donc on a la notion d'outils qui arrive. Donc on a des LLM et des outils. Et donc on arrive à avoir un LLM qui dit, dans le dictionnaire que je sors, j'appelle cette fonction avec ses paramètres. Mais une fois qu'on a la capacité d'appeler des fonctions avec des paramètres, on arrive à la notion d'agent qui est de se dire d'accord maintenant que l'LLM est capable de choisir les fonctions et de mettre ses paramètres, pourquoi pas créer une sorte de grande boucle while dont l'LLM dira quand est-ce qu'on peut sortir et qui tant qu'on n'est pas satisfait du résultat continue à appeler les fonctions à disposition et donc on est dans ce moment là où les agents sont en train de rentrer dans les entreprises et on se rend compte de la puissance de ce cadre là J'ai l'impression que c'est à peu près la photo à l'instant où on a cet échange. Et on voit qu'il est en train de se dessiner tout un pan autour de l'ingénierie de ces agents. En ce moment, le protocole MCP fait pas mal de bruit, en se disant, mais finalement, ces agents, si on arrivait à standardiser quels sont les outils à leur disposition, ça rendrait l'intégration de ces outils beaucoup plus simple. simple.
- Speaker #1
Bien sûr, parce qu'aujourd'hui, tout le monde a commencé à créer des outils, mais un peu pour des besoins propres, et comment on le fait pour mutualiser à la fois les outils en question, mais aussi la façon de les appeler et les paramètres qu'on peut passer. Et comme tu disais, il y a aussi... à la fois cet engouement et cette perception qui est juste de la potentialité de cette techno, et en même temps des challenges de soucis de reproductibilité, de comment on peut monitorer, comprendre, tester efficacement ces systèmes. Donc une partie est autonome en termes de choix, de séquencement des étapes, de sélection des outils, etc.
- Speaker #0
Exactement. Je pense que là, ce qu'on va vivre dans les prochains mois, je ne sais pas d'ailleurs en termes de durée, parce que je suis toujours surpris que ça va plus vite que ce que je pensais. c'est la standardisation de l'exposition des outils à travers, je ne sais pas si ce sera le protocole MCP qui va faire mouche, mais il y a clairement cette tendance-là.
- Speaker #1
Il y a d'ailleurs communiqué qu'ils allaient se préoccuper avec Antropi quand j'ai lu ça, c'est intéressant.
- Speaker #0
Top. Donc voilà, il y a l'agentification, je ne sais pas si on peut dire ça, dans les entreprises, et ce qui va avec, c'est finalement le fait de réintégrer tout le parc de données non structurées, qui n'étaient pas dans les bases de données, à côté des données structurées. C'est ça l'enjeu, tout ce qui traîne, équipement avoir une valeur monstrueuse dans les fichiers Excel, dans les documents à Ausha droite, et qui n'est pas dans les bases de données. Et qui aujourd'hui est traité à part et qui demain pourrait être traité de manière homogène.
- Speaker #1
Très bien, Jérémy, est-ce que tu peux nous parler un peu de ton actualité, ce que tu fais, parce que tu as quitté Conto il y a quelques mois. Donc voilà, très curieux de savoir ce que tu fais, parce que je suis sûr que c'est passionnant.
- Speaker #0
écoute ouais donc j'ai effectivement j'ai quitté Conto en novembre 2024 et je me suis lancé dans un projet qui reprend les fondations de la data. C'est-à-dire qu'on a beaucoup parlé d'impact, c'est normal, et d'ailleurs c'est les préoccupations de tous ceux qui sont en charge de l'IA ou de la data dans les boîtes. Mais très souvent, l'endroit où on gagne ou on perd la bataille dans ces initiatives-là, ce n'est pas autour de la valeur. Parce que les projets qui ont de l'impact, ils arrivent assez facilement. C'est un peu plus dur de les mettre en œuvre, mais les identifier, ce n'est pas très difficile. Là où on gagne et où on perd la bataille, c'est au niveau des fondations, au niveau de la manière dont les données sont structurées. C'est une tarte à la crème, tout le monde le sait, on a vu passer différents mèmes. Il y a le mème où on voit Jane Eyre, cet antiprampoline où on monte vers le paradis et on tombe dans l'enfer. des données, des fondations mal structurées il y a ce même où on voit dans une piscine enfin bon il y a différents, c'est connu c'est une tarte à crêpes et pour autant aujourd'hui je trouve que cette partie là c'est un peu le parent pauvre en termes d'outillage c'est à dire qu'il y a très peu d'outils qui aident à bien modéliser les tables dans une base de données et quand on prend euh... une base de données au hasard, très souvent, elle n'est pas bien structurée. Et il y a une raison à ça. Ce n'est pas que les gens ne sont pas forts. C'est que les modèles de données sont des modèles qui sont tout le temps en mouvement. Et Et donc, il y a une sorte de création d'entropie qui est naturelle.
- Speaker #1
Des arbitrages qui sont faits au fil de l'eau et qui créent accidentellement de la complexité, de la dette, etc.
- Speaker #0
Et donc, si on ne lutte pas activement contre ça, la situation... normal, c'est le boxon. Et si on rajoute à ça le fait que les outils modernes, je pense aux super entrepôts de données modernes, Snowflake, Query, etc., qui permettent de faire des requêtes qui, à l'époque, auraient mis des heures à tourner et qui, aujourd'hui, tournent comme ça. Je pense aussi à DBT, qui a permis, finalement, à tout le monde de s'emparer de la modélisation des données. Ces outils-là, ils ont aussi un côté finalement plus sombre, qui est de se dire que quand tout le monde s'empare de la modélisation des données et que toutes les requêtes deviennent finalement accessibles en quelques secondes, là où... se pose la question de leur gouvernance et de comment remettre de l'ordre quand les outils nous laissent facilement créer des chaos.
- Speaker #1
Ouais, et pour répondre sur ce que tu dis, c'est pas rare pour l'avoir vu beaucoup de fois des équipes ou ne serait-ce qu'il ya trois quatre dates à l'âne qui ont, et c'est très puissant, entre leurs mains la possibilité via DBT de générer des tables et pour exposer des KPI dans des dashboards. Au bout d'un an on se retrouve avec des dizaines, des centaines de tables, de modèles intermédiaires ou même dans les MARTs qui sont exposés avec, comme tu le dis, des risques de doublons, de façons de faire la même chose différente, etc. Et forcément documentées, expliquées.
- Speaker #0
Exactement. Des tables qui sont zombies, qu'en fait il ne faut plus utiliser mais qui ne sont pas marqués comme tel. et ça c'est finalement la situation classique oui et c'est une situation qui intéresse peu de personnes en dehors des équipes data parce que les symptômes ne sont pas très visibles si ce n'est que ça prend un peu de temps on est étonné de la de la lenteur de certains projets et de la lenteur à l'onboarding parce que quand on est nous on débarque finalement c'est on retrouve la tradition orale quoi on va demander aux collègues qui ont fait les tables qui sont qui ne sont déjà plus là. qu'ils se souviennent encore quelle est la logique et on a beau avoir fait des progrès immenses dans l'aide à la génération de code, on revient aux outils dits à moderne dans cette partie là la modélisation des données je trouve qu'on pourrait mieux outiller les équipes data et donc c'est là dessus que je bosse super ok et attends
- Speaker #1
un deux est-ce que tu veux en dire plus ou pas Merci. sur le... ça te va ? c'est super intéressant en tout cas je pense que comme tu le dis pour l'avoir vécu c'est un vrai point de douleur et très curieux de savoir ce que tu vas proposer dans les mois qui viennent pour régler ce problème on arrive sur la fin de l'entretien est-ce qu'il y a deux choses, est-ce que tu aurais des bonnes habitudes ou des réflexes que toi tu as développé au fil des années et dont tu sens que elles sont impactantes dans la façon, dans ta performance en général que tu voudrais relayer, des conseils ou de bonnes habitudes, une ou deux. Et la deuxième chose, est-ce que t'as un livre ou une série, un film que t'aurais vu ces six derniers mois et que t'aimerais recommander ?
- Speaker #0
Sur le... l'efficacité, je disais que j'étais très marqué par le lean. Et donc il y a deux choses qui m'ont vraiment beaucoup marqué. Et aujourd'hui, je pourrais plus faire sans. La première, c'est le management visuel. C'est-à-dire se dire que... Et donc, je l'utilise à titre perso dans mon projet. Et si j'étais manager d'une équipe de main, je l'utiliserais à nouveau. Qui est de... modéliser les flux de création de valeur et de pouvoir suivre d'un coup d'œil où est-ce qu'on en est sur les différents flux et est-ce que tout se passe de manière normale ou pas. Donc chez moi, pour un projet perso, c'est de se dire... Sur quoi je travaille aujourd'hui ? Quels sont les sujets en cours ? Et de faire des petites cartes qui évoluent avec le projet. Et qui permettent à tout le monde, en l'occurrence ici c'est uniquement moi, mais si on était plusieurs, qui permettra à tout le monde de savoir où est-ce qu'on en est sur les différents flux.
- Speaker #1
Tu parles en termes d'avancement, d'état d'avancement ? Oui. Ok, d'accord.
- Speaker #0
Je parle de cette chose qui est toute bête, c'est de se dire que c'est très puissant d'être capable de voir, d'observer sans avoir à poser des questions. Tout à fait. La deuxième chose, et ça c'est plus dans le monde du travail en équipe que tout seul, quoique, c'est les outils pour la résolution de problèmes. Très souvent, quand on a des problèmes, on ne va pas trop communiquer dessus. On va essayer plutôt de communiquer naturellement sur ce qu'on va faire pour les résoudre. On ne parle pas des problèmes, mais on a tel problème. Moi, je vous propose qu'on fasse ça pour le résoudre. Et ce que j'ai compris avec le temps, puis avec cette expérience chez Conto et dans le monde du Lean, c'est qu'on a intérêt à passer beaucoup plus de temps sur la phase d'analyse du problème. Parce que très souvent... et souvent quand on est plusieurs on aura des angles de vue très différents et on a intérêt à se partager l'état du problème, l'état des lieux et l'analyse des causes racines parce que si on se trompe dans l'analyse des causes racines, ce qu'on va faire après va être... Et en fait, on a vite fait de se tromper si on n'a pas pris le temps de bien formaliser. Donc la résolution des problèmes à travers leur formalisation, c'est-à-dire avoir des documents qui...
- Speaker #1
Voilà.
- Speaker #0
Voilà la situation. Voilà d'où vient le problème, selon moi. Et voilà ce qu'il faudrait faire pour le résoudre. Mais ne pas aller directement à valoir ce qu'il faudrait faire pour le résoudre.
- Speaker #1
Oui, très clair.
- Speaker #0
Tu me posais aussi la question...
- Speaker #1
La question, si tu as quelque chose à proposer à l'audience en termes de...
- Speaker #0
De lecture. D'un point de vue perso, c'est mon fils qui m'a fait découvrir un auteur incroyable, Wajdi Mawad, qui fait des super pièces de théâtre au théâtre de la Colline. Vraiment, j'ai trouvé génial. Et puis, d'un point de vue plus lié aux questions pro, j'ai lu Kahneman. Il est mort, je crois, l'année dernière, Daniel Kahneman. Et je crois qu'il a écrit plusieurs livres. mais le livre que j'ai lu c'est Thinking Fast and Slow où il explique les systèmes 1 et 2 de la pensée et tous les biais qu'on peut avoir et c'est une lecture qui a c'est un gros bouquin c'est pas difficile à lire mais c'est long moi j'ai adoré et ça m'a ça m'a beaucoup marqué ouais ouais et ça aide à prendre conscience à la boîte c'est le débit et cognitif ouais ouais super intéressant merci beaucoup jérémy merci pour ton temps c'était un peu démonstré clair au revoir