Épisode 3 : Comment déployer l’IA à l’échelle dans l’assurance ? - Antoine Ly (Chief Data Science Officer) | AI Impact

Description

🚀 Comment SCOR déploie l’IA à l’échelle dans l’assurance ?

Antoine Ly , Chief Data Science Officer chez SCOR, partage dans ce nouvel épisode d’AI Impact un retour d’expérience passionnant sur la structuration, l’industrialisation… et la mise en production de solutions IA qui créent de la vraie valeur métier.

🎧 Au programme :

Pourquoi SCOR a délaissé le modèle “data lab” au profit de squads agiles par projet
Comment construire une équipe IA hybride from scratch, entre rigueur scientifique et culture produit
Comment des fondations solides (données, évaluation, déploiement, monitoring) accélèrent l’adoption de nouveaux cas d’usage GenAI
Un regard critique sur la hype des agents IA
Et un deep dive sur la sélection du risque à partir de documents non structurés

💡 On parle aussi de soft skills, de curiosité, d’humilité face à un environnement en constante accélération..

👉 Un épisode dense, lucide, inspirant — pour celles et ceux qui veulent passer de la théorie à l’échelle.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Bonjour à tous et bienvenue dans ce nouvel épisode de AI Impact. Aujourd'hui j'ai le plaisir de reçoit Antoine Lee, Chief Data Science Officer chez Score. Bonjour Antoine. Bonjour. Avec toi on va avoir la chance de pouvoir explorer pas mal de choses autour des applications de l'IA dans le domaine de la réassurance. Mais avant de rentrer un peu dans le concret des sujets, est-ce que tu pourrais me dire, déjà bravo pour le parcours et pour ton poste, parce que tu étais assez jeune, est-ce que tu pourrais me dire ce que tu imaginais faire quand tu étais petit ?
Speaker #1
Alors, rien à voir avec mon métier actuel, mais pour le coup, vraiment rien à voir. Je voulais faire pilote de chasse, donc petit rêve d'enfant qui a duré assez longtemps, jusqu'à à peu près mes 22 ans. Et les choses ont fait que j'ai dû changer de parcours pour des raisons médicales. Et voilà, je me suis retrouvé dans la datation sélectuaria.
Speaker #0
Ok, ok. Est-ce que tu peux nous expliquer un petit peu ton parcours, ce que tu as fait, les étapes par lesquelles tu es passé pour... Faire aujourd'hui ce que tu fais ?
Speaker #1
Oui, bien sûr. C'est vraiment un cheminement de choses qui sont arrivées un petit peu par hasard. Je pense toujours être un peu orienté par une certaine curiosité d'apprendre des choses. Donc j'ai commencé par, justement, parce que je voulais faire pilote de chasse, je suis passé par la voie Matub Maspe, dans l'armée de l'air. Ça, c'était pour l'aspect militaire. Mais comme c'était les mêmes classes préparatoires, quand j'ai dû changer d'orientation, c'est comme ça que je me suis retrouvé en passant mes concours à l'école qui s'appelle l'ENSAE, qui est une école d'ingénieurs statistiques et économiques, qui historiquement a toujours une formation orientée sur la modélisation mathématique appliquée, donc le fondamental aujourd'hui pour travailler dans l'IA. Donc c'est via cette école en fait que j'ai découvert... la modélisation financière dans un premier temps. C'était un petit peu à la mode quand j'étais à l'école. C'était souvent, on allait à l'NC pour devenir quant, trader, c'était une finance de marché quantitative. Les choses ont fait que, bon avec les crises, c'était la crise de 2011 du coup, la crise de l'euro, le monde financier n'était pas si propice on va dire au monde du travail. Et donc à l'NC, je me cherchais un petit peu pour être tout à fait honnête. C'était pas forcément, bah je passais du pilote de chasse à des mathématiques, de manière assez avancée. Et j'ai fait une année de césure, c'est là en fait que j'ai commencé à découvrir un petit peu à la fois le monde vraiment assurantiel, modélisation qui m'a énormément plu, et en même temps commencer à parler du big data à l'époque, on disait pas « year » , on disait « big data » . Et ça m'a un petit peu mis la puce à l'oreille et c'est en fait dans ces stages, j'ai fait un stage de 15 mois, qui m'a vraiment…
Speaker #0
Plutôt sur la partie actuariat ou…
Speaker #1
Je l'ai fait les deux justement, je l'avais fait neuf mois en actuariat, vraiment brut, modélisation financière très technique, très avancée, très proche du monde du quant. Et ensuite j'avais fait cinq mois plutôt sur la partie un peu plus manipulation des données, un petit peu de modélisation en mode appliqué, mais vraiment avec cet objectif de raconter une histoire avec des données, qui était vraiment le premier de la data science. Et quand je suis revenu faire ma dernière année à l'ENSAI, c'est à ce moment-là où la première promotion de master est apparue avec vraiment le titre Data Science. Et c'est un peu comme ça que j'ai fait mon choix. J'étais un peu tiré entre les deux.
Speaker #0
Donc il y a 10 ans à peu près, 2014-2015.
Speaker #1
Exactement. Il y a 10 ans et j'ai décidé de faire les deux en même temps. Donc de faire à la fois Continuum Actuaria, parce que c'est un titre qu'il faut passer certains examens pour l'avoir. Et je me dis que c'est dommage d'avoir fait toutes ces formations. Ça me paraissait accessible. Et en complément, j'ai assisté à beaucoup de cours du master vision apprentissage de Cachan et j'avais fait un master en parallèle à Jussieu, donc Paris 6, justement sur l'aspect plutôt applicatif deep learning. C'était un master informatique qui était vraiment orienté sur l'implémentation des réseaux de neurones déjà à l'époque. Et qui à l'époque, parce qu'en fait il y a 10 ans, ça c'est marrant, j'ai l'impression d'être vraiment vieux quand je dis ça, mais en fait il n'y avait pas autant de frameworks qu'open source. Enfin en fait il fallait tout faire soi-même, il fallait tout implémenter, il n'y avait pas TensorFlow, il n'y avait pas PyTorch, il n'y avait pas de ces choses-là.
Speaker #0
La partie rétroprovagation du gradient à coder soi-même.
Speaker #1
Il fallait quasiment tout faire soi-même, il fallait être très à l'aise dans l'informatique, il n'y avait quasiment rien de disponible sur Windows, c'était que des choses sous Linux. Et donc voilà, je suis sorti du parcours académique. en 2015 du coup avec ce bagage double casquette et en fait j'étais pas satisfait. Donc j'étais encore très curieux, je me trouvais un peu frustré de ne pas avoir assez approfondi certaines notions donc c'est là que j'ai décidé de faire une thèse dans l'entreprise. Donc je suis rentré dans un cabinet de conseil qui s'appelle Milliman. dans lequel je continue du coup à évoluer dans un monde assurantiel. Je voulais vraiment trouver ce monde, cette intersection entre l'assurance et tout ce qui est machine learning, intelligence artificielle.
Speaker #0
Donc c'est un cadre vraiment spécifique et dédié au secteur de l'assurance.
Speaker #1
Voilà, c'est ça. C'est vraiment le cabinet de conseil dans lequel j'ai fait ma thèse. C'est dans ce cabinet que j'ai vraiment découvert la rigueur de la modélisation financière. C'était vraiment avec une équipe et des gens extraordinaires qui m'ont beaucoup appris. C'était des gens très rigoureux mathématiquement. J'avais vraiment l'impression en fait de pouvoir appliquer ce que j'avais après à l'école. Et ça, c'était assez plaisant. Et donc, je me retrouve dans un nouveau champ, un petit peu, un peu nouveau parce que déjà, il fallait poser cette question qu'est ce que ça veut dire vraiment faire de l'IA en assurance ? C'était quelque chose de... Surtout quand on vient du monde assurantiel, actuariel, c'est des gens qui sont très techniques et qui, je me souviens avant, c'était les actuaires disaient non, mais en fait, c'est juste un nouveau nom pour parler des actuaires. C'est un nom plus sexy. Ça, c'était un peu la partie un peu défensive. Aujourd'hui, je pense que tout le monde serait d'accord pour dire que ce sont deux métiers totalement différents. Même s'il y a des similitudes dans les techniques employées, ça reste des métiers différents. Et donc, j'ai fait ma thèse chiffre, du coup, dans ce cadre-là. Je dis souvent que c'était une chiffre un peu difficile. Je dis souvent que c'était plus chiffre que thèse. Mais globalement, c'est quand même... J'ai eu un environnement parce qu'en fait,
Speaker #0
étant dans un cabinet de conseil, on te sollicite pour faire des tâches qui sont opérationnellement importants pour le câble. Voilà, nécessairement.
Speaker #1
En fait, c'était c'est eu en fait, de par l'intérêt en fait de la discipline, énormément de travaux et je suis quelqu'un de curieux, donc ça me passionnait aussi également. Enfin, quand je dis ça, c'est pas au sens péjoratif terme, c'est qu'il y avait tellement à faire que en fait, très vite, c'était sur des sujets connexes à la thèse. Mais disons que dans la thèse, il y a quand même un côté d'approfondissement un peu théorique que je devais. du coup faire plutôt en complément. Et c'est aussi pour ça que j'ai beaucoup appris. C'est très intense. J'ai fait énormément aussi dans ce cadre-là. Du coup, très vite, on se rendait compte que le côté applicatif, c'était vraiment la clé. J'ai eu un bon épisode de software development. Donc là, vraiment dans le dur. On essaie vraiment d'avoir une approche produit avec l'intersection entre l'assurance et... Et le software, en fait, c'est là où vraiment, je pense, où j'ai le plus appris. Mon master d'informatique m'a beaucoup aidé. Oui. Et c'est ce qui a aussi fait, je pense, aujourd'hui que dans ma carrière, ça m'a vraiment rajouté cette case de capacité industrialisée, tout en comprenant la théorie et le fond des choses. Oui,
Speaker #0
c'est ce que j'allais te demander, en fait, parce que finalement, la force de ton profil, c'est que tu as cette triple casquette, vraiment assurantiel, actuarial, data science. et info. Et c'est assez rare finalement ce type de profil où assez jeune finalement, tu avais déjà vu un champ hyper vaste sur comment on peut adresser un besoin, un problème, l'attaquer avec des solutions mathématiques, scientifiques et déployer ces solutions pour qu'elles marchent et soient adoptées par des utilisateurs. Alors qu'aujourd'hui, bon, jeune, on doit choisir assez vite sur des spécialités. On apprend sur le tas, etc.
Speaker #1
Oui, question. Il y a un peu une part de chance quand même dans tout ça. Ce n'est pas des choses...
Speaker #0
Un personnel.
Speaker #1
Voilà, tout le monde n'a pas forcément l'occasion d'avoir ces événements. Je pense, ce que je dis à tout le monde, en fait, il faut rester curieux. Et je pense qu'il faut saisir chaque opportunité pour apprendre quelque chose. J'ai un tempérament qui fait que dès que je fais quelque chose, j'essaie de le faire à fond et de le faire bien. Et après, c'est vrai que les choses ont fait que j'ai eu la chance d'avoir des opportunités qui ont fait que j'ai pu apprendre pas mal de choses très vite. J'ai eu les bons cours, les bons professeurs aussi, pour le dire, parce que je n'aurais jamais pu faire autant d'informatique si je n'avais pas eu des fondamentaux. Je me souviens de mes cours de Python, de C++, que j'avais trouvé très bien. J'avais vraiment galéré. Je me souviens de mes tout premiers cours. Quand on ne vient pas d'une formation informatique, c'est un peu dur. J'étais à la fonce et finalement aujourd'hui je me rends compte que c'était ultra utile, surtout quand j'ai fait mon master d'informatique, on faisait beaucoup de Java. Je me faisais aider par mes camarades parce que pareil, j'arrivais en master 2, des gens qui avaient un master 100% informatique, moi je débarquais. et il fallait tout implémenter en Java. Et ça c'était des choses, quand on dit ça, on dit ça fait très geek, etc. Mais en fait aujourd'hui, maintenant, c'est ce qui fait que je suis capable de comprendre le cloud, d'industrialiser, de comprendre quels sont les enjeux techniques, technologiques, de bien faire la part des choses entre le buzz. et les aspects nécessaires non-fondation. Donc c'est vraiment ce qui m'a aidé et ce qui a fait, je pense qu'aujourd'hui, j'ai la chance d'avoir vu des choses.
Speaker #0
Donc le conseil, c'est la curiosité. Rester curieux. L'école, c'est bien, on apprend des choses, mais il faut toujours pas rester sur ses acquis.
Speaker #1
Voilà, c'est rester curieux, rester humble. C'est ce que d'ailleurs je dis, j'enseignais avant à l'ENSEI, mais malheureusement, j'ai moins le temps aujourd'hui, donc je le fais moins. Mais c'est ça, c'est d'être lucide sur ce qu'on ne connaît pas. Et de toujours, en étant curieux, c'est là où on se rend compte qu'en fait, il y a toujours des choses à apprendre. C'est quelque chose que malheureusement j'ai remarqué avec un peu la hype, la mag. On voit beaucoup de jeunes qui sortent d'école en disant j'ai le meilleur diplôme de la terre, je suis une superstar. Et en fait, malheureusement c'est pas une attitude à avoir, je pense dans le monde du travail, il faut toujours rester humble. Alors c'est difficile aussi parfois parce que dans la réalité des choses, effectivement ces étudiants savent faire beaucoup plus de choses que d'autres potentiellement. Mais dans la réalité, ça peut cacher aussi pas mal de choses.
Speaker #0
Et rester curieux à la fois sur la partie technique, mais aussi tout ce qu'on a à prendre sur le terrain dans la dimension de business et les problématiques qu'on cherche à résoudre. Et si on ne s'approprie pas ces thématiques-là, c'est difficile d'avoir de l'impact aussi.
Speaker #1
Exactement. Et plus on avance dans le temps et plus on se rend compte qu'effectivement, c'est de plus en plus important parce que la technique, on va dire, une fois qu'on a les fondamentaux, C'est relativement facile à entretenir. Il faut rester curieux, on apprend des choses. C'est assez simple de toujours suivre une formation. De temps en temps, je prends une certification. Le week-end, il y a un côté un peu passionné. Ça se fait assez bien. Par contre, tout ce qui est soft skills, de comprendre comment ces compétences peuvent avoir un impact à l'échelle d'une compagnie, ça malheureusement, ce n'est pas des choses qu'on nous enseigne à l'école. C'est plus de l'aspect humain, d'être capable de... de voir, d'avoir une certaine vision, mais enfin on parle souvent de vision mais ça s'enseigne pas en fait malheureusement. Ça passe par vraiment être curieux, de voir un peu tout, de se dire mais pourquoi il y a tous ces gens qui travaillent dans une compagnie, qu'est ce qu'ils font concrètement, s'intéresser à ce qu'ils font, s'intéresser à leur sujet. pour vraiment comprendre comment on peut ensuite impacter.
Speaker #0
Et c'est là qu'il faut, je pense, c'est assez clé d'avoir aussi un vrai intérêt, avoir une passion pour le domaine d'application, parce que pour rester curieux, il faut être curieux.
Speaker #1
L'avoir la passion pour le domaine d'intérêt, je pense, ce n'est pas forcément nécessaire, mais être curieux. J'ai déjà croisé des profils très techniques, effectivement. on leur demande de faire une tâche, ils le font. Voilà les données, voilà le modèle, voilà ce qu'il faut industrialiser, voilà ce qu'il faut implémenter. Les gens peuvent le faire sans se poser de questions de pourquoi ils le font. Souvent ça c'est limite parce qu'au bout d'un certain temps, pendant qu'on fait ça un an, deux ans, trois ans, au bout d'un moment on dit bon, je fais toujours la même chose. On a l'impression de faire toujours la même chose. Et ça souvent ça vient juste du fait de ne pas s'être intéressé à pourquoi on le fait. Donc quand je dis curiosité, c'est toujours de se dire mais pourquoi on fait ça ? Bien sûr. Et c'est souvent ça qui change pas mal et qui fait la différence. Donc, c'est vraiment la curiosité qui est dans le sens s'intéresser à ce que font les autres. Il n'y a pas forcément besoin d'être passionné. Oui,
Speaker #0
ok. Donc, tu finis ta thèse CIFRE. Et là, tu rentres directement chez SCORE ?
Speaker #1
Non, je finis ma thèse CIFRE. C'est vrai qu'elle a un peu traîné, cette thèse, de par le temps. Mais j'ai fait à peu près 5 ans dans ce cabinet. Oui, oui. La thèse, j'ai réussi à la faire en quatre ans. Donc, il y a environ une année qui s'est passée sans thèse. Effectivement, dans ce cadre-là, j'ai fait pas mal de choses. Effectivement, après, je suis revenu à des choses un peu plus métier. J'ai fait beaucoup de choses sur les objets connectés, par exemple, quand j'étais en classe cabinet de conseil. C'est là où vraiment le fameux big data, ce mot que j'avais entendu, du coup, je voulais vraiment comprendre ce que c'était pour de vrai. Donc c'est vraiment là où j'ai commencé à toucher au cloud, à toucher aux calculs distribués, avec les frameworks Spark à double, qui étaient pareils. À l'époque, il n'y avait pas Databricks. En tout cas, il n'y avait pas Databricks en service cloud sur Azure, et on utilisait Azure. Donc il fallait tout faire soi-même. On passait par des distributions qui étaient compliquées. Et à bout de cinq ans, effectivement, c'est là où je me suis fait approcher par Score, qui... par concours des circonstances en fait par quelqu'un que j'avais rencontré dans le passé lors d'un entretien quand je cherchais mes stages en 2014 2013 plutôt pardon et en fait cette personne on est resté plus ou moins en contact et 5 ans, 5 ans et demi plus tard en fait elle est revenue me voir et c'est comme ça que ça s'est fait et j'ai rejoint Score du coup pour monter avec cette personne l'équipe IA DataSeries. From scratch. From scratch quasiment. Ils étaient de plus en plus importants. Ils étaient de plus en plus importants. c'était deux personnes quand je suis arrivé et c'est comme ça que l'aventure a commencé et aujourd'hui je me souviens ce score avec la vraie équipe qui a une dimension vraiment à l'échelle de la compagnie ouais parfaite transition du coup est ce que tu peux expliquer aujourd'hui dans l'équipe à
Speaker #0
peu près combien vous êtes le rôle que tu as aussi dans l'équipe ce que tu fais et quelle est la mission de cette équipe quel type de problème vous essayez de résoudre l'impact que vous avez
Speaker #1
Alors, je fais partie d'un département qu'on appelle chez nous Data & Analytics Office, qui est vraiment une équipe transverse à l'échelle du groupe qui va venir supporter la compagnie pour vraiment avoir un maximum d'impact en utilisant la donnée et les analyses et les modèles pour y arriver. Donc c'est une équipe qui est globalement à peu près entre 60 et 80 personnes, enfin c'est un peu la taille de cette équipe. Donc on va avoir différentes capacités allant de... forcément une dimension plutôt stratégique, être capable de se connecter vraiment au business. Une dimension qui va vraiment être orientée sur la partie vraiment data product, au sens data mesh du terme. Donc vraiment être capable d'avoir une vision analytique avec des bons objets de données qu'on va pouvoir mettre à disposition des métiers. Et enfin, une dernière partie qui est le département auquel j'appartiens. qui est vraiment focalisée sur l'intelligence artificielle et ce qu'on appelle chez nous Advanced Analytics, qui est être capable de faire l'analytics justement parfois en utilisant des modèles pour mieux comprendre la donnée, avoir différentes vues sur cette donnée, et aller vraiment sur des choses assez avancées qui parfois sont à la frontière avec l'actuarial.
Speaker #0
D'accord. Et vous intervenez en tant que provider de solutions, tu parlais de data, IA, pour des business units, ou est-ce que vous… vous aider, vous équiper des équipes au CIA qui seraient distribuées dans les différentes business units en soutien ou pour explorer des sujets en avance ?
Speaker #1
C'est une bonne question. Alors, il y a plusieurs modèles effectivement qui avaient été étudiés. Là, on travaille vraiment en collaboration avec les équipes orientées par des axes stratégiques. Donc, en fait, on a vraiment réussi à établir à l'échelle de la compagnie vraiment des objectifs de la compagnie. dans lequel on a identifié vraiment une forte composante intelligent artificiel ou AdWords Analytics. Donc en fait, quand je dis ça, ça veut dire qu'on est orienté par la vision et l'objectif dans la boîte. Et ensuite, nous, effectivement, on va mettre à disposition nos compétences et forcément les bonnes personnes pour y arriver. Donc, on n'est pas forcément en mode prestation de service, c'est-à-dire qu'on n'est pas passif à attendre qu'on dit « Ah, j'ai un besoin, je peux m'y aider » . On est vraiment, on a un objectif de la compagnie, on est contributeur. Et on va mettre les bonnes personnes avec les bonnes compétences qui sont le mieux à même d'y arriver, de délivrer, forcément en mettant autour de la table les bonnes personnes qui d'ailleurs ne sont pas nécessairement attachées à l'équipe Data Analytics. C'est vraiment une approche très collaborative, mais qui reconnaît la capacité de chacun à contribuer à l'ambition principale. Ok. Donc, on est plutôt du coup, si je dois donner un peu un framework, on est plutôt proche du framework un petit peu agile dans le sens où on va se focaliser sur les compétences, créer des dispositifs, des équipes, des squads qui vont être le mieux à même de délivrer. Et donc, on se donne des objectifs trimestriels. Donc, c'est là où c'est quand même assez cadré. On essaie vraiment à chaque fois de délivrer, d'être très orienté par l'industrialisation de ce qu'on fait.
Speaker #0
Et les squads que vous créez, du coup, elles sont... ad hoc au projet, elles peuvent intégrer à la fois des gens du département en centrale, mais aussi des équipes auxquelles vous vous adressez.
Speaker #1
C'est ce qui fait, je pense, le succès aussi d'une chose, c'est que comme on mélange les bons profils, on est capable vraiment d'y arriver. On ne travaille pas pour quelqu'un, souvent on travaille avec des gens, mais c'est Squad qui reflète vraiment ça. On est dans un environnement où on va avoir effectivement un machine learning engineer avec un data scientist, avec un actuaire, avec quelqu'un qui est vraiment plutôt du business, ça va même avec un… ce qu'on appelle chez nous des marketing actuarie, des gens qui vont vraiment vendre du produit assurantiel. Donc ça peut être vraiment des mix de profit.
Speaker #0
C'est super intéressant cette approche parce qu'en fait, on voit beaucoup depuis 8-10 ans maintenant émerger ce qu'on appelle des data labs avec cet enjeu toujours de centraliser et distribuer, mais où il n'y a pas forcément, que ce soit dans l'un ou l'autre des modèles, cette idée de... On reste dans un format un peu client-fournisseur où en fait on va travailler en chambre sur un objet dont on pense qu'il peut avoir de la valeur, mais on ne va pas, day one, chercher à s'intégrer avec les personnes qui vont être à même de l'adopter, l'utiliser. Et je trouve ça hyper intéressant de dire qu'en fait, par sujet, vous êtes en capacité de monter des squads qui ont une durée de vie liée à cet objet-là, mais qu'on n'est pas en train de sanctuariser la compétence IA au sein d'un pôle qui vit... dans sa tour d'ivoire et qui pensent avoir les bonnes idées pour tous les sujets.
Speaker #1
Bah, c'est une question que dans l'industrie, de manière générale, en fait, comme c'est un sujet aussi nouveau, il faut le dire. Il y a une part aussi de l'au moins de la data lab. Cette question s'est posée aussi et nous, on a une approche qui est très test and learn. On a regardé ce qui s'est passé dans les autres équipes et on s'est inspiré de certains certains acteurs de la place ou pour malheureusement le format de lab. On voyait que ça ne fonctionnait pas tout le temps. C'était pas très pérenne. Vous savez beaucoup de défauts. La complexité, c'est dans une compagnie, il y a toujours un aspect organisationnel structurel. Dans tous les cas, il va toujours y avoir un petit peu de côté, il faut mettre des noms, des boîtes, des ordres d'énigmes. Je pense qu'il y a aussi une part de mindset qui nous aide beaucoup. En fait, quand on parle de l'agilité, c'est plus qu'un framework, c'est aussi un état d'esprit, je pense. Ce côté être curieux, collaboratif. Qu'est-ce que ça veut dire être collaboratif ? C'est être capable d'être constructif. C'est ça. Surtout sur un environnement où en fait on arrive, il faut le dire ça fait partie aussi des choses qui sont un petit peu le revers de la médaille. Il y a énormément de buzz, on est vraiment sous le feu des projecteurs avec l'IA aujourd'hui, enfin tout le monde parle que de ça, même si on ne sait pas trop pourquoi mais tout le monde en parle. Il y a beaucoup d'attentes en fait et il y a aussi du coup à l'inverse, parfois on peut donner cette impression de débarquer sur un sujet qui n'est pas nouveau et comme si d'arriver à dire nous on va résoudre le problème. ce qui n'est pas vrai en général. Par contre, c'est l'image qu'on peut renvoyer indirectement à cause de cet aspect territorial et de dire « je crée une équipe, c'est une équipe super magique qui va révolutionner » . Et s'il n'y a pas cet état d'esprit dans la compagnie, c'est vrai qu'on peut très vite arriver à ces formats où, en fait, c'est depuis une tour d'ivoire, les gens ne travaillent pas ensemble, ils délivrent, parce qu'ils pensent, à tort ou à raison, qu'ils vont réussir mieux que les autres à résoudre le problème, sans avoir cette curiosité de dire « pourquoi on faisait ça comme ça avant ? » . Et ça, c'est un petit peu un piège parce que c'est vrai que ça peut, dans un sens, donner un petit peu de réticence aux gens de travailler avec nous. Chez Score, je vais être tout à fait honnête, c'est très mineur ce comportement. Je pense que les gens sont bienveillants et ont compris qu'on allait dans la même direction. Je pense que ça nous aide beaucoup d'avoir cet aspect des orientations stratégiques de compagnie. On ne parle pas, ce n'est pas forcément une orientation IA, c'est en compagnie. Tout le monde se sent… je pense plus naturellement embarqués. Mais je sais qu'il y a d'autres équipes dans d'autres secteurs, dans d'autres compagnies où malheureusement, ils ont ce sujet de friction et de guerre territoriale aussi. Tout simplement, il faut le dire.
Speaker #0
Et tu disais qu'en fait, cette équipe, vous l'avez construite from scratch. Moi, ça m'intéresse beaucoup de savoir comment vous avez réfléchi à la structuration de l'équipe, c'est-à-dire les premiers profils. Est-ce qu'on prend des data scientists, des machine learning engineers, etc. et comment... Sur quels sujets on va les mobiliser, comment évaluer la pertinence des sujets, les prioriser, etc.
Speaker #1
C'est la question éternelle. Quand je suis arrivé chez Score, déjà, je sortais un petit peu de cet environnement très développement, que j'avais dans l'expérience passée. Donc moi, j'ai ce parti pris d'être toujours production-driven, donc c'est vraiment être capable d'instrualiser ce qu'on fait. Donc quand on a monté l'équipe Data Science, c'était là pour le coup, quand je regardais un petit peu... Les profils qui étaient étiquetés data scientist, je vais schématiser un petit peu, stigmatiser la chose, mais c'était souvent quelqu'un qui s'est fait un petit notebook, faire une petite étude, et puis voilà, on a fait un modèle, on a pris des données, et ça s'est arrêté là. Malheureusement, c'est, je veux dire, 90% des data scientist. Quand je suis arrivé, je disais non, moi je veux des data scientist, mais des gens qui savent mettre en production. Donc c'était la première question déjà de se dire quelles compétences on voulait. Donc c'était la première étape. Dire certes on va utiliser le mot Data Science parce que c'était le mot en vigueur il y a 5 ans. Mais en fait qu'est-ce qu'on mettait derrière ? Et donc pour distinguer justement cette distinction avec le notebook Data Scientist, si je peux l'appeler comme ça, nous on appelle ça des corps Data Scientist. Donc ce qu'on acceptait que la Data Science, potentiellement il peut y en avoir un peu partout dans toute la compagnie. Mais on mettait ce préfixe Core pour symboliser le fait que les compétences attendues étaient un peu plus avancées, à la frontière du Machine Learning Engineering. Il y a cinq ans, on en parlait quasiment pas.
Speaker #0
C'était encore nouveau.
Speaker #1
C'était nouveau, mais en fait, des compétences qu'on nous avait déjà mises derrière. Quand on a monté l'équipe, vraiment, c'était il faut qu'on soit capable d'industrialiser, il faut qu'on soit capable vraiment d'aller de bout en bout. Donc on disait, on n'avait pas non plus beaucoup de ressources. On n'est pas non plus... On est certes une société cotée, etc. Mais on n'a pas une équipe de 150 000 personnes. Je disais tout à l'heure, on est entre 60 et 80 pour tout le département. Et vraiment, Data Science, Machine Learning, Engineering, on est 20. Ok, donc ça donne un peu une échelle, un ordre de grandeur. Et quand on a monté l'équipe, moi je suis arrivé, on était zéro quasiment, plus exactement il y avait un data scientist avec moi, on était deux. Donc tous les profils qu'on choisissait, du coup forcément il fallait qu'il y ait le plus de, un peu les moutons à cinq pattes. et on a pris le temps de les chercher et de les trouver. Donc ça a vraiment été l'orientation parce qu'on voulait vraiment être production driven. Donc du coup c'était vraiment un choix de le faire, d'être patient, de trouver un petit peu des profils à haut potentiel. Donc la personne complète on la trouve jamais. Par contre on était vraiment ciblé sur, ok, cette personne est-ce qu'elle est capable, si on la met face à des expériences, est-ce qu'elle est capable d'apprendre, est-ce qu'elle est curieuse ? On revient sur ces qualités. Forcément, il faut avoir un fondamental de basique. Si quelqu'un ne sait pas programmer, ne comprend pas les modèles, ça va être très difficile de l'amener sur des sujets avancés. On cherchait vraiment des professeurs qui étaient capables de prendre un problème, une page blanche, de se reposer les bonnes questions, de dire comment on le fait de manière la plus efficace et de ne pas forcément appliquer systématiquement des codes qu'on leur a donnés. à l'école donc c'est ça qu'on cherchait comme profil.
Speaker #0
Et de ne pas s'arrêter au fait d'avoir, on va dire, produit des résultats, mais d'avoir démontré qu'on a une solution qui est viable, qui est viable et déployable.
Speaker #1
Qui va dans le temps,
Speaker #0
qui peut être monitorée.
Speaker #1
Donc c'est vraiment c'était vraiment ça qu'on cherchait et on a eu raison je pense parce que sur les premières années ça nous a permis pour le deuxième point de la question qui était comment choisissez du coup nos nos projets et comment on voulait vraiment démontrer notre capacité, forcément on allait chercher les choses avec le plus gros impact, qui avait nécessairement aussi une certaine complexité. Et c'est pour ça qu'il nous fallait des profils de ce type-là. On a quelques exemples, je me souviens, quand on est arrivé, justement sur les systèmes d'industrialisation, de manière collective, on a aussi énormément contribué à la progression de la modernisation de notre système informatique. Donc on a la chance d'utiliser le cloud, un cloud Microsoft chez nous, donc on a un peu plus d'accès à des technologies nouvelles. Mais son bon usage quand même était quelque chose à faire. Je me souviens, on avait développé un modèle de sélection de risque à l'époque. et on avait dit bah nous on pense qu'on peut on peut en faire une api industrialisable en trois mois et je me souviens que ça avait fait ça fait grincer des dents tous nos collègues en disant impossible vous allez mettre au moins un an et on l'a fait effectivement on l'a fait quatre mois, un mois de plus, mais on l'a fait. Aujourd'hui, ça tourne toujours. C'est l'une des API qui a le plus de requêtes et c'était nos premiers « faits d'armes » pour imposer un petit peu cette crédibilité, mais ça nous a beaucoup aidé sur la suite.
Speaker #0
Parce que vous aviez aussi l'autonomie de le faire. C'est une chose de pouvoir développer une API, mais sur des sujets d'infra ou de DevOps où vous devez déporter éventuellement la responsabilité à d'autres équipes qui peuvent être suivies. en charge d'autres périmètres et qui ne sont pas forcément incentivés par vous mettre en haut de la pile. Comment vous avez géré ce…
Speaker #1
C'est là où je pense, quand je suis arrivé, mes compétences m'ont aidé. C'est-à-dire que j'ai pu parler facilement aux compétences, identifier déjà qui étaient les bonnes personnes. Parce qu'on ne comprenait pas comment fonctionne la neutralisation. C'est vrai qu'on peut se faire un petit peu balader une personne dans une personne et on ne sait jamais à qui s'adresser. Moi, je savais exactement à qui parler, j'avais les bons termes. C'est ça que je voulais dire. je veux la personne qui est capable de m'aider sur ce domaine j'avais fini par la trouver assez rapidement je suis un c'est une des premières personnes que j'ai vu quand je suis arrivé chez score et j'ai pu lui expliquer vraiment ce que je souhaitais faire lui montrer aussi que j'étais prêt à respecter aussi toutes les toutes les fins tous les gars les guidelines que je devais respecter qu'on devait respecter et je pense c'est comme ça que ça a été ça a été fait enfin d'accepter montrer d'être curieux on revient sur ces sujets de curieux de collaboration de montrer que on n'est pas là pour arriver pour tout casser et on est plutôt là pour justement travailler ensemble et si on identifie qu'il y a des choses à changer, on change ensemble. C'était vraiment ça l'état d'esprit.
Speaker #0
Et effectivement, c'est ce qui nous a aidés. Du coup, on a eu accès assez rapidement à ces environnements.
Speaker #1
Si on parle cas d'usage, est-ce qu'il y a des cas d'usage que tu peux partager qui te paraissent emblématiques, un peu de la journée que vous avez eue, des défis, des challenges que vous avez rencontrés, parce que j'imagine qu'il y en a eu aussi, de la conception du sujet jusqu'à l'adoption aujourd'hui ?
Speaker #0
Il y a un cas d'usage qui est assez parlant pour nous parce qu'on peut le suivre au cours du temps. c'est-à-dire que d'avant Gen AI et après Gen AI. C'est ce qu'on appelle du coup tous les modèles d'aide à la sélection du risque. Donc en fait, quand on est réassureur, on travaille avec des assureurs. Mais il arrive parfois quand le risque est assez complexe que l'assureur nous confie, nous délègue la partie sélection. Donc c'est vraiment globalement l'algorithme qui va être derrière potentiellement les fameux questionnaires en ligne qu'on va remplir quand on va acheter un produit d'assurance. en fait la partie vraiment évaluation de... Est-ce qu'il y a potentiellement une probabilité plus grande ou pas d'avoir un événement ? Ces algos peuvent être délégués au réassureur. D'accord.
Speaker #1
Donc l'input, c'est des réponses à un questionnaire ?
Speaker #0
C'est des réponses à un questionnaire, des documents justificatifs qui vont appuyer parfois le questionnaire. Donc on a plusieurs types d'applications. Mais dans ce cadre-là, c'est souvent un cas de souscription qu'on va associer à de l'assurance mortalité. donc en France et globalement ce qui est associé à quand on prend un prix immobilier, on a souvent une assurance associée à ça, qui en fait est attachée à l'événement de décès ou d'arrêt de travail. Donc ces deux événements-là sont des événements qui sont des événements rares, heureusement, mais qui ont des montants associés, c'est le prix d'une maison, le prix d'un appartement, et donc c'est des montants assez élevés. Donc souvent en fait les assureurs travaillent avec des rassureurs sur cette partie. Dans ce cadre-là, on a développé déjà des outils d'aide à la souscription. C'est vraiment l'usage des techniques. On a des questionnaires, on a des pièces. On a des pièces justificatives, des fameux PDF, qui par rapport à certains cas peuvent être vraiment très volumineux. Le 100 pages à parfois 10 000 pages dans des cas très complexes.
Speaker #1
Pas standardisés, qui changent d'un assureur à l'autre.
Speaker #0
Déjà, d'un assureur à l'autre, on parle d'informations potentiellement assez sensibles, sécurisées. Ça, c'est un autre aspect de l'industrialisation, qui est comment on gère ça d'un point de vue très sécurisé. et conforme au GDPR, etc. Et également, ce sujet d'être capable d'aider l'aide à la décision, parce qu'on n'est vraiment pas dans l'automatisation, on est vraiment chez nous dans un support à un humain, pour qu'au lieu de lire 10 000 pages, un humain est incapable de lire correctement 10 000 pages, donc c'était ce sujet. Là, on rentre vraiment dans le cadre, on a un problème qui est assurantiel, notre objectif final, c'est d'être capable de sélectionner correctement le risque, Aujourd'hui on le fait avec un humain, qui est un humain expert, mais qui est face à un sujet vraiment de difficulté qui est de la limite humaine, du cerveau humain. Qui est comment analyser une grande quantité d'informations dans un temps restreint pour prendre une décision à la fin qui va être est-ce que je donne un produit d'assurance ou pas.
Speaker #1
Ok. Pour bien comprendre l'output, quand tu dis sélection de risque, c'est haut, moyen, faible ? probabilité de survenance de l'événement, perte de travail ?
Speaker #0
Non, c'est vraiment haut, moyen, faible, tout en centre-là. Donc c'est vraiment, je prends un crédit immobilier, je réponds à des questions, j'ai un passif médical, à quel point potentiellement je suis à risque ou pas, et donc il va apprenner soit une demande de dossier complémentaire ou une demande d'analyse d'examen complémentaire, soit potentiellement la police va être fournie, mais avec un prix qui va être un peu plus élevé, parce que l'événement est plus probable. Soit éventuellement simplement on délivre la police au prix moyen, prix standard, ou à l'inverse, un risque très bon, donc le prix va être favorable.
Speaker #1
Très clair. Donc ouais, c'est un sujet data science hyper complet parce que tu as à la fois la donnée historique, structurée de, j'imagine, de survenance des événements et en même temps du matériel non structuré de justificatif d'information où on doit extraire du signal en plus des réponses aux questions.
Speaker #0
C'est ça. Et en fait, du coup, quand on prend ça, on peut le décomposer en différentes briques, différentes étapes. Il y a effectivement la matière. La matière finale, c'est d'être capable de lier ça vraiment au risque en tant que tel. Donc ça, c'est vraiment de la partie actuariale qui ne change pas. Ça reste de la modélisation actuariale qui est faite très bien d'ailleurs depuis des années. La seule chose qu'on va venir changer, c'est les dimensions qu'on va fournir à ces modèles actuariels. Et ces dimensions, on va les chercher comment ? Justement dans la formation non structurée qui… n'est pas structurée aujourd'hui. Et en fait, enfin, elle n'est pas structurée, il y a vraiment l'humain entre deux qui va lire et qui va juste dire, c'est comme ça que je mets le modèle, c'est comme ça que je fais. Donc en fait, c'est globalement, si je résume, c'est comment je convertis ces fameuses 100 000 pages, 10 000 pages en quelque chose de structuré qui va pouvoir être utilisé ensuite. pour le modèle actuariel. Donc c'est vraiment ça, c'est là où on rentre dans ce côté, on essaie d'être au plus proche d'une causalité, donc on va essayer de capturer un maximum d'informations au sens de facteurs, pour essayer de comprendre le lien entre un risque et un facteur.
Speaker #1
Tout ça c'est fait end-to-end, c'est-à-dire l'extraction d'informations qui vont servir d'input au modèle, mais qui sont dans des documents, Est-ce que tout ça s'est fait de façon, tu vois, dans la pipeline, step by step, j'extrais les informations, j'input le modèle, je sors ma prédiction, c'est haut, c'est bas, c'est moyen ? Ou est-ce qu'il y a des étapes de validation humaine ?
Speaker #0
Alors nous, c'est toujours human in the loop, donc toujours l'humain en contrôle de tout ce qui est fait. Donc on a différentes étapes. Il y a une étape qui est vraiment extraction d'informations, aide à l'analyse du dossier. Donc là, c'est vraiment des choses très opérationnelles. Je lis un document en moyenne en une heure et demie. Grâce à des analyses pré faites, on va être capable de trier l'information, de la résumer, d'attirer l'attention dans certaines zones. Donc là, on va vraiment aller sur des techniques d'OCR, NEP. C'est là où du coup je vais arriver. La partie que tu connais. Gen AI. Mais historiquement, c'est vraiment ça. On fait vraiment ça pour extraire l'information. Donc il y a une première complexité, c'est déjà quelles sont les informations que je veux structurer, quelles sont les informations que je veux détecter. Merci. Et là, on rentre déjà dans l'expertise métier. Parce que quand on analyse des informations, il faut savoir que même si c'est de l'information d'une certaine typologie, donc ce qui est lié à de la santé ou pas, en fait, on ne va pas le lire comme un médecin. On ne va pas regarder ça. Ce qui intéresse un statisticien, c'est une occurrence des vêtements. Et en fait, par exemple, l'information personnelle, on l'ignore totalement. On n'en a pas besoin. Donc, il y a ce côté, qu'est-ce que je dois regarder ? Avant Genel on utilisait des modèles plutôt de name and tier recognition, des modèles de NLP allant du plus simple au plus complexe qu'à l'époque qui était déjà sur les transformers avec BERT, des choses comme ça. Donc ça c'est une complexité d'industrialisation forte et de labellisation. Il y avait un gros gros sujet de comment obtenir de la donnée de qualité parce que quand on manipule des documents non structurés et qu'on fait ce type de modèle, il fallait lire ces fameuses 10 000 pages. Merci. Elle est vraiment détectée de position de caractère 10 à caractère 45. J'ai des informations qui m'intéressent, elle est labellisée d'une certaine manière. Le contexte, c'est celui-ci. Les modèles étaient très limités en contexte parce que quand on donnait 10 000 pages à un modèle, ce n'était pas possible. Il fallait tout couper. Le problème, c'est que nous, c'est une information où tout était corrélé. Là, on rentre dans la complexité de... j'ai un problème, comment je le craque ?
Speaker #1
Sans même parler de tout le post-processing, c'est une chose d'extraire l'information, mais elle n'est jamais normalisée de la même façon.
Speaker #0
Sans parler même de la difficulté de l'océanisation, déjà de convertir en texte, c'est déjà un gros sujet. Alors nous, on a vite compris que ce n'était pas juste de l'OCR, c'était aussi ce qu'on appelle du layout, donc comprendre visuellement comment les éléments sont organisés. Donc ça, c'est un sujet vraiment de frontières arrêtées, frontières opérationnelles. Et donc ça, on a commencé cette Ausha en 2021. Donc on avait rien commencé à faire des travaux préliminaires quand je suis arrivé dès la première année en 2020. Mais il y avait le Covid qui nous a beaucoup pris... pris de temps parce que du coup on a été sollicité pour cette partie là en termes de modélisation. En 2020 on a repris ses travaux et là on commençait à vraiment rentrer dans le dur du sujet on a industrialisé en 2022 un premier produit qui faisait cette extraction sur à peu près on va dire on était capable d'extraire une quarantaine de champs qui était déjà un exploit à l'époque parce qu'on devait tout labelliser et tout faire et ensuite on a fait une première On avait déjà un œil sur la partie GNI, parce que GPT était déjà sorti en… les premières versions en 2019. Et on avait, je me souviens, on avait testé GPT-3 à l'époque, c'était en 2000… je crois que c'était 2022,
Speaker #1
2023. En 2022,
Speaker #0
ouais. Et là, il y a eu le fameux ChatGPT, le fameux, qui est sorti. Et donc là, tout de suite, du jour au lendemain, ça a été « mais est-ce qu'on fait ça ? » est-ce que
Speaker #1
On remplace toute notre stack par...
Speaker #0
En tout cas, c'était déjà, qu'est-ce qu'on fait avec Gen.ai ? Donc, il y avait, sans se poser la question de, déjà, est-ce qu'on arrive à l'avoir de manière sécurisée ? Parce que tout ce qu'on faisait précédemment, c'était on-prem. Ça,
Speaker #1
tu ne l'as pas évoqué, mais effectivement, les modèles BERT, etc., vous les avez entraînés, même à l'inférence, et déployés sur vos serveurs.
Speaker #0
Donc, c'était avec la complexité que ça avait de gérer une scalabilité automatique, en fonction du volume, parce qu'un document, je disais, peut faire jusqu'à 10 000 pages, mais on peut recevoir d'un seul coup 50 à faire en... Ça se passe d'une dizaine de minutes. D'accord. Donc il y avait des temps de processing qui étaient importants, il fallait qu'on assure ça Donc c'est un gros gros sujet, c'est là où vraiment on a commencé à structurer les ML Engineering. C'est à ce moment là, on se dit là il nous faut vraiment des gens qui comprennent les modèles, qui savent les optimiser, qui savent les structurer sur le cloud. Donc January est arrivé, effectivement c'est là on s'est dit bon bah ok ça change un peu la donne quand même. On va beaucoup plus vite, c'est à dire qu'on passe moins de temps pour arriver à des performances à peu près équivalentes. Alors certes quand on a des modèles fine tunés, très granulaires, on a des performances qui peuvent quasi être 100%, parce que on est vraiment sur quelque chose limite surentraîné, bien approfondi. Là, on se dit bon ok, on perd un petit peu, mais par contre, plutôt que de faire une quarantaine de champs,
Speaker #1
on prend beaucoup plus.
Speaker #0
On a une scalabilité qui est beaucoup plus grande et surtout on a une complexité de maintenance beaucoup plus faible. Donc là, c'est là où on rentre dans le côté, est-ce que je prends de l'open source ou est-ce que j'accepte de prendre, si on appelle du close source je crois maintenant, ou semi open source. C'est-à-dire qu'en fait on accepte qu'un modèle…
Speaker #1
Open weight, ouais.
Speaker #0
Voilà, on le consomme. Il est à notre disposition. On comprend comment il fonctionne, en tant que data scientist en tout cas on le comprend, mais on accepte que la maintenance, la mise à jour et l'apprentissage, c'est du pré-entraînement et on consomme tel quel. Et nous on se focalise plutôt sur des chain of thought, ce qu'on appelle chez nous du refinement, c'est plutôt vraiment comment on va calibrer les instructions qu'on donne à ce modèle pour en faire quelque chose de pertinent.
Speaker #1
Ce qui est assez smart parce que peut-être l'écueil ou l'orgueil qui aurait pu driver l'idée de dire qu'on a déjà nos données d'entraînement, on a nos documents, on a nos sorties, on a les positions dans ces documents, on va fine-tuner un modèle open-weight pour être encore plus performant et driver. Et vous avez été assez smart pour ne pas commencer là-dessus.
Speaker #0
Disons qu'on a eu le courage de se dire, regardons les éléments rationnels. Comme on l'a déjà fait, regardons l'état des lieux. Regardons ce qui marche, ce qui ne marche pas. Regardons ce qu'on sait faire. Oui, on pourrait le faire, mais regardons vraiment ce que ça implique. Et ça, ça nous a beaucoup aidé. Le fait d'avoir commencé en 2021, on a pu regarder le coût réel de l'infrastructure, le coût réel du temps passé à labelliser, à modéliser, et puis de regarder des performances, surtout, concrètes. Et du coup, on a pu rejouer ces performances avec Genia. Et là, on a dit, OK, déjà, testons le plus simple. Donc on a eu cette approche test and learn, on se dit si on voit qu'effectivement c'est vraiment en dessous des performances, ok on pourra regarder de le faire nous-mêmes. Disons qu'il fallait accepter par contre de mettre entre guillemets à la poubelle ou de mettre de côté les modèles qu'on avait déjà fait et qu'on avait investi. C'est surtout ça je pense effectivement le côté, et je sais qu'il y a des compagnies sur le même sujet, qui sont encore avec leurs modèles parce qu'elles ne veulent pas les lâcher, elles ont vraiment investi dedans, des millions, des millions, elles se retrouvent un peu bloquées. nous c'était fait avec deux data scientist, un mail engineer, donc une équipe relativement petite. On était très efficace, très performant.
Speaker #1
Et même dans la stratégie d'annotation, est-ce que maintenant, et c'est du coup un must-have d'avoir Validation Set pour expérimenter et savoir où on va et si c'est dans la bonne direction, mais est-ce que vous continuez à annoter les spans d'informations où se trouve le document ou vous dites, je ne sais pas, la réponse c'est ça, effectivement voilà comment elle est présentée dans le document, mais vous êtes moins comment dire...
Speaker #0
Dans le détail.
Speaker #1
Dans le détail de où se trouve l'information. Il faut que toutes les occurrences de cette même information soient labellisées. Parce que si tu fais du span detection, mais que ce n'est pas le bon span, il s'est quand même la même question.
Speaker #0
C'est une très bonne question. En fait, aujourd'hui, techniquement, on ne peut pas être au niveau aussi fin parce qu'en fait, comme on a complètement augmenté notre nombre de champs,
Speaker #1
de data points,
Speaker #0
c'est juste impossible. Par exemple, ce qu'on regarde, c'est alors quand il y a vraiment un retour sur un data point précis, on le capture. C'est à dire celui là, tu l'as capturé et soit il est bon, soit il n'est pas bon. Donc ça on va vraiment continuer à regarder dans quelle page dans le document ça on le capture. Ça fait partie aussi des sujets de transparence, de maîtrise de l'humain, il y a besoin de savoir faire. Après nous dans les faits ce qu'on va faire c'est, on va pas forcément regarder dans le détail chaque data point, mais on va regarder l'impact sur la décision finale. Donc c'est est-ce qu'on prend toujours les mêmes, globalement ce qui nous intéresse c'est est-ce qu'on fait toujours notre métier de la même manière, si ce n'est mieux. avec ce qu'on fournit que sans. Donc c'est vraiment ça notre critère d'intérêt. Donc on va regarder vraiment est-ce que les décisions sont les mêmes, est-ce qu'on est en train de prendre des décisions qui sont différentes, ce qui change vraiment le paradigme parce que ça force les gens en fait à un peu limite s'auto-évaluer. On se rend compte que c'est un phénomène assez intéressant ça.
Speaker #1
Parce que la sélection de risque en fait, ça préexistait à ce que vous avez mis en place, mais en fait vous avez été capable de prouver que le signal que vous sortez de toutes ces nouvelles sources de données. en fait vous permet de mieux faire votre travail.
Speaker #0
De le faire en tout cas de manière plus efficace, d'avoir le même niveau d'information remonté que quelqu'un qui le ferait manuellement. Donc ça, c'est des choses qui sont intéressantes, c'est qu'on se rend compte, voire même mieux, parce que là, on commence à avoir quelques cas qualitatifs, donc ça reste assez dur quand même à capturer de manière systématique. Mais on a des cas effectivement assez concrets sur... On a pris des cas où on a mis des gens dans une pièce, on leur a donné des cas réels, on dit... Une personne A va le faire manuellement, une personne B va le faire avec l'outil qu'on leur fournit. Et puis au bout d'une demi-heure on change. Donc à chaque fois, chaque cas a été évalué manuellement et avec l'outil, et on compare les résultats.
Speaker #1
Ok.
Speaker #0
C'est ce qui nous a permis d'avoir ce premier degré de confiance. Et puis encore une fois, on a toujours ce côté humain dans la chaîne. Ça, c'est quelque chose qu'on est assez attentif pour le coup. C'est une chose à ne pas négliger, parce que c'est vrai que quand on parle de Gen.ai, il y a surtout ce côté, on a beaucoup entendu parler de la législation. Alors nous, dans notre cas précis, on est moins sujet à la législation, parce qu'on est sur un cas où on va venir vraiment extraire de l'information qui existe.
Speaker #1
data points qui existent et donc c'est très facile on n'est pas en train de résumer on n'a pas un chatbot qui va dire il faut que vous fassiez ça c'est on est vraiment très guidé quoi et du coup sur les sujets quand même parce que c'était pas neutre même si vous aviez déjà mis en place parce que pour déployer un bert et que ça faut des capacités de workload gpu pour switcher vers ces modèles là que ce que je comprends vous déployer aussi on prem ou en tout cas sur du cloud privé on est sur du cloud on est sur du pass
Speaker #0
Cette fois-ci, on utilise la stack Azure OpenAI. D'accord, ok. Donc Azure fournit une grande variété de modèles, mais globalement, ça nous permet d'avoir accès directement à OpenAI, même version privée. Donc là, c'est vraiment, on a des instances de modèles qui nous sont dédiées. Ça, c'est pour l'aspect sécurité, qui sont dans des régions géographiques bien distinctes. Donc du coup, ça fait partie du déploiement. On a différentes instances de notre produit qui sont déployées dans les régions données, avec la complexité que ça impose, parce qu'il y a des régions qui n'ont pas les mêmes modèles. Oui. Donc c'est là où du coup, là on vient sur le côté industrialisation, c'est des gros enjeux, je pense qu'il y a des gens qui n'ont pas forcément craqué ça encore, mais d'être capable d'avoir créé la bonne architecture avec les bonnes couches d'abstraction pour être capable de gérer le scaling, être capable de gérer la limite de ces modèles, parce qu'il y a des limites en termes de tokens, donc il faut être capable de gérer cette partie-là, de gérer aussi également qu'est-ce qui se passe si ça a été mal haussé, si on change de modèle dans une autre région. Donc tout ça, ça fait partie ici des choses qui sont cachées dans l'industrialisation, mais qu'on a été capable de poser proprement, de déployer correctement sur un cloud avec de l'infra-ASCODE par exemple, c'est des choses qui sont importantes. Et on a des challenges aussi simples que par exemple, on se rend compte qu'on aimerait déployer la même solution dans des pays du Pacifique, mais en fait, ils n'ont pas les mêmes modèles. Ils ne sont pas disponibles. Oui, oui, ils ne sont pas disponibles. Comment on fait ? On veut déployer dans une région d'Asie, La régulation locale impose que c'est interdit d'utiliser un autre cloud provider, on ne peut pas utiliser Azure comme on fait. Donc on a ces sujets-là aujourd'hui.
Speaker #1
Mais ce qui a quand même été un accélérateur de ne pas avoir à développer un serveur d'inférence sur ces modèles-là. Ok, intéressant. Et juste pour revenir, parce que ça m'intéresse beaucoup, sur la partie extraction d'informations, tu évoquais la taille du contexte. Est-ce qu'il y a des logiques de retrieval pour filtrer le bruit ? Pour extraire ses data points.
Speaker #0
Oui, il y a beaucoup de logique. En fait, souvent, c'est aussi ce qu'on explique avec le plus de pédagogie possible. Parce que quelque chose que je n'ai pas mentionné, c'est qu'avec Genial, d'un seul coup, tout le monde est Genial expert. Ouais, donc c'est retrouver un petit peu les gens prétentieux, orgueilleux. Personne ne comprenait ce qu'on faisait. D'un seul coup, tout le monde comprend ce qu'on fait. Et donc, on a eu beaucoup ce côté. Mais il suffit de faire un prompt. Ouais, on y va. Oui, effectivement. on peut vous éduquer au prompt, mais en fait, même en éduquant au prompt, quand on n'a pas ce fondamental de bagage de se dire comment fonctionne un modèle, de comprendre qu'il y a un contexte, il y a une mémoire, que c'est lié à des modèles transformers, donc quand on comprend comment fonctionnent ces modèles, c'est aussi ce qu'ils ne font pas. Effectivement, le contexte devient très important et ça nous amène à tout le travail qu'on fait, nous, avec le modèle d'AI génératif. Finalement, ce n'est pas le prompt le plus important. Bien sûr, il joue une dimension particulière dans la définition et la recherche d'informations, mais c'est comment on arrive à cette information. Et donc, on a beaucoup de logique de recherche d'informations, et je utilise souvent la métaphore d'une encyclopédie. C'est quand on recherche une information, imaginons qu'on ne connaît pas un sujet, mais on nous donne l'encyclopédie qui contient l'information, on ne va pas lire toute l'encyclopédie pour ensuite se poser une question. On va souvent décomposer notre raisonnement on va regarder la table des matières qui va nous amener à un chapitre, et dans le chapitre on va regarder potentiellement les paragraphes, les titres des paragraphes. C'est un peu cette logique qu'on réplique avec nos chaînes de pensée. Et c'est là où il y a le plus gros travail. C'est là où vraiment on doit comprendre le métier, s'asseoir avec des gens qui ont de la connaissance, pour leur dire, ok, dans la vraie vie, vous faites quoi. Et c'est assez marrant, parce que c'est là où on s'en compte aussi que tous les humains sont différents et il n'y a personne qui fait de la même chose. Et donc, c'est vraiment là, c'est le côté curiosité qui fait aussi qu'on va réussir à trouver des techniques assez originales. pour maximiser la robustesse du résultat, tout en aussi maximisant la pertinence pour un métier. De savoir que, c'est tout bête, on a par exemple un critère qui est assez marrant et facile à comprendre, parfois on doit détecter si quelqu'un est fumeur ou non fumeur. Question simple, oui, non. En fait, dans les faits, c'est bien plus complexe que ça parce qu'en fait, on va poser des questions sur la consommation occasionnelle ou pas de cigarettes, de tabac, est-ce que les gens vapotent ou pas. Et en fait, donc ça, c'est l'élément de base. Et en fait, on se rend compte que pour une personne donnée, fumer une cigarette par an, c'est être fumeur. Pour une autre personne, fumer une cigarette, il faut que ça soit pendant trois ans pour ne pas être fumeur ou fumeur. Et donc en fait, c'est parce qu'on amène ça sur la table avec un rationnel, qu'on se retrouve avec ces débats, en fait, et on se rend compte finalement, définir, poser une simple question, êtes-vous fumé ou pas ? C'est pas ça la vraie question.
Speaker #1
On répond pas à la question.
Speaker #0
Donc c'est là où on a dû la détailler. Existe-t-il une preuve, par exemple, de consommation de cigarettes ? Et si oui, combien de cigarettes ? Sur quelle unité de temps ? Ok. Et donc voilà, c'est là où on prend une question, finalement, au lieu d'avoir un seul data point en sortie, on en a cinq. C'est ça qui fait qu'on va être vraiment à valeur ajoutée à la fin. Et souvent, les gens ont plutôt ce préconçu de se dire, parce qu'ils ont joué avec ChatGPT, ils pensent que l'algorithme va directement répondre à la question avec un gros raccourci. Alors ça marche bien pour la connaissance d'ordre général, fait historique, quelque chose comme ça. Mais dès qu'il s'agit de raisonner, comme ces modèles sont entraînés sur quelque chose de général, on est vraiment dans cette approche. on lui donne une encyclopédie, et puis on lui donne en fait un document expert lié à la thématique de l'encyclopédie, on lui demande de lire les deux, donc l'algo c'est lire, je dis souvent, je sais pas si on va le garder ça ou pas, mais je dis souvent que c'est un peu comme un stagiaire ou quelqu'un sorti d'école.
Speaker #1
C'est une bonne analogie.
Speaker #0
C'est une métaphore de... La personne a des connaissances de base, elle sait lire, elle sait écrire normalement.
Speaker #1
Il faut la guider.
Speaker #0
Voilà, il faut la guider, il faut lui donner des instructions très précises. Et justement, alors parfois la connaissance générale va suffire, donc ce qu'on enseigne à l'école, mais parfois il faut la forcer justement à aller lire quelque chose, aller piocher, aller sur une instruction bien précise étape par étape.
Speaker #1
Et parfois même la contraindre parce qu'il y a des modèles effectivement qui ont… digérer tellement de données que via leur représentation interne ils peuvent sortir la bonne réponse mais si c'est pas auditable et si c'est pas explicable Super intéressant est ce que tu as des recommandations voilà pour des leaders qui cherchent à implémenter ces solutions dans leur organisation qu'est ce que toi tu pourrais donner comme apprentissage un peu clé que tu as eu au fil des projets des expériences qu'est ce qui serait pour toi le premier c'est pas de se faire voir par
Speaker #0
le buzz je pense c'est vraiment nous il a fallu résister au jour de nouveaux buzz aujourd'hui par exemple c'est les agents De comprendre ce que c'est avant de surfer, de ne pas se faire voir par le côté magique, dire on va tout résoudre par les agents, non. Si on se fait avoir par le buzz, le problème c'est qu'on se fait détourner l'attention et on oublie les fondamentaux. Savoir industrialiser, qu'est-ce que ça veut dire ? S'assurer qu'on est capable de comprendre la notion de transparence d'un modèle, qu'est-ce que ça veut dire ? Est-ce que mes systèmes d'information sont à jour ? Est-ce que par exemple, elles ont une API ou pas ? C'est aussi bête que ça. Et quand elles ont une API, est-ce que l'API met à disposition les bonnes informations ? Et en fait, aussi, un agent, il y a une définition à un agent. Et souvent, le piège, c'est de penser parce que tout le monde vend entre guillemets leurs propres agents, ça crée un bruit sur vraiment ce que c'est. Mais un agent, c'est une définition bien précise au même titre que un LLM, c'est une définition bien précise. On dit « genia » , mais en fait, l'IA générative a plusieurs déclinaisons, l'ELM en sont une. Mais il existe plein de types d'IA générative. C'est là où l'expertise a un rôle, c'est là où comprendre ce qu'on fait, c'est important. Mais le conseil, c'est de ne pas oublier les fondations, ne pas oublier les fondamentaux. Et je pense même que c'est une condition nécessaire pour réussir à vraiment avoir un success story, quelque chose qui vraiment n'est pas juste un...
Speaker #1
Il n'y a pas de magie.
Speaker #0
Toujours, il y a, ce n'est pas magique. Il n'y a pas de magie. Il ne faut pas oublier que ce n'est pas de l'intelligence artificielle générale. Ce sont des choses qui sont, on peut vraiment l'expliquer avec des concepts très simples. La technique fondamentale de ces fameux gros modèles, elle n'est pas nouvelle. C'est la même technique qui a été développée déjà il y a plus de 60 ans maintenant. Elle a maintenant 70 ans. C'est le même concept. C'est exactement la même technique, il n'y a rien de nouveau. Pourquoi est-ce qu'aujourd'hui on serait capable de faire d'un seul coup différent ou pas ? C'est cette question qu'il faut se poser. Et comprendre vraiment effectivement où sont les raccourcis. Au même exemple qu'on a pu bien comprendre comment industrialiser l'intelligence artificielle parce qu'on avait compris comment industrialiser tout court des modèles. Et on arrive à comprendre vraiment la différence et je pense que ça, ça nous a beaucoup aidé.
Speaker #1
C'était un peu le sens de ma remarque, il n'y a pas de raccourci, c'est que le fait d'avoir essuyé les places sur du MML traditionnel et d'avoir construit un cadre d'expérimentation robuste, des pipelines pour tester, déployer, monitorer vos solutions, c'est des choses que vous bénéficiez aujourd'hui de tout ce que vous avez construit. Et même si demain vous devez construire des agents, ça s'appuiera sur des building blocks qui préexistent. Ce n'est pas de se mettre à la poubelle pour dire…
Speaker #0
Après je dis pas que ces gens c'est... Enfin, ce n'est pas une matérialité concrète. Je suis convaincu que... On est assez confiant, par exemple, pour dire qu'on sera prêt à avoir des choses agentiques dans 3 à 6 mois. Mais c'est parce qu'on sait aussi qu'on a bien posé les fondations et que nos systèmes de formation sont suffisamment prêts pour y arriver. Mais c'est... Voilà, enfin, c'est... forcément, il y a du buzz, il y a beaucoup de matière dans notre entourage qui pousse beaucoup pour l'usage de ces technologies. Et il y a effectivement, quand on regarde, c'est impressionnant, c'est un fait, c'est impressionnant.
Speaker #1
Et la pression, j'imagine, du management et du top management même, parce qu'il y a cette idée de faux mots, de rater la vague, et si tout le monde parle des mots clés. Merci. Et qu'au COMEX, on dit bon alors l'IA, les agences, c'est pour quand ? Il y a aussi cette pression, j'imagine, qui doit redescendre. Et c'est important, du coup, cette pédagogie de pouvoir dire qu'il y a des étapes qu'il ne faut pas brûler.
Speaker #0
Oui, c'est ça. C'est là la difficulté, c'est d'être audible et d'être suffisamment clair et explicite dans notre approche. Parce que sinon, et c'est ce qui explique souvent ces fameuses vagues de... Il y a la hâte, il y a la décon... C'est qu'en fait, c'est souvent ça la réalité des choses. Tout le monde en parle, mais quand il s'agit de faire... Personne ne se dit pas, les gens ça fait à l'époque, ça fait à l'époque des proofs of concept, ça veut démontrer, c'est effectivement, c'est impressionnant, c'est waouh, c'est fait waouh. C'est d'ailleurs ce que je disais récemment au Wacaton, c'est bah oui en 48 heures les gens ont réussi à faire des choses impressionnantes. Par contre l'industrialiser c'est...
Speaker #1
C'est un autre terme.
Speaker #0
Et c'est parce qu'il y a pas mal de choses, on revient à ce côté curiosité de se dire, pourquoi est-ce que potentiellement quelque chose qui nous paraît comme, aujourd'hui on appelle ça facilement des monolithes, des legacy systems. Pourquoi ça nous prenait autant de temps de les développer avant et pourquoi aujourd'hui on irait plus vite ? On va certes plus vite, on peut aller plus vite, mais en fait on peut pas non plus aller instantanément plus vite. Il y a quand même des choses qui sont bien faites dans les systèmes legacy et qui ont une raison d'être. Je pense tout ce qui est monitoring, auditabilité, disaster recovery, être capable de scaler, être capable de restaurer une information ou d'être sécurisé. c'est des choses qui peuvent prendre un peu de temps quand on ne maîtrise pas et ça c'est des choses qui expliquent c'est les fondamentaux
Speaker #1
Merci Antoine, on arrive sur la fin de l'échange j'aurais peut-être deux questions pour toi avant de clôturer est-ce que tu as un parcours vraiment inspirant et encore bravo est-ce que tu as des recommandations d'habitude, de choses que tu fais et qui te paraissent contribuer à ton succès dans ton job et que tu pourrais partager Merci.
Speaker #0
euh... Au-delà d'être curieux. Au-delà d'être curieux.
Speaker #1
C'est vrai qu'on a bien compris ça.
Speaker #0
Je dirais de ne pas forcément avoir d'a priori, de se remettre en cause assez régulièrement. Ce qui n'est pas toujours simple. Parce que c'est vrai que parfois, on est un peu embarqué dans... On dira, j'ai réussi à faire ci, j'ai réussi à faire ça. Se remettre en cause et du coup, accepter... être à l'écoute de la confrontation, des choses qui nous paraissent contre-intuitives, de toujours douter, de toujours être capable de se dire est-ce qu'il y a du vrai, est-ce qu'il y a du faux ? De remettre en cause, c'est assez important. Et le deuxième point, je dirais quelque chose que j'ai vraiment encore plus fait avec SCORE, de l'aspect international, c'est le côté un peu diversité, qui aide du coup aussi à cette confrontation. L'aspect multiculturel aide énormément aussi à ça. de s'ouvrir à d'autres cultures, que ce soit à notre pays, notre manière de penser. J'ai la chance d'avoir une équipe internationale avec vraiment des profils très différents. On est une fondation commune, un socle commun qui est la technicité et les sujets du travail, mais en fait on parle des langues différentes, on vient de pays différents, et ça c'est une richesse qui est assez forte. Je pense que c'est une chance qu'on a dans nos équipes d'avoir des profils différents pour le coup. Mais ça, c'est quelque chose que je recommanderais.
Speaker #1
L'excellence dans l'humilité.
Speaker #0
En tout cas, d'essayer. Encore une fois, l'humilité, même si on y pense, l'image qu'on renvoie n'est pas toujours l'image d'humilité. Et c'est justement grâce à la diversité qu'on arrive à être capable de dire à son collègue « Bon, là, tu parais un peu arrogant, on va essayer de changer ça. » ou être capable de simplement d'avoir le courage de dire je pense que je suis pas d'accord et d'expliquer pourquoi ok c'est ce qui fait aussi que moi c'est ce que je recherche aussi quand je dis les gens de mon équipe je dis si vous pensez si j'ai tort vous me le dites et c'est comme ça que j'espère en tout cas tu infuses cette bonne pratique enfin j'essaie d'être exemplaire et je m'inspire des autres aussi je m'inspire beaucoup de j'apprends énormément des gens qui m'entourent Et c'est aussi pour ça que je suis resté chez SCORE, c'est sur l'environnement. Donc ça, un autre conseil que je donne, c'est pour un premier boulot, s'il y a des plus jeunes qui nous écoutent, c'est de chercher les gens avec qui on veut travailler, plutôt que de... de travailler pour quelqu'un ou pour quelque chose. Bon, ça peut être aussi une motivation, mais c'est ma conviction personnelle que ce n'est pas forcément quelque chose de long terme.
Speaker #1
100% d'accord. Dernière question. Est-ce qu'il y a un livre, un film... une ressource que tu aimerais partager, que tu aurais vu ces six derniers mois et qui n'a pas marqué ?
Speaker #0
J'ai vu la question et j'ai dit… C'est plutôt une série que j'ai regardée il n'y a pas très longtemps, qui m'a beaucoup marqué de par le contexte politique actuel. C'est Years and Years, une série britannique qui est une fiction qui parle de ce que le monde serait devenu si Trump avait été réélu en 2018.
Speaker #1
D'accord.
Speaker #0
Je recommande vraiment cette série parce qu'elle est assez fascinante. Donc en fait, on suit l'évolution du monde au travers d'une famille britannique où chaque personne de la famille nous permet d'avoir une vision de la société différente. Donc il y a l'aspect technologique, il y a l'aspect vraiment économique, il y a vraiment de tout. Et ça va jusqu'en 2040, quelque chose comme ça.
Speaker #1
Très actuel suite aux événements récents.
Speaker #0
C'était très réaliste. Et pour le coup, pour ceux qui aiment le côté prédictif, IA, je vous recommande parce qu'en fait, je trouve ça assez impressionnant parce qu'il y a une certaine lucidité sur l'environnement. Et vraiment, je la recommande vraiment parce qu'elle est assez fascinante pour ça. ça me fascine autant que lorsque j'avais regardé le film, je crois c'est Contagion, sur la pandémie Covid, c'est un peu du même type, quelque chose qui a été fait avant un événement historique, des événements historiques qu'on connaît, et qui ont en tout cas... ça c'est une fiction, faut le dire, mais par contre ça met en avant des événements et moi ça m'a beaucoup troublé parce que c'est vraiment une bonne interprétation du monde.
Speaker #1
Je regarderai. Merci Antoine pour ton temps, c'était passionnant.
Speaker #0
Merci à toi. Au revoir.