Speaker #0Super Docteur, c'est le podcast des médecins généralistes. Le podcast qui vous transmet les recommandations de bonne pratique et les résultats des grandes études qui vont changer vos habitudes. Super Docteur, c'est la découverte de méthodes de soins innovantes et des interviews de soins néant inspirants qui boosteront votre motivation. Un contenu court et pratique, chaque semaine, pour tous les médecins. Bonjour à tous ! et bienvenue dans Superdocteur, le podcast des médecins généralistes qui redonne de la noblesse à notre métier, pour soigner mieux, différemment, et en prenant en compte les nouvelles avancées en santé. Effectivement, il y a quelques semaines, je vous parlais d'un benchmark qui a beaucoup fait parler de lui, le Health Bench publié par OpenAI. Il mesurait à l'époque la capacité des modèles d'IA comme GPT à répondre à des questions médicales. C'était une façon d'évaluer la culture médicale d'une IA. Je vous renvoie à cet épisode, si vous ne l'avez pas écouté, qui nous rapportait déjà une avancée considérable dans le domaine de l'IA en santé. Aujourd'hui, je vous propose de changer d'échelle au vu d'une nouvelle étude assez incroyable, publiée le 30 juin dernier. En effet, une équipe de Microsoft va beaucoup plus loin. Dans cette nouvelle étude, il ne s'agit plus de voir si l'IA sait, mais si elle peut maintenant raisonner, comme un clinicien. poser des hypothèses, les tester, les réviser, demander les bons examens au bon moment. Ce nouveau benchmark s'appelle SDBench pour Sequential Diagnosis Benchmark. Les résultats sont stupéfiants, parfois même un peu vertigineux. Dans cet épisode, je vais vous détailler cette étude, ses enseignements, et surtout ce que cela signifie en pratique pour nous, médecins généralistes. C'est parti ! On va détailler cet épisode en trois parties. En un, je vais vous détailler cette étude. En deux, on va voir ces trois résultats majeurs. Et en trois, on va quand même discuter de cette étude, de ces biais, de cette application en pratique. Partie 1, l'étude en détail. De quoi on parle ? On va commencer par la méthodologie qui est au cœur de la nouveauté de cette étude. Les chercheurs de Microsoft ont donc publié cette étude le 30 juin dernier sur 304 cas cliniques, tous tirés du New England Journal of Medicine, issus des fameuses Clinical Pathological Conferences. Ce sont des cas très complets, complexes, pensés pour l'enseignement du raisonnement médical. Donc on a pris ces cas cliniques, on va en reparler plus tard de leurs caractéristiques, et puis on va évaluer d'un côté des médecins humains, qui vont pouvoir prendre connaissance de ces cas, qui commencent tous par quelques petites lignes, avec l'âge, le patient, ses symptômes, et puis d'un côté les humains, ils vont pouvoir commencer à poser des questions sur les signes, etc. à demander des examens, avoir des résultats, peut-être demander d'autres examens plus spécialisés, comme ça de façon séquentielle pour proposer un diagnostic. Et de l'autre côté, c'est l'intelligence artificielle qui s'y colle. Alors, comment ça marche ? L'IA prend également connaissance maintenant de quelques lignes, et puis elle doit poser des questions, demander des examens, formuler des hypothèses jusqu'à proposer un diagnostic. Ici, on ne parle pas de traitement, juste d'une proposition diagnostic finale. C'est ce qu'on appelle le diagnostic séquentiel. Comme en consultation, on avance pas à pas. Et donc, contrairement à l'étude précédente, qui était déjà incroyable, dont je vous avais parlé, où à l'époque, on fournissait toutes les données à l'IA sur un seul modèle de LLM qui nous répondait un grand texte d'un coup et on évaluait ses réponses. Maintenant, vous avez compris que c'est différent, c'est séquentiel. L'IA va pouvoir raisonner, va pouvoir réfléchir, prescrire, choisir, évaluer. Donc l'architecture... de cette CIA est beaucoup plus complexe. Comment elle marche ? Elle est en fait composée de plusieurs agents IA. Qu'est-ce qu'un agent IA ? C'est une IA spécialisée qui va donc s'associer à d'autres agents, eux aussi spécialisés, pour concourir ensemble dans une même tâche. Ici, trouver le bon diagnostic. Quels sont ces agents IA dans cette étude ? Il y a ce qu'on appelle un gatekeeper qui répond uniquement aux questions et il y a plusieurs IA spécialisés. Ils auront donné le nom de docteurs qui vont avoir chacun Une tâche, comme chaque spécialiste. Il y a le docteur Hypothesis, qui gère les hypothèses probables. Lui, il est entraîné spécifiquement pour rechercher des hypothèses diagnostiques. Il y a le docteur Challenger, qui remet en question les biais. Il y a le docteur Testchooser, qui choisit les examens les plus discriminants. Il y en a plusieurs. Il y a le fameux docteur Stewardship, qui lui contrôle les coûts. Ce qui était un enjeu de cette étude, c'est contrôler les coûts. On va en parler. Et toutes ces couches d'IA... tous ces médecins virtuels spécialistes, ils sont eux-mêmes chapeautés par un autre agent IA, c'est là que c'est assez génial, qui s'appelle MAIDXO, c'est l'acronyme de Microsoft AI Diagnosis Orchestrator. qui lui est un orchestrateur, et son boulot est de coordonner et d'orchestrer cette équipe médicale virtuelle. Il a été lui-même, cet orchestrateur, calibré dans différents modes selon le budget qu'on lui a loué. On va en parler, mais évidemment, si vous avez le choix de demander des PET scans, des biopsies, etc., ça ne coûte pas la même chose que si vous êtes en mode médecine de campagne où il faut juste une petite biologie, etc. Et donc évidemment, la précision diagnostique ne sera pas la même. Donc on va le calibrer, cet orchestrateur, selon le budget principalement. Donc on a d'un côté cette super IA composée de couches d'agents IA, de l'autre côté des médecins qui vont devoir plancher sur les cas cliniques du New England. Le pool de médecins, qui est ces 21 médecins humains, américains et britanniques, qui ont en moyenne 12 ans d'expérience, et ce sont principalement des généralistes. Dans l'article, il y a marqué... C'est-à-dire qu'ils sont tous généralistes, hospitaliers ou de ville. Donc là, c'est encore un biais. On va pouvoir en parler. Voilà pour la présentation de cette étude. Vous avez compris que c'est tout nouveau. Parce qu'à l'époque, c'était one shot. On présentait un dossier médical, aussi complexe soit-il à une IA, qui nous crachait toute sa démarche et le diagnostic en un G, et puis on évaluait sa réponse sous des critères donnés. Maintenant... On présente un début de cas, comme en consultation, et puis l'IA doit prendre des décisions, formuler des hypothèses, demander des tests, des examens paracliniques, et proposer un diagnostic face à des véritables médecins humains. Partie 2, quels sont les résultats de cette étude ? Je vais vous présenter trois grands résultats. En 1, l'IA fait mieux que les médecins sur le plan diagnostique. L'IA monte à presque 80%. de précision diagnostique est jusqu'à 85,5% en mode ensemble, qui est un mode de budget confortable. Les médecins humains en face atteignent même pas 20% de bons diagnostics. On a d'un côté 80% d'IA, de l'autre 20% de médecins. Vous imaginez l'écart ? Résultat numéro 2. L'IA est plus économe que les modèles d'IA classiques, sans agent IA, et que les médecins humains. C'est-à-dire que la fameuse IA finale orchestratrice, elle atteint donc près de 80% de diagnostic pour un coût de 2400 dollars, un peu moins, 2396. Les médecins humains, eux, ils atteignent donc moins de 20% de bons diagnostics et un coût de 2963 dollars. Donc ils sont moins précis et ils sont beaucoup plus chers. Petite parenthèse, j'ai regardé le coût associé aux médecins humains, donc il y a le coût des examens et évidemment le coût de la consultation des généralistes. Et cette étude évalue la consultation d'un généraliste à 300$. Voilà, il faut se poser des bonnes questions. Donc, résultat numéro 2, je viens de vous le dire, l'IA est plus économe à la fois que les médecins humains et que les modèles LLM traditionnels jusqu'à présent. Et en 3, cette IA améliore la qualité du raisonnement, fait moins de biais d'ancrage, utilise mieux les tests et les examens paracliniques et a une réflexion qualifiée de plus rigoureuse et plus pertinente. Voilà ces résultats qui font un petit peu froid dans le dos, mais ne désespérez pas. Parce que dans cette partie 3, nous allons voir un petit peu ce qu'il en est véritablement. Bravo, vous êtes bien arrivé à la fin de cette partie. La suite vous attend dans le prochain épisode. Pour ne rien manquer de Super Docteur, pensez à vous abonner dès maintenant à ce podcast. Et si vous aimez mon travail, le meilleur moyen de me soutenir, c'est d'en parler autour de vous, à vos consoeurs ou vos confrères. Enfin, un petit geste qui fait une grande différence. Laissez-moi une belle note de 5 étoiles sur votre application de podcast préférée. Ça m'encourage énormément. et ça aide d'autres médecins à découvrir SuperDocteur et partager ensemble des idées pour améliorer nos soins et enrichir nos pratiques. A très vite sur le podcast !