Speaker #0Super Docteur, c'est le podcast des médecins généralistes. Le podcast qui vous transmet les recommandations de bonne pratique et les résultats des grandes études qui vont changer vos habitudes. Super Docteur, c'est la découverte de méthodes de soins innovantes et des interviews de soignants inspirants qui boosteront votre motivation. Un contenu court et pratique, chaque semaine, pour tous les médecins. Bonjour à tous et bienvenue dans Super Docteur. Aujourd'hui, je m'attaque en solo. à un épisode un petit peu particulier. Si vous avez écouté mon entretien avec le docteur Laurent Alexandre sur ce même podcast, vous avez sans doute été autant fasciné qu'inquiétant. Des affirmations fortes comme l'IA est meilleure que les médecins ou il faut arrêter de se former à la médecine, volontiers provocatrices, parfois vertigineuses de mon invité, vous ont fait réagir et vous ont inquiété. Alors, est-ce qu'on va tous être remplacés par ChatGPT version 12 ? Est-ce qu'il faut fermer nos cabinets et monter une start-up ? J'ai voulu prendre du recul, revenir aux données et revenir aux faits. Pour ça, je me suis plongé dans un document publié en mai 2025 par OpenAI, la société de chat GPT, le Health Bench. C'est un benchmark scientifique, c'est-à-dire une étude étalon, réalisée par la plus grosse entreprise du monde de l'IA, qui mesure très concrètement les performances de l'intelligence artificielle dans la santé. 5000 cas cliniques simulés, 262 médecins évaluateurs, des dizaines de milliers de critères, c'est du sérieux... c'est scientifique et c'est passionnant. Dans cet épisode, je vous propose un exercice de méthode. Je vais reprendre point par point les principales affirmations de mon dernier invité Laurent Alexandre et les confronter aux résultats du Health Bench. Je vais vous rapporter par cette étude d'envergure ce qui est vraiment capable de faire l'IA en santé aujourd'hui et ce qu'elle pourra envisager de réaliser demain. Alors c'est pas pour polémiquer, c'est pour raisonner, nuancer, comprendre et surtout... réfléchir ensemble à notre avenir de médecin avec lucidité, sans panique, mais aussi sans naïveté. Avant de poursuivre, je vous invite, s'il vous plaît, à me rédiger un petit commentaire sympa sur vos applis de podcast ou YouTube en commentaire. Ça m'aide simplement à faire remonter le podcast dans les algorithmes, ça aide à le proposer au plus grand nombre. Alors, je vais diviser ce podcast en une introduction et six parties. Comme je vous annonçais, je vais reprendre six affirmations de mon invité. les confronter à ce document HealthBench d'envergure pour savoir vraiment est-ce que c'est vrai ce qu'il a rapporté et surtout, on va le confronter aux données de la science à l'heure actuelle, est-ce que c'est vérifié ? Alors en introduction, l'épisode que j'ai fait avec Laurent Alexandre, il a suscité énormément de colère, d'inquiétude de votre part. Il y a parfois eu beaucoup d'insultes, même dans les petites vidéos que j'ai postées. Alors tout d'abord... Je voulais dans ce podcast remercier chaleureusement mon dernier invité, Laurent Alexandre. Je ne sais pas si vous vous rendez compte à quel point c'est un honneur pour moi d'avoir eu cette chance d'avoir un invité de cette envergure qui m'a accordé près d'une heure de son temps sur ce podcast. Moi je suis un médecin généraliste, je fais des échographies. Lui c'est certes un médecin, c'est un entrepreneur, il a fait des études incroyables, etc. On peut le critiquer, il faut le critiquer, c'est hyper important. Mais rendez-vous compte à quel point pour moi c'était incroyable de le recevoir. Donc rien que pour ça, je lui remercie chaleureusement. Évidemment, il a tenu des propos qui font peur, des propos angoissants. Mais j'ai envie de vous dire, est-ce que c'est pas hyper important de prendre l'avis de tout le monde, de penser contre soi-même et après de se faire une idée par soi-même ? Il faut faire preuve d'esprit critique. Et surtout, je vous invite, et on va en reparler en conclusion de ce podcast, à ne pas sombrer dans... L'IA anxiété, je ne sais pas, il faudrait définir ce nouveau mot, mais apprendre les données telles qu'elles sont, prendre les avis tels qu'ils sont proposés, et puis essayer de faire preuve d'une espèce d'optimisme de combat et de ne pas tomber dans l'éco-anxiété ou une peur déraisonnée. J'ai une responsabilité dans cette chose parce que c'est moi qui l'ai invitée, encore une fois j'étais très heureux de l'avoir invitée, et je me suis bien rendu compte qu'il y avait énormément d'inquiétude et de peur et de colère de votre part. Encore une fois, ce n'est pas parce que j'ai invité telle ou telle personne que je suis 100% raccord avec elle. J'apporte une grande importance à l'esprit critique, à prendre une certaine nuance par rapport à certains propos. Je crois que je n'ai pas à vous prouver à quel point je pense que l'humain est important dans toute relation de soins, de par tout ce que je publie, le livre, l'essai que j'ai écrit sur la médecine intégrative, tout le travail que je fais. peut-être une version partielle sur les réseaux, sur le care, sur... l'importance de la relation médecin-patient, mon avis est forcément nuancé. Donc, pour rentrer dans le vif du sujet, je vous propose dans cet épisode de comparer les propos de Laurent Alexandre avec le benchmark d'OpenAI. D'abord, parlons chiffres. Le benchmark d'OpenAI, qu'est-ce que c'est ? C'est le Health Bench, et donc ça va évaluer, c'est un document de 36 pages qui est absolument imbuvable en anglais, c'est vraiment une étude scientifique, et ça propose comme une étude transversale d'évaluer ce que valent les modèles d'intelligence artificielle dans les situations médicales réalistes. Ce ne sont pas des QCM d'internat, ce ne sont pas des tests de vocabulaire, ce sont de vraies conversations cliniques simulées entre un patient ou un soignant et une intelligence artificielle. Concrètement. Les chercheurs ont proposé 5000 cas cliniques, chacun avec une ou plusieurs questions posées à une IA. Chaque réponse est notée selon des critères précis, établis par 262 médecins, dans 60 pays différents. Il y a au total plus de 48 000 critères d'évaluation. Par exemple, on évalue, est-ce que l'IA donne un diagnostic pertinent ? Est-ce qu'elle pense à un signe d'alarme ? Est-ce qu'elle communique de façon claire et adaptée ? Est-ce qu'elle évite une erreur dangereuse ? Et ainsi de suite. Je vais donc reprendre en 6 points les principales affirmations de Laurent Alexandre et les confronter. à ce document. Affirmation numéro 1, l'intelligence artificielle est meilleure que tous les médecins. Alors, c'est une citation de mon dernier invité. Ce que montre le Health Bench, c'est que les performances de l'IA est en forte progression, mais il y a encore des lacunes sur les cas complexes. Le meilleur modèle actuel appelé O3, le chat GPT, atteint 60% de réussite globale. Sur les cas les plus complexes, le score tombe à 32% seulement. Si on compare directement les scores, les médecins humains atteignent 55% de la performance du meilleur modèle d'IA actuel, selon les critères du benchmark. Je ne sais pas si vous vous rendez compte qu'en gros, les humains sont deux fois moins bons que l'intelligence artificielle sur les critères du document. Autrement dit, sur ce terrain de jeu-là, très structuré, très codifié, l'IA nous dépasse sur la forme et la complétude des réponses. Les réponses, elles sont jugées comme je vous disais sur... plein d'aspects, c'est-à-dire est-ce que le diagnostic est bon, est-ce que les explications sont complètes, est-ce que la communication est adaptée, est-ce qu'il y a une vigilance sur les contre-indications, et ainsi de suite. Alors pourquoi ? Pourquoi est-ce que nous on est deux fois moins bons qu'il y a sur ces critères-là ? Parce qu'en pratique, nous médecins, on a tendance à aller à l'essentiel. On fait des réponses courtes, claires, mais souvent incomplètes au regard de tous ces critères mesurés. Par exemple, on donne le bon diagnostic, mais on oublie de mentionner un diagnostic différentiel, par exemple. On n'explique pas tout, on ne reformule pas comme si on parlait à un patient, non médecin. Bref, on fait du clinique, mais pas du copier-coller pour une publication académique. Donc résultat, notre moyenne descend. Pas parce qu'on a tort, mais parce qu'on ne coche pas toutes les cases du barème, de ce barème qui est quand même extrêmement exigeant. A l'inverse donc, l'IA, elle va répondre avec une grande structure, une complétude parfois exagérée, mais optimisée pour répondre à ses critères. Elle fait des réponses calibrées pour le benchmark, mais pas pour la vraie vie. Donc oui, l'IA marque. plus de points dans cet exercice, mais non, ça ne veut pas dire qu'elle soigne mieux dans la réalité. Alors à quoi ça correspond pour nous, concrètement, médecin ? Imaginons que vous posiez une question clinique à cet IA, un cas pas trop tordu, un motif classique par exemple, mon patient a une douleur thoracique atypique, non positionnelle, sans dyspnée, quel bilan demander ? Dans 6 cas sur 10, comme je vous disais, l'IA vous donne une réponse médicalement correcte, complète, bien formulée et validée par les critères d'un médecin. Et si vous allez sur un cas plus dur, je ne sais pas, un patient immunodéprimé avec des symptômes atypiques, un bilan incomplet ou une demande implicite, l'IA commence à se perdre dans 7 cas sur 10. Elle rate quelque chose d'important, un oubli, une erreur, un manque de prudence, un diagnostic plausible non évoqué par exemple. Donc non, l'IA n'est pas fiable à 100%. Elle fait des choses extraordinaires, mais elle reste vulnérable. Là où nous, soignants, médecins, savons lire entre les lignes. sentir un terrain à risque, demander une info manquante ou dire je ne sais pas mais je vais surveiller. Vous savez que l'IA, en l'occurrence ChatGPT, parfois hallucine et surtout elle répond toujours. Elle ne dit jamais je ne sais pas. Or, on sait que le soin c'est bien plus compliqué que ça et dire je ne sais pas c'est capital. Donc en pratique, le score de 60% réalisé par l'IA actuellement peut paraître impressionnant, il l'est. Mais si vous avez 40% d'incertitude ou d'imprécision, alors bien sûr qu'on est en danger, le patient aussi. Autrement dit, l'IA devint un très bon assistant, mais elle ne remplace pas encore, et à mon avis pour longtemps, le raisonnement clinique global. Surtout, elle est redoutable dans ce qu'elle fait bien, le diagnostic probabiliste, c'est une encyclopédie instantanée, mais elle ne gère pas encore l'ambiguïté, le doute, le « je ne sais pas raisonner » qui est le cœur de notre métier. Donc, en conclusion sur cette... Première partie, oui, l'IA est impressionnante. Non, elle n'est pas infaillible. Il y a encore une vraie valeur au discernement médical et à la présence physique d'un soignant. Affirmation numéro 2. L'IA est meilleure seule qu'en collaboration avec un médecin. Alors ça paraît contre-intuitif, on se dit qu'on est complémentaire de l'IA. Eh bien, a priori, pas tant que ça. Et je vais vous expliquer pourquoi et pourquoi cette affirmation est pour l'instant vraie. Ce que dit Laurent Alexandre, selon lui, c'est que nous ne sommes pas complémentaires de l'IA, parfois même contre-productifs. Il cite des études affirmant que les réponses produites par un modèle seul sont meilleures que celles d'un binôme médecin plus IA. En clair, l'humain dans la santé, empireraient les choses. C'est quand même assez époustouflant. Que montre le Health Bench en pratique ? Cette énorme étude d'OpenIA sur les performances de l'IA en santé. C'est là que ça devient intéressant. Ce document, il a testé la performance de réponse écrite par les médecins, comparée à celle de l'IA seule, mais aussi à celle d'un binôme IA plus médecin. Alors, ce qu'ils ont observé, c'est que quand on prend une IA ancienne, comme ChatGPT 3.5 ou 4 version 2024, Qu'un médecin corrige ou enrichit sa réponse, on améliore le score. Mais avec les IA les plus récentes, comme CHAT-GPT-O3, l'intervention humaine n'apporte plus de bénéfices et parfois même, les scores baissent un peu. C'est incroyable. Pourquoi ? Parce qu'en fait, l'IA répond déjà très bien avec ce modèle, avec une structure complète, un raisonnement logique, une vigilance sur les erreurs fréquentes. Et qu'un médecin qui lit cette réponse, sans l'avoir écrit donc lui-même, généré par IA, Il ne sait pas toujours quoi améliorer ou intervenir efficacement. Alors, à quoi ça correspond en pratique ? Imaginez que vous soyez médecin, jeune ou vieux, interne, que sais-je, installé, et qu'on vous montre une réponse déjà très bien construite, bien argumentée et produite par une IA. Vous allez soit la valider, sans vraiment relire, soit réécrire un petit bout, par exemple, sans nécessairement corriger une vraie erreur. Et parfois même, vous allez pouvoir rajouter une imprécision ou une confusion. Et là, le score, forcément, va baisser. Donc en clair, dans les tests réalisés par ce document, l'IA est parfois pénalisée quand un humain essaie de l'améliorer sans la comprendre vraiment. En pratique, pour les médecins généralistes, qu'est-ce que ça veut dire ? Ce résultat, il ne veut pas dire qu'on est inutile, il est à nuancer. Il veut dire que, ouvrez grand vos oreilles, quand l'IA est déjà très bonne, ce qui est déjà le cas, notre valeur ajoutée ne se situe plus dans la correction ligne par ligne. Elle se trouve dans le choix du bon contexte. dans la vigilance sur les limites et surtout dans les prises de décision finales. Donc oui, il faut apprendre à travailler avec l'IA, mais pas forcément pour tout refaire derrière elle, plutôt pour la guider, l'encadrer, la filtrer et bien évidemment sécuriser son usage comme on le ferait avec un stagiaire, un interne ou que sais-je. Donc mon analyse personnelle, c'est que oui, la complémentarité existe. D'ailleurs, à l'heure actuelle, éthiquement, on ne peut pas simplement laisser un robot soigner des gens. C'est évident. Je ne pense pas qu'on va disparaître demain, les médecins et les soignants. Mais il faut être complémentaire de la machine en l'organisant, en organisant cette complémentarité. Le médecin ne doit pas corriger l'IA à la marge, mais il doit poser le cadre, superviser et sécuriser pour l'avenir. Affirmation numéro 3 de mon invité, il ne faut plus apprendre la médecine. Il a dit ça, ça a fait couler beaucoup d'encre, ou en tout cas beaucoup de caractère numérique sur les réseaux. Ce qu'il disait, c'est qu'il n'allait pas par quatre chemins, il disait qu'apprendre la médecine aujourd'hui, c'était une perte de temps. Et il compare même cela au fait d'apprendre à être maréchal Ferrand après l'invention de la voiture. Il dit qu'on va être complètement remplacé par des machines. Il considère que l'IA va bientôt dépasser toutes nos compétences, que notre savoir médical sera rapidement obsolète, et que les études de médecine n'ont plus aucun sens dans ce contexte. Alors, ce que montre le Health Bench d'OpenIA ? Eh bien, il ne porte pas directement sur la formation médicale. Cependant, il apporte plusieurs éléments essentiels. Oui, l'IA maîtrise déjà une énorme quantité de savoirs médicaux, avec une capacité à répondre à des milliers de cas cliniques complexes et souvent avec justesse. Oui, l'IA s'améliore très vite, parfois même de manière spectaculaire. De 2023 à 2025, des modèles GPT sont pâtés de 16 à 60% de réussite, je vous le disais en partie, en moyenne sur les cas cliniques réalistes. Mais comme on a vu, non, l'IA n'est pas infaillible, elle fait encore des erreurs, parfois graves, et surtout quand l'information est floue, incomplète ou ambiguë. Surtout, le médecin, c'est celui qui pose les bonnes questions et qui sait dire « je ne sais pas » , qui ajuste à la personne, au contexte, au non-dit, ce que la machine ne sait pourtant pas faire. Donc à quoi ça correspond en pratique ? Dans nos consultations, on n'a pas juste besoin de connaître la bonne réponse. On doit trier l'information, flou, partiel, faire des hypothèses, choisir quoi surveiller, quoi prescrire, quoi expliquer. Et encore plus, on doit assumer cette décision. On doit assumer le côté éthique, le côté juridique. Et ça, c'est absolument capital. Une IA n'a pas de RCP. Si une IA fait une erreur, et on sait qu'à l'heure actuelle, elle en fait beaucoup, elle ne peut pas être condamnée. Donc, tu as tout un pan du soin qui nous est irremplaçable. D'ailleurs, tous les médecins généralistes le savent. Il y a tout ce qu'on dit, tout ce qu'on ne dit pas, le langage non-verbal, l'épaule posée sur la main, la poignée de main, le regard dans les yeux. Donc, en pratique, pour les médecins généralistes, La conclusion De mon sens, ce n'est pas « il faut plus se former à la médecine » , mais « il faut se former différemment » . Moins de bachotage pur, plus d'apprentissage du raisonnement, du doute, de l'évaluation critique. Et surtout, encore une fois, apprendre à utiliser l'IA intelligemment. C'est un peu comme l'arrivée des calculatrices dans les années 80. Ce n'est pas parce que la machine calcule mieux que nous, on ne doit plus savoir poser un raisonnement mathématique. Aujourd'hui, la vraie compétence, c'est de savoir piloter une IA médicale et pas de la remplacer. Mais pas non plus lui laisser les rênes sans contrôle. Donc, mon analyse. La formation, elle doit évoluer, elle doit évidemment rester, mais elle ne doit pas disparaître. Il vaut mieux apprendre à devenir un médecin augmenté qu'un médecin obsolète. Je vous ferai une petite parenthèse là-dessus, c'est que dernièrement, il y a eu une grande panne d'électricité dans les pays du sud de l'Europe, notamment Espagne et Portugal. Pas d'électricité, pas d'Internet. Donc, il ne reste que des médecins en chair et en os. Et dans un monde chaotique dans lequel on vit, il faut absolument être robuste. Et puis envisager ce genre de cas. Ce premier épisode est maintenant terminé. On vient de voir les trois premiers points. J'espère qu'il vous a plu. Si c'est le cas, abonnez-vous. Laissez-moi une belle note de 5 étoiles et un petit commentaire sympa sur vos applis. On se retrouve très vite dans le deuxième épisode dans lequel je poursuivrai l'évaluation de l'IA en santé grâce au HealthBench, l'étude étalon de OpenIA. Salut !