Speaker #1Bonjour, je m'appelle Olivier Jimenez, je suis directeur de recherche au CNRS, au Centre d'écologie fonctionnelle et évolutive à Montpellier. Je travaille à l'interface entre l'écologie et la statistique, ou l'écologie statistique, et je me définis comme un éco-statisticien, un statisticien qui s'est recyclé si vous voulez. Alors je publie aux éditions Quae un ouvrage intitulé « Introduction à la statistique bayésienne » avec le logiciel R. C'est un livre d'initiation qui est destiné aux personnes qui souhaitent... comprendre et utiliser la statistique bayésienne, en particulier dans les sciences du vivant et de l'environnement. Je suis très content d'avoir fait ce livre, c'est la synthèse d'une dizaine d'années à enseigner la statistique bayésienne à différents publics. J'en profite d'ailleurs pour remercier toutes les personnes qui ont subi mon enseignement toutes ces années, elles m'ont permis de mûrir ce livre. Et si je devais expliquer d'où vient ce parcours un peu hybride entre maths et écologie, et bien... C'est en décrivant un peu mon cursus. Celui-ci a commencé par des études universitaires en mathématiques. A l'époque, je ne me destinais pas spécialement à travailler sur la biodiversité. Je voulais faire des maths appliquées quelque chose d'utile. Puis je me suis orienté vers une thèse en statistiques appliquées à l'écologie. Et j'ai découvert qu'on pouvait utiliser des outils probabilistes pour répondre à des questions très concrètes. Combien de loups y a-t-il en France ? Est-ce que la loutre revient en France ? Ou comment réguler des espèces invasives ? Et après ma thèse, j'ai fait un post-doctorat au Royaume-Uni, et c'est là que j'ai vraiment découvert la statistique bayésienne. A l'époque, ça n'était pas encore aussi répandu qu'aujourd'hui. J'ai eu la chance de travailler avec des collègues qui m'ont aidé à explorer cette approche. Ensuite, j'ai intégré le CNRS et j'ai soutenu une habilitation à diriger des recherches en écologie et évolution. Je suis même retourné à l'université pour m'initier à la sociologie, parce que souvent les conflits entre humains et animaux sont avant tout des conflits entre humains. Et c'est justement ce type de questions que je traite aujourd'hui dans mes recherches. Ces recherches portent sur la dynamique des populations animales, comment elles évoluent dans le temps, comment elles réagissent aux pressions humaines, aux changements environnementaux, aux politiques de gestion. Et je fais ça avec une équipe formidable, l'équipe Interactions Humains / Animaux, au Centre d'Écologie Fonctionnelle Évolutive, où j'ai la chance de travailler depuis une vingtaine d'années déjà. Alors je travaille sur différentes espèces, les grands carnivores, comme le loup et le lynx, les petits carnivores, comme la loutre, et aussi des espèces moins emblématiques, comme le ragondin. Alors pourquoi le ragondin ? Parce que c'est une espèce fascinante, à la fois du point de vue scientifique et du point de vue sociétal. C'est une espèce originaire d'Amérique du Sud, qui a été introduite en Europe au XXe siècle pour l'élevage de fourrure. On la considère comme invasive aujourd'hui dans de nombreux pays européens, dont la France, parce qu'elle a été introduite par l'homme, qu'elle s'est établie dans les zones humides, et qu'elle a des impacts négatifs sur les écosystèmes. C'est un herbivore semi-aquatique qui consomme beaucoup de végétation. Le ragondin peut fragiliser les berges en creusant des terriers. Et ces terriers peuvent aussi déstabiliser des digues ou des canaux d'irrigation, ce qui crée des coûts économiques. Et enfin, l'oragondin est porteur sain de certaines bactéries comme leptospira, qui sont responsables de la leptospirose, une maladie qui est transmissible à l'humain. L'espèce est au croisement de plusieurs enjeux, biodiversité, santé, gestion publique. Pour moi, c'est typiquement le genre de situation où la statistique devient essentielle. Dans le livre, le ragondin sert de fil rouge. Pourquoi ? Parce que je crois beaucoup à l'apprentissage par des exemples concrets, et plutôt que de rester dans l'abstraction mathématique, ici je propose à vous, le lecteur ou la lectrice, de suivre une question : Comment analyser les données liées à cette espèce ? Comment modéliser, par exemple, son abondance ? Ce qui m'amène naturellement à parler de statistiques. On a tous fait des statistiques à l'école. Moyenne, test, intervalle de confiance, c'est ce qu'on appelle généralement l'approche fréquentiste. La statistique bayésienne repose sur une autre manière d'interpréter la probabilité. En fréquentif, une probabilité, c'est une fréquence à long terme. Si on répète une expérience un très grand nombre de fois, dans quelle proportion un événement se produit-il ? En bayésien, une probabilité représente un degré de confiance dans une hypothèse, compte tenu des informations dont on dispose. C'est une différence conceptuelle très importante. Par exemple, dans l'approche bayésienne, on peut dire : il y a 95% de probabilité que ce paramètre soit compris entre telle et telle valeur. Cette phrase a un sens direct. En fréquentiste, on ne peut pas formuler exactement cette interprétation pour un intervalle de confiance. Autre différence majeure, en bayésien, on peut intégrer explicitement des connaissances préalables. Il y a ce qu'on appelle des distributions a priori. On ne part pas de zéro, on formalise ce qu'on sait déjà, les connaissances qu'on a déjà sur le système qu'on veut étudier de manière transparente. Enfin, l'approche bayésienne est particulièrement adaptée aux modèles complexes, aux données incomplètes ou hétérogènes, ce qui est très très fréquent en écologie et en recherche en environnement en général. Donc le bayésien s'appuie notamment sur des algorithmes très puissant, les méthodes de Monte Carlo, Parchen de Markov ou MCMC, j'en parle évidemment dans le livre. Alors le bayésien c'est vraiment super, mais ça n'est pas un dogme, c'est pas mieux en toutes circonstances, et c'est une méthode parmi d'autres. Personnellement il m'arrive encore d'utiliser le fréquentisme dans mes recherches. Et pour comprendre ces méthodes, il ne suffit pas d'en parler, il faut les pratiquer. Et donc c'est pour ça que dans le livre, j'utilise le logiciel R. En effet, comprendre la statistique, ça passe par la pratique. Et R est un logiciel libre, gratuit, extrêmement performant, qui est utilisé dans le monde entier pour l'analyse de données. Il est devenu une espèce de standard en sciences du vivant et en sciences des données. Et dans le livre, je m'appuie principalement sur ce qu'on appelle un package, une suite de fonctions qui existe en R et qui a été faite spécialement pour une certaine tâche. Ici, c'est le package BRMS qui permet de faire de la statistique bayésienne avec une syntaxe qui est assez proche de celle des régressions qu'on fait classiquement dans R. Ça facilite beaucoup la transition de fréquentiste à bayésien pour les personnes qui connaissent déjà un peu les statistiques. Et dans une version enrichie qui est disponible en ligne, je présente aussi Nimble, un outil encore plus flexible qui nécessite de programmer davantage, mais qui permet aussi de construire des modèles sur mesure qui ne sont pas forcément dans DRMS. Donc l'idée n'est pas seulement de lire le livre, mais aussi de coder, de simuler, de tester. Et je propose pour ce faire du matériel en ligne, des scripts R, des applications interactives, des applications Shiny, et des exemples reproductibles bien évidemment. J'explique aussi comment simuler des données à partir d'un modèle. Alors pour moi, la simulation, c'est un outil absolument central en statistique. Avant même d'analyser des données réelles, je conseille toujours de se poser la question, si mon modèle était le bon, si c'était le vrai modèle, il faudrait s'entendre sur ce que ça veut dire, mais à quoi ressembleraient les données ? Simuler, c'est une manière de dialoguer avec mon modèle, avec son modèle. On choisit les paramètres, on génère des données artificielles, puis on regarde si le modèle est capable de retrouver ce qu'on a injecté au départ. C'est extrêmement formateur. Et très souvent, quand on simule, on découvre qu'on ne comprend pas bien son modèle, ou aussi bien qu'on le croyait. Il manque un terme, une hypothèse est implicite, ou la structure ne correspond pas forcément à la question qu'on se pose au départ. Le lecteur ou l'électrice peut ainsi manipuler les paramètres, modifier la taille des échantillons, augmenter ou diminuer la variabilité, changer un prior, bref. plein de choses pour voir immédiatement les effets que ça a sur les estimations. Je crois beaucoup à cette approche, on comprend mieux en faisant, et en statistique, simuler, c'est déjà comprendre beaucoup de choses. Alors pour finir ce podcast... Je voudrais vous laisser avec deux idées. La première, c'est que le livre est écrit en français. Alors ça peut paraître anodin, mais beaucoup de ressources en statistique bayesienne sont en anglais en fait. Et personnellement, j'aurais bien aimé quand j'étais étudiant avoir beaucoup plus d'ouvrages dans ma langue maternelle. Et puis écrire en français, c'est un choix assumé, pédagogique et personnel, parce que c'était aussi plus facile que d'écrire en anglais. La deuxième chose, c'est que la statistique bayésienne est particulièrement pertinente dans un monde incertain. On vit dans un monde incertain avec les crises écologiques, sanitaires, climatiques, et j'en passe. Face à cette incertitude, on a deux options : on peut l'ignorer ou bien on peut la quantifier, l'exprimer, la formaliser et l'intégrer dans la prise de décision, dans les décisions qu'on fait sur ces crises. La statistique bayésienne propose un cadre cohérent pour faire cela. Combiner des données, des connaissances antérieures, et produire des estimations qu'on accompagne d'une mesure explicite de la certitude. Si ce livre permet à des étudiantes, des étudiants, des chercheurs, des praticiens, des praticiennes, de se sentir plus à l'aise avec ces outils, et un peu moins intimidés par les mots MCMC, ou distribution a priori, ou a posteriori, alors j'aurai atteint mon objectif. Je vous souhaite une excellente lecture et merci beaucoup.