Speaker #0Bonjour et bienvenue sur Nightscan. Aujourd'hui, comme je vous ai promis la dernière fois, on va parler de trois choses différentes, mais qui sont extrêmement liées. D'abord le Cornell Lab of Ornithology, ensuite Bernet P et ensuite Merlin Heide. D'abord un petit mot sur le Cornell Lab. Il a été fondé par un monsieur qui s'appelait Arthur Augustus Allen, qui a juste écrit, c'était en 1915, une petite pancarte où c'était marqué Laboratory of Ornithology sur la porte de son bureau. Ça va vous paraître bizarre, mais à l'époque, il y avait l'idée que on pouvait étudier les oiseaux, et il fallait étudier les oiseaux, en laboratoire ou dans les musées. Les oiseaux morts. Alors pour nous, ça nous semble vraiment très contre-intuitif, mais j'ai déjà fait un podcast sur l'anthropologie et il y avait un petit peu la même chose. Les anthropologues se disaient Merci. « Oh, moi, je reste à la maison, tranquille, dans mon laboratoire, je recueille ce que me disent les voyageurs, je recueille les artefacts qu'on me ramène, et puis avec ça, je fais de l'anthropologie. » Jusqu'au moment où ils se sont dit « En fait, ce serait pas con d'aller voir vraiment les gens et d'en apprendre un peu plus. » Et à ce moment-là, ils ont déplacé leur laboratoire pour aller plus proche des endroits qu'ils allaient étudier, et là il faisait venir les gens chez eux pour pouvoir discuter, faire des interviews, c'était déjà une énorme amélioration. Et puis ensuite, bien sûr, il y a l'anthropologie plutôt actuelle, où on va vraiment vivre avec les gens pour pouvoir en apprendre plus dessus. Et donc il y a eu la même chose au niveau des oiseaux, on s'est dit, étudier des oiseaux morts, c'est quand même un peu chelou, pourquoi est-ce qu'on ne va pas les étudier en vrai quand ils sont vivants ? Bonne idée. Ce qui s'est dit aussi, c'est que les oiseaux, c'était vraiment quelque chose d'ultra... intéressant parce qu'ils constituaient des modèles scientifiques parfaits. C'est-à-dire que c'est des animaux qu'on trouve partout et donc on peut étudier l'impact de l'humanité par exemple sur les oiseaux extrêmement facilement parce qu'il y en a partout, on peut vraiment très facilement les documenter. C'est en 1929 qu'il a fait le premier enregistrement de champs d'oiseaux sur pellicules cinématographiques. Là aussi, une avancée qui a été permis par la technologie. Vous verrez dans les deux thèmes qu'on va aborder après, la technologie a une énorme importance dans l'étude des oiseaux. Bien entendu, aujourd'hui, c'est surtout un institut qui permet ou fait énormément d'études scientifiques. Il y a un nouveau centre qui a été inauguré en 2003. Il y a aujourd'hui 12 programmes distincts pour 250 employés. Il y a notamment quelque chose dont on va parler quand on va parler des data sets, c'est-à-dire comment est-ce qu'on fait pour préparer la data Pour pouvoir éduquer notre AI, la Macaulay-Library, c'est une héritière des premiers enregistrements qui ont été faits au fil de temps pour rassembler ces enregistrements. Et aujourd'hui, c'est 71 millions de photos, 2,6 millions d'enregistrements sonores qui représentent 96% des espèces d'oiseaux mondiales documentées. Autrement dit, c'est une énorme base de données qui est bien entendu extrêmement utile pour les scientifiques. et pour ceux qui, par exemple comme moi, essayent de se servir de l'AI pour faire de la détection d'oiseaux essentiellement. Donc voilà en très résumé, ce qui est très important surtout, c'est de se dire que c'est eux qui chapotent énormément de côté technique et de côté études scientifiques, mais qui sont utilisables par les gens normaux comme vous et moi. Maintenant passons à Bird Nut Pee. Vous en avez peut-être entendu parler si vous avez l'habitude d'observer des oiseaux. C'est quelque chose de très spécial. qui a été fait en open source justement par le Colner Lab of Technology. L'idée c'est que tout le monde puisse acheter un Raspberry Pi, qui est un micro-ordinateur qui peut coûter jusqu'à une centaine d'euros, mais bien sûr il y a des modèles moins chers, de pouvoir y installer un programme gratuit et open source, et qu'ensuite on puisse placer ce micro-ordinateur un peu où on veut, qui va enregistrer les sons et qui va faire des analyses pour détecter quelles espèces sont à cet endroit-là, ont été enregistrés. Encore une fois, je ne suis pas ornithologue, mais il y a plusieurs façons d'envisager justement l'observation scientifique. L'une d'entre elles, c'est tout simplement les ornithologues, qu'ils soient amateurs ou professionnels, qui vont se promener, entre guillemets, sur des zones qui sont définies et qui vont pouvoir voir quelles espèces sont là, que ce soit par le son ou tout simplement en les voyant, qui vont pouvoir faire des listes ornithologiques. Ceux qui utilisent eBird, c'est par exemple ce qu'ils font. et pouvoir dire voilà, à tel endroit, à telle date, j'ai vu telle espèce. C'est une observation qui est très intéressante, parce qu'ils peuvent donner le nombre de spécimens qui sont là, ce que les autres méthodes ne permettent pas. en tout cas pas pour l'instant. L'inconvénient bien sûr c'est que ça demande d'avoir des gens qui sont capables de reconnaître les oiseaux avec assez de précision pour qu'on puisse utiliser ensuite ces données et ça ben ça demande de l'apprentissage. L'inconvénient aussi c'est qu'on va pas se le cacher quand il pleut, qu'il fait froid, ces gens là vont pas forcément sortir ou en tout cas pas sortir en grand nombre. Et puis il y a une sorte de problème géographique c'est que certaines zones ne vont pas avoir beaucoup de gens qui vont y aller. Parce qu'elles sont trop éloignées, parce qu'elles sont isolées, parce qu'il n'y a tout simplement pas d'ornithologue dans le coin qui va y aller régulièrement. Donc en fait, vous allez avoir des données qui sont extrêmement importantes, qui peuvent être aussi extrêmement précises, mais qui ont le problème de dépendre d'humains. C'est le problème justement qu'on n'a pas sur un micro-ordinateur qu'on va laisser dans la forêt, qu'on va laisser près de chez nous, et qui va enregistrer 24h sur 24, et qui va pouvoir faire des détections. Ces détections vont ensuite pouvoir être envoyées sur des bases de données et c'est vraiment important aussi pour la science. Par exemple, si vous suivez les migrations, certes, les grosses migrations, les ornithologues vont pouvoir le faire aussi facilement, il suffit d'ouvrir la fenêtre, mais les autres migrations, si vous avez des micros qui sont tout le temps branchés, ils vont pouvoir entendre les oiseaux migrateurs qui passent et donc faire une détection sur une carte, ça se voit vraiment très bien où les oiseaux sont et à quel moment. Ça permet de voir l'influence du climat, ça permet de voir s'il y a eu des problèmes, s'il y a des oiseaux qui manquent. Bref, ça permet de voir plein de choses qui sont intéressantes. L'inconvénient comparé à un ornithologue, c'est que vous dépendez énormément des modèles AI qui ont été faits. C'est-à-dire que, pour l'instant en tout cas, vous n'avez jamais un 100% de détection d'un animal précis. C'est-à-dire que le modèle va pouvoir vous dire, je pense à 80%. que c'est un moineau. Sur les espèces comme les moineaux par exemple, on peut s'attendre à ce que ce soit assez juste, mais il y a des espèces qui peuvent être intercalées, et surtout le problème qu'il y a, c'est que quand il y a plusieurs oiseaux qui chantent en même temps, là où un humain il va pouvoir noter vraiment précisément j'entends ça, j'entends ça, j'entends ça, l'algorithme, des fois il aura de la peine, il ne fera tout simplement pas de détection ou des détections qui sont pas valables. C'est un petit peu le problème avec ces micro-ordinateurs qu'on laisse partout, c'est qu'ils sont capables de travailler 24h sur 24, ils sont très rapides, ils sont quand même extrêmement précis, mais c'est vraiment quelque chose de quantitatif, et c'est là où on va avoir justement par exemple des anthropologues qui vont réécouter certains enregistrements s'il y a des choses qui paraissent étranges pour pouvoir faire une double vérification et donc pouvoir l'utiliser ensuite dans des études. Bien sûr, tout ça, ce sont des défauts qui sont connus, et que notamment le Cornell Lab essaye d'améliorer en changeant les modèles, parce que vous le savez, les high, ça avance extrêmement vite, en changeant les modèles, en ayant plus de data, en ayant plus de data différente, etc. Mais on peut se le dire, c'est quand même génial, parce qu'avec un budget assez serré, vous pouvez acheter quelque chose, le laisser dans votre jardin, et ça va pouvoir vous dire qu'est-ce qu'il y a, quand est-ce que ça passe. L'inconvénient, je dirais que c'est quand même... un tout petit peu technique. Ce n'est pas technique de ouf, mais c'est quand même un peu technique. Je ne vois pas forcément des gens qui ne sont pas passionnés par les oiseaux le faire. Et même beaucoup de gens qui sont passionnés par les oiseaux, la technique, ça les gonfle un peu. Donc, ils ne vont pas le faire. Ils vont préférer aller eux-mêmes observer les oiseaux. Un inconvénient aussi, et on le verra ensuite dans mon développement à moi, c'est qu'un Raspberry Pi, ça consomme de la batterie. Et donc, si vous voulez le mettre dans un endroit relativement isolé, Il faut commencer à faire du bricolage. Il faut commencer à mettre des batteries, il faut commencer à mettre des panneaux solaires. Et ce n'est pas du tout facile de le faire si on n'a pas un petit peu de bagage technique, si on n'a pas l'aide de l'EI aussi, pour pouvoir être sûr de ne pas faire de bêtises. Un autre problème aussi, c'est que votre appareil isolé ne va pas forcément avoir de connexion. Donc il faut, d'une manière ou d'une autre, trouver un moyen de pouvoir vous connecter à cet appareil, que ce soit en allant chercher la carte SDK dessus. que ce soit en mettant des modules GSM ou des modules LoRa pour pouvoir avoir accès à ces datas. Sinon, vous avez juste un appareil qui engrange des datas et vous ne pouvez pas aller les chercher. Bien entendu, il y a des solutions DIY qui existent. Vous avez plein de sites internet qui en parlent. Personnellement, je trouve que c'est hyper intéressant, mais c'est quand même un petit peu compliqué. Et il y a tellement de données finalement que c'est compliqué de savoir vraiment quoi faire. vous avez des articles qui date de 10 ans, vous avez des guides qui n'ont pas été updatés depuis un moment. Donc en fait, c'est vraiment très compliqué quand même, aujourd'hui, d'utiliser ça extrêmement facilement. Du coup, ce qui est vraiment beaucoup plus facile, c'est Merlin ID. Et ça, je vous encourage vraiment à télécharger si vous ne l'avez pas fait encore. C'est une application, vous pouvez la télécharger que ce soit sur iPhone ou sur Android. Là par contre, le fonctionnement est différent. BernetP, le Raspberry Pi dont je vous expliquais avant, c'est traité en partie par le Raspberry Pi. Les données peuvent aussi être envoyées dans des serveurs, etc. C'est un système un petit peu compliqué et qui oblige à avoir des connexions un peu partout. Merlin a dit que quand vous le téléchargez, vous téléchargez aussi un modèle avec lui. Donc dans l'application, il y a un petit modèle d'AI de reconnaissance d'oiseau. Le modèle, il est... plus petit que Burnet, parce qu'évidemment, le nombre d'espèces que vous mettez dans votre modèle a une influence sur la taille du modèle, ça a aussi une influence sur le temps de processer les datas. Vous n'avez pas forcément envie que votre iPhone brûle en essayant de trouver 6000 espèces d'oiseaux, ce que par contre, BurnetPi peut faire. Donc c'est un modèle plus léger qui peut détecter quand même 1500 espèces d'oiseaux. C'est un modèle qui est ultra intelligent, parce que quand vous allez Et... enregistrer, ce qui va se passer, c'est qu'il va d'abord savoir où vous êtes. C'est quelque chose que moi, par exemple, sur le modèle DI que je suis en train de faire, je n'ai pas encore cette possibilité. Je pense le développer justement parce que c'est quelque chose qui permet d'économiser beaucoup de données, c'est quelque chose qui permet vraiment d'accélérer les choses. Donc le fonctionnement de cette application, si vous l'ouvrez devant vous, vous voyez quand vous cliquez sur enregistrer, vous voyez quelque chose en noir et blanc. Et à chaque fois qu'il y a quelqu'un qui parle ou qu'il y a un oiseau qui chante, vous voyez des petits pics, des petites choses qui sont tracées dessus. Ça, ça s'appelle un spectrogramme. Et c'est la base de toutes les AI d'identification. Pour le reste, je ne sais pas, je ne suis pas un professionnel d'AI. Mais en tout cas, quand on fait de l'identification audio, l'image, c'est la base. Le modèle que vous utilisez, c'est de la reconnaissance d'images, ce qui semble un petit peu contre-intuitif. Puisque nous, ce qu'on veut reconnaître, c'est de l'audio. Donc en fait, vous avez déjà une partie d'un programme qui va faire en sorte de transformer l'audio en spectrogramme. Ça se fait vraiment facilement, c'est pas un problème, mais c'est déjà la première partie. Et ensuite, le modèle d'AI qu'il y a sur votre iPhone va « comparer » ce qu'il a appris avec le spectrogramme qui est affiché. Donc par exemple, s'il voit quelque chose qui ressemble à une petite virgule, lui il va... Entre guillemets réfléchir, avec les haïs on utilise beaucoup d'anthropomorphisme qui est totalement faux, mais en même temps c'est compliqué de trouver des mots qui sont plus adaptés, mais techniquement effectivement c'est pas ça, mais on va dire, il va comparer ça avec ce qu'il a appris de toutes les espèces d'animaux qu'il a appris. Et il va voir à quoi ça ressemble le plus, et dire, il dit pas, on se comprend aussi c'est de l'anthropomorphisme, mais il va se dire, Le plus de chance, c'est que ça représente cette classe qui représente cet animal-là. Et ça, c'est vraiment tout le travail de l'AI. Donc en fait, quand vous utilisez Merlin ID, c'est ça qui se passe. Vous avez un son qui arrive dans le micro de votre iPhone ou de votre Android, qui est transformé en images en deux dimensions. Ces images, ou plutôt des segments de ces images, sont pris par l'AI, comparés avec ce qu'il a déjà appris. Et ensuite, il va vous montrer ce qui pense être la classe juste, c'est-à-dire en l'occurrence l'espèce d'oiseau que vous avez enregistré. Et puis justement, comme il sait où vous êtes, il sait aussi quels animaux il y a plus de chances que vous voyez. D'un point de vue technique, je n'ai pas vraiment trouvé comment exactement ça marche. Je ne sais pas si avant de faire la recherche ou la comparaison avec ce qu'il connaît déjà, il va se limiter à un set de data qui... correspond aux espèces d'oiseaux qui approchent, ou si c'est au niveau du résultat, une fois qu'il s'est dit, je pense que c'est un pingouin, un système va regarder est-ce qu'il y a vraiment des chances qu'il y ait un pingouin à Egerthen en Suisse, il va se dire non, et du coup, ou il ne va pas vous montrer le résultat, ou il va vous montrer le deuxième résultat qui est le plus proche. En l'occurrence, je ne sais pas vraiment s'il y a un autre oiseau qu'on peut trouver en Suisse qui chante comme un pingouin, mais c'est vraiment l'idée. Et là du coup, les gens du Cornell Lab of Ornithology, qu'est-ce qu'ils font ? C'est quoi leur but ? Leur but, c'est d'améliorer leur modèle, de le rendre plus précis et d'augmenter le nombre d'espèces d'oiseaux qui sont détectables. Alors maintenant, évidemment, je ne travaille pas pour ces instituts. Moi, j'essaye de faire le truc de mon côté. Mais c'est vraiment intéressant de voir, notamment à Merlin ID, comment ça fonctionne. pour comprendre ensuite comment, moi, je vais pouvoir faire une... AI, qui va avoir en partie le même fonctionnement, mais qui, j'espère, sera meilleur sur certaines choses, ou surtout aura une différenciation assez élevée pour que ça pousse des gens à pouvoir l'utiliser. Par exemple, une des questions qui se posent sur Merlin ID, il semblerait... qu'ils utilisent les données que les utilisateurs, c'est-à-dire vous, enregistraient pour eux-mêmes aller nourrir leur modèle. Et là, par exemple, je ne sais pas vraiment si c'est absolument vrai sur tous les enregistrements, notamment parce qu'il y en a certains qui sont incertains. Je n'avais pas prévu d'en parler, mais justement, ça tombe bien parce que je trouve ça intéressant. iNaturalist, c'est une autre application que j'utilise aussi, qui, sauf erreur, peut reconnaître aussi les sons, mais moi, je l'utilise vraiment pour les images. L'idée c'est en fait de jouer à Pokémon, vous allez dans la nature, vous photographiez un peu tout, et il y a une partie AI qui va pouvoir déterminer, que ce soit un animal ou que ce soit une plante, qu'est-ce que c'est comme espèce. Et là, vous accédez entre guillemets à une identification purement AI qui n'a pas de valeur scientifique. C'est-à-dire que l'AI peut vraiment se tromper, il y a beaucoup de plantes qui se ressemblent, il y a des oiseaux qui peuvent chanter de façon différente, et puis la... qualité de la donnée, c'est à dire la qualité de vos photos, peut faire en sorte que ben il va estimer ce que c'est mais sans être vraiment sûr. Et ce qui est hyper intéressant dans iNaturalist, c'est que des utilisateurs vont pouvoir voir vos photos et confirmer ou infirmer vos observations. Sauf erreur, il faut deux personnes autres que vous qui avez fait la photo, qui disent que c'est cette espèce pour que ça atteigne un niveau scientifique, c'est-à-dire utilisable pour des études qui sont publiées scientifiquement. Après, j'imagine que ces études-là vont aussi faire leurs propres analyses, leurs propres vérifications, en tout cas sur une petite partie des sets de données pour être sûr qu'il n'y a pas d'erreur. Mais c'est vraiment hyper important de se dire qu'il y a toujours cette différence entre l'intelligence artificielle, elle arrive à un niveau extrême de précision, Mais qui est quand même pas sûr, parce qu'il faut quand même se dire que c'est une intelligence artificielle qui en temps réel est capable de vous donner l'espèce d'un oiseau que vous enregistrez sur un iPhone, donc même pas un micro qui est fait vraiment pour les oiseaux. C'est un truc de fou. Mais en même temps, il faut quand même toujours, pour l'instant, un humain qui va pouvoir vérifier ce que l'AI a fait et ce que vous avez fait en prenant les données. J'espère que j'ai été clair dans mes explications, mais globalement, rappelez-vous que utiliser Merlin ID... C'est vraiment génial. Ça va changer la façon dont vous faites de l'ornithologie, surtout si vous êtes complètement amateur comme moi, que vous ne reconnaissez pas les oiseaux. C'est hyper important aussi pour apprendre à reconnaître les oiseaux, parce que comme c'est en temps réel, vous entendez le chant, et en même temps, l'application va pouvoir vous montrer quel oiseau a chanté. Et ça, c'est génial, parce que ça va vous aider, sans même faire exprès, à apprendre le chant de ces oiseaux-là. Et puis, il faut se dire aussi que des fois, on arrive dans des endroits, on ne voit pas grand-chose, mais on entend beaucoup. Et ça va vous permettre de voir, maintenant, il y a tel oiseau, ici, à tel endroit. Je vais rester pas loin et je vais attendre qu'il sorte, si je veux faire de la photo, par exemple. Ou je vais attendre qu'il sorte, si je veux faire de la simple observation. Et ça va vous donner toutes ces informations qui sont extrêmement importantes. Et il ne faut pas l'oublier aussi, gratuites. Dans le prochain épisode, j'aimerais vous parler des datasets. Je sais que ça semble être un truc hyper chiant, je vais pas être technique du tout, mais je vais vous expliquer pourquoi un dataset, surtout à noter, c'est extrêmement important. Et ça va peut-être vous permettre aussi de comprendre pourquoi des Google, des OpenAI, des Cloud cherchent de la data parce que c'est la base pour faire l'AI. Et je vais essayer de vous expliquer avec mes mots et avec ce que moi j'ai expérimenté avec mon propre AI, à quel point... c'est important. Quel problème il y a ? Quelle complexité il y a ? Donc, à la prochaine !