Speaker #0Bonjour à toutes et à tous, Mathieu Porte, je suis coordinateur des activités d'intelligence artificielle de l'IGN, l'Institut National de l'Information Géographique et Forestière. Et effectivement, après avoir parlé de l'IA dans toute l'ampleur que le sujet peut avoir, et qui peut toujours être un peu vertigineux, puisque entre l'ampleur technique, scientifique, géostratégique, écologique que le sujet a, j'ai essayé d'atterrir sur... quelques cas un peu concrets de comment l'IA prend place dans nos sujets, en l'occurrence nous, sur ces sujets de description du territoire et de description des transformations du territoire. Je ne vais pas vous faire une vue exhaustive de tout ce qu'on peut faire avec de l'intelligence artificielle pour la description du territoire. Là encore, on s'y perdrait, mais je vais essayer de vous zoomer vraiment sur un cas et de vous montrer un peu les... Tout ce que ça recouvre et les implications que ça a. L'enjeu, avant même d'arriver sur l'intelligence artificielle, il y a une intention, il y a un but à tout ça. C'est-à-dire que la situation dans laquelle on est, c'est celle de transformation très rapide du territoire, de bouleversements écologiques, et d'un besoin d'outiller les pouvoirs publics, la société en général, sur ce qui est en train d'advenir. Et donc de pouvoir avoir... des descriptions qui soient fines et régulières du territoire national et des transformations qui se passent dessus. L'exemple typique étant, par exemple, le suivi de l'artificialisation des sols. On veut pouvoir suivre, mesurer les consommations d'espace qui se font au cours du temps pour être capable de piloter la transition écologique à un niveau assez fin dans l'espace et dans le temps. Mais on veut aussi pouvoir suivre l'évolution du trait de côte, l'évolution des forêts qui sont bien chalutées par le changement climatique. Et donc, ce que je vais essayer de vous montrer, c'est comment, dans ce contexte-là, pour produire ces descriptions qui sont fines et régulières du territoire, l'IA nous aide, et elle nous aide à accélérer la mise en place de ces nouvelles descriptions. Et donc, on va tout de suite prendre un exemple qui va nous servir de fil rouge, et qui est le suivi de l'occupation des sols. Ce que vous voyez là, c'est l'archétype de... ce qu'on obtient avec les techniques un peu standards aujourd'hui. Alors on n'est pas sur les techniques d'analyse de langage, d'IA générative, c'est les systèmes qui sont plutôt arrivés à partir de la fin des années 2010, sur l'analyse d'images, qui continuent de bouger pas mal avec les avancées de l'apprentissage profond. Mais donc ce que vous voyez, c'est typique de ce qu'on arrive à obtenir dans les bonnes conditions avec les techniques d'intelligence artificielle. Donc ce que vous voyez là, c'est une photo en fond d'image, une photo aérienne haute résolution, et les photos... les orthophotos prises par l'IGN et diffusées par l'IGN sur le territoire national tous les trois ans. Donc vous avez une résolution de 20 centimètres sur le pixel de l'image. Donc vous avez une vue assez fine spatialement de ce qui se passe. Donc vous avez une image sur une zone urbaine. Et puis, ce que vous voyez sur la couche supérieure, c'est une sémantisation de cette image. Si vous avez une analyse, une interprétation de ce qui... se trouve sur l'image du point de vue de l'occupation des sols, du point de vue de la couverture des sols. Vous avez dit en chaque pixel, ici j'ai du bâtiment, ici j'ai des zones imperméables, des routes, de la végétation, quel type de végétation, des pelouses, des feuillus, des conifères, etc. Et donc vous avez affecté à chacun des pixels de cette image, une classe, en l'occurrence là, dans une nomenclature un peu riche, de 16 classes environ. Et je vous dis, ça c'est typique. C'est... plein de défauts, mais bien aussi quand même. Donc il y a des défauts évidemment, vous allez avoir des défauts un peu insurmontables, c'est-à-dire que vous ne voyez pas ce qui se trouve sous les arbres par exemple, et ça c'est une limite intrinsèque à l'image, vous ne pouvez pas inventer les choses, vous ne savez pas s'il y a une voiture en dessous de l'arbre, ou si jamais il y avait un petit bâtiment sous toute cette masse d'arbres, vous ne le voyez pas, il n'y a pas de sorcellerie là-dessus. Vous pouvez avoir des petits défauts de détection. On peut avoir de temps en temps un bout de pelouse qui est pris pour un peu de feuillu. Vous pouvez avoir des petites confusions aux limites, par exemple des pixels de bord qui ne sont pas exactement au bon endroit sur les bâtiments, ou des bords qui ne sont pas tout à fait droits, ou vous pouvez avoir des petites discontinuités à certains endroits dans les réseaux. OK, vous allez avoir plein de petits défauts comme ça. On peut arriver à vivre avec et les traiter ensuite. Mais par contre, vous avez fait quand même un pas de géant par rapport à quand vous aviez juste une image. Vous êtes en termes d'interprétation et de contenu et de ce que vous allez pouvoir en faire. Vous êtes vraiment beaucoup plus avancé et vous allez imaginer que vous ayez ça effectivement partout tous les trois ans. En l'occurrence, à chaque fois que vous avez une image, vous avez cette... analyse là, vous allez pouvoir commencer à suivre les phénomènes qui se passent sur le territoire national. Donc ça, je vous disais, c'est typique. On va multiplier les exemples de ce genre de choses là. Comment on arrive à avoir ça ? On va retomber sur l'un des principaux enjeux de l'intelligence artificielle qui est la donnée. Et cette donnée, en l'occurrence, on en parlait un peu juste avant, dans notre cas, souvent il va falloir la produire, c'est-à-dire même la donnée qui nous sert à entraîner les modèles et pas donner l'avance. Et donc, comment on fait pour obtenir ce que vous voyez ici ? Vous retrouvez des images telles qu'elles se présentent aux modèles qu'on cherche à entraîner. Et là, vous avez ce qui va être les sorties des modèles qu'on voyait juste avant sur cette carte. Bon, la façon de faire, c'est classique en apprentissage machine, mais c'est de vous aller créer des grands jeux de données. des grandes bases d'exemples corrigés, d'exercices corrigés. Vous allez faire plein de petites vignettes, de petites images comme ça, en l'occurrence avec pas mal d'infos, puisque vous avez plusieurs canaux, du rouge, du vert, du bleu, de l'infrarouge, des modèles d'élévation. Donc ça, c'est une image que vous allez donner en entrée de votre modèle. Et puis vous allez, sur ces échantillons-là, lui donner la solution. Vous allez dire, en fait, le jour où on te présente cette image-là, il faut que la carte de couverture des sols qui correspond, c'est ça. Donc ça, c'est produit par des photo interprètes, c'est produit par des personnes qui vont faire se corriger là, entre guillemets, sur ces images. Et puis, on va le faire sur des zones urbaines, des zones agricoles, etc. Et donc, vous allez avoir votre modèle qui est entraîné, optimisé pour quand on lui présente ces images-là, il donne cette solution-là et il apprend au passage quelque chose qui sera prêt à être transposé sur de nouvelles images qui vont se généraliser. Je ne ferai pas toute... plus de théories de l'apprentissage machine là-dessus, mais en tout cas la logique c'est celle-là, c'est on fait des jeux de données d'apprentissage qui nous permettent d'entraîner des modèles qui sont prêts à être appliqués sur de nouvelles images ensuite. Et en fait, le vrai enjeu quand on travaille sur ce sujet-là, quand on fait de l'IA pour l'analyse de l'occupation des sols sur des images aériennes, en fait c'est ça, c'est... La difficulté n'est pas d'en arriver à avoir un modèle qui fait quelque chose comme je vous ai montré sur la première salle. La difficulté, il est d'avoir un modèle qui marche sur tout le territoire national et qui arrive à marcher sur des zones urbaines, sur des zones forestières, sur des zones agricoles, qui arrive à fonctionner même dans des zones forestières, sur la forêt des Vosges ou sur le littoral méditerranéen, qui arrive à identifier des bâtiments, qu'ils soient en toit, en tuile ou en toit, en ardoise. etc. qui arrivent à fonctionner alors que les photos peuvent avoir été prises en mois de mars, au mois de juin. Même la végétation, elle n'est pas du tout dans le même état, par exemple, entre le mois de mars et le mois de juin, etc. Donc la vraie difficulté, elle est celle-là. Il faut que vos modèles aient été exposés à toute cette richesse du monde réel pour avoir une chance de s'en sortir lorsque vous allez ensuite chercher à les appliquer, comme c'est notre cas, à grande échelle. Nous, ça va être à l'échelle nationale, mais même si vous travaillez à l'échelle... d'une collectivité plus limitée, il faut quand même avoir échantillonné un peu cette diversité-là. D'autant que pour entraîner des modèles d'analyse d'images comme ça, de toute façon, il faut quand même des jeux de données qui soient massifs, qui soient diversifiés et qui soient de qualité. Donc, ce que je vous montre là, c'est pour vous montrer un peu les jeux d'échelle qui sont en jeu. Ce que vous voyez là, du coup, ça va être cet échantillonnage de l'ensemble du territoire national où on va aller piocher des zones. où on va créer à la main ces cartes d'occupation des sols qui vont nous servir à entraîner nos IA. Chaque point rouge que vous voyez ici, c'est une zone de 1 ou 2 km², à peu près ça, qui, elle, va être annotée par des opérateurs. Là encore, on travaille sur des... Et ce que vous voyez ensuite, le dallage qui est ici, c'est l'échelle à laquelle va travailler le modèle à son apprentissage. Quand on se présente... l'apprentissage se fait en présentant des petites vignettes comme je vous montrais juste avant. Les petites vignettes, c'est ces carrés-là. Et on ne va pas faire saisir des choses à l'échelle de ces petits carrés-là parce que typiquement, en fait, quand vous faites de la saisie, vous voulez pouvoir saisir, par exemple, toute cette parcelle agricole d'un coup. Vous n'allez pas faire une petite zone par petite zone. C'est globalement du gâchis. Bon, donc l'enjeu, il est vraiment d'arriver à avoir à la fois cette finesse dans la description et avoir une nomenclature assez fine sur des résolutions spatiales assez fines, tout en gérant le fait qu'après, on est censé travailler à l'échelle nationale. Mais l'autre chose qu'on voit ici, qui est clé et qui est la raison pour laquelle l'intelligence artificielle est intéressante dans notre cas, c'est que même s'il faut... beaucoup de données pour entraîner, en fait il y a quand même un changement d'échelle énorme entre les volumes de données nécessaires pour entraîner une IA et les volumes de données sur lesquels on applique ensuite cette IA. C'est-à-dire que là, vous allez avoir en gros à peu près 1000 km² au total qui vont être annotés comme ça, ce qui est beaucoup, ça fait des centaines de milliers d'images. Mais ensuite le modèle que vous entraînez, vous l'appliquez tous les 3 ans sur 550 000 km². Donc il y a quand même un facteur 500 ou 1000 selon les cas entre la production de données qu'on fait pour entraîner l'IA et la production de données qu'on fait avec l'IA. Et donc c'est pour ça, ça c'est vraiment le cœur de pourquoi est-ce qu'on utilise l'IA, c'est parce que l'IA nous aide à accélérer la mise en place de nouvelles descriptions du territoire parce qu'elle nous permet cette amplification, ce passage à l'échelle des capacités de description qu'on peut avoir par d'autres moyens. Donc, ça ne fonctionne pas tout seul, pas du tout, mais par contre, ça permet d'aller beaucoup plus vite, plus loin. Pour vous montrer là encore, pour zoomer un peu, parce que ça reste quand même l'enjeu essentiel. Concrètement, quand vous travaillez à faire de la saisie de données, ça ressemble à ça. Vous prenez une image, comme vous voyez en Ausha gauche, ici, encore une photo, autre résolution. Et puis, vous allez essayer de délimiter au préalable des zones un peu homogènes dans leur... ... dans leur colorimétrie, dans leur rendu. Et puis là, vous avez des personnes, vous avez des photos interprètes qui vont saisir dans chacune des zones délimitées ainsi. Donc il y en a des très petites quand vous êtes sur des bâtiments ou des bouts de bâtiments, et des beaucoup plus larges quand vous êtes sur des parcelles. Quelle est la classe, en l'occurrence ? Et une fois que vous avez fait cette carte-là, vous la découpez en vignettes qui sont prêtes à être utilisées dans un apprentissage. Et après, du coup, OK, là je vous ai montré le... la façon dont on fait ces modèles qui nous servent à interpréter les images et à donner des informations d'occupation des sols et derrière cette donnée elle a plein d'usages. Nous on s'en sert directement pour le suivi de l'artificialisation des sols et outiller la politique du zéro artificialisation net mais il y a plein d'autres usages qui peuvent être faits puisque vous avez une description qui est assez fine du territoire dans Ce n'est pas exhaustif, mais en tout cas, vous avez quand même pas mal de thèmes qui sont déjà présents. Et donc, on voit des utilisations qui peuvent être faites de cette même donnée, sans mettre d'autres systèmes. Il y a juste avec les cartes d'occupation des sols que je vous montrais, on voit des choses faites autour de, par nous ou par d'autres, comme vous avez une bonne couche de végétation, par exemple, vous pouvez aller faire des analyses de la nature en ville, vous pouvez aller faire des analyses de continuité écologique, des analyses de... Essayez de distinguer des zones où vous avez un peu du linéaire de végétation et allez chercher les haies ou allez avoir un peu de cartographie sur les bocages. Vous avez là encore une espèce de matière première qui est assez riche avec laquelle vous pouvez aller faire d'autres analyses thématiques sur le territoire qui vous intéresse. Ça, c'est donc le... Cette donnée, ces cartes d'occupation des sols par intelligence artificielle sont diffusées dans un produit qui s'appelle Ausha. Je vous invite vraiment si c'est des choses qui vous intéressent à aller consulter. Tout est en accès libre, couvert gratuit. Vous avez une vue de l'occupation des sols nationale à haute résolution, mais vous pouvez à chaque fois aller récupérer cette donnée sur un département qui vous intéresserait. Ça, c'est une vue typique. Ce dont j'aimerais ensuite vous convaincre, simplement, c'est... que ce que je vous ai présenté c'est général. En fait, je vous ai fait le cas de l'occupation des sols, mais on peut retrouver la même philosophie et la même logique dans plein d'autres sujets de description du territoire. Par exemple, quand on fait de la description 3D, avec le programme Lidar HD notamment, où on va aller acquérir des nuages de points à haute densité, de la même façon, on va récupérer des gros volumes de données, des gros nuages de points, mais pour en faire quelque chose, la plupart du temps, on a besoin d'y mettre une sémantique. On a besoin de savoir dire, ici c'est la végétation, ici c'est le sol, ici c'est les bâtiments, et de pouvoir, une fois qu'on a fait cette classification-là, On récupère par exemple le sol, c'est ce qui nous permet de faire des modèles de terrain qui servent derrière dans, par exemple, des modèles de simulation de près de cru. On veut pouvoir suivre l'écoulement des eaux. Bon, de la même façon, pour obtenir cette classification et affecter à chaque point du nuage de point une classe qui dit qu'est-ce que c'était, sur quoi est-ce que le laser a rebondi ? On va utiliser, entre autres choses, des systèmes d'intelligence artificielle et qui, de la même façon, fonctionnent avec... On va faire cette classification par d'autres moyens sur... des zones du territoire et on va entraîner des modèles qui seront prêts à être appliqués ensuite à l'échelle nationale. Même chose quand on fait de la cartographie forestière et même chose quand on va chercher à faire de la cartographie, par exemple, de parcelles agricoles, où on veut suivre, par exemple, voir sur une année donnée, quelle est la culture qui a été faite sur une parcelle. De la même façon, on va d'abord construire des jeux de données assez significatifs pour entraîner des modèles qui ensuite sont... prêt à passer à l'échelle nationale. A chaque fois, on va avoir des enjeux spécifiques, c'est-à-dire que vous ne pourriez pas faire une bonne cartographie forestière avec juste les cartes que je vous ai montrées juste avant. Si vous voulez distinguer les épicéas, des frênes, des chênes, etc., vous ne l'avez pas avec juste la distinction feuillu-conifère que je vous ai montrée avant. Donc il y a une nouvelle information à amener, donc il y a une nouvelle production de données d'apprentissage à faire, mais la philosophie générale est la même. Et vous allez avoir des enjeux spécifiques aussi que... Parfois, tout ne se verra pas simplement sur les images tous les trois ans que je vous montrais. Donc, il faut aller chercher d'autres images satellites ou des choses comme ça. Mais bon, c'est quand même un peu la même philosophie sur l'utilisation de l'intelligence artificielle. Bon, donc ça, c'est concrètement la place que peuvent prendre les systèmes d'IA dans la description du territoire. Ça ne se fait évidemment pas tout seul. Ça reste des gros enjeux aussi. Les données, c'est la première ressource, peut-être la plus fondamentale. Il y a les enjeux de capacité de calcul aussi, je ne vais pas trop développer là-dessus dans mon intervention. Et puis, il faut quand même des gens. Alors, il faut des talents sur l'intelligence artificielle. En tout cas, quand on développe spécifiquement des modèles comme on peut le faire à l'IGN. Donc ça, ça a été un de nos gros chantiers. Ça a été de recruter et de faire venir du monde sur ces sujets où c'est évidemment très compétitif. Je ne vous l'apprends sans doute pas. mais avec quand même des façons de s'en sortir, puisqu'il y a plein de personnes qui sont intéressées pour venir travailler dans des environnements où on fait de la production de données ouverte, de la science ouverte, des enjeux de transition écologique, etc. Par ailleurs, ce qui est intéressant aussi, c'est que les... Je vous ai exposé un peu... comment on fait ces modèles pour l'occupation des sols, toutes les réutilisations possibles de ces cartes d'occupation des sols par l'intelligence artificielle. Ce qui est intéressant, c'est qu'on voit aussi de plus en plus de réutilisation de toutes les briques intermédiaires qu'on a pu développer pour faire ces cartes d'occupation des sols. À partir d'il y a deux ans, on a commencé à animer des challenges scientifiques, ce qui s'appelle FLAIR. où on a diffusé toutes nos données d'apprentissage, ces 1000 km² que je vous montrais juste avant, on les a diffusées de façon ouverte. C'est nous ce qui nous permettait d'avoir la performance de nos modèles, mais on l'a mis sur la place publique, et avec une interrogation, est-ce qu'il est possible de faire mieux que ce que nous on fait déjà en termes de modèles d'IA sur ce sujet-là ? On a eu des contributions de chercheurs, de laboratoires, qui ont eu... de laboratoires d'entreprise plutôt issus de l'intelligence artificielle, d'autres plutôt issus de la donnée géographique ou de l'aéronautique ou de l'aérospatiale. Il y a tout un écosystème assez varié qui s'est agrégé là-dessus. Et ce qui est assez... Et dont on a tiré parti, les cartes que je vous ai montrées tout à l'heure, elles ont été faites aussi, elles ont été améliorées avec les retours qu'on a pu avoir dans ces challenges-là. La partie qui est importante, en fait, c'est que... la recherche en IA, le développement en IA est en permanence en manque de bons jeux de données, de qualités massifs et suffisamment riches. Donc lorsqu'on diffuse des jeux de données comme ça, en fait... Les données dont on a eu besoin juste pour faire une description nationale de l'occupation des sols sont parmi les principaux jeux de données mondiaux ouverts, accessibles, pertinents pour l'intelligence artificielle sur l'occupation des sols. Donc on peut vite avoir des impacts sur même l'agenda de recherche par l'intermédiaire de ces diffusions de données. Et l'autre, c'était l'exemple typique de ce qu'on faisait avant, le genre de modèle qu'on avait avant de faire ces challenges, et puis le genre de modèle qu'on a. une fois qu'on intègre les apports de ces challenges. Donc la frontière technique et scientifique bouge encore sur ces sujets-là. Et l'autre point, c'est que, en fait, donc ça permet de stimuler la recherche, mais la diffusion des modèles déjà entraînés, la diffusion des données d'apprentissage, elle permet à d'autres qui font leurs propres modèles de les produire plus facilement. Elle permet de leur... de produire notamment d'autres modèles en ayant besoin de moins de données d'apprentissage et de moins de volume de calcul. Donc on diminue les coûts et on diminue les barrières à l'entrée dans ce monde de l'intelligence artificielle pour la description du territoire. Donc ça, ça fait qu'après, on voit un certain nombre d'entreprises qui vont reprendre et repartir des ressources qu'on peut diffuser. Donc là, c'est encore une fois plutôt pour des utilisateurs qui... font eux-mêmes leur description du territoire. Et donc, de fait, si vous souhaitez, si vous avez envie de plonger un peu dans ces sujets-là, c'est possible de vous lancer sur vos propres cartes d'occupation des sols, soit en les faisant à façon sur les images qui vous intéressent, ou en tout cas de redévelopper sur d'autres nomenclatures, puisque toute la stack est en... la pile technologique est en accès ouvert. Vous allez pouvoir récupérer toutes les données ouvertes de l'IGN là-dessus, et puis récupérer les codes, les jeux de données, les méthodes, de toute la façon, aussi bien dans les modèles que les données ont été produites, tout ça est documenté de façon ouverte et permet de réutiliser. J'espère que dans la salle, il y aura directement ou indirectement quelques personnes que ça inspire et donne envie de plonger un peu dans ce monde de l'IA dans le cadre de la déception du territoire. La détection est notamment pour cette base de données et d'occupation du sol. Il y a d'autres usages aussi liés à l'hygiène, mais c'est vrai que c'est celle qui a été en tout cas ces derniers temps la plus impressionnante visuelle. La plus visible aussi peut-être. Elle est emblématique. Voilà. Est-ce qu'il y a des questions ? Non, mais Michel. Merci. J'ai vu la donnée Ausha tout à l'heure. Aujourd'hui, cette donnée Ausha est produite sur une orthophoto à 20 cm. Comment on peut la récupérer finalement pour la réadapter à d'autres résolutions ? Sur d'autres sources d'images, par exemple. Sur d'autres sources d'images, et puis essayer de la réutiliser. Est-ce qu'elle est suffisante ? Est-ce qu'on peut la réinjecter maintenant dans un modèle tel qu'elle est aujourd'hui ? C'est-à-dire qu'il y a la donnée d'entraînement qui a permis de produire le modèle, le modèle a permis de produire la donnée Ausha. Est-ce que finalement l'Horace-Bulta obtenu avec Ausha est suffisant pour réentraîner un modèle ? Alors dans l'idée que vous auriez plutôt un autre capteur avec d'autres caractéristiques et qu'il faudrait entraîner ce modèle avec les labels qui seraient obtenus par Ausha en fait ? Ok. Ça va être compliqué en l'état, à mon avis. Alors, il y a deux ou trois choses différentes dedans. Donc, globalement, on est sur ce thème de les transferts d'apprentissage. Est-ce qu'on peut transférer des modèles d'une situation donnée, une situation qui est caractérisée aussi bien par les propriétés de la donnée d'entrée, le capteur, la zone géographique sur laquelle on était, que... les propriétés de la donnée entre guillemets de sortie, par exemple la nomenclature sur laquelle on va travailler, et donc est-ce qu'on va distinguer juste feuille conifère ou aller plus loin, tout ça peut varier. Et un modèle donné, il fonctionne dans une situation donnée, même si maintenant on a un imaginaire qui est très lié au modèle de langage et on voit des choses très générales, mais en fait ce genre de modèles-là, ils sont effectivement plutôt spécifiques. Donc de base, la réponse quand on change de situation, c'est... il faut réentraîner, mais il y a quand même une part de l'information qui est commune et donc on peut réentraîner en partant pas de zéro, mais en repartant du modèle tel qu'il a été. Donc ça serait pas directement Ausha, ce serait plutôt les modèles qui sont utilisés pour Ausha, qui seraient un bon point de départ pour entraîner, mais il faudrait quand même d'autres données d'apprentissage. Sur la question de est-ce que la donnée produite, qui est Ausha, est suffisante pour entraîner des modèles, est-ce que ça serait des bons labels ? Ça se discute. Ça se discute. C'est pas évident, en tout cas, que... C'est pas évident qu'il y ait beaucoup plus d'informations que dans les données d'apprentissage du départ, puisque quelque part, notre modèle, il a extrait l'information qui était dans les données d'apprentissage au départ, et il la propage sur le reste du territoire, mais donc on recycle un peu toujours la même info. A priori c'est une donnée qui est quand même d'incrante qualité en dessous de la donnée d'apprentissage telle qu'elle a servi là-dessus, mais elle a l'avantage d'être disponible plus largement. Mais dans le cas présent, par ailleurs, il faudrait gérer la mise en correspondance du capteur en question. Les photos n'auraient pas été prises en même temps que celles qu'il y a, donc il y aurait plein de petits écarts qui mettraient pas mal de bruit. Et donc nous, après je termine sur ça, mais on aurait pu se dire à l'IGN, c'est merveilleux, on a déjà un immense patrimoine de données prêts pour entraîner des IA, il n'y a plus rien à faire. Si on essayait d'entraîner des IA directement avec les données des OCS, des occupations des sols historiques qu'on pouvait avoir déjà faites, ça ne marche pas. La donnée était trop généralisée ou alors il y avait des problèmes de recalage entre l'image et la base de données. Et donc il a fallu redescendre et revenir à donner vraiment à même l'image pour arriver à entraîner correctement des modèles.