undefined cover
undefined cover
L’IA pour produire de la donnée : retour d'expérience de l'IGN cover
L’IA pour produire de la donnée : retour d'expérience de l'IGN cover
Débats et rencontres de L'Institut Paris Region

L’IA pour produire de la donnée : retour d'expérience de l'IGN

L’IA pour produire de la donnée : retour d'expérience de l'IGN

37min |14/03/2025|

63

Play
undefined cover
undefined cover
L’IA pour produire de la donnée : retour d'expérience de l'IGN cover
L’IA pour produire de la donnée : retour d'expérience de l'IGN cover
Débats et rencontres de L'Institut Paris Region

L’IA pour produire de la donnée : retour d'expérience de l'IGN

L’IA pour produire de la donnée : retour d'expérience de l'IGN

37min |14/03/2025|

63

Play

Description

Mathieu Porte, coordinateur des activités IA à l’Institut National de l’Information Géographique et Forestière (IGN), présente l’utilisation de l’intelligence artificielle (IA) pour décrire et suivre les transformations du territoire français, dans un contexte de bouleversements écologiques rapides. L’objectif est de fournir des outils aux pouvoirs publics et à la société pour comprendre et piloter ces changements, comme l’artificialisation des sols, l’évolution des forêts ou du trait de côte.

Il illustre cela avec le suivi de l’occupation des sols, basé sur des orthophotos aériennes haute résolution (20 cm/pixel) prises tous les trois ans par l’IGN. Grâce à l’IA, notamment l’apprentissage profond, ces images sont "sémantisées" : chaque pixel est classé (bâtiments, routes, végétation, etc.) dans une nomenclature d’environ 16 catégories. Bien que perfectible (limites comme les zones masquées par les arbres ou petites erreurs de classification), cette méthode marque un progrès significatif par rapport à une simple image brute, permettant un suivi fin et régulier à l’échelle nationale.

Le processus repose sur des jeux de données d’apprentissage massifs, créés manuellement par des photo-interprètes sur des zones variées (urbaines, agricoles, forestières), pour entraîner des modèles IA capables de généraliser à tout le territoire. L’enjeu principal est de gérer la diversité du réel (climats, saisons, types de bâtiments) pour assurer la robustesse des modèles. Environ 1 000 km² de données annotées permettent de cartographier 550 000 km², soit un effet d’amplification considérable, rendant l’IA essentielle pour accélérer et scaler ces descriptions.

Les résultats, diffusés via l'outil "CoSIA" (Couverture du Sol par Intelligence Artificielle) en accès libre, servent à suivre l’artificialisation des sols (politique "zéro artificialisation nette") ou à des analyses thématiques (nature en ville, continuité écologique). Cette approche est adaptable à d’autres domaines, comme la cartographie 3D (LIDAR HD) ou agricole, avec la même philosophie : produire des données d’entraînement pour appliquer l’IA à grande échelle.

Les échanges révèlent des usages concrets (comptage d’arbres par des collectivités), des défis (temporalité des données, fixée à trois ans par les contraintes de prise de vue aérienne), et des perspectives (détection ciblée des changements). L’IGN a mobilisé 5 à 10 spécialistes IA, avec des phases externalisées, sur un projet démarré en 2018 et stabilisé en 2021. Enfin, les données et modèles ouverts (via des challenges comme FLAIR) stimulent la recherche et réduisent les barrières à l’entrée pour d’autres acteurs.


__


La semaine francilienne de la donnée et de l'IA est un événement organisé par la Région Île-de-France, L'Institut Paris Region et Île-de-France Mobilités. L'édition 2025 était proposée en partenariat avec le Département du Val-de-Marne.


Consultez toutes les ressources en ligne sur notre site www.institutparisregion.fr



Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

  • Speaker #0

    Bonjour à toutes et à tous, Mathieu Porte, je suis coordinateur des activités d'intelligence artificielle de l'IGN, l'Institut National de l'Information Géographique et Forestière. Et effectivement, après avoir parlé de l'IA dans toute l'ampleur que le sujet peut avoir, et qui peut toujours être un peu vertigineux, puisque entre l'ampleur technique, scientifique, géostratégique, écologique que le sujet a, j'ai essayé d'atterrir sur... quelques cas un peu concrets de comment l'IA prend place dans nos sujets, en l'occurrence nous, sur ces sujets de description du territoire et de description des transformations du territoire. Je ne vais pas vous faire une vue exhaustive de tout ce qu'on peut faire avec de l'intelligence artificielle pour la description du territoire. Là encore, on s'y perdrait, mais je vais essayer de vous zoomer vraiment sur un cas et de vous montrer un peu les... Tout ce que ça recouvre et les implications que ça a. L'enjeu, avant même d'arriver sur l'intelligence artificielle, il y a une intention, il y a un but à tout ça. C'est-à-dire que la situation dans laquelle on est, c'est celle de transformation très rapide du territoire, de bouleversements écologiques, et d'un besoin d'outiller les pouvoirs publics, la société en général, sur ce qui est en train d'advenir. Et donc de pouvoir avoir... des descriptions qui soient fines et régulières du territoire national et des transformations qui se passent dessus. L'exemple typique étant, par exemple, le suivi de l'artificialisation des sols. On veut pouvoir suivre, mesurer les consommations d'espace qui se font au cours du temps pour être capable de piloter la transition écologique à un niveau assez fin dans l'espace et dans le temps. Mais on veut aussi pouvoir suivre l'évolution du trait de côte, l'évolution des forêts qui sont bien chalutées par le changement climatique. Et donc, ce que je vais essayer de vous montrer, c'est comment, dans ce contexte-là, pour produire ces descriptions qui sont fines et régulières du territoire, l'IA nous aide, et elle nous aide à accélérer la mise en place de ces nouvelles descriptions. Et donc, on va tout de suite prendre un exemple qui va nous servir de fil rouge, et qui est le suivi de l'occupation des sols. Ce que vous voyez là, c'est l'archétype de... ce qu'on obtient avec les techniques un peu standards aujourd'hui. Alors on n'est pas sur les techniques d'analyse de langage, d'IA générative, c'est les systèmes qui sont plutôt arrivés à partir de la fin des années 2010, sur l'analyse d'images, qui continuent de bouger pas mal avec les avancées de l'apprentissage profond. Mais donc ce que vous voyez, c'est typique de ce qu'on arrive à obtenir dans les bonnes conditions avec les techniques d'intelligence artificielle. Donc ce que vous voyez là, c'est une photo en fond d'image, une photo aérienne haute résolution, et les photos... les orthophotos prises par l'IGN et diffusées par l'IGN sur le territoire national tous les trois ans. Donc vous avez une résolution de 20 centimètres sur le pixel de l'image. Donc vous avez une vue assez fine spatialement de ce qui se passe. Donc vous avez une image sur une zone urbaine. Et puis, ce que vous voyez sur la couche supérieure, c'est une sémantisation de cette image. Si vous avez une analyse, une interprétation de ce qui... se trouve sur l'image du point de vue de l'occupation des sols, du point de vue de la couverture des sols. Vous avez dit en chaque pixel, ici j'ai du bâtiment, ici j'ai des zones imperméables, des routes, de la végétation, quel type de végétation, des pelouses, des feuillus, des conifères, etc. Et donc vous avez affecté à chacun des pixels de cette image, une classe, en l'occurrence là, dans une nomenclature un peu riche, de 16 classes environ. Et je vous dis, ça c'est typique. C'est... plein de défauts, mais bien aussi quand même. Donc il y a des défauts évidemment, vous allez avoir des défauts un peu insurmontables, c'est-à-dire que vous ne voyez pas ce qui se trouve sous les arbres par exemple, et ça c'est une limite intrinsèque à l'image, vous ne pouvez pas inventer les choses, vous ne savez pas s'il y a une voiture en dessous de l'arbre, ou si jamais il y avait un petit bâtiment sous toute cette masse d'arbres, vous ne le voyez pas, il n'y a pas de sorcellerie là-dessus. Vous pouvez avoir des petits défauts de détection. On peut avoir de temps en temps un bout de pelouse qui est pris pour un peu de feuillu. Vous pouvez avoir des petites confusions aux limites, par exemple des pixels de bord qui ne sont pas exactement au bon endroit sur les bâtiments, ou des bords qui ne sont pas tout à fait droits, ou vous pouvez avoir des petites discontinuités à certains endroits dans les réseaux. OK, vous allez avoir plein de petits défauts comme ça. On peut arriver à vivre avec et les traiter ensuite. Mais par contre, vous avez fait quand même un pas de géant par rapport à quand vous aviez juste une image. Vous êtes en termes d'interprétation et de contenu et de ce que vous allez pouvoir en faire. Vous êtes vraiment beaucoup plus avancé et vous allez imaginer que vous ayez ça effectivement partout tous les trois ans. En l'occurrence, à chaque fois que vous avez une image, vous avez cette... analyse là, vous allez pouvoir commencer à suivre les phénomènes qui se passent sur le territoire national. Donc ça, je vous disais, c'est typique. On va multiplier les exemples de ce genre de choses là. Comment on arrive à avoir ça ? On va retomber sur l'un des principaux enjeux de l'intelligence artificielle qui est la donnée. Et cette donnée, en l'occurrence, on en parlait un peu juste avant, dans notre cas, souvent il va falloir la produire, c'est-à-dire même la donnée qui nous sert à entraîner les modèles et pas donner l'avance. Et donc, comment on fait pour obtenir ce que vous voyez ici ? Vous retrouvez des images telles qu'elles se présentent aux modèles qu'on cherche à entraîner. Et là, vous avez ce qui va être les sorties des modèles qu'on voyait juste avant sur cette carte. Bon, la façon de faire, c'est classique en apprentissage machine, mais c'est de vous aller créer des grands jeux de données. des grandes bases d'exemples corrigés, d'exercices corrigés. Vous allez faire plein de petites vignettes, de petites images comme ça, en l'occurrence avec pas mal d'infos, puisque vous avez plusieurs canaux, du rouge, du vert, du bleu, de l'infrarouge, des modèles d'élévation. Donc ça, c'est une image que vous allez donner en entrée de votre modèle. Et puis vous allez, sur ces échantillons-là, lui donner la solution. Vous allez dire, en fait, le jour où on te présente cette image-là, il faut que la carte de couverture des sols qui correspond, c'est ça. Donc ça, c'est produit par des photo interprètes, c'est produit par des personnes qui vont faire se corriger là, entre guillemets, sur ces images. Et puis, on va le faire sur des zones urbaines, des zones agricoles, etc. Et donc, vous allez avoir votre modèle qui est entraîné, optimisé pour quand on lui présente ces images-là, il donne cette solution-là et il apprend au passage quelque chose qui sera prêt à être transposé sur de nouvelles images qui vont se généraliser. Je ne ferai pas toute... plus de théories de l'apprentissage machine là-dessus, mais en tout cas la logique c'est celle-là, c'est on fait des jeux de données d'apprentissage qui nous permettent d'entraîner des modèles qui sont prêts à être appliqués sur de nouvelles images ensuite. Et en fait, le vrai enjeu quand on travaille sur ce sujet-là, quand on fait de l'IA pour l'analyse de l'occupation des sols sur des images aériennes, en fait c'est ça, c'est... La difficulté n'est pas d'en arriver à avoir un modèle qui fait quelque chose comme je vous ai montré sur la première salle. La difficulté, il est d'avoir un modèle qui marche sur tout le territoire national et qui arrive à marcher sur des zones urbaines, sur des zones forestières, sur des zones agricoles, qui arrive à fonctionner même dans des zones forestières, sur la forêt des Vosges ou sur le littoral méditerranéen, qui arrive à identifier des bâtiments, qu'ils soient en toit, en tuile ou en toit, en ardoise. etc. qui arrivent à fonctionner alors que les photos peuvent avoir été prises en mois de mars, au mois de juin. Même la végétation, elle n'est pas du tout dans le même état, par exemple, entre le mois de mars et le mois de juin, etc. Donc la vraie difficulté, elle est celle-là. Il faut que vos modèles aient été exposés à toute cette richesse du monde réel pour avoir une chance de s'en sortir lorsque vous allez ensuite chercher à les appliquer, comme c'est notre cas, à grande échelle. Nous, ça va être à l'échelle nationale, mais même si vous travaillez à l'échelle... d'une collectivité plus limitée, il faut quand même avoir échantillonné un peu cette diversité-là. D'autant que pour entraîner des modèles d'analyse d'images comme ça, de toute façon, il faut quand même des jeux de données qui soient massifs, qui soient diversifiés et qui soient de qualité. Donc, ce que je vous montre là, c'est pour vous montrer un peu les jeux d'échelle qui sont en jeu. Ce que vous voyez là, du coup, ça va être cet échantillonnage de l'ensemble du territoire national où on va aller piocher des zones. où on va créer à la main ces cartes d'occupation des sols qui vont nous servir à entraîner nos IA. Chaque point rouge que vous voyez ici, c'est une zone de 1 ou 2 km², à peu près ça, qui, elle, va être annotée par des opérateurs. Là encore, on travaille sur des... Et ce que vous voyez ensuite, le dallage qui est ici, c'est l'échelle à laquelle va travailler le modèle à son apprentissage. Quand on se présente... l'apprentissage se fait en présentant des petites vignettes comme je vous montrais juste avant. Les petites vignettes, c'est ces carrés-là. Et on ne va pas faire saisir des choses à l'échelle de ces petits carrés-là parce que typiquement, en fait, quand vous faites de la saisie, vous voulez pouvoir saisir, par exemple, toute cette parcelle agricole d'un coup. Vous n'allez pas faire une petite zone par petite zone. C'est globalement du gâchis. Bon, donc l'enjeu, il est vraiment d'arriver à avoir à la fois cette finesse dans la description et avoir une nomenclature assez fine sur des résolutions spatiales assez fines, tout en gérant le fait qu'après, on est censé travailler à l'échelle nationale. Mais l'autre chose qu'on voit ici, qui est clé et qui est la raison pour laquelle l'intelligence artificielle est intéressante dans notre cas, c'est que même s'il faut... beaucoup de données pour entraîner, en fait il y a quand même un changement d'échelle énorme entre les volumes de données nécessaires pour entraîner une IA et les volumes de données sur lesquels on applique ensuite cette IA. C'est-à-dire que là, vous allez avoir en gros à peu près 1000 km² au total qui vont être annotés comme ça, ce qui est beaucoup, ça fait des centaines de milliers d'images. Mais ensuite le modèle que vous entraînez, vous l'appliquez tous les 3 ans sur 550 000 km². Donc il y a quand même un facteur 500 ou 1000 selon les cas entre la production de données qu'on fait pour entraîner l'IA et la production de données qu'on fait avec l'IA. Et donc c'est pour ça, ça c'est vraiment le cœur de pourquoi est-ce qu'on utilise l'IA, c'est parce que l'IA nous aide à accélérer la mise en place de nouvelles descriptions du territoire parce qu'elle nous permet cette amplification, ce passage à l'échelle des capacités de description qu'on peut avoir par d'autres moyens. Donc, ça ne fonctionne pas tout seul, pas du tout, mais par contre, ça permet d'aller beaucoup plus vite, plus loin. Pour vous montrer là encore, pour zoomer un peu, parce que ça reste quand même l'enjeu essentiel. Concrètement, quand vous travaillez à faire de la saisie de données, ça ressemble à ça. Vous prenez une image, comme vous voyez en Ausha gauche, ici, encore une photo, autre résolution. Et puis, vous allez essayer de délimiter au préalable des zones un peu homogènes dans leur... ... dans leur colorimétrie, dans leur rendu. Et puis là, vous avez des personnes, vous avez des photos interprètes qui vont saisir dans chacune des zones délimitées ainsi. Donc il y en a des très petites quand vous êtes sur des bâtiments ou des bouts de bâtiments, et des beaucoup plus larges quand vous êtes sur des parcelles. Quelle est la classe, en l'occurrence ? Et une fois que vous avez fait cette carte-là, vous la découpez en vignettes qui sont prêtes à être utilisées dans un apprentissage. Et après, du coup, OK, là je vous ai montré le... la façon dont on fait ces modèles qui nous servent à interpréter les images et à donner des informations d'occupation des sols et derrière cette donnée elle a plein d'usages. Nous on s'en sert directement pour le suivi de l'artificialisation des sols et outiller la politique du zéro artificialisation net mais il y a plein d'autres usages qui peuvent être faits puisque vous avez une description qui est assez fine du territoire dans Ce n'est pas exhaustif, mais en tout cas, vous avez quand même pas mal de thèmes qui sont déjà présents. Et donc, on voit des utilisations qui peuvent être faites de cette même donnée, sans mettre d'autres systèmes. Il y a juste avec les cartes d'occupation des sols que je vous montrais, on voit des choses faites autour de, par nous ou par d'autres, comme vous avez une bonne couche de végétation, par exemple, vous pouvez aller faire des analyses de la nature en ville, vous pouvez aller faire des analyses de continuité écologique, des analyses de... Essayez de distinguer des zones où vous avez un peu du linéaire de végétation et allez chercher les haies ou allez avoir un peu de cartographie sur les bocages. Vous avez là encore une espèce de matière première qui est assez riche avec laquelle vous pouvez aller faire d'autres analyses thématiques sur le territoire qui vous intéresse. Ça, c'est donc le... Cette donnée, ces cartes d'occupation des sols par intelligence artificielle sont diffusées dans un produit qui s'appelle Ausha. Je vous invite vraiment si c'est des choses qui vous intéressent à aller consulter. Tout est en accès libre, couvert gratuit. Vous avez une vue de l'occupation des sols nationale à haute résolution, mais vous pouvez à chaque fois aller récupérer cette donnée sur un département qui vous intéresserait. Ça, c'est une vue typique. Ce dont j'aimerais ensuite vous convaincre, simplement, c'est... que ce que je vous ai présenté c'est général. En fait, je vous ai fait le cas de l'occupation des sols, mais on peut retrouver la même philosophie et la même logique dans plein d'autres sujets de description du territoire. Par exemple, quand on fait de la description 3D, avec le programme Lidar HD notamment, où on va aller acquérir des nuages de points à haute densité, de la même façon, on va récupérer des gros volumes de données, des gros nuages de points, mais pour en faire quelque chose, la plupart du temps, on a besoin d'y mettre une sémantique. On a besoin de savoir dire, ici c'est la végétation, ici c'est le sol, ici c'est les bâtiments, et de pouvoir, une fois qu'on a fait cette classification-là, On récupère par exemple le sol, c'est ce qui nous permet de faire des modèles de terrain qui servent derrière dans, par exemple, des modèles de simulation de près de cru. On veut pouvoir suivre l'écoulement des eaux. Bon, de la même façon, pour obtenir cette classification et affecter à chaque point du nuage de point une classe qui dit qu'est-ce que c'était, sur quoi est-ce que le laser a rebondi ? On va utiliser, entre autres choses, des systèmes d'intelligence artificielle et qui, de la même façon, fonctionnent avec... On va faire cette classification par d'autres moyens sur... des zones du territoire et on va entraîner des modèles qui seront prêts à être appliqués ensuite à l'échelle nationale. Même chose quand on fait de la cartographie forestière et même chose quand on va chercher à faire de la cartographie, par exemple, de parcelles agricoles, où on veut suivre, par exemple, voir sur une année donnée, quelle est la culture qui a été faite sur une parcelle. De la même façon, on va d'abord construire des jeux de données assez significatifs pour entraîner des modèles qui ensuite sont... prêt à passer à l'échelle nationale. A chaque fois, on va avoir des enjeux spécifiques, c'est-à-dire que vous ne pourriez pas faire une bonne cartographie forestière avec juste les cartes que je vous ai montrées juste avant. Si vous voulez distinguer les épicéas, des frênes, des chênes, etc., vous ne l'avez pas avec juste la distinction feuillu-conifère que je vous ai montrée avant. Donc il y a une nouvelle information à amener, donc il y a une nouvelle production de données d'apprentissage à faire, mais la philosophie générale est la même. Et vous allez avoir des enjeux spécifiques aussi que... Parfois, tout ne se verra pas simplement sur les images tous les trois ans que je vous montrais. Donc, il faut aller chercher d'autres images satellites ou des choses comme ça. Mais bon, c'est quand même un peu la même philosophie sur l'utilisation de l'intelligence artificielle. Bon, donc ça, c'est concrètement la place que peuvent prendre les systèmes d'IA dans la description du territoire. Ça ne se fait évidemment pas tout seul. Ça reste des gros enjeux aussi. Les données, c'est la première ressource, peut-être la plus fondamentale. Il y a les enjeux de capacité de calcul aussi, je ne vais pas trop développer là-dessus dans mon intervention. Et puis, il faut quand même des gens. Alors, il faut des talents sur l'intelligence artificielle. En tout cas, quand on développe spécifiquement des modèles comme on peut le faire à l'IGN. Donc ça, ça a été un de nos gros chantiers. Ça a été de recruter et de faire venir du monde sur ces sujets où c'est évidemment très compétitif. Je ne vous l'apprends sans doute pas. mais avec quand même des façons de s'en sortir, puisqu'il y a plein de personnes qui sont intéressées pour venir travailler dans des environnements où on fait de la production de données ouverte, de la science ouverte, des enjeux de transition écologique, etc. Par ailleurs, ce qui est intéressant aussi, c'est que les... Je vous ai exposé un peu... comment on fait ces modèles pour l'occupation des sols, toutes les réutilisations possibles de ces cartes d'occupation des sols par l'intelligence artificielle. Ce qui est intéressant, c'est qu'on voit aussi de plus en plus de réutilisation de toutes les briques intermédiaires qu'on a pu développer pour faire ces cartes d'occupation des sols. À partir d'il y a deux ans, on a commencé à animer des challenges scientifiques, ce qui s'appelle FLAIR. où on a diffusé toutes nos données d'apprentissage, ces 1000 km² que je vous montrais juste avant, on les a diffusées de façon ouverte. C'est nous ce qui nous permettait d'avoir la performance de nos modèles, mais on l'a mis sur la place publique, et avec une interrogation, est-ce qu'il est possible de faire mieux que ce que nous on fait déjà en termes de modèles d'IA sur ce sujet-là ? On a eu des contributions de chercheurs, de laboratoires, qui ont eu... de laboratoires d'entreprise plutôt issus de l'intelligence artificielle, d'autres plutôt issus de la donnée géographique ou de l'aéronautique ou de l'aérospatiale. Il y a tout un écosystème assez varié qui s'est agrégé là-dessus. Et ce qui est assez... Et dont on a tiré parti, les cartes que je vous ai montrées tout à l'heure, elles ont été faites aussi, elles ont été améliorées avec les retours qu'on a pu avoir dans ces challenges-là. La partie qui est importante, en fait, c'est que... la recherche en IA, le développement en IA est en permanence en manque de bons jeux de données, de qualités massifs et suffisamment riches. Donc lorsqu'on diffuse des jeux de données comme ça, en fait... Les données dont on a eu besoin juste pour faire une description nationale de l'occupation des sols sont parmi les principaux jeux de données mondiaux ouverts, accessibles, pertinents pour l'intelligence artificielle sur l'occupation des sols. Donc on peut vite avoir des impacts sur même l'agenda de recherche par l'intermédiaire de ces diffusions de données. Et l'autre, c'était l'exemple typique de ce qu'on faisait avant, le genre de modèle qu'on avait avant de faire ces challenges, et puis le genre de modèle qu'on a. une fois qu'on intègre les apports de ces challenges. Donc la frontière technique et scientifique bouge encore sur ces sujets-là. Et l'autre point, c'est que, en fait, donc ça permet de stimuler la recherche, mais la diffusion des modèles déjà entraînés, la diffusion des données d'apprentissage, elle permet à d'autres qui font leurs propres modèles de les produire plus facilement. Elle permet de leur... de produire notamment d'autres modèles en ayant besoin de moins de données d'apprentissage et de moins de volume de calcul. Donc on diminue les coûts et on diminue les barrières à l'entrée dans ce monde de l'intelligence artificielle pour la description du territoire. Donc ça, ça fait qu'après, on voit un certain nombre d'entreprises qui vont reprendre et repartir des ressources qu'on peut diffuser. Donc là, c'est encore une fois plutôt pour des utilisateurs qui... font eux-mêmes leur description du territoire. Et donc, de fait, si vous souhaitez, si vous avez envie de plonger un peu dans ces sujets-là, c'est possible de vous lancer sur vos propres cartes d'occupation des sols, soit en les faisant à façon sur les images qui vous intéressent, ou en tout cas de redévelopper sur d'autres nomenclatures, puisque toute la stack est en... la pile technologique est en accès ouvert. Vous allez pouvoir récupérer toutes les données ouvertes de l'IGN là-dessus, et puis récupérer les codes, les jeux de données, les méthodes, de toute la façon, aussi bien dans les modèles que les données ont été produites, tout ça est documenté de façon ouverte et permet de réutiliser. J'espère que dans la salle, il y aura directement ou indirectement quelques personnes que ça inspire et donne envie de plonger un peu dans ce monde de l'IA dans le cadre de la déception du territoire. La détection est notamment pour cette base de données et d'occupation du sol. Il y a d'autres usages aussi liés à l'hygiène, mais c'est vrai que c'est celle qui a été en tout cas ces derniers temps la plus impressionnante visuelle. La plus visible aussi peut-être. Elle est emblématique. Voilà. Est-ce qu'il y a des questions ? Non, mais Michel. Merci. J'ai vu la donnée Ausha tout à l'heure. Aujourd'hui, cette donnée Ausha est produite sur une orthophoto à 20 cm. Comment on peut la récupérer finalement pour la réadapter à d'autres résolutions ? Sur d'autres sources d'images, par exemple. Sur d'autres sources d'images, et puis essayer de la réutiliser. Est-ce qu'elle est suffisante ? Est-ce qu'on peut la réinjecter maintenant dans un modèle tel qu'elle est aujourd'hui ? C'est-à-dire qu'il y a la donnée d'entraînement qui a permis de produire le modèle, le modèle a permis de produire la donnée Ausha. Est-ce que finalement l'Horace-Bulta obtenu avec Ausha est suffisant pour réentraîner un modèle ? Alors dans l'idée que vous auriez plutôt un autre capteur avec d'autres caractéristiques et qu'il faudrait entraîner ce modèle avec les labels qui seraient obtenus par Ausha en fait ? Ok. Ça va être compliqué en l'état, à mon avis. Alors, il y a deux ou trois choses différentes dedans. Donc, globalement, on est sur ce thème de les transferts d'apprentissage. Est-ce qu'on peut transférer des modèles d'une situation donnée, une situation qui est caractérisée aussi bien par les propriétés de la donnée d'entrée, le capteur, la zone géographique sur laquelle on était, que... les propriétés de la donnée entre guillemets de sortie, par exemple la nomenclature sur laquelle on va travailler, et donc est-ce qu'on va distinguer juste feuille conifère ou aller plus loin, tout ça peut varier. Et un modèle donné, il fonctionne dans une situation donnée, même si maintenant on a un imaginaire qui est très lié au modèle de langage et on voit des choses très générales, mais en fait ce genre de modèles-là, ils sont effectivement plutôt spécifiques. Donc de base, la réponse quand on change de situation, c'est... il faut réentraîner, mais il y a quand même une part de l'information qui est commune et donc on peut réentraîner en partant pas de zéro, mais en repartant du modèle tel qu'il a été. Donc ça serait pas directement Ausha, ce serait plutôt les modèles qui sont utilisés pour Ausha, qui seraient un bon point de départ pour entraîner, mais il faudrait quand même d'autres données d'apprentissage. Sur la question de est-ce que la donnée produite, qui est Ausha, est suffisante pour entraîner des modèles, est-ce que ça serait des bons labels ? Ça se discute. Ça se discute. C'est pas évident, en tout cas, que... C'est pas évident qu'il y ait beaucoup plus d'informations que dans les données d'apprentissage du départ, puisque quelque part, notre modèle, il a extrait l'information qui était dans les données d'apprentissage au départ, et il la propage sur le reste du territoire, mais donc on recycle un peu toujours la même info. A priori c'est une donnée qui est quand même d'incrante qualité en dessous de la donnée d'apprentissage telle qu'elle a servi là-dessus, mais elle a l'avantage d'être disponible plus largement. Mais dans le cas présent, par ailleurs, il faudrait gérer la mise en correspondance du capteur en question. Les photos n'auraient pas été prises en même temps que celles qu'il y a, donc il y aurait plein de petits écarts qui mettraient pas mal de bruit. Et donc nous, après je termine sur ça, mais on aurait pu se dire à l'IGN, c'est merveilleux, on a déjà un immense patrimoine de données prêts pour entraîner des IA, il n'y a plus rien à faire. Si on essayait d'entraîner des IA directement avec les données des OCS, des occupations des sols historiques qu'on pouvait avoir déjà faites, ça ne marche pas. La donnée était trop généralisée ou alors il y avait des problèmes de recalage entre l'image et la base de données. Et donc il a fallu redescendre et revenir à donner vraiment à même l'image pour arriver à entraîner correctement des modèles.

  • Speaker #1

    Bonjour, merci Mathieu pour ta présentation, c'était très clair. Moi je travaille pour ICI, c'est une société en fait qui utilise déjà de l'IA pour faire à partir de l'image satellite des données relatives à l'environnement, protection de l'environnement. des habitats, la biodiversité, entre autres. On fait partie d'Atalianz. Atalianz, on n'en a pas parlé, parce que ce n'était pas le sujet, mais c'est l'IGN qui permet à des utilisateurs privés de partager, pas des ressources, mais de l'information, de la donnée et de travailler sur des initiatives différentes,

  • Speaker #0

    variées.

  • Speaker #1

    Donc voilà, on se sert aussi, nous, du modèle Flair, des algos qu'on a adaptés, bien sûr, parce qu'elles sont ouvertes. Donc on me demandait tout à l'heure qui pourra le faire. C'est déjà un peu fait, mais il y en a plein d'autres qui le font aussi. et en particulier pour des thématiques de nature en ville. Comptage d'arbres, il y a énormément de programmes de plantation menés par des collectivités ou des villes. Un million d'arbres pour Bordeaux Métropole par exemple. Donc l'idée c'est de pouvoir suivre leur initiative en prenant l'orthophoto de 2020 par exemple ou de 2021, quand ils n'ont pas commencé le programme. Et puis la prochaine ortho, on utilisera les mêmes modèles, les mêmes entraînements, peut-être un petit peu améliorés parce que la résolution sera peut-être un peu différente, mais si c'est la même. On pourra amener des informations sur les arbres, pas le nombre d'arbres parce qu'ils le suivent déjà, pas sur l'état des arbres parce qu'il y en a certains qui se détériorent, d'autres qui poussent bien, d'autres qui poussent moins bien en fonction des contextes pédologiques et autres, mais des indicateurs plus surfaciques de progression des couronnes, des houpiers, etc. Donc c'est très précis, c'est très pratique, et puis c'est l'outil qui travaille pour nous. Voilà, c'est un témoignage.

  • Speaker #0

    Merci. Effectivement, en plus dans ces domaines-là, on a énormément d'intérêt à faire des choses en commun. On partage à la fois des méthodes, des voies des capteurs, le territoire. Donc il y a beaucoup de choses qui peuvent se faire, se partager dans un environnement où par ailleurs, c'est très largement dominé par des très grands acteurs du numérique qui jouent de façon beaucoup plus fermée. Et donc si on veut voir aussi d'autres manières de faire, il faut vraiment... Jouer ce jeu de l'ouverture et de la mise en commun, je suis vraiment heureux d'entendre ce retour d'expérience. Bonjour Alice Sapir, je travaille à Grand Paris Sud-Est Avenir. Je voulais savoir sur la démarche que vous nous avez présentée, combien de temps ça a pris, surtout sur la phase modèle d'apprentissage, et combien de personnes ça a mobilisé, voire est-ce que vous avez sous-traité certaines phases du projet ? Merci.

  • Speaker #1

    Oui, ça prend du temps. Alors ça prend du temps aussi au début parce que c'est là l'occupation des sols, nous c'est notre... premier grand projet industriel d'intelligence artificielle donc autant de vraiment de développement de liés à ça vont aussi tous les temps de l'apprentissage organisationnel et de découverte de ces thématiques là et de on sait pas encore tellement si ça va marcher ou pas et que c'est donc si on refaisait le l'occupation des sols aujourd'hui semble que ce sera un grand un grand plus un grand plus rapide mais du coup on a commencé à faire des premières expérimentations d'intelligence artificielle sur ce thème-là à partir de 2018. Ça faisait suite à des travaux de recherche à partir de, disons, 2016-2017, c'est ça ? Oui, parce que le boom intelligence artificielle en traitement d'images, c'est 2013-2014-2015, donc ça se fait dans ces Ausha. Et après, c'est itératif, donc on a commencé... par des prototypes sur des zones assez restreintes autour du bassin d'Arcachon, sur un département de pilote qui était celui du Gers, avant d'aller produire des modèles nationaux comme je vous ai montré là. Et l'un des facteurs dimensionnants, c'était effectivement la production des données d'apprentissage, où il fallait en faire pas mal. Et donc là, il y a eu aussi un curseur au cours de la vie du projet entre... des premiers développements de jeux de données d'apprentissage plutôt internalisés, notamment tant qu'on ne sait pas encore trop même le genre de données dont on va avoir besoin. Au début d'une saisie, on est dans une espèce de ping-pong entre les équipes plutôt côté IA et la production de données est en train de réajuster les tâches, réaffiner la nomenclature, etc. Et au bout d'un moment, ça se stabilise. Et là, on passe à l'échelle dans la production de données d'apprentissage. Et là, ça a été des moments où on a pu s'externaliser. Sur le nombre de personnes, pareil, ça a bougé au cours du temps. Et puis, les profils sont assez variables entre les profils plus IA, données géographiques, de dev, de photointerprétation. Je ne saurais pas vous dire, en fait, sur le projet Occupation des sols dans son ensemble, combien de personnes ça a mobilisé au total. Sur le volet IA, selon les moments, ça a été peut-être entre... 5 et 10 personnes à peu près, je dirais, là-dessus. Sur vraiment les spécialistes IA, plus des équipes de dev en plus. Et puis, à la fois, on voit un temps assez long, puisque on continue de produire de l'OCSGE, mais l'architecture générale de la chaîne de production s'est quand même stabilisée vers 2021, je dirais. Oui, 2021. Et après, on a eu encore un peu de montée en volume sur les jeux de données d'apprentissage en 2021-2022. Et depuis maintenant, c'est vraiment de la production.

  • Speaker #2

    Bonjour, je suis juste derrière. J'ai le micro. Merci. Alexandra Henry de Ciradel. On est filiale d'ENGIE. Je prends la parole à double emploi. Témoignage d'un de nos clients qui est Noisy Legrand. et qui a utilisé notre plateforme pour identifier les îlots de chaleur urbains de son territoire. C'est un témoignage doublé pour rebondir sur votre propos sur la temporalité de la data. Parce qu'à partir du moment où, j'exagère un peu, mais où la data est livrée, elle est presque déjà obsolète. On parlait tout à l'heure, en tout cas vous aviez mentionné le fait de mettre à jour vos données tous les trois ans, me semble-t-il. La question est comment est-ce que justement cette temporalité de trois ans a été fixée et à quel moment en fait il est nécessaire de remettre en question le fait de repasser sur des images ? Enfin voilà, comment on se positionne ?

  • Speaker #1

    La temporalité de trois ans, elle est liée à l'acquisition, elle est liée à la temporalité à laquelle on fait la photo. Et donc pour le coup, c'est un... équilibre entre les usages qu'il va y avoir. Ce n'est pas au niveau de l'occupation des sols en elle-même, c'est vraiment au niveau de... de la base d'image et à quelle fréquence on estime qu'il y a besoin d'avoir cette image à haute résolution, avec des contraintes économiques fortes, puisqu'il faut faire voler des avions sur tout le territoire, dans des plages de temps qui sont resserrées, puisqu'on va chercher à quand même, je vous ai dit mars, juin, mais en fait on va rester dans ces plages-là, pour faire voler des avions, pour quand même avoir de la végétation en feuille. et on peut le faire que les jours de beau temps, et on peut, etc. Donc quand on met ça et les équipements, on va avoir un nombre d'avions limité. Bon, ça, ça va dimensionner la fréquence à laquelle on fait l'image. Ça ne répond pas complètement à la question, puisque, dans ce cas, on peut se dire, ça déporte la question sur pourquoi est-ce qu'on s'appuie sur l'analyse de ces images-là pour le suivi de l'occupation des sols. On pourrait du coup aller chercher ailleurs si on estime qu'il faut des pas de temps plus fins. Dans le cas de la forêt ou de la cartographie agricole, on va chercher de l'image satellite aussi. qui a de la revisite tous les quelques jours, parce que pour différencier des types de végétation, voir ce qui se passe à l'intérieur d'une année, c'est très important. Vous allez voir une céréale de printemps, elle va avoir une pousse au printemps. Du coup, vous allez voir son activité de photosynthèse concentrée à cet endroit-là. Et donc, on a besoin de ça. Par contre, c'est beaucoup plus dégradé en résolution spatiale. C'est 10 mètres de résolution versus 20 centimètres. Et parfois, on va mixer les deux. Donc, dans le cas de l'occupation des sols, Après, tout dépend de ce qui se passe en aval. La donnée, elle sert là, en l'occurrence, elle va servir à mesurer l'artificialisation, à outiller un dialogue entre l'État et les collectivités, à outiller des décisions d'aménagement qui ne sont pas non plus sur des pas de temps de trois semaines. Donc, c'est proportionné à ça, en fait, ces enjeux de mesure. Non, pour l'instant, on ne fait pas de choses comme ça. La question se pose un peu, pour l'instant, de façon un peu théorique, mais sur le LIDAR. On a fait une première couverture LIDAR nationale. Est-ce que la mise à jour du LIDAR se fait avec une stratégie ciblée comme ça ? Mais parce que sur l'image, on est sur une logique vraiment exhaustive. Là, pour le coup, on veut la photo nationale tous les trois ans.

  • Speaker #3

    C'est Laurie, je pense, en tout cas Michel, côté institut, pour compléter. C'est-à-dire que les trois à quatre ans qui sont la fréquence, et je ne suis pas du tout spécialiste, mais... parce que pas de l'urbanisme justement et de l'aménagement. Mais ce que j'entends régulièrement de mes collègues, c'est le temps de la transformation du territoire. Et donc, c'est le temps logique. Après, et on l'évoquait parce qu'il y a des grands projets d'aménagement, notamment en Ile-de-France, on est ici au cœur, Nicolas Bockel disait, d'un territoire qui se transforme à pas de courses, Saint-Ouen également, etc. Enfin, toutes ces zones-là, où oui, se pose la question, et moi je trouve ça intéressant la réflexion de se dire, est-ce que... On ne déterminerait pas aussi grâce à l'IA des zones où on voit que ça commence à bouger et se dire on fait une repasse plus régulière.

  • Speaker #4

    Oui, effectivement, c'est une des questions qu'on s'est posé avec Michel sur la mise à jour de notre mode d'occupation du sol et de ce qu'on pouvait faire dans les traitements avec ou de l'aérien ou du satellite. Effectivement, nous, ce pas de temps, en tout cas en Ile-de-France, il nous convenait assez bien de tous les quatre ans, en tout cas pour le mode d'occupation du sol. Mais c'est vrai qu'on s'est interrogé à un moment donné de ne pas avoir de temps en temps des zooms dans la détection de changements ou des espèces d'alertes à grosse maille. De se dire, c'est là que ça bouge. Et qu'au moins pour les photointerprètes qui vont produire le millésime suivant, ils aient une attention particulière sur ces endroits où on sent bien qu'il y a des choses qui sont sorties. Ou dont l'occupation du sol a été profondément modifiée. Merci beaucoup Mathieu Porte. Merci à l'IGN.

  • Speaker #1

    Sous

Description

Mathieu Porte, coordinateur des activités IA à l’Institut National de l’Information Géographique et Forestière (IGN), présente l’utilisation de l’intelligence artificielle (IA) pour décrire et suivre les transformations du territoire français, dans un contexte de bouleversements écologiques rapides. L’objectif est de fournir des outils aux pouvoirs publics et à la société pour comprendre et piloter ces changements, comme l’artificialisation des sols, l’évolution des forêts ou du trait de côte.

Il illustre cela avec le suivi de l’occupation des sols, basé sur des orthophotos aériennes haute résolution (20 cm/pixel) prises tous les trois ans par l’IGN. Grâce à l’IA, notamment l’apprentissage profond, ces images sont "sémantisées" : chaque pixel est classé (bâtiments, routes, végétation, etc.) dans une nomenclature d’environ 16 catégories. Bien que perfectible (limites comme les zones masquées par les arbres ou petites erreurs de classification), cette méthode marque un progrès significatif par rapport à une simple image brute, permettant un suivi fin et régulier à l’échelle nationale.

Le processus repose sur des jeux de données d’apprentissage massifs, créés manuellement par des photo-interprètes sur des zones variées (urbaines, agricoles, forestières), pour entraîner des modèles IA capables de généraliser à tout le territoire. L’enjeu principal est de gérer la diversité du réel (climats, saisons, types de bâtiments) pour assurer la robustesse des modèles. Environ 1 000 km² de données annotées permettent de cartographier 550 000 km², soit un effet d’amplification considérable, rendant l’IA essentielle pour accélérer et scaler ces descriptions.

Les résultats, diffusés via l'outil "CoSIA" (Couverture du Sol par Intelligence Artificielle) en accès libre, servent à suivre l’artificialisation des sols (politique "zéro artificialisation nette") ou à des analyses thématiques (nature en ville, continuité écologique). Cette approche est adaptable à d’autres domaines, comme la cartographie 3D (LIDAR HD) ou agricole, avec la même philosophie : produire des données d’entraînement pour appliquer l’IA à grande échelle.

Les échanges révèlent des usages concrets (comptage d’arbres par des collectivités), des défis (temporalité des données, fixée à trois ans par les contraintes de prise de vue aérienne), et des perspectives (détection ciblée des changements). L’IGN a mobilisé 5 à 10 spécialistes IA, avec des phases externalisées, sur un projet démarré en 2018 et stabilisé en 2021. Enfin, les données et modèles ouverts (via des challenges comme FLAIR) stimulent la recherche et réduisent les barrières à l’entrée pour d’autres acteurs.


__


La semaine francilienne de la donnée et de l'IA est un événement organisé par la Région Île-de-France, L'Institut Paris Region et Île-de-France Mobilités. L'édition 2025 était proposée en partenariat avec le Département du Val-de-Marne.


Consultez toutes les ressources en ligne sur notre site www.institutparisregion.fr



Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

  • Speaker #0

    Bonjour à toutes et à tous, Mathieu Porte, je suis coordinateur des activités d'intelligence artificielle de l'IGN, l'Institut National de l'Information Géographique et Forestière. Et effectivement, après avoir parlé de l'IA dans toute l'ampleur que le sujet peut avoir, et qui peut toujours être un peu vertigineux, puisque entre l'ampleur technique, scientifique, géostratégique, écologique que le sujet a, j'ai essayé d'atterrir sur... quelques cas un peu concrets de comment l'IA prend place dans nos sujets, en l'occurrence nous, sur ces sujets de description du territoire et de description des transformations du territoire. Je ne vais pas vous faire une vue exhaustive de tout ce qu'on peut faire avec de l'intelligence artificielle pour la description du territoire. Là encore, on s'y perdrait, mais je vais essayer de vous zoomer vraiment sur un cas et de vous montrer un peu les... Tout ce que ça recouvre et les implications que ça a. L'enjeu, avant même d'arriver sur l'intelligence artificielle, il y a une intention, il y a un but à tout ça. C'est-à-dire que la situation dans laquelle on est, c'est celle de transformation très rapide du territoire, de bouleversements écologiques, et d'un besoin d'outiller les pouvoirs publics, la société en général, sur ce qui est en train d'advenir. Et donc de pouvoir avoir... des descriptions qui soient fines et régulières du territoire national et des transformations qui se passent dessus. L'exemple typique étant, par exemple, le suivi de l'artificialisation des sols. On veut pouvoir suivre, mesurer les consommations d'espace qui se font au cours du temps pour être capable de piloter la transition écologique à un niveau assez fin dans l'espace et dans le temps. Mais on veut aussi pouvoir suivre l'évolution du trait de côte, l'évolution des forêts qui sont bien chalutées par le changement climatique. Et donc, ce que je vais essayer de vous montrer, c'est comment, dans ce contexte-là, pour produire ces descriptions qui sont fines et régulières du territoire, l'IA nous aide, et elle nous aide à accélérer la mise en place de ces nouvelles descriptions. Et donc, on va tout de suite prendre un exemple qui va nous servir de fil rouge, et qui est le suivi de l'occupation des sols. Ce que vous voyez là, c'est l'archétype de... ce qu'on obtient avec les techniques un peu standards aujourd'hui. Alors on n'est pas sur les techniques d'analyse de langage, d'IA générative, c'est les systèmes qui sont plutôt arrivés à partir de la fin des années 2010, sur l'analyse d'images, qui continuent de bouger pas mal avec les avancées de l'apprentissage profond. Mais donc ce que vous voyez, c'est typique de ce qu'on arrive à obtenir dans les bonnes conditions avec les techniques d'intelligence artificielle. Donc ce que vous voyez là, c'est une photo en fond d'image, une photo aérienne haute résolution, et les photos... les orthophotos prises par l'IGN et diffusées par l'IGN sur le territoire national tous les trois ans. Donc vous avez une résolution de 20 centimètres sur le pixel de l'image. Donc vous avez une vue assez fine spatialement de ce qui se passe. Donc vous avez une image sur une zone urbaine. Et puis, ce que vous voyez sur la couche supérieure, c'est une sémantisation de cette image. Si vous avez une analyse, une interprétation de ce qui... se trouve sur l'image du point de vue de l'occupation des sols, du point de vue de la couverture des sols. Vous avez dit en chaque pixel, ici j'ai du bâtiment, ici j'ai des zones imperméables, des routes, de la végétation, quel type de végétation, des pelouses, des feuillus, des conifères, etc. Et donc vous avez affecté à chacun des pixels de cette image, une classe, en l'occurrence là, dans une nomenclature un peu riche, de 16 classes environ. Et je vous dis, ça c'est typique. C'est... plein de défauts, mais bien aussi quand même. Donc il y a des défauts évidemment, vous allez avoir des défauts un peu insurmontables, c'est-à-dire que vous ne voyez pas ce qui se trouve sous les arbres par exemple, et ça c'est une limite intrinsèque à l'image, vous ne pouvez pas inventer les choses, vous ne savez pas s'il y a une voiture en dessous de l'arbre, ou si jamais il y avait un petit bâtiment sous toute cette masse d'arbres, vous ne le voyez pas, il n'y a pas de sorcellerie là-dessus. Vous pouvez avoir des petits défauts de détection. On peut avoir de temps en temps un bout de pelouse qui est pris pour un peu de feuillu. Vous pouvez avoir des petites confusions aux limites, par exemple des pixels de bord qui ne sont pas exactement au bon endroit sur les bâtiments, ou des bords qui ne sont pas tout à fait droits, ou vous pouvez avoir des petites discontinuités à certains endroits dans les réseaux. OK, vous allez avoir plein de petits défauts comme ça. On peut arriver à vivre avec et les traiter ensuite. Mais par contre, vous avez fait quand même un pas de géant par rapport à quand vous aviez juste une image. Vous êtes en termes d'interprétation et de contenu et de ce que vous allez pouvoir en faire. Vous êtes vraiment beaucoup plus avancé et vous allez imaginer que vous ayez ça effectivement partout tous les trois ans. En l'occurrence, à chaque fois que vous avez une image, vous avez cette... analyse là, vous allez pouvoir commencer à suivre les phénomènes qui se passent sur le territoire national. Donc ça, je vous disais, c'est typique. On va multiplier les exemples de ce genre de choses là. Comment on arrive à avoir ça ? On va retomber sur l'un des principaux enjeux de l'intelligence artificielle qui est la donnée. Et cette donnée, en l'occurrence, on en parlait un peu juste avant, dans notre cas, souvent il va falloir la produire, c'est-à-dire même la donnée qui nous sert à entraîner les modèles et pas donner l'avance. Et donc, comment on fait pour obtenir ce que vous voyez ici ? Vous retrouvez des images telles qu'elles se présentent aux modèles qu'on cherche à entraîner. Et là, vous avez ce qui va être les sorties des modèles qu'on voyait juste avant sur cette carte. Bon, la façon de faire, c'est classique en apprentissage machine, mais c'est de vous aller créer des grands jeux de données. des grandes bases d'exemples corrigés, d'exercices corrigés. Vous allez faire plein de petites vignettes, de petites images comme ça, en l'occurrence avec pas mal d'infos, puisque vous avez plusieurs canaux, du rouge, du vert, du bleu, de l'infrarouge, des modèles d'élévation. Donc ça, c'est une image que vous allez donner en entrée de votre modèle. Et puis vous allez, sur ces échantillons-là, lui donner la solution. Vous allez dire, en fait, le jour où on te présente cette image-là, il faut que la carte de couverture des sols qui correspond, c'est ça. Donc ça, c'est produit par des photo interprètes, c'est produit par des personnes qui vont faire se corriger là, entre guillemets, sur ces images. Et puis, on va le faire sur des zones urbaines, des zones agricoles, etc. Et donc, vous allez avoir votre modèle qui est entraîné, optimisé pour quand on lui présente ces images-là, il donne cette solution-là et il apprend au passage quelque chose qui sera prêt à être transposé sur de nouvelles images qui vont se généraliser. Je ne ferai pas toute... plus de théories de l'apprentissage machine là-dessus, mais en tout cas la logique c'est celle-là, c'est on fait des jeux de données d'apprentissage qui nous permettent d'entraîner des modèles qui sont prêts à être appliqués sur de nouvelles images ensuite. Et en fait, le vrai enjeu quand on travaille sur ce sujet-là, quand on fait de l'IA pour l'analyse de l'occupation des sols sur des images aériennes, en fait c'est ça, c'est... La difficulté n'est pas d'en arriver à avoir un modèle qui fait quelque chose comme je vous ai montré sur la première salle. La difficulté, il est d'avoir un modèle qui marche sur tout le territoire national et qui arrive à marcher sur des zones urbaines, sur des zones forestières, sur des zones agricoles, qui arrive à fonctionner même dans des zones forestières, sur la forêt des Vosges ou sur le littoral méditerranéen, qui arrive à identifier des bâtiments, qu'ils soient en toit, en tuile ou en toit, en ardoise. etc. qui arrivent à fonctionner alors que les photos peuvent avoir été prises en mois de mars, au mois de juin. Même la végétation, elle n'est pas du tout dans le même état, par exemple, entre le mois de mars et le mois de juin, etc. Donc la vraie difficulté, elle est celle-là. Il faut que vos modèles aient été exposés à toute cette richesse du monde réel pour avoir une chance de s'en sortir lorsque vous allez ensuite chercher à les appliquer, comme c'est notre cas, à grande échelle. Nous, ça va être à l'échelle nationale, mais même si vous travaillez à l'échelle... d'une collectivité plus limitée, il faut quand même avoir échantillonné un peu cette diversité-là. D'autant que pour entraîner des modèles d'analyse d'images comme ça, de toute façon, il faut quand même des jeux de données qui soient massifs, qui soient diversifiés et qui soient de qualité. Donc, ce que je vous montre là, c'est pour vous montrer un peu les jeux d'échelle qui sont en jeu. Ce que vous voyez là, du coup, ça va être cet échantillonnage de l'ensemble du territoire national où on va aller piocher des zones. où on va créer à la main ces cartes d'occupation des sols qui vont nous servir à entraîner nos IA. Chaque point rouge que vous voyez ici, c'est une zone de 1 ou 2 km², à peu près ça, qui, elle, va être annotée par des opérateurs. Là encore, on travaille sur des... Et ce que vous voyez ensuite, le dallage qui est ici, c'est l'échelle à laquelle va travailler le modèle à son apprentissage. Quand on se présente... l'apprentissage se fait en présentant des petites vignettes comme je vous montrais juste avant. Les petites vignettes, c'est ces carrés-là. Et on ne va pas faire saisir des choses à l'échelle de ces petits carrés-là parce que typiquement, en fait, quand vous faites de la saisie, vous voulez pouvoir saisir, par exemple, toute cette parcelle agricole d'un coup. Vous n'allez pas faire une petite zone par petite zone. C'est globalement du gâchis. Bon, donc l'enjeu, il est vraiment d'arriver à avoir à la fois cette finesse dans la description et avoir une nomenclature assez fine sur des résolutions spatiales assez fines, tout en gérant le fait qu'après, on est censé travailler à l'échelle nationale. Mais l'autre chose qu'on voit ici, qui est clé et qui est la raison pour laquelle l'intelligence artificielle est intéressante dans notre cas, c'est que même s'il faut... beaucoup de données pour entraîner, en fait il y a quand même un changement d'échelle énorme entre les volumes de données nécessaires pour entraîner une IA et les volumes de données sur lesquels on applique ensuite cette IA. C'est-à-dire que là, vous allez avoir en gros à peu près 1000 km² au total qui vont être annotés comme ça, ce qui est beaucoup, ça fait des centaines de milliers d'images. Mais ensuite le modèle que vous entraînez, vous l'appliquez tous les 3 ans sur 550 000 km². Donc il y a quand même un facteur 500 ou 1000 selon les cas entre la production de données qu'on fait pour entraîner l'IA et la production de données qu'on fait avec l'IA. Et donc c'est pour ça, ça c'est vraiment le cœur de pourquoi est-ce qu'on utilise l'IA, c'est parce que l'IA nous aide à accélérer la mise en place de nouvelles descriptions du territoire parce qu'elle nous permet cette amplification, ce passage à l'échelle des capacités de description qu'on peut avoir par d'autres moyens. Donc, ça ne fonctionne pas tout seul, pas du tout, mais par contre, ça permet d'aller beaucoup plus vite, plus loin. Pour vous montrer là encore, pour zoomer un peu, parce que ça reste quand même l'enjeu essentiel. Concrètement, quand vous travaillez à faire de la saisie de données, ça ressemble à ça. Vous prenez une image, comme vous voyez en Ausha gauche, ici, encore une photo, autre résolution. Et puis, vous allez essayer de délimiter au préalable des zones un peu homogènes dans leur... ... dans leur colorimétrie, dans leur rendu. Et puis là, vous avez des personnes, vous avez des photos interprètes qui vont saisir dans chacune des zones délimitées ainsi. Donc il y en a des très petites quand vous êtes sur des bâtiments ou des bouts de bâtiments, et des beaucoup plus larges quand vous êtes sur des parcelles. Quelle est la classe, en l'occurrence ? Et une fois que vous avez fait cette carte-là, vous la découpez en vignettes qui sont prêtes à être utilisées dans un apprentissage. Et après, du coup, OK, là je vous ai montré le... la façon dont on fait ces modèles qui nous servent à interpréter les images et à donner des informations d'occupation des sols et derrière cette donnée elle a plein d'usages. Nous on s'en sert directement pour le suivi de l'artificialisation des sols et outiller la politique du zéro artificialisation net mais il y a plein d'autres usages qui peuvent être faits puisque vous avez une description qui est assez fine du territoire dans Ce n'est pas exhaustif, mais en tout cas, vous avez quand même pas mal de thèmes qui sont déjà présents. Et donc, on voit des utilisations qui peuvent être faites de cette même donnée, sans mettre d'autres systèmes. Il y a juste avec les cartes d'occupation des sols que je vous montrais, on voit des choses faites autour de, par nous ou par d'autres, comme vous avez une bonne couche de végétation, par exemple, vous pouvez aller faire des analyses de la nature en ville, vous pouvez aller faire des analyses de continuité écologique, des analyses de... Essayez de distinguer des zones où vous avez un peu du linéaire de végétation et allez chercher les haies ou allez avoir un peu de cartographie sur les bocages. Vous avez là encore une espèce de matière première qui est assez riche avec laquelle vous pouvez aller faire d'autres analyses thématiques sur le territoire qui vous intéresse. Ça, c'est donc le... Cette donnée, ces cartes d'occupation des sols par intelligence artificielle sont diffusées dans un produit qui s'appelle Ausha. Je vous invite vraiment si c'est des choses qui vous intéressent à aller consulter. Tout est en accès libre, couvert gratuit. Vous avez une vue de l'occupation des sols nationale à haute résolution, mais vous pouvez à chaque fois aller récupérer cette donnée sur un département qui vous intéresserait. Ça, c'est une vue typique. Ce dont j'aimerais ensuite vous convaincre, simplement, c'est... que ce que je vous ai présenté c'est général. En fait, je vous ai fait le cas de l'occupation des sols, mais on peut retrouver la même philosophie et la même logique dans plein d'autres sujets de description du territoire. Par exemple, quand on fait de la description 3D, avec le programme Lidar HD notamment, où on va aller acquérir des nuages de points à haute densité, de la même façon, on va récupérer des gros volumes de données, des gros nuages de points, mais pour en faire quelque chose, la plupart du temps, on a besoin d'y mettre une sémantique. On a besoin de savoir dire, ici c'est la végétation, ici c'est le sol, ici c'est les bâtiments, et de pouvoir, une fois qu'on a fait cette classification-là, On récupère par exemple le sol, c'est ce qui nous permet de faire des modèles de terrain qui servent derrière dans, par exemple, des modèles de simulation de près de cru. On veut pouvoir suivre l'écoulement des eaux. Bon, de la même façon, pour obtenir cette classification et affecter à chaque point du nuage de point une classe qui dit qu'est-ce que c'était, sur quoi est-ce que le laser a rebondi ? On va utiliser, entre autres choses, des systèmes d'intelligence artificielle et qui, de la même façon, fonctionnent avec... On va faire cette classification par d'autres moyens sur... des zones du territoire et on va entraîner des modèles qui seront prêts à être appliqués ensuite à l'échelle nationale. Même chose quand on fait de la cartographie forestière et même chose quand on va chercher à faire de la cartographie, par exemple, de parcelles agricoles, où on veut suivre, par exemple, voir sur une année donnée, quelle est la culture qui a été faite sur une parcelle. De la même façon, on va d'abord construire des jeux de données assez significatifs pour entraîner des modèles qui ensuite sont... prêt à passer à l'échelle nationale. A chaque fois, on va avoir des enjeux spécifiques, c'est-à-dire que vous ne pourriez pas faire une bonne cartographie forestière avec juste les cartes que je vous ai montrées juste avant. Si vous voulez distinguer les épicéas, des frênes, des chênes, etc., vous ne l'avez pas avec juste la distinction feuillu-conifère que je vous ai montrée avant. Donc il y a une nouvelle information à amener, donc il y a une nouvelle production de données d'apprentissage à faire, mais la philosophie générale est la même. Et vous allez avoir des enjeux spécifiques aussi que... Parfois, tout ne se verra pas simplement sur les images tous les trois ans que je vous montrais. Donc, il faut aller chercher d'autres images satellites ou des choses comme ça. Mais bon, c'est quand même un peu la même philosophie sur l'utilisation de l'intelligence artificielle. Bon, donc ça, c'est concrètement la place que peuvent prendre les systèmes d'IA dans la description du territoire. Ça ne se fait évidemment pas tout seul. Ça reste des gros enjeux aussi. Les données, c'est la première ressource, peut-être la plus fondamentale. Il y a les enjeux de capacité de calcul aussi, je ne vais pas trop développer là-dessus dans mon intervention. Et puis, il faut quand même des gens. Alors, il faut des talents sur l'intelligence artificielle. En tout cas, quand on développe spécifiquement des modèles comme on peut le faire à l'IGN. Donc ça, ça a été un de nos gros chantiers. Ça a été de recruter et de faire venir du monde sur ces sujets où c'est évidemment très compétitif. Je ne vous l'apprends sans doute pas. mais avec quand même des façons de s'en sortir, puisqu'il y a plein de personnes qui sont intéressées pour venir travailler dans des environnements où on fait de la production de données ouverte, de la science ouverte, des enjeux de transition écologique, etc. Par ailleurs, ce qui est intéressant aussi, c'est que les... Je vous ai exposé un peu... comment on fait ces modèles pour l'occupation des sols, toutes les réutilisations possibles de ces cartes d'occupation des sols par l'intelligence artificielle. Ce qui est intéressant, c'est qu'on voit aussi de plus en plus de réutilisation de toutes les briques intermédiaires qu'on a pu développer pour faire ces cartes d'occupation des sols. À partir d'il y a deux ans, on a commencé à animer des challenges scientifiques, ce qui s'appelle FLAIR. où on a diffusé toutes nos données d'apprentissage, ces 1000 km² que je vous montrais juste avant, on les a diffusées de façon ouverte. C'est nous ce qui nous permettait d'avoir la performance de nos modèles, mais on l'a mis sur la place publique, et avec une interrogation, est-ce qu'il est possible de faire mieux que ce que nous on fait déjà en termes de modèles d'IA sur ce sujet-là ? On a eu des contributions de chercheurs, de laboratoires, qui ont eu... de laboratoires d'entreprise plutôt issus de l'intelligence artificielle, d'autres plutôt issus de la donnée géographique ou de l'aéronautique ou de l'aérospatiale. Il y a tout un écosystème assez varié qui s'est agrégé là-dessus. Et ce qui est assez... Et dont on a tiré parti, les cartes que je vous ai montrées tout à l'heure, elles ont été faites aussi, elles ont été améliorées avec les retours qu'on a pu avoir dans ces challenges-là. La partie qui est importante, en fait, c'est que... la recherche en IA, le développement en IA est en permanence en manque de bons jeux de données, de qualités massifs et suffisamment riches. Donc lorsqu'on diffuse des jeux de données comme ça, en fait... Les données dont on a eu besoin juste pour faire une description nationale de l'occupation des sols sont parmi les principaux jeux de données mondiaux ouverts, accessibles, pertinents pour l'intelligence artificielle sur l'occupation des sols. Donc on peut vite avoir des impacts sur même l'agenda de recherche par l'intermédiaire de ces diffusions de données. Et l'autre, c'était l'exemple typique de ce qu'on faisait avant, le genre de modèle qu'on avait avant de faire ces challenges, et puis le genre de modèle qu'on a. une fois qu'on intègre les apports de ces challenges. Donc la frontière technique et scientifique bouge encore sur ces sujets-là. Et l'autre point, c'est que, en fait, donc ça permet de stimuler la recherche, mais la diffusion des modèles déjà entraînés, la diffusion des données d'apprentissage, elle permet à d'autres qui font leurs propres modèles de les produire plus facilement. Elle permet de leur... de produire notamment d'autres modèles en ayant besoin de moins de données d'apprentissage et de moins de volume de calcul. Donc on diminue les coûts et on diminue les barrières à l'entrée dans ce monde de l'intelligence artificielle pour la description du territoire. Donc ça, ça fait qu'après, on voit un certain nombre d'entreprises qui vont reprendre et repartir des ressources qu'on peut diffuser. Donc là, c'est encore une fois plutôt pour des utilisateurs qui... font eux-mêmes leur description du territoire. Et donc, de fait, si vous souhaitez, si vous avez envie de plonger un peu dans ces sujets-là, c'est possible de vous lancer sur vos propres cartes d'occupation des sols, soit en les faisant à façon sur les images qui vous intéressent, ou en tout cas de redévelopper sur d'autres nomenclatures, puisque toute la stack est en... la pile technologique est en accès ouvert. Vous allez pouvoir récupérer toutes les données ouvertes de l'IGN là-dessus, et puis récupérer les codes, les jeux de données, les méthodes, de toute la façon, aussi bien dans les modèles que les données ont été produites, tout ça est documenté de façon ouverte et permet de réutiliser. J'espère que dans la salle, il y aura directement ou indirectement quelques personnes que ça inspire et donne envie de plonger un peu dans ce monde de l'IA dans le cadre de la déception du territoire. La détection est notamment pour cette base de données et d'occupation du sol. Il y a d'autres usages aussi liés à l'hygiène, mais c'est vrai que c'est celle qui a été en tout cas ces derniers temps la plus impressionnante visuelle. La plus visible aussi peut-être. Elle est emblématique. Voilà. Est-ce qu'il y a des questions ? Non, mais Michel. Merci. J'ai vu la donnée Ausha tout à l'heure. Aujourd'hui, cette donnée Ausha est produite sur une orthophoto à 20 cm. Comment on peut la récupérer finalement pour la réadapter à d'autres résolutions ? Sur d'autres sources d'images, par exemple. Sur d'autres sources d'images, et puis essayer de la réutiliser. Est-ce qu'elle est suffisante ? Est-ce qu'on peut la réinjecter maintenant dans un modèle tel qu'elle est aujourd'hui ? C'est-à-dire qu'il y a la donnée d'entraînement qui a permis de produire le modèle, le modèle a permis de produire la donnée Ausha. Est-ce que finalement l'Horace-Bulta obtenu avec Ausha est suffisant pour réentraîner un modèle ? Alors dans l'idée que vous auriez plutôt un autre capteur avec d'autres caractéristiques et qu'il faudrait entraîner ce modèle avec les labels qui seraient obtenus par Ausha en fait ? Ok. Ça va être compliqué en l'état, à mon avis. Alors, il y a deux ou trois choses différentes dedans. Donc, globalement, on est sur ce thème de les transferts d'apprentissage. Est-ce qu'on peut transférer des modèles d'une situation donnée, une situation qui est caractérisée aussi bien par les propriétés de la donnée d'entrée, le capteur, la zone géographique sur laquelle on était, que... les propriétés de la donnée entre guillemets de sortie, par exemple la nomenclature sur laquelle on va travailler, et donc est-ce qu'on va distinguer juste feuille conifère ou aller plus loin, tout ça peut varier. Et un modèle donné, il fonctionne dans une situation donnée, même si maintenant on a un imaginaire qui est très lié au modèle de langage et on voit des choses très générales, mais en fait ce genre de modèles-là, ils sont effectivement plutôt spécifiques. Donc de base, la réponse quand on change de situation, c'est... il faut réentraîner, mais il y a quand même une part de l'information qui est commune et donc on peut réentraîner en partant pas de zéro, mais en repartant du modèle tel qu'il a été. Donc ça serait pas directement Ausha, ce serait plutôt les modèles qui sont utilisés pour Ausha, qui seraient un bon point de départ pour entraîner, mais il faudrait quand même d'autres données d'apprentissage. Sur la question de est-ce que la donnée produite, qui est Ausha, est suffisante pour entraîner des modèles, est-ce que ça serait des bons labels ? Ça se discute. Ça se discute. C'est pas évident, en tout cas, que... C'est pas évident qu'il y ait beaucoup plus d'informations que dans les données d'apprentissage du départ, puisque quelque part, notre modèle, il a extrait l'information qui était dans les données d'apprentissage au départ, et il la propage sur le reste du territoire, mais donc on recycle un peu toujours la même info. A priori c'est une donnée qui est quand même d'incrante qualité en dessous de la donnée d'apprentissage telle qu'elle a servi là-dessus, mais elle a l'avantage d'être disponible plus largement. Mais dans le cas présent, par ailleurs, il faudrait gérer la mise en correspondance du capteur en question. Les photos n'auraient pas été prises en même temps que celles qu'il y a, donc il y aurait plein de petits écarts qui mettraient pas mal de bruit. Et donc nous, après je termine sur ça, mais on aurait pu se dire à l'IGN, c'est merveilleux, on a déjà un immense patrimoine de données prêts pour entraîner des IA, il n'y a plus rien à faire. Si on essayait d'entraîner des IA directement avec les données des OCS, des occupations des sols historiques qu'on pouvait avoir déjà faites, ça ne marche pas. La donnée était trop généralisée ou alors il y avait des problèmes de recalage entre l'image et la base de données. Et donc il a fallu redescendre et revenir à donner vraiment à même l'image pour arriver à entraîner correctement des modèles.

  • Speaker #1

    Bonjour, merci Mathieu pour ta présentation, c'était très clair. Moi je travaille pour ICI, c'est une société en fait qui utilise déjà de l'IA pour faire à partir de l'image satellite des données relatives à l'environnement, protection de l'environnement. des habitats, la biodiversité, entre autres. On fait partie d'Atalianz. Atalianz, on n'en a pas parlé, parce que ce n'était pas le sujet, mais c'est l'IGN qui permet à des utilisateurs privés de partager, pas des ressources, mais de l'information, de la donnée et de travailler sur des initiatives différentes,

  • Speaker #0

    variées.

  • Speaker #1

    Donc voilà, on se sert aussi, nous, du modèle Flair, des algos qu'on a adaptés, bien sûr, parce qu'elles sont ouvertes. Donc on me demandait tout à l'heure qui pourra le faire. C'est déjà un peu fait, mais il y en a plein d'autres qui le font aussi. et en particulier pour des thématiques de nature en ville. Comptage d'arbres, il y a énormément de programmes de plantation menés par des collectivités ou des villes. Un million d'arbres pour Bordeaux Métropole par exemple. Donc l'idée c'est de pouvoir suivre leur initiative en prenant l'orthophoto de 2020 par exemple ou de 2021, quand ils n'ont pas commencé le programme. Et puis la prochaine ortho, on utilisera les mêmes modèles, les mêmes entraînements, peut-être un petit peu améliorés parce que la résolution sera peut-être un peu différente, mais si c'est la même. On pourra amener des informations sur les arbres, pas le nombre d'arbres parce qu'ils le suivent déjà, pas sur l'état des arbres parce qu'il y en a certains qui se détériorent, d'autres qui poussent bien, d'autres qui poussent moins bien en fonction des contextes pédologiques et autres, mais des indicateurs plus surfaciques de progression des couronnes, des houpiers, etc. Donc c'est très précis, c'est très pratique, et puis c'est l'outil qui travaille pour nous. Voilà, c'est un témoignage.

  • Speaker #0

    Merci. Effectivement, en plus dans ces domaines-là, on a énormément d'intérêt à faire des choses en commun. On partage à la fois des méthodes, des voies des capteurs, le territoire. Donc il y a beaucoup de choses qui peuvent se faire, se partager dans un environnement où par ailleurs, c'est très largement dominé par des très grands acteurs du numérique qui jouent de façon beaucoup plus fermée. Et donc si on veut voir aussi d'autres manières de faire, il faut vraiment... Jouer ce jeu de l'ouverture et de la mise en commun, je suis vraiment heureux d'entendre ce retour d'expérience. Bonjour Alice Sapir, je travaille à Grand Paris Sud-Est Avenir. Je voulais savoir sur la démarche que vous nous avez présentée, combien de temps ça a pris, surtout sur la phase modèle d'apprentissage, et combien de personnes ça a mobilisé, voire est-ce que vous avez sous-traité certaines phases du projet ? Merci.

  • Speaker #1

    Oui, ça prend du temps. Alors ça prend du temps aussi au début parce que c'est là l'occupation des sols, nous c'est notre... premier grand projet industriel d'intelligence artificielle donc autant de vraiment de développement de liés à ça vont aussi tous les temps de l'apprentissage organisationnel et de découverte de ces thématiques là et de on sait pas encore tellement si ça va marcher ou pas et que c'est donc si on refaisait le l'occupation des sols aujourd'hui semble que ce sera un grand un grand plus un grand plus rapide mais du coup on a commencé à faire des premières expérimentations d'intelligence artificielle sur ce thème-là à partir de 2018. Ça faisait suite à des travaux de recherche à partir de, disons, 2016-2017, c'est ça ? Oui, parce que le boom intelligence artificielle en traitement d'images, c'est 2013-2014-2015, donc ça se fait dans ces Ausha. Et après, c'est itératif, donc on a commencé... par des prototypes sur des zones assez restreintes autour du bassin d'Arcachon, sur un département de pilote qui était celui du Gers, avant d'aller produire des modèles nationaux comme je vous ai montré là. Et l'un des facteurs dimensionnants, c'était effectivement la production des données d'apprentissage, où il fallait en faire pas mal. Et donc là, il y a eu aussi un curseur au cours de la vie du projet entre... des premiers développements de jeux de données d'apprentissage plutôt internalisés, notamment tant qu'on ne sait pas encore trop même le genre de données dont on va avoir besoin. Au début d'une saisie, on est dans une espèce de ping-pong entre les équipes plutôt côté IA et la production de données est en train de réajuster les tâches, réaffiner la nomenclature, etc. Et au bout d'un moment, ça se stabilise. Et là, on passe à l'échelle dans la production de données d'apprentissage. Et là, ça a été des moments où on a pu s'externaliser. Sur le nombre de personnes, pareil, ça a bougé au cours du temps. Et puis, les profils sont assez variables entre les profils plus IA, données géographiques, de dev, de photointerprétation. Je ne saurais pas vous dire, en fait, sur le projet Occupation des sols dans son ensemble, combien de personnes ça a mobilisé au total. Sur le volet IA, selon les moments, ça a été peut-être entre... 5 et 10 personnes à peu près, je dirais, là-dessus. Sur vraiment les spécialistes IA, plus des équipes de dev en plus. Et puis, à la fois, on voit un temps assez long, puisque on continue de produire de l'OCSGE, mais l'architecture générale de la chaîne de production s'est quand même stabilisée vers 2021, je dirais. Oui, 2021. Et après, on a eu encore un peu de montée en volume sur les jeux de données d'apprentissage en 2021-2022. Et depuis maintenant, c'est vraiment de la production.

  • Speaker #2

    Bonjour, je suis juste derrière. J'ai le micro. Merci. Alexandra Henry de Ciradel. On est filiale d'ENGIE. Je prends la parole à double emploi. Témoignage d'un de nos clients qui est Noisy Legrand. et qui a utilisé notre plateforme pour identifier les îlots de chaleur urbains de son territoire. C'est un témoignage doublé pour rebondir sur votre propos sur la temporalité de la data. Parce qu'à partir du moment où, j'exagère un peu, mais où la data est livrée, elle est presque déjà obsolète. On parlait tout à l'heure, en tout cas vous aviez mentionné le fait de mettre à jour vos données tous les trois ans, me semble-t-il. La question est comment est-ce que justement cette temporalité de trois ans a été fixée et à quel moment en fait il est nécessaire de remettre en question le fait de repasser sur des images ? Enfin voilà, comment on se positionne ?

  • Speaker #1

    La temporalité de trois ans, elle est liée à l'acquisition, elle est liée à la temporalité à laquelle on fait la photo. Et donc pour le coup, c'est un... équilibre entre les usages qu'il va y avoir. Ce n'est pas au niveau de l'occupation des sols en elle-même, c'est vraiment au niveau de... de la base d'image et à quelle fréquence on estime qu'il y a besoin d'avoir cette image à haute résolution, avec des contraintes économiques fortes, puisqu'il faut faire voler des avions sur tout le territoire, dans des plages de temps qui sont resserrées, puisqu'on va chercher à quand même, je vous ai dit mars, juin, mais en fait on va rester dans ces plages-là, pour faire voler des avions, pour quand même avoir de la végétation en feuille. et on peut le faire que les jours de beau temps, et on peut, etc. Donc quand on met ça et les équipements, on va avoir un nombre d'avions limité. Bon, ça, ça va dimensionner la fréquence à laquelle on fait l'image. Ça ne répond pas complètement à la question, puisque, dans ce cas, on peut se dire, ça déporte la question sur pourquoi est-ce qu'on s'appuie sur l'analyse de ces images-là pour le suivi de l'occupation des sols. On pourrait du coup aller chercher ailleurs si on estime qu'il faut des pas de temps plus fins. Dans le cas de la forêt ou de la cartographie agricole, on va chercher de l'image satellite aussi. qui a de la revisite tous les quelques jours, parce que pour différencier des types de végétation, voir ce qui se passe à l'intérieur d'une année, c'est très important. Vous allez voir une céréale de printemps, elle va avoir une pousse au printemps. Du coup, vous allez voir son activité de photosynthèse concentrée à cet endroit-là. Et donc, on a besoin de ça. Par contre, c'est beaucoup plus dégradé en résolution spatiale. C'est 10 mètres de résolution versus 20 centimètres. Et parfois, on va mixer les deux. Donc, dans le cas de l'occupation des sols, Après, tout dépend de ce qui se passe en aval. La donnée, elle sert là, en l'occurrence, elle va servir à mesurer l'artificialisation, à outiller un dialogue entre l'État et les collectivités, à outiller des décisions d'aménagement qui ne sont pas non plus sur des pas de temps de trois semaines. Donc, c'est proportionné à ça, en fait, ces enjeux de mesure. Non, pour l'instant, on ne fait pas de choses comme ça. La question se pose un peu, pour l'instant, de façon un peu théorique, mais sur le LIDAR. On a fait une première couverture LIDAR nationale. Est-ce que la mise à jour du LIDAR se fait avec une stratégie ciblée comme ça ? Mais parce que sur l'image, on est sur une logique vraiment exhaustive. Là, pour le coup, on veut la photo nationale tous les trois ans.

  • Speaker #3

    C'est Laurie, je pense, en tout cas Michel, côté institut, pour compléter. C'est-à-dire que les trois à quatre ans qui sont la fréquence, et je ne suis pas du tout spécialiste, mais... parce que pas de l'urbanisme justement et de l'aménagement. Mais ce que j'entends régulièrement de mes collègues, c'est le temps de la transformation du territoire. Et donc, c'est le temps logique. Après, et on l'évoquait parce qu'il y a des grands projets d'aménagement, notamment en Ile-de-France, on est ici au cœur, Nicolas Bockel disait, d'un territoire qui se transforme à pas de courses, Saint-Ouen également, etc. Enfin, toutes ces zones-là, où oui, se pose la question, et moi je trouve ça intéressant la réflexion de se dire, est-ce que... On ne déterminerait pas aussi grâce à l'IA des zones où on voit que ça commence à bouger et se dire on fait une repasse plus régulière.

  • Speaker #4

    Oui, effectivement, c'est une des questions qu'on s'est posé avec Michel sur la mise à jour de notre mode d'occupation du sol et de ce qu'on pouvait faire dans les traitements avec ou de l'aérien ou du satellite. Effectivement, nous, ce pas de temps, en tout cas en Ile-de-France, il nous convenait assez bien de tous les quatre ans, en tout cas pour le mode d'occupation du sol. Mais c'est vrai qu'on s'est interrogé à un moment donné de ne pas avoir de temps en temps des zooms dans la détection de changements ou des espèces d'alertes à grosse maille. De se dire, c'est là que ça bouge. Et qu'au moins pour les photointerprètes qui vont produire le millésime suivant, ils aient une attention particulière sur ces endroits où on sent bien qu'il y a des choses qui sont sorties. Ou dont l'occupation du sol a été profondément modifiée. Merci beaucoup Mathieu Porte. Merci à l'IGN.

  • Speaker #1

    Sous

Share

Embed

You may also like

Description

Mathieu Porte, coordinateur des activités IA à l’Institut National de l’Information Géographique et Forestière (IGN), présente l’utilisation de l’intelligence artificielle (IA) pour décrire et suivre les transformations du territoire français, dans un contexte de bouleversements écologiques rapides. L’objectif est de fournir des outils aux pouvoirs publics et à la société pour comprendre et piloter ces changements, comme l’artificialisation des sols, l’évolution des forêts ou du trait de côte.

Il illustre cela avec le suivi de l’occupation des sols, basé sur des orthophotos aériennes haute résolution (20 cm/pixel) prises tous les trois ans par l’IGN. Grâce à l’IA, notamment l’apprentissage profond, ces images sont "sémantisées" : chaque pixel est classé (bâtiments, routes, végétation, etc.) dans une nomenclature d’environ 16 catégories. Bien que perfectible (limites comme les zones masquées par les arbres ou petites erreurs de classification), cette méthode marque un progrès significatif par rapport à une simple image brute, permettant un suivi fin et régulier à l’échelle nationale.

Le processus repose sur des jeux de données d’apprentissage massifs, créés manuellement par des photo-interprètes sur des zones variées (urbaines, agricoles, forestières), pour entraîner des modèles IA capables de généraliser à tout le territoire. L’enjeu principal est de gérer la diversité du réel (climats, saisons, types de bâtiments) pour assurer la robustesse des modèles. Environ 1 000 km² de données annotées permettent de cartographier 550 000 km², soit un effet d’amplification considérable, rendant l’IA essentielle pour accélérer et scaler ces descriptions.

Les résultats, diffusés via l'outil "CoSIA" (Couverture du Sol par Intelligence Artificielle) en accès libre, servent à suivre l’artificialisation des sols (politique "zéro artificialisation nette") ou à des analyses thématiques (nature en ville, continuité écologique). Cette approche est adaptable à d’autres domaines, comme la cartographie 3D (LIDAR HD) ou agricole, avec la même philosophie : produire des données d’entraînement pour appliquer l’IA à grande échelle.

Les échanges révèlent des usages concrets (comptage d’arbres par des collectivités), des défis (temporalité des données, fixée à trois ans par les contraintes de prise de vue aérienne), et des perspectives (détection ciblée des changements). L’IGN a mobilisé 5 à 10 spécialistes IA, avec des phases externalisées, sur un projet démarré en 2018 et stabilisé en 2021. Enfin, les données et modèles ouverts (via des challenges comme FLAIR) stimulent la recherche et réduisent les barrières à l’entrée pour d’autres acteurs.


__


La semaine francilienne de la donnée et de l'IA est un événement organisé par la Région Île-de-France, L'Institut Paris Region et Île-de-France Mobilités. L'édition 2025 était proposée en partenariat avec le Département du Val-de-Marne.


Consultez toutes les ressources en ligne sur notre site www.institutparisregion.fr



Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

  • Speaker #0

    Bonjour à toutes et à tous, Mathieu Porte, je suis coordinateur des activités d'intelligence artificielle de l'IGN, l'Institut National de l'Information Géographique et Forestière. Et effectivement, après avoir parlé de l'IA dans toute l'ampleur que le sujet peut avoir, et qui peut toujours être un peu vertigineux, puisque entre l'ampleur technique, scientifique, géostratégique, écologique que le sujet a, j'ai essayé d'atterrir sur... quelques cas un peu concrets de comment l'IA prend place dans nos sujets, en l'occurrence nous, sur ces sujets de description du territoire et de description des transformations du territoire. Je ne vais pas vous faire une vue exhaustive de tout ce qu'on peut faire avec de l'intelligence artificielle pour la description du territoire. Là encore, on s'y perdrait, mais je vais essayer de vous zoomer vraiment sur un cas et de vous montrer un peu les... Tout ce que ça recouvre et les implications que ça a. L'enjeu, avant même d'arriver sur l'intelligence artificielle, il y a une intention, il y a un but à tout ça. C'est-à-dire que la situation dans laquelle on est, c'est celle de transformation très rapide du territoire, de bouleversements écologiques, et d'un besoin d'outiller les pouvoirs publics, la société en général, sur ce qui est en train d'advenir. Et donc de pouvoir avoir... des descriptions qui soient fines et régulières du territoire national et des transformations qui se passent dessus. L'exemple typique étant, par exemple, le suivi de l'artificialisation des sols. On veut pouvoir suivre, mesurer les consommations d'espace qui se font au cours du temps pour être capable de piloter la transition écologique à un niveau assez fin dans l'espace et dans le temps. Mais on veut aussi pouvoir suivre l'évolution du trait de côte, l'évolution des forêts qui sont bien chalutées par le changement climatique. Et donc, ce que je vais essayer de vous montrer, c'est comment, dans ce contexte-là, pour produire ces descriptions qui sont fines et régulières du territoire, l'IA nous aide, et elle nous aide à accélérer la mise en place de ces nouvelles descriptions. Et donc, on va tout de suite prendre un exemple qui va nous servir de fil rouge, et qui est le suivi de l'occupation des sols. Ce que vous voyez là, c'est l'archétype de... ce qu'on obtient avec les techniques un peu standards aujourd'hui. Alors on n'est pas sur les techniques d'analyse de langage, d'IA générative, c'est les systèmes qui sont plutôt arrivés à partir de la fin des années 2010, sur l'analyse d'images, qui continuent de bouger pas mal avec les avancées de l'apprentissage profond. Mais donc ce que vous voyez, c'est typique de ce qu'on arrive à obtenir dans les bonnes conditions avec les techniques d'intelligence artificielle. Donc ce que vous voyez là, c'est une photo en fond d'image, une photo aérienne haute résolution, et les photos... les orthophotos prises par l'IGN et diffusées par l'IGN sur le territoire national tous les trois ans. Donc vous avez une résolution de 20 centimètres sur le pixel de l'image. Donc vous avez une vue assez fine spatialement de ce qui se passe. Donc vous avez une image sur une zone urbaine. Et puis, ce que vous voyez sur la couche supérieure, c'est une sémantisation de cette image. Si vous avez une analyse, une interprétation de ce qui... se trouve sur l'image du point de vue de l'occupation des sols, du point de vue de la couverture des sols. Vous avez dit en chaque pixel, ici j'ai du bâtiment, ici j'ai des zones imperméables, des routes, de la végétation, quel type de végétation, des pelouses, des feuillus, des conifères, etc. Et donc vous avez affecté à chacun des pixels de cette image, une classe, en l'occurrence là, dans une nomenclature un peu riche, de 16 classes environ. Et je vous dis, ça c'est typique. C'est... plein de défauts, mais bien aussi quand même. Donc il y a des défauts évidemment, vous allez avoir des défauts un peu insurmontables, c'est-à-dire que vous ne voyez pas ce qui se trouve sous les arbres par exemple, et ça c'est une limite intrinsèque à l'image, vous ne pouvez pas inventer les choses, vous ne savez pas s'il y a une voiture en dessous de l'arbre, ou si jamais il y avait un petit bâtiment sous toute cette masse d'arbres, vous ne le voyez pas, il n'y a pas de sorcellerie là-dessus. Vous pouvez avoir des petits défauts de détection. On peut avoir de temps en temps un bout de pelouse qui est pris pour un peu de feuillu. Vous pouvez avoir des petites confusions aux limites, par exemple des pixels de bord qui ne sont pas exactement au bon endroit sur les bâtiments, ou des bords qui ne sont pas tout à fait droits, ou vous pouvez avoir des petites discontinuités à certains endroits dans les réseaux. OK, vous allez avoir plein de petits défauts comme ça. On peut arriver à vivre avec et les traiter ensuite. Mais par contre, vous avez fait quand même un pas de géant par rapport à quand vous aviez juste une image. Vous êtes en termes d'interprétation et de contenu et de ce que vous allez pouvoir en faire. Vous êtes vraiment beaucoup plus avancé et vous allez imaginer que vous ayez ça effectivement partout tous les trois ans. En l'occurrence, à chaque fois que vous avez une image, vous avez cette... analyse là, vous allez pouvoir commencer à suivre les phénomènes qui se passent sur le territoire national. Donc ça, je vous disais, c'est typique. On va multiplier les exemples de ce genre de choses là. Comment on arrive à avoir ça ? On va retomber sur l'un des principaux enjeux de l'intelligence artificielle qui est la donnée. Et cette donnée, en l'occurrence, on en parlait un peu juste avant, dans notre cas, souvent il va falloir la produire, c'est-à-dire même la donnée qui nous sert à entraîner les modèles et pas donner l'avance. Et donc, comment on fait pour obtenir ce que vous voyez ici ? Vous retrouvez des images telles qu'elles se présentent aux modèles qu'on cherche à entraîner. Et là, vous avez ce qui va être les sorties des modèles qu'on voyait juste avant sur cette carte. Bon, la façon de faire, c'est classique en apprentissage machine, mais c'est de vous aller créer des grands jeux de données. des grandes bases d'exemples corrigés, d'exercices corrigés. Vous allez faire plein de petites vignettes, de petites images comme ça, en l'occurrence avec pas mal d'infos, puisque vous avez plusieurs canaux, du rouge, du vert, du bleu, de l'infrarouge, des modèles d'élévation. Donc ça, c'est une image que vous allez donner en entrée de votre modèle. Et puis vous allez, sur ces échantillons-là, lui donner la solution. Vous allez dire, en fait, le jour où on te présente cette image-là, il faut que la carte de couverture des sols qui correspond, c'est ça. Donc ça, c'est produit par des photo interprètes, c'est produit par des personnes qui vont faire se corriger là, entre guillemets, sur ces images. Et puis, on va le faire sur des zones urbaines, des zones agricoles, etc. Et donc, vous allez avoir votre modèle qui est entraîné, optimisé pour quand on lui présente ces images-là, il donne cette solution-là et il apprend au passage quelque chose qui sera prêt à être transposé sur de nouvelles images qui vont se généraliser. Je ne ferai pas toute... plus de théories de l'apprentissage machine là-dessus, mais en tout cas la logique c'est celle-là, c'est on fait des jeux de données d'apprentissage qui nous permettent d'entraîner des modèles qui sont prêts à être appliqués sur de nouvelles images ensuite. Et en fait, le vrai enjeu quand on travaille sur ce sujet-là, quand on fait de l'IA pour l'analyse de l'occupation des sols sur des images aériennes, en fait c'est ça, c'est... La difficulté n'est pas d'en arriver à avoir un modèle qui fait quelque chose comme je vous ai montré sur la première salle. La difficulté, il est d'avoir un modèle qui marche sur tout le territoire national et qui arrive à marcher sur des zones urbaines, sur des zones forestières, sur des zones agricoles, qui arrive à fonctionner même dans des zones forestières, sur la forêt des Vosges ou sur le littoral méditerranéen, qui arrive à identifier des bâtiments, qu'ils soient en toit, en tuile ou en toit, en ardoise. etc. qui arrivent à fonctionner alors que les photos peuvent avoir été prises en mois de mars, au mois de juin. Même la végétation, elle n'est pas du tout dans le même état, par exemple, entre le mois de mars et le mois de juin, etc. Donc la vraie difficulté, elle est celle-là. Il faut que vos modèles aient été exposés à toute cette richesse du monde réel pour avoir une chance de s'en sortir lorsque vous allez ensuite chercher à les appliquer, comme c'est notre cas, à grande échelle. Nous, ça va être à l'échelle nationale, mais même si vous travaillez à l'échelle... d'une collectivité plus limitée, il faut quand même avoir échantillonné un peu cette diversité-là. D'autant que pour entraîner des modèles d'analyse d'images comme ça, de toute façon, il faut quand même des jeux de données qui soient massifs, qui soient diversifiés et qui soient de qualité. Donc, ce que je vous montre là, c'est pour vous montrer un peu les jeux d'échelle qui sont en jeu. Ce que vous voyez là, du coup, ça va être cet échantillonnage de l'ensemble du territoire national où on va aller piocher des zones. où on va créer à la main ces cartes d'occupation des sols qui vont nous servir à entraîner nos IA. Chaque point rouge que vous voyez ici, c'est une zone de 1 ou 2 km², à peu près ça, qui, elle, va être annotée par des opérateurs. Là encore, on travaille sur des... Et ce que vous voyez ensuite, le dallage qui est ici, c'est l'échelle à laquelle va travailler le modèle à son apprentissage. Quand on se présente... l'apprentissage se fait en présentant des petites vignettes comme je vous montrais juste avant. Les petites vignettes, c'est ces carrés-là. Et on ne va pas faire saisir des choses à l'échelle de ces petits carrés-là parce que typiquement, en fait, quand vous faites de la saisie, vous voulez pouvoir saisir, par exemple, toute cette parcelle agricole d'un coup. Vous n'allez pas faire une petite zone par petite zone. C'est globalement du gâchis. Bon, donc l'enjeu, il est vraiment d'arriver à avoir à la fois cette finesse dans la description et avoir une nomenclature assez fine sur des résolutions spatiales assez fines, tout en gérant le fait qu'après, on est censé travailler à l'échelle nationale. Mais l'autre chose qu'on voit ici, qui est clé et qui est la raison pour laquelle l'intelligence artificielle est intéressante dans notre cas, c'est que même s'il faut... beaucoup de données pour entraîner, en fait il y a quand même un changement d'échelle énorme entre les volumes de données nécessaires pour entraîner une IA et les volumes de données sur lesquels on applique ensuite cette IA. C'est-à-dire que là, vous allez avoir en gros à peu près 1000 km² au total qui vont être annotés comme ça, ce qui est beaucoup, ça fait des centaines de milliers d'images. Mais ensuite le modèle que vous entraînez, vous l'appliquez tous les 3 ans sur 550 000 km². Donc il y a quand même un facteur 500 ou 1000 selon les cas entre la production de données qu'on fait pour entraîner l'IA et la production de données qu'on fait avec l'IA. Et donc c'est pour ça, ça c'est vraiment le cœur de pourquoi est-ce qu'on utilise l'IA, c'est parce que l'IA nous aide à accélérer la mise en place de nouvelles descriptions du territoire parce qu'elle nous permet cette amplification, ce passage à l'échelle des capacités de description qu'on peut avoir par d'autres moyens. Donc, ça ne fonctionne pas tout seul, pas du tout, mais par contre, ça permet d'aller beaucoup plus vite, plus loin. Pour vous montrer là encore, pour zoomer un peu, parce que ça reste quand même l'enjeu essentiel. Concrètement, quand vous travaillez à faire de la saisie de données, ça ressemble à ça. Vous prenez une image, comme vous voyez en Ausha gauche, ici, encore une photo, autre résolution. Et puis, vous allez essayer de délimiter au préalable des zones un peu homogènes dans leur... ... dans leur colorimétrie, dans leur rendu. Et puis là, vous avez des personnes, vous avez des photos interprètes qui vont saisir dans chacune des zones délimitées ainsi. Donc il y en a des très petites quand vous êtes sur des bâtiments ou des bouts de bâtiments, et des beaucoup plus larges quand vous êtes sur des parcelles. Quelle est la classe, en l'occurrence ? Et une fois que vous avez fait cette carte-là, vous la découpez en vignettes qui sont prêtes à être utilisées dans un apprentissage. Et après, du coup, OK, là je vous ai montré le... la façon dont on fait ces modèles qui nous servent à interpréter les images et à donner des informations d'occupation des sols et derrière cette donnée elle a plein d'usages. Nous on s'en sert directement pour le suivi de l'artificialisation des sols et outiller la politique du zéro artificialisation net mais il y a plein d'autres usages qui peuvent être faits puisque vous avez une description qui est assez fine du territoire dans Ce n'est pas exhaustif, mais en tout cas, vous avez quand même pas mal de thèmes qui sont déjà présents. Et donc, on voit des utilisations qui peuvent être faites de cette même donnée, sans mettre d'autres systèmes. Il y a juste avec les cartes d'occupation des sols que je vous montrais, on voit des choses faites autour de, par nous ou par d'autres, comme vous avez une bonne couche de végétation, par exemple, vous pouvez aller faire des analyses de la nature en ville, vous pouvez aller faire des analyses de continuité écologique, des analyses de... Essayez de distinguer des zones où vous avez un peu du linéaire de végétation et allez chercher les haies ou allez avoir un peu de cartographie sur les bocages. Vous avez là encore une espèce de matière première qui est assez riche avec laquelle vous pouvez aller faire d'autres analyses thématiques sur le territoire qui vous intéresse. Ça, c'est donc le... Cette donnée, ces cartes d'occupation des sols par intelligence artificielle sont diffusées dans un produit qui s'appelle Ausha. Je vous invite vraiment si c'est des choses qui vous intéressent à aller consulter. Tout est en accès libre, couvert gratuit. Vous avez une vue de l'occupation des sols nationale à haute résolution, mais vous pouvez à chaque fois aller récupérer cette donnée sur un département qui vous intéresserait. Ça, c'est une vue typique. Ce dont j'aimerais ensuite vous convaincre, simplement, c'est... que ce que je vous ai présenté c'est général. En fait, je vous ai fait le cas de l'occupation des sols, mais on peut retrouver la même philosophie et la même logique dans plein d'autres sujets de description du territoire. Par exemple, quand on fait de la description 3D, avec le programme Lidar HD notamment, où on va aller acquérir des nuages de points à haute densité, de la même façon, on va récupérer des gros volumes de données, des gros nuages de points, mais pour en faire quelque chose, la plupart du temps, on a besoin d'y mettre une sémantique. On a besoin de savoir dire, ici c'est la végétation, ici c'est le sol, ici c'est les bâtiments, et de pouvoir, une fois qu'on a fait cette classification-là, On récupère par exemple le sol, c'est ce qui nous permet de faire des modèles de terrain qui servent derrière dans, par exemple, des modèles de simulation de près de cru. On veut pouvoir suivre l'écoulement des eaux. Bon, de la même façon, pour obtenir cette classification et affecter à chaque point du nuage de point une classe qui dit qu'est-ce que c'était, sur quoi est-ce que le laser a rebondi ? On va utiliser, entre autres choses, des systèmes d'intelligence artificielle et qui, de la même façon, fonctionnent avec... On va faire cette classification par d'autres moyens sur... des zones du territoire et on va entraîner des modèles qui seront prêts à être appliqués ensuite à l'échelle nationale. Même chose quand on fait de la cartographie forestière et même chose quand on va chercher à faire de la cartographie, par exemple, de parcelles agricoles, où on veut suivre, par exemple, voir sur une année donnée, quelle est la culture qui a été faite sur une parcelle. De la même façon, on va d'abord construire des jeux de données assez significatifs pour entraîner des modèles qui ensuite sont... prêt à passer à l'échelle nationale. A chaque fois, on va avoir des enjeux spécifiques, c'est-à-dire que vous ne pourriez pas faire une bonne cartographie forestière avec juste les cartes que je vous ai montrées juste avant. Si vous voulez distinguer les épicéas, des frênes, des chênes, etc., vous ne l'avez pas avec juste la distinction feuillu-conifère que je vous ai montrée avant. Donc il y a une nouvelle information à amener, donc il y a une nouvelle production de données d'apprentissage à faire, mais la philosophie générale est la même. Et vous allez avoir des enjeux spécifiques aussi que... Parfois, tout ne se verra pas simplement sur les images tous les trois ans que je vous montrais. Donc, il faut aller chercher d'autres images satellites ou des choses comme ça. Mais bon, c'est quand même un peu la même philosophie sur l'utilisation de l'intelligence artificielle. Bon, donc ça, c'est concrètement la place que peuvent prendre les systèmes d'IA dans la description du territoire. Ça ne se fait évidemment pas tout seul. Ça reste des gros enjeux aussi. Les données, c'est la première ressource, peut-être la plus fondamentale. Il y a les enjeux de capacité de calcul aussi, je ne vais pas trop développer là-dessus dans mon intervention. Et puis, il faut quand même des gens. Alors, il faut des talents sur l'intelligence artificielle. En tout cas, quand on développe spécifiquement des modèles comme on peut le faire à l'IGN. Donc ça, ça a été un de nos gros chantiers. Ça a été de recruter et de faire venir du monde sur ces sujets où c'est évidemment très compétitif. Je ne vous l'apprends sans doute pas. mais avec quand même des façons de s'en sortir, puisqu'il y a plein de personnes qui sont intéressées pour venir travailler dans des environnements où on fait de la production de données ouverte, de la science ouverte, des enjeux de transition écologique, etc. Par ailleurs, ce qui est intéressant aussi, c'est que les... Je vous ai exposé un peu... comment on fait ces modèles pour l'occupation des sols, toutes les réutilisations possibles de ces cartes d'occupation des sols par l'intelligence artificielle. Ce qui est intéressant, c'est qu'on voit aussi de plus en plus de réutilisation de toutes les briques intermédiaires qu'on a pu développer pour faire ces cartes d'occupation des sols. À partir d'il y a deux ans, on a commencé à animer des challenges scientifiques, ce qui s'appelle FLAIR. où on a diffusé toutes nos données d'apprentissage, ces 1000 km² que je vous montrais juste avant, on les a diffusées de façon ouverte. C'est nous ce qui nous permettait d'avoir la performance de nos modèles, mais on l'a mis sur la place publique, et avec une interrogation, est-ce qu'il est possible de faire mieux que ce que nous on fait déjà en termes de modèles d'IA sur ce sujet-là ? On a eu des contributions de chercheurs, de laboratoires, qui ont eu... de laboratoires d'entreprise plutôt issus de l'intelligence artificielle, d'autres plutôt issus de la donnée géographique ou de l'aéronautique ou de l'aérospatiale. Il y a tout un écosystème assez varié qui s'est agrégé là-dessus. Et ce qui est assez... Et dont on a tiré parti, les cartes que je vous ai montrées tout à l'heure, elles ont été faites aussi, elles ont été améliorées avec les retours qu'on a pu avoir dans ces challenges-là. La partie qui est importante, en fait, c'est que... la recherche en IA, le développement en IA est en permanence en manque de bons jeux de données, de qualités massifs et suffisamment riches. Donc lorsqu'on diffuse des jeux de données comme ça, en fait... Les données dont on a eu besoin juste pour faire une description nationale de l'occupation des sols sont parmi les principaux jeux de données mondiaux ouverts, accessibles, pertinents pour l'intelligence artificielle sur l'occupation des sols. Donc on peut vite avoir des impacts sur même l'agenda de recherche par l'intermédiaire de ces diffusions de données. Et l'autre, c'était l'exemple typique de ce qu'on faisait avant, le genre de modèle qu'on avait avant de faire ces challenges, et puis le genre de modèle qu'on a. une fois qu'on intègre les apports de ces challenges. Donc la frontière technique et scientifique bouge encore sur ces sujets-là. Et l'autre point, c'est que, en fait, donc ça permet de stimuler la recherche, mais la diffusion des modèles déjà entraînés, la diffusion des données d'apprentissage, elle permet à d'autres qui font leurs propres modèles de les produire plus facilement. Elle permet de leur... de produire notamment d'autres modèles en ayant besoin de moins de données d'apprentissage et de moins de volume de calcul. Donc on diminue les coûts et on diminue les barrières à l'entrée dans ce monde de l'intelligence artificielle pour la description du territoire. Donc ça, ça fait qu'après, on voit un certain nombre d'entreprises qui vont reprendre et repartir des ressources qu'on peut diffuser. Donc là, c'est encore une fois plutôt pour des utilisateurs qui... font eux-mêmes leur description du territoire. Et donc, de fait, si vous souhaitez, si vous avez envie de plonger un peu dans ces sujets-là, c'est possible de vous lancer sur vos propres cartes d'occupation des sols, soit en les faisant à façon sur les images qui vous intéressent, ou en tout cas de redévelopper sur d'autres nomenclatures, puisque toute la stack est en... la pile technologique est en accès ouvert. Vous allez pouvoir récupérer toutes les données ouvertes de l'IGN là-dessus, et puis récupérer les codes, les jeux de données, les méthodes, de toute la façon, aussi bien dans les modèles que les données ont été produites, tout ça est documenté de façon ouverte et permet de réutiliser. J'espère que dans la salle, il y aura directement ou indirectement quelques personnes que ça inspire et donne envie de plonger un peu dans ce monde de l'IA dans le cadre de la déception du territoire. La détection est notamment pour cette base de données et d'occupation du sol. Il y a d'autres usages aussi liés à l'hygiène, mais c'est vrai que c'est celle qui a été en tout cas ces derniers temps la plus impressionnante visuelle. La plus visible aussi peut-être. Elle est emblématique. Voilà. Est-ce qu'il y a des questions ? Non, mais Michel. Merci. J'ai vu la donnée Ausha tout à l'heure. Aujourd'hui, cette donnée Ausha est produite sur une orthophoto à 20 cm. Comment on peut la récupérer finalement pour la réadapter à d'autres résolutions ? Sur d'autres sources d'images, par exemple. Sur d'autres sources d'images, et puis essayer de la réutiliser. Est-ce qu'elle est suffisante ? Est-ce qu'on peut la réinjecter maintenant dans un modèle tel qu'elle est aujourd'hui ? C'est-à-dire qu'il y a la donnée d'entraînement qui a permis de produire le modèle, le modèle a permis de produire la donnée Ausha. Est-ce que finalement l'Horace-Bulta obtenu avec Ausha est suffisant pour réentraîner un modèle ? Alors dans l'idée que vous auriez plutôt un autre capteur avec d'autres caractéristiques et qu'il faudrait entraîner ce modèle avec les labels qui seraient obtenus par Ausha en fait ? Ok. Ça va être compliqué en l'état, à mon avis. Alors, il y a deux ou trois choses différentes dedans. Donc, globalement, on est sur ce thème de les transferts d'apprentissage. Est-ce qu'on peut transférer des modèles d'une situation donnée, une situation qui est caractérisée aussi bien par les propriétés de la donnée d'entrée, le capteur, la zone géographique sur laquelle on était, que... les propriétés de la donnée entre guillemets de sortie, par exemple la nomenclature sur laquelle on va travailler, et donc est-ce qu'on va distinguer juste feuille conifère ou aller plus loin, tout ça peut varier. Et un modèle donné, il fonctionne dans une situation donnée, même si maintenant on a un imaginaire qui est très lié au modèle de langage et on voit des choses très générales, mais en fait ce genre de modèles-là, ils sont effectivement plutôt spécifiques. Donc de base, la réponse quand on change de situation, c'est... il faut réentraîner, mais il y a quand même une part de l'information qui est commune et donc on peut réentraîner en partant pas de zéro, mais en repartant du modèle tel qu'il a été. Donc ça serait pas directement Ausha, ce serait plutôt les modèles qui sont utilisés pour Ausha, qui seraient un bon point de départ pour entraîner, mais il faudrait quand même d'autres données d'apprentissage. Sur la question de est-ce que la donnée produite, qui est Ausha, est suffisante pour entraîner des modèles, est-ce que ça serait des bons labels ? Ça se discute. Ça se discute. C'est pas évident, en tout cas, que... C'est pas évident qu'il y ait beaucoup plus d'informations que dans les données d'apprentissage du départ, puisque quelque part, notre modèle, il a extrait l'information qui était dans les données d'apprentissage au départ, et il la propage sur le reste du territoire, mais donc on recycle un peu toujours la même info. A priori c'est une donnée qui est quand même d'incrante qualité en dessous de la donnée d'apprentissage telle qu'elle a servi là-dessus, mais elle a l'avantage d'être disponible plus largement. Mais dans le cas présent, par ailleurs, il faudrait gérer la mise en correspondance du capteur en question. Les photos n'auraient pas été prises en même temps que celles qu'il y a, donc il y aurait plein de petits écarts qui mettraient pas mal de bruit. Et donc nous, après je termine sur ça, mais on aurait pu se dire à l'IGN, c'est merveilleux, on a déjà un immense patrimoine de données prêts pour entraîner des IA, il n'y a plus rien à faire. Si on essayait d'entraîner des IA directement avec les données des OCS, des occupations des sols historiques qu'on pouvait avoir déjà faites, ça ne marche pas. La donnée était trop généralisée ou alors il y avait des problèmes de recalage entre l'image et la base de données. Et donc il a fallu redescendre et revenir à donner vraiment à même l'image pour arriver à entraîner correctement des modèles.

  • Speaker #1

    Bonjour, merci Mathieu pour ta présentation, c'était très clair. Moi je travaille pour ICI, c'est une société en fait qui utilise déjà de l'IA pour faire à partir de l'image satellite des données relatives à l'environnement, protection de l'environnement. des habitats, la biodiversité, entre autres. On fait partie d'Atalianz. Atalianz, on n'en a pas parlé, parce que ce n'était pas le sujet, mais c'est l'IGN qui permet à des utilisateurs privés de partager, pas des ressources, mais de l'information, de la donnée et de travailler sur des initiatives différentes,

  • Speaker #0

    variées.

  • Speaker #1

    Donc voilà, on se sert aussi, nous, du modèle Flair, des algos qu'on a adaptés, bien sûr, parce qu'elles sont ouvertes. Donc on me demandait tout à l'heure qui pourra le faire. C'est déjà un peu fait, mais il y en a plein d'autres qui le font aussi. et en particulier pour des thématiques de nature en ville. Comptage d'arbres, il y a énormément de programmes de plantation menés par des collectivités ou des villes. Un million d'arbres pour Bordeaux Métropole par exemple. Donc l'idée c'est de pouvoir suivre leur initiative en prenant l'orthophoto de 2020 par exemple ou de 2021, quand ils n'ont pas commencé le programme. Et puis la prochaine ortho, on utilisera les mêmes modèles, les mêmes entraînements, peut-être un petit peu améliorés parce que la résolution sera peut-être un peu différente, mais si c'est la même. On pourra amener des informations sur les arbres, pas le nombre d'arbres parce qu'ils le suivent déjà, pas sur l'état des arbres parce qu'il y en a certains qui se détériorent, d'autres qui poussent bien, d'autres qui poussent moins bien en fonction des contextes pédologiques et autres, mais des indicateurs plus surfaciques de progression des couronnes, des houpiers, etc. Donc c'est très précis, c'est très pratique, et puis c'est l'outil qui travaille pour nous. Voilà, c'est un témoignage.

  • Speaker #0

    Merci. Effectivement, en plus dans ces domaines-là, on a énormément d'intérêt à faire des choses en commun. On partage à la fois des méthodes, des voies des capteurs, le territoire. Donc il y a beaucoup de choses qui peuvent se faire, se partager dans un environnement où par ailleurs, c'est très largement dominé par des très grands acteurs du numérique qui jouent de façon beaucoup plus fermée. Et donc si on veut voir aussi d'autres manières de faire, il faut vraiment... Jouer ce jeu de l'ouverture et de la mise en commun, je suis vraiment heureux d'entendre ce retour d'expérience. Bonjour Alice Sapir, je travaille à Grand Paris Sud-Est Avenir. Je voulais savoir sur la démarche que vous nous avez présentée, combien de temps ça a pris, surtout sur la phase modèle d'apprentissage, et combien de personnes ça a mobilisé, voire est-ce que vous avez sous-traité certaines phases du projet ? Merci.

  • Speaker #1

    Oui, ça prend du temps. Alors ça prend du temps aussi au début parce que c'est là l'occupation des sols, nous c'est notre... premier grand projet industriel d'intelligence artificielle donc autant de vraiment de développement de liés à ça vont aussi tous les temps de l'apprentissage organisationnel et de découverte de ces thématiques là et de on sait pas encore tellement si ça va marcher ou pas et que c'est donc si on refaisait le l'occupation des sols aujourd'hui semble que ce sera un grand un grand plus un grand plus rapide mais du coup on a commencé à faire des premières expérimentations d'intelligence artificielle sur ce thème-là à partir de 2018. Ça faisait suite à des travaux de recherche à partir de, disons, 2016-2017, c'est ça ? Oui, parce que le boom intelligence artificielle en traitement d'images, c'est 2013-2014-2015, donc ça se fait dans ces Ausha. Et après, c'est itératif, donc on a commencé... par des prototypes sur des zones assez restreintes autour du bassin d'Arcachon, sur un département de pilote qui était celui du Gers, avant d'aller produire des modèles nationaux comme je vous ai montré là. Et l'un des facteurs dimensionnants, c'était effectivement la production des données d'apprentissage, où il fallait en faire pas mal. Et donc là, il y a eu aussi un curseur au cours de la vie du projet entre... des premiers développements de jeux de données d'apprentissage plutôt internalisés, notamment tant qu'on ne sait pas encore trop même le genre de données dont on va avoir besoin. Au début d'une saisie, on est dans une espèce de ping-pong entre les équipes plutôt côté IA et la production de données est en train de réajuster les tâches, réaffiner la nomenclature, etc. Et au bout d'un moment, ça se stabilise. Et là, on passe à l'échelle dans la production de données d'apprentissage. Et là, ça a été des moments où on a pu s'externaliser. Sur le nombre de personnes, pareil, ça a bougé au cours du temps. Et puis, les profils sont assez variables entre les profils plus IA, données géographiques, de dev, de photointerprétation. Je ne saurais pas vous dire, en fait, sur le projet Occupation des sols dans son ensemble, combien de personnes ça a mobilisé au total. Sur le volet IA, selon les moments, ça a été peut-être entre... 5 et 10 personnes à peu près, je dirais, là-dessus. Sur vraiment les spécialistes IA, plus des équipes de dev en plus. Et puis, à la fois, on voit un temps assez long, puisque on continue de produire de l'OCSGE, mais l'architecture générale de la chaîne de production s'est quand même stabilisée vers 2021, je dirais. Oui, 2021. Et après, on a eu encore un peu de montée en volume sur les jeux de données d'apprentissage en 2021-2022. Et depuis maintenant, c'est vraiment de la production.

  • Speaker #2

    Bonjour, je suis juste derrière. J'ai le micro. Merci. Alexandra Henry de Ciradel. On est filiale d'ENGIE. Je prends la parole à double emploi. Témoignage d'un de nos clients qui est Noisy Legrand. et qui a utilisé notre plateforme pour identifier les îlots de chaleur urbains de son territoire. C'est un témoignage doublé pour rebondir sur votre propos sur la temporalité de la data. Parce qu'à partir du moment où, j'exagère un peu, mais où la data est livrée, elle est presque déjà obsolète. On parlait tout à l'heure, en tout cas vous aviez mentionné le fait de mettre à jour vos données tous les trois ans, me semble-t-il. La question est comment est-ce que justement cette temporalité de trois ans a été fixée et à quel moment en fait il est nécessaire de remettre en question le fait de repasser sur des images ? Enfin voilà, comment on se positionne ?

  • Speaker #1

    La temporalité de trois ans, elle est liée à l'acquisition, elle est liée à la temporalité à laquelle on fait la photo. Et donc pour le coup, c'est un... équilibre entre les usages qu'il va y avoir. Ce n'est pas au niveau de l'occupation des sols en elle-même, c'est vraiment au niveau de... de la base d'image et à quelle fréquence on estime qu'il y a besoin d'avoir cette image à haute résolution, avec des contraintes économiques fortes, puisqu'il faut faire voler des avions sur tout le territoire, dans des plages de temps qui sont resserrées, puisqu'on va chercher à quand même, je vous ai dit mars, juin, mais en fait on va rester dans ces plages-là, pour faire voler des avions, pour quand même avoir de la végétation en feuille. et on peut le faire que les jours de beau temps, et on peut, etc. Donc quand on met ça et les équipements, on va avoir un nombre d'avions limité. Bon, ça, ça va dimensionner la fréquence à laquelle on fait l'image. Ça ne répond pas complètement à la question, puisque, dans ce cas, on peut se dire, ça déporte la question sur pourquoi est-ce qu'on s'appuie sur l'analyse de ces images-là pour le suivi de l'occupation des sols. On pourrait du coup aller chercher ailleurs si on estime qu'il faut des pas de temps plus fins. Dans le cas de la forêt ou de la cartographie agricole, on va chercher de l'image satellite aussi. qui a de la revisite tous les quelques jours, parce que pour différencier des types de végétation, voir ce qui se passe à l'intérieur d'une année, c'est très important. Vous allez voir une céréale de printemps, elle va avoir une pousse au printemps. Du coup, vous allez voir son activité de photosynthèse concentrée à cet endroit-là. Et donc, on a besoin de ça. Par contre, c'est beaucoup plus dégradé en résolution spatiale. C'est 10 mètres de résolution versus 20 centimètres. Et parfois, on va mixer les deux. Donc, dans le cas de l'occupation des sols, Après, tout dépend de ce qui se passe en aval. La donnée, elle sert là, en l'occurrence, elle va servir à mesurer l'artificialisation, à outiller un dialogue entre l'État et les collectivités, à outiller des décisions d'aménagement qui ne sont pas non plus sur des pas de temps de trois semaines. Donc, c'est proportionné à ça, en fait, ces enjeux de mesure. Non, pour l'instant, on ne fait pas de choses comme ça. La question se pose un peu, pour l'instant, de façon un peu théorique, mais sur le LIDAR. On a fait une première couverture LIDAR nationale. Est-ce que la mise à jour du LIDAR se fait avec une stratégie ciblée comme ça ? Mais parce que sur l'image, on est sur une logique vraiment exhaustive. Là, pour le coup, on veut la photo nationale tous les trois ans.

  • Speaker #3

    C'est Laurie, je pense, en tout cas Michel, côté institut, pour compléter. C'est-à-dire que les trois à quatre ans qui sont la fréquence, et je ne suis pas du tout spécialiste, mais... parce que pas de l'urbanisme justement et de l'aménagement. Mais ce que j'entends régulièrement de mes collègues, c'est le temps de la transformation du territoire. Et donc, c'est le temps logique. Après, et on l'évoquait parce qu'il y a des grands projets d'aménagement, notamment en Ile-de-France, on est ici au cœur, Nicolas Bockel disait, d'un territoire qui se transforme à pas de courses, Saint-Ouen également, etc. Enfin, toutes ces zones-là, où oui, se pose la question, et moi je trouve ça intéressant la réflexion de se dire, est-ce que... On ne déterminerait pas aussi grâce à l'IA des zones où on voit que ça commence à bouger et se dire on fait une repasse plus régulière.

  • Speaker #4

    Oui, effectivement, c'est une des questions qu'on s'est posé avec Michel sur la mise à jour de notre mode d'occupation du sol et de ce qu'on pouvait faire dans les traitements avec ou de l'aérien ou du satellite. Effectivement, nous, ce pas de temps, en tout cas en Ile-de-France, il nous convenait assez bien de tous les quatre ans, en tout cas pour le mode d'occupation du sol. Mais c'est vrai qu'on s'est interrogé à un moment donné de ne pas avoir de temps en temps des zooms dans la détection de changements ou des espèces d'alertes à grosse maille. De se dire, c'est là que ça bouge. Et qu'au moins pour les photointerprètes qui vont produire le millésime suivant, ils aient une attention particulière sur ces endroits où on sent bien qu'il y a des choses qui sont sorties. Ou dont l'occupation du sol a été profondément modifiée. Merci beaucoup Mathieu Porte. Merci à l'IGN.

  • Speaker #1

    Sous

Description

Mathieu Porte, coordinateur des activités IA à l’Institut National de l’Information Géographique et Forestière (IGN), présente l’utilisation de l’intelligence artificielle (IA) pour décrire et suivre les transformations du territoire français, dans un contexte de bouleversements écologiques rapides. L’objectif est de fournir des outils aux pouvoirs publics et à la société pour comprendre et piloter ces changements, comme l’artificialisation des sols, l’évolution des forêts ou du trait de côte.

Il illustre cela avec le suivi de l’occupation des sols, basé sur des orthophotos aériennes haute résolution (20 cm/pixel) prises tous les trois ans par l’IGN. Grâce à l’IA, notamment l’apprentissage profond, ces images sont "sémantisées" : chaque pixel est classé (bâtiments, routes, végétation, etc.) dans une nomenclature d’environ 16 catégories. Bien que perfectible (limites comme les zones masquées par les arbres ou petites erreurs de classification), cette méthode marque un progrès significatif par rapport à une simple image brute, permettant un suivi fin et régulier à l’échelle nationale.

Le processus repose sur des jeux de données d’apprentissage massifs, créés manuellement par des photo-interprètes sur des zones variées (urbaines, agricoles, forestières), pour entraîner des modèles IA capables de généraliser à tout le territoire. L’enjeu principal est de gérer la diversité du réel (climats, saisons, types de bâtiments) pour assurer la robustesse des modèles. Environ 1 000 km² de données annotées permettent de cartographier 550 000 km², soit un effet d’amplification considérable, rendant l’IA essentielle pour accélérer et scaler ces descriptions.

Les résultats, diffusés via l'outil "CoSIA" (Couverture du Sol par Intelligence Artificielle) en accès libre, servent à suivre l’artificialisation des sols (politique "zéro artificialisation nette") ou à des analyses thématiques (nature en ville, continuité écologique). Cette approche est adaptable à d’autres domaines, comme la cartographie 3D (LIDAR HD) ou agricole, avec la même philosophie : produire des données d’entraînement pour appliquer l’IA à grande échelle.

Les échanges révèlent des usages concrets (comptage d’arbres par des collectivités), des défis (temporalité des données, fixée à trois ans par les contraintes de prise de vue aérienne), et des perspectives (détection ciblée des changements). L’IGN a mobilisé 5 à 10 spécialistes IA, avec des phases externalisées, sur un projet démarré en 2018 et stabilisé en 2021. Enfin, les données et modèles ouverts (via des challenges comme FLAIR) stimulent la recherche et réduisent les barrières à l’entrée pour d’autres acteurs.


__


La semaine francilienne de la donnée et de l'IA est un événement organisé par la Région Île-de-France, L'Institut Paris Region et Île-de-France Mobilités. L'édition 2025 était proposée en partenariat avec le Département du Val-de-Marne.


Consultez toutes les ressources en ligne sur notre site www.institutparisregion.fr



Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

  • Speaker #0

    Bonjour à toutes et à tous, Mathieu Porte, je suis coordinateur des activités d'intelligence artificielle de l'IGN, l'Institut National de l'Information Géographique et Forestière. Et effectivement, après avoir parlé de l'IA dans toute l'ampleur que le sujet peut avoir, et qui peut toujours être un peu vertigineux, puisque entre l'ampleur technique, scientifique, géostratégique, écologique que le sujet a, j'ai essayé d'atterrir sur... quelques cas un peu concrets de comment l'IA prend place dans nos sujets, en l'occurrence nous, sur ces sujets de description du territoire et de description des transformations du territoire. Je ne vais pas vous faire une vue exhaustive de tout ce qu'on peut faire avec de l'intelligence artificielle pour la description du territoire. Là encore, on s'y perdrait, mais je vais essayer de vous zoomer vraiment sur un cas et de vous montrer un peu les... Tout ce que ça recouvre et les implications que ça a. L'enjeu, avant même d'arriver sur l'intelligence artificielle, il y a une intention, il y a un but à tout ça. C'est-à-dire que la situation dans laquelle on est, c'est celle de transformation très rapide du territoire, de bouleversements écologiques, et d'un besoin d'outiller les pouvoirs publics, la société en général, sur ce qui est en train d'advenir. Et donc de pouvoir avoir... des descriptions qui soient fines et régulières du territoire national et des transformations qui se passent dessus. L'exemple typique étant, par exemple, le suivi de l'artificialisation des sols. On veut pouvoir suivre, mesurer les consommations d'espace qui se font au cours du temps pour être capable de piloter la transition écologique à un niveau assez fin dans l'espace et dans le temps. Mais on veut aussi pouvoir suivre l'évolution du trait de côte, l'évolution des forêts qui sont bien chalutées par le changement climatique. Et donc, ce que je vais essayer de vous montrer, c'est comment, dans ce contexte-là, pour produire ces descriptions qui sont fines et régulières du territoire, l'IA nous aide, et elle nous aide à accélérer la mise en place de ces nouvelles descriptions. Et donc, on va tout de suite prendre un exemple qui va nous servir de fil rouge, et qui est le suivi de l'occupation des sols. Ce que vous voyez là, c'est l'archétype de... ce qu'on obtient avec les techniques un peu standards aujourd'hui. Alors on n'est pas sur les techniques d'analyse de langage, d'IA générative, c'est les systèmes qui sont plutôt arrivés à partir de la fin des années 2010, sur l'analyse d'images, qui continuent de bouger pas mal avec les avancées de l'apprentissage profond. Mais donc ce que vous voyez, c'est typique de ce qu'on arrive à obtenir dans les bonnes conditions avec les techniques d'intelligence artificielle. Donc ce que vous voyez là, c'est une photo en fond d'image, une photo aérienne haute résolution, et les photos... les orthophotos prises par l'IGN et diffusées par l'IGN sur le territoire national tous les trois ans. Donc vous avez une résolution de 20 centimètres sur le pixel de l'image. Donc vous avez une vue assez fine spatialement de ce qui se passe. Donc vous avez une image sur une zone urbaine. Et puis, ce que vous voyez sur la couche supérieure, c'est une sémantisation de cette image. Si vous avez une analyse, une interprétation de ce qui... se trouve sur l'image du point de vue de l'occupation des sols, du point de vue de la couverture des sols. Vous avez dit en chaque pixel, ici j'ai du bâtiment, ici j'ai des zones imperméables, des routes, de la végétation, quel type de végétation, des pelouses, des feuillus, des conifères, etc. Et donc vous avez affecté à chacun des pixels de cette image, une classe, en l'occurrence là, dans une nomenclature un peu riche, de 16 classes environ. Et je vous dis, ça c'est typique. C'est... plein de défauts, mais bien aussi quand même. Donc il y a des défauts évidemment, vous allez avoir des défauts un peu insurmontables, c'est-à-dire que vous ne voyez pas ce qui se trouve sous les arbres par exemple, et ça c'est une limite intrinsèque à l'image, vous ne pouvez pas inventer les choses, vous ne savez pas s'il y a une voiture en dessous de l'arbre, ou si jamais il y avait un petit bâtiment sous toute cette masse d'arbres, vous ne le voyez pas, il n'y a pas de sorcellerie là-dessus. Vous pouvez avoir des petits défauts de détection. On peut avoir de temps en temps un bout de pelouse qui est pris pour un peu de feuillu. Vous pouvez avoir des petites confusions aux limites, par exemple des pixels de bord qui ne sont pas exactement au bon endroit sur les bâtiments, ou des bords qui ne sont pas tout à fait droits, ou vous pouvez avoir des petites discontinuités à certains endroits dans les réseaux. OK, vous allez avoir plein de petits défauts comme ça. On peut arriver à vivre avec et les traiter ensuite. Mais par contre, vous avez fait quand même un pas de géant par rapport à quand vous aviez juste une image. Vous êtes en termes d'interprétation et de contenu et de ce que vous allez pouvoir en faire. Vous êtes vraiment beaucoup plus avancé et vous allez imaginer que vous ayez ça effectivement partout tous les trois ans. En l'occurrence, à chaque fois que vous avez une image, vous avez cette... analyse là, vous allez pouvoir commencer à suivre les phénomènes qui se passent sur le territoire national. Donc ça, je vous disais, c'est typique. On va multiplier les exemples de ce genre de choses là. Comment on arrive à avoir ça ? On va retomber sur l'un des principaux enjeux de l'intelligence artificielle qui est la donnée. Et cette donnée, en l'occurrence, on en parlait un peu juste avant, dans notre cas, souvent il va falloir la produire, c'est-à-dire même la donnée qui nous sert à entraîner les modèles et pas donner l'avance. Et donc, comment on fait pour obtenir ce que vous voyez ici ? Vous retrouvez des images telles qu'elles se présentent aux modèles qu'on cherche à entraîner. Et là, vous avez ce qui va être les sorties des modèles qu'on voyait juste avant sur cette carte. Bon, la façon de faire, c'est classique en apprentissage machine, mais c'est de vous aller créer des grands jeux de données. des grandes bases d'exemples corrigés, d'exercices corrigés. Vous allez faire plein de petites vignettes, de petites images comme ça, en l'occurrence avec pas mal d'infos, puisque vous avez plusieurs canaux, du rouge, du vert, du bleu, de l'infrarouge, des modèles d'élévation. Donc ça, c'est une image que vous allez donner en entrée de votre modèle. Et puis vous allez, sur ces échantillons-là, lui donner la solution. Vous allez dire, en fait, le jour où on te présente cette image-là, il faut que la carte de couverture des sols qui correspond, c'est ça. Donc ça, c'est produit par des photo interprètes, c'est produit par des personnes qui vont faire se corriger là, entre guillemets, sur ces images. Et puis, on va le faire sur des zones urbaines, des zones agricoles, etc. Et donc, vous allez avoir votre modèle qui est entraîné, optimisé pour quand on lui présente ces images-là, il donne cette solution-là et il apprend au passage quelque chose qui sera prêt à être transposé sur de nouvelles images qui vont se généraliser. Je ne ferai pas toute... plus de théories de l'apprentissage machine là-dessus, mais en tout cas la logique c'est celle-là, c'est on fait des jeux de données d'apprentissage qui nous permettent d'entraîner des modèles qui sont prêts à être appliqués sur de nouvelles images ensuite. Et en fait, le vrai enjeu quand on travaille sur ce sujet-là, quand on fait de l'IA pour l'analyse de l'occupation des sols sur des images aériennes, en fait c'est ça, c'est... La difficulté n'est pas d'en arriver à avoir un modèle qui fait quelque chose comme je vous ai montré sur la première salle. La difficulté, il est d'avoir un modèle qui marche sur tout le territoire national et qui arrive à marcher sur des zones urbaines, sur des zones forestières, sur des zones agricoles, qui arrive à fonctionner même dans des zones forestières, sur la forêt des Vosges ou sur le littoral méditerranéen, qui arrive à identifier des bâtiments, qu'ils soient en toit, en tuile ou en toit, en ardoise. etc. qui arrivent à fonctionner alors que les photos peuvent avoir été prises en mois de mars, au mois de juin. Même la végétation, elle n'est pas du tout dans le même état, par exemple, entre le mois de mars et le mois de juin, etc. Donc la vraie difficulté, elle est celle-là. Il faut que vos modèles aient été exposés à toute cette richesse du monde réel pour avoir une chance de s'en sortir lorsque vous allez ensuite chercher à les appliquer, comme c'est notre cas, à grande échelle. Nous, ça va être à l'échelle nationale, mais même si vous travaillez à l'échelle... d'une collectivité plus limitée, il faut quand même avoir échantillonné un peu cette diversité-là. D'autant que pour entraîner des modèles d'analyse d'images comme ça, de toute façon, il faut quand même des jeux de données qui soient massifs, qui soient diversifiés et qui soient de qualité. Donc, ce que je vous montre là, c'est pour vous montrer un peu les jeux d'échelle qui sont en jeu. Ce que vous voyez là, du coup, ça va être cet échantillonnage de l'ensemble du territoire national où on va aller piocher des zones. où on va créer à la main ces cartes d'occupation des sols qui vont nous servir à entraîner nos IA. Chaque point rouge que vous voyez ici, c'est une zone de 1 ou 2 km², à peu près ça, qui, elle, va être annotée par des opérateurs. Là encore, on travaille sur des... Et ce que vous voyez ensuite, le dallage qui est ici, c'est l'échelle à laquelle va travailler le modèle à son apprentissage. Quand on se présente... l'apprentissage se fait en présentant des petites vignettes comme je vous montrais juste avant. Les petites vignettes, c'est ces carrés-là. Et on ne va pas faire saisir des choses à l'échelle de ces petits carrés-là parce que typiquement, en fait, quand vous faites de la saisie, vous voulez pouvoir saisir, par exemple, toute cette parcelle agricole d'un coup. Vous n'allez pas faire une petite zone par petite zone. C'est globalement du gâchis. Bon, donc l'enjeu, il est vraiment d'arriver à avoir à la fois cette finesse dans la description et avoir une nomenclature assez fine sur des résolutions spatiales assez fines, tout en gérant le fait qu'après, on est censé travailler à l'échelle nationale. Mais l'autre chose qu'on voit ici, qui est clé et qui est la raison pour laquelle l'intelligence artificielle est intéressante dans notre cas, c'est que même s'il faut... beaucoup de données pour entraîner, en fait il y a quand même un changement d'échelle énorme entre les volumes de données nécessaires pour entraîner une IA et les volumes de données sur lesquels on applique ensuite cette IA. C'est-à-dire que là, vous allez avoir en gros à peu près 1000 km² au total qui vont être annotés comme ça, ce qui est beaucoup, ça fait des centaines de milliers d'images. Mais ensuite le modèle que vous entraînez, vous l'appliquez tous les 3 ans sur 550 000 km². Donc il y a quand même un facteur 500 ou 1000 selon les cas entre la production de données qu'on fait pour entraîner l'IA et la production de données qu'on fait avec l'IA. Et donc c'est pour ça, ça c'est vraiment le cœur de pourquoi est-ce qu'on utilise l'IA, c'est parce que l'IA nous aide à accélérer la mise en place de nouvelles descriptions du territoire parce qu'elle nous permet cette amplification, ce passage à l'échelle des capacités de description qu'on peut avoir par d'autres moyens. Donc, ça ne fonctionne pas tout seul, pas du tout, mais par contre, ça permet d'aller beaucoup plus vite, plus loin. Pour vous montrer là encore, pour zoomer un peu, parce que ça reste quand même l'enjeu essentiel. Concrètement, quand vous travaillez à faire de la saisie de données, ça ressemble à ça. Vous prenez une image, comme vous voyez en Ausha gauche, ici, encore une photo, autre résolution. Et puis, vous allez essayer de délimiter au préalable des zones un peu homogènes dans leur... ... dans leur colorimétrie, dans leur rendu. Et puis là, vous avez des personnes, vous avez des photos interprètes qui vont saisir dans chacune des zones délimitées ainsi. Donc il y en a des très petites quand vous êtes sur des bâtiments ou des bouts de bâtiments, et des beaucoup plus larges quand vous êtes sur des parcelles. Quelle est la classe, en l'occurrence ? Et une fois que vous avez fait cette carte-là, vous la découpez en vignettes qui sont prêtes à être utilisées dans un apprentissage. Et après, du coup, OK, là je vous ai montré le... la façon dont on fait ces modèles qui nous servent à interpréter les images et à donner des informations d'occupation des sols et derrière cette donnée elle a plein d'usages. Nous on s'en sert directement pour le suivi de l'artificialisation des sols et outiller la politique du zéro artificialisation net mais il y a plein d'autres usages qui peuvent être faits puisque vous avez une description qui est assez fine du territoire dans Ce n'est pas exhaustif, mais en tout cas, vous avez quand même pas mal de thèmes qui sont déjà présents. Et donc, on voit des utilisations qui peuvent être faites de cette même donnée, sans mettre d'autres systèmes. Il y a juste avec les cartes d'occupation des sols que je vous montrais, on voit des choses faites autour de, par nous ou par d'autres, comme vous avez une bonne couche de végétation, par exemple, vous pouvez aller faire des analyses de la nature en ville, vous pouvez aller faire des analyses de continuité écologique, des analyses de... Essayez de distinguer des zones où vous avez un peu du linéaire de végétation et allez chercher les haies ou allez avoir un peu de cartographie sur les bocages. Vous avez là encore une espèce de matière première qui est assez riche avec laquelle vous pouvez aller faire d'autres analyses thématiques sur le territoire qui vous intéresse. Ça, c'est donc le... Cette donnée, ces cartes d'occupation des sols par intelligence artificielle sont diffusées dans un produit qui s'appelle Ausha. Je vous invite vraiment si c'est des choses qui vous intéressent à aller consulter. Tout est en accès libre, couvert gratuit. Vous avez une vue de l'occupation des sols nationale à haute résolution, mais vous pouvez à chaque fois aller récupérer cette donnée sur un département qui vous intéresserait. Ça, c'est une vue typique. Ce dont j'aimerais ensuite vous convaincre, simplement, c'est... que ce que je vous ai présenté c'est général. En fait, je vous ai fait le cas de l'occupation des sols, mais on peut retrouver la même philosophie et la même logique dans plein d'autres sujets de description du territoire. Par exemple, quand on fait de la description 3D, avec le programme Lidar HD notamment, où on va aller acquérir des nuages de points à haute densité, de la même façon, on va récupérer des gros volumes de données, des gros nuages de points, mais pour en faire quelque chose, la plupart du temps, on a besoin d'y mettre une sémantique. On a besoin de savoir dire, ici c'est la végétation, ici c'est le sol, ici c'est les bâtiments, et de pouvoir, une fois qu'on a fait cette classification-là, On récupère par exemple le sol, c'est ce qui nous permet de faire des modèles de terrain qui servent derrière dans, par exemple, des modèles de simulation de près de cru. On veut pouvoir suivre l'écoulement des eaux. Bon, de la même façon, pour obtenir cette classification et affecter à chaque point du nuage de point une classe qui dit qu'est-ce que c'était, sur quoi est-ce que le laser a rebondi ? On va utiliser, entre autres choses, des systèmes d'intelligence artificielle et qui, de la même façon, fonctionnent avec... On va faire cette classification par d'autres moyens sur... des zones du territoire et on va entraîner des modèles qui seront prêts à être appliqués ensuite à l'échelle nationale. Même chose quand on fait de la cartographie forestière et même chose quand on va chercher à faire de la cartographie, par exemple, de parcelles agricoles, où on veut suivre, par exemple, voir sur une année donnée, quelle est la culture qui a été faite sur une parcelle. De la même façon, on va d'abord construire des jeux de données assez significatifs pour entraîner des modèles qui ensuite sont... prêt à passer à l'échelle nationale. A chaque fois, on va avoir des enjeux spécifiques, c'est-à-dire que vous ne pourriez pas faire une bonne cartographie forestière avec juste les cartes que je vous ai montrées juste avant. Si vous voulez distinguer les épicéas, des frênes, des chênes, etc., vous ne l'avez pas avec juste la distinction feuillu-conifère que je vous ai montrée avant. Donc il y a une nouvelle information à amener, donc il y a une nouvelle production de données d'apprentissage à faire, mais la philosophie générale est la même. Et vous allez avoir des enjeux spécifiques aussi que... Parfois, tout ne se verra pas simplement sur les images tous les trois ans que je vous montrais. Donc, il faut aller chercher d'autres images satellites ou des choses comme ça. Mais bon, c'est quand même un peu la même philosophie sur l'utilisation de l'intelligence artificielle. Bon, donc ça, c'est concrètement la place que peuvent prendre les systèmes d'IA dans la description du territoire. Ça ne se fait évidemment pas tout seul. Ça reste des gros enjeux aussi. Les données, c'est la première ressource, peut-être la plus fondamentale. Il y a les enjeux de capacité de calcul aussi, je ne vais pas trop développer là-dessus dans mon intervention. Et puis, il faut quand même des gens. Alors, il faut des talents sur l'intelligence artificielle. En tout cas, quand on développe spécifiquement des modèles comme on peut le faire à l'IGN. Donc ça, ça a été un de nos gros chantiers. Ça a été de recruter et de faire venir du monde sur ces sujets où c'est évidemment très compétitif. Je ne vous l'apprends sans doute pas. mais avec quand même des façons de s'en sortir, puisqu'il y a plein de personnes qui sont intéressées pour venir travailler dans des environnements où on fait de la production de données ouverte, de la science ouverte, des enjeux de transition écologique, etc. Par ailleurs, ce qui est intéressant aussi, c'est que les... Je vous ai exposé un peu... comment on fait ces modèles pour l'occupation des sols, toutes les réutilisations possibles de ces cartes d'occupation des sols par l'intelligence artificielle. Ce qui est intéressant, c'est qu'on voit aussi de plus en plus de réutilisation de toutes les briques intermédiaires qu'on a pu développer pour faire ces cartes d'occupation des sols. À partir d'il y a deux ans, on a commencé à animer des challenges scientifiques, ce qui s'appelle FLAIR. où on a diffusé toutes nos données d'apprentissage, ces 1000 km² que je vous montrais juste avant, on les a diffusées de façon ouverte. C'est nous ce qui nous permettait d'avoir la performance de nos modèles, mais on l'a mis sur la place publique, et avec une interrogation, est-ce qu'il est possible de faire mieux que ce que nous on fait déjà en termes de modèles d'IA sur ce sujet-là ? On a eu des contributions de chercheurs, de laboratoires, qui ont eu... de laboratoires d'entreprise plutôt issus de l'intelligence artificielle, d'autres plutôt issus de la donnée géographique ou de l'aéronautique ou de l'aérospatiale. Il y a tout un écosystème assez varié qui s'est agrégé là-dessus. Et ce qui est assez... Et dont on a tiré parti, les cartes que je vous ai montrées tout à l'heure, elles ont été faites aussi, elles ont été améliorées avec les retours qu'on a pu avoir dans ces challenges-là. La partie qui est importante, en fait, c'est que... la recherche en IA, le développement en IA est en permanence en manque de bons jeux de données, de qualités massifs et suffisamment riches. Donc lorsqu'on diffuse des jeux de données comme ça, en fait... Les données dont on a eu besoin juste pour faire une description nationale de l'occupation des sols sont parmi les principaux jeux de données mondiaux ouverts, accessibles, pertinents pour l'intelligence artificielle sur l'occupation des sols. Donc on peut vite avoir des impacts sur même l'agenda de recherche par l'intermédiaire de ces diffusions de données. Et l'autre, c'était l'exemple typique de ce qu'on faisait avant, le genre de modèle qu'on avait avant de faire ces challenges, et puis le genre de modèle qu'on a. une fois qu'on intègre les apports de ces challenges. Donc la frontière technique et scientifique bouge encore sur ces sujets-là. Et l'autre point, c'est que, en fait, donc ça permet de stimuler la recherche, mais la diffusion des modèles déjà entraînés, la diffusion des données d'apprentissage, elle permet à d'autres qui font leurs propres modèles de les produire plus facilement. Elle permet de leur... de produire notamment d'autres modèles en ayant besoin de moins de données d'apprentissage et de moins de volume de calcul. Donc on diminue les coûts et on diminue les barrières à l'entrée dans ce monde de l'intelligence artificielle pour la description du territoire. Donc ça, ça fait qu'après, on voit un certain nombre d'entreprises qui vont reprendre et repartir des ressources qu'on peut diffuser. Donc là, c'est encore une fois plutôt pour des utilisateurs qui... font eux-mêmes leur description du territoire. Et donc, de fait, si vous souhaitez, si vous avez envie de plonger un peu dans ces sujets-là, c'est possible de vous lancer sur vos propres cartes d'occupation des sols, soit en les faisant à façon sur les images qui vous intéressent, ou en tout cas de redévelopper sur d'autres nomenclatures, puisque toute la stack est en... la pile technologique est en accès ouvert. Vous allez pouvoir récupérer toutes les données ouvertes de l'IGN là-dessus, et puis récupérer les codes, les jeux de données, les méthodes, de toute la façon, aussi bien dans les modèles que les données ont été produites, tout ça est documenté de façon ouverte et permet de réutiliser. J'espère que dans la salle, il y aura directement ou indirectement quelques personnes que ça inspire et donne envie de plonger un peu dans ce monde de l'IA dans le cadre de la déception du territoire. La détection est notamment pour cette base de données et d'occupation du sol. Il y a d'autres usages aussi liés à l'hygiène, mais c'est vrai que c'est celle qui a été en tout cas ces derniers temps la plus impressionnante visuelle. La plus visible aussi peut-être. Elle est emblématique. Voilà. Est-ce qu'il y a des questions ? Non, mais Michel. Merci. J'ai vu la donnée Ausha tout à l'heure. Aujourd'hui, cette donnée Ausha est produite sur une orthophoto à 20 cm. Comment on peut la récupérer finalement pour la réadapter à d'autres résolutions ? Sur d'autres sources d'images, par exemple. Sur d'autres sources d'images, et puis essayer de la réutiliser. Est-ce qu'elle est suffisante ? Est-ce qu'on peut la réinjecter maintenant dans un modèle tel qu'elle est aujourd'hui ? C'est-à-dire qu'il y a la donnée d'entraînement qui a permis de produire le modèle, le modèle a permis de produire la donnée Ausha. Est-ce que finalement l'Horace-Bulta obtenu avec Ausha est suffisant pour réentraîner un modèle ? Alors dans l'idée que vous auriez plutôt un autre capteur avec d'autres caractéristiques et qu'il faudrait entraîner ce modèle avec les labels qui seraient obtenus par Ausha en fait ? Ok. Ça va être compliqué en l'état, à mon avis. Alors, il y a deux ou trois choses différentes dedans. Donc, globalement, on est sur ce thème de les transferts d'apprentissage. Est-ce qu'on peut transférer des modèles d'une situation donnée, une situation qui est caractérisée aussi bien par les propriétés de la donnée d'entrée, le capteur, la zone géographique sur laquelle on était, que... les propriétés de la donnée entre guillemets de sortie, par exemple la nomenclature sur laquelle on va travailler, et donc est-ce qu'on va distinguer juste feuille conifère ou aller plus loin, tout ça peut varier. Et un modèle donné, il fonctionne dans une situation donnée, même si maintenant on a un imaginaire qui est très lié au modèle de langage et on voit des choses très générales, mais en fait ce genre de modèles-là, ils sont effectivement plutôt spécifiques. Donc de base, la réponse quand on change de situation, c'est... il faut réentraîner, mais il y a quand même une part de l'information qui est commune et donc on peut réentraîner en partant pas de zéro, mais en repartant du modèle tel qu'il a été. Donc ça serait pas directement Ausha, ce serait plutôt les modèles qui sont utilisés pour Ausha, qui seraient un bon point de départ pour entraîner, mais il faudrait quand même d'autres données d'apprentissage. Sur la question de est-ce que la donnée produite, qui est Ausha, est suffisante pour entraîner des modèles, est-ce que ça serait des bons labels ? Ça se discute. Ça se discute. C'est pas évident, en tout cas, que... C'est pas évident qu'il y ait beaucoup plus d'informations que dans les données d'apprentissage du départ, puisque quelque part, notre modèle, il a extrait l'information qui était dans les données d'apprentissage au départ, et il la propage sur le reste du territoire, mais donc on recycle un peu toujours la même info. A priori c'est une donnée qui est quand même d'incrante qualité en dessous de la donnée d'apprentissage telle qu'elle a servi là-dessus, mais elle a l'avantage d'être disponible plus largement. Mais dans le cas présent, par ailleurs, il faudrait gérer la mise en correspondance du capteur en question. Les photos n'auraient pas été prises en même temps que celles qu'il y a, donc il y aurait plein de petits écarts qui mettraient pas mal de bruit. Et donc nous, après je termine sur ça, mais on aurait pu se dire à l'IGN, c'est merveilleux, on a déjà un immense patrimoine de données prêts pour entraîner des IA, il n'y a plus rien à faire. Si on essayait d'entraîner des IA directement avec les données des OCS, des occupations des sols historiques qu'on pouvait avoir déjà faites, ça ne marche pas. La donnée était trop généralisée ou alors il y avait des problèmes de recalage entre l'image et la base de données. Et donc il a fallu redescendre et revenir à donner vraiment à même l'image pour arriver à entraîner correctement des modèles.

  • Speaker #1

    Bonjour, merci Mathieu pour ta présentation, c'était très clair. Moi je travaille pour ICI, c'est une société en fait qui utilise déjà de l'IA pour faire à partir de l'image satellite des données relatives à l'environnement, protection de l'environnement. des habitats, la biodiversité, entre autres. On fait partie d'Atalianz. Atalianz, on n'en a pas parlé, parce que ce n'était pas le sujet, mais c'est l'IGN qui permet à des utilisateurs privés de partager, pas des ressources, mais de l'information, de la donnée et de travailler sur des initiatives différentes,

  • Speaker #0

    variées.

  • Speaker #1

    Donc voilà, on se sert aussi, nous, du modèle Flair, des algos qu'on a adaptés, bien sûr, parce qu'elles sont ouvertes. Donc on me demandait tout à l'heure qui pourra le faire. C'est déjà un peu fait, mais il y en a plein d'autres qui le font aussi. et en particulier pour des thématiques de nature en ville. Comptage d'arbres, il y a énormément de programmes de plantation menés par des collectivités ou des villes. Un million d'arbres pour Bordeaux Métropole par exemple. Donc l'idée c'est de pouvoir suivre leur initiative en prenant l'orthophoto de 2020 par exemple ou de 2021, quand ils n'ont pas commencé le programme. Et puis la prochaine ortho, on utilisera les mêmes modèles, les mêmes entraînements, peut-être un petit peu améliorés parce que la résolution sera peut-être un peu différente, mais si c'est la même. On pourra amener des informations sur les arbres, pas le nombre d'arbres parce qu'ils le suivent déjà, pas sur l'état des arbres parce qu'il y en a certains qui se détériorent, d'autres qui poussent bien, d'autres qui poussent moins bien en fonction des contextes pédologiques et autres, mais des indicateurs plus surfaciques de progression des couronnes, des houpiers, etc. Donc c'est très précis, c'est très pratique, et puis c'est l'outil qui travaille pour nous. Voilà, c'est un témoignage.

  • Speaker #0

    Merci. Effectivement, en plus dans ces domaines-là, on a énormément d'intérêt à faire des choses en commun. On partage à la fois des méthodes, des voies des capteurs, le territoire. Donc il y a beaucoup de choses qui peuvent se faire, se partager dans un environnement où par ailleurs, c'est très largement dominé par des très grands acteurs du numérique qui jouent de façon beaucoup plus fermée. Et donc si on veut voir aussi d'autres manières de faire, il faut vraiment... Jouer ce jeu de l'ouverture et de la mise en commun, je suis vraiment heureux d'entendre ce retour d'expérience. Bonjour Alice Sapir, je travaille à Grand Paris Sud-Est Avenir. Je voulais savoir sur la démarche que vous nous avez présentée, combien de temps ça a pris, surtout sur la phase modèle d'apprentissage, et combien de personnes ça a mobilisé, voire est-ce que vous avez sous-traité certaines phases du projet ? Merci.

  • Speaker #1

    Oui, ça prend du temps. Alors ça prend du temps aussi au début parce que c'est là l'occupation des sols, nous c'est notre... premier grand projet industriel d'intelligence artificielle donc autant de vraiment de développement de liés à ça vont aussi tous les temps de l'apprentissage organisationnel et de découverte de ces thématiques là et de on sait pas encore tellement si ça va marcher ou pas et que c'est donc si on refaisait le l'occupation des sols aujourd'hui semble que ce sera un grand un grand plus un grand plus rapide mais du coup on a commencé à faire des premières expérimentations d'intelligence artificielle sur ce thème-là à partir de 2018. Ça faisait suite à des travaux de recherche à partir de, disons, 2016-2017, c'est ça ? Oui, parce que le boom intelligence artificielle en traitement d'images, c'est 2013-2014-2015, donc ça se fait dans ces Ausha. Et après, c'est itératif, donc on a commencé... par des prototypes sur des zones assez restreintes autour du bassin d'Arcachon, sur un département de pilote qui était celui du Gers, avant d'aller produire des modèles nationaux comme je vous ai montré là. Et l'un des facteurs dimensionnants, c'était effectivement la production des données d'apprentissage, où il fallait en faire pas mal. Et donc là, il y a eu aussi un curseur au cours de la vie du projet entre... des premiers développements de jeux de données d'apprentissage plutôt internalisés, notamment tant qu'on ne sait pas encore trop même le genre de données dont on va avoir besoin. Au début d'une saisie, on est dans une espèce de ping-pong entre les équipes plutôt côté IA et la production de données est en train de réajuster les tâches, réaffiner la nomenclature, etc. Et au bout d'un moment, ça se stabilise. Et là, on passe à l'échelle dans la production de données d'apprentissage. Et là, ça a été des moments où on a pu s'externaliser. Sur le nombre de personnes, pareil, ça a bougé au cours du temps. Et puis, les profils sont assez variables entre les profils plus IA, données géographiques, de dev, de photointerprétation. Je ne saurais pas vous dire, en fait, sur le projet Occupation des sols dans son ensemble, combien de personnes ça a mobilisé au total. Sur le volet IA, selon les moments, ça a été peut-être entre... 5 et 10 personnes à peu près, je dirais, là-dessus. Sur vraiment les spécialistes IA, plus des équipes de dev en plus. Et puis, à la fois, on voit un temps assez long, puisque on continue de produire de l'OCSGE, mais l'architecture générale de la chaîne de production s'est quand même stabilisée vers 2021, je dirais. Oui, 2021. Et après, on a eu encore un peu de montée en volume sur les jeux de données d'apprentissage en 2021-2022. Et depuis maintenant, c'est vraiment de la production.

  • Speaker #2

    Bonjour, je suis juste derrière. J'ai le micro. Merci. Alexandra Henry de Ciradel. On est filiale d'ENGIE. Je prends la parole à double emploi. Témoignage d'un de nos clients qui est Noisy Legrand. et qui a utilisé notre plateforme pour identifier les îlots de chaleur urbains de son territoire. C'est un témoignage doublé pour rebondir sur votre propos sur la temporalité de la data. Parce qu'à partir du moment où, j'exagère un peu, mais où la data est livrée, elle est presque déjà obsolète. On parlait tout à l'heure, en tout cas vous aviez mentionné le fait de mettre à jour vos données tous les trois ans, me semble-t-il. La question est comment est-ce que justement cette temporalité de trois ans a été fixée et à quel moment en fait il est nécessaire de remettre en question le fait de repasser sur des images ? Enfin voilà, comment on se positionne ?

  • Speaker #1

    La temporalité de trois ans, elle est liée à l'acquisition, elle est liée à la temporalité à laquelle on fait la photo. Et donc pour le coup, c'est un... équilibre entre les usages qu'il va y avoir. Ce n'est pas au niveau de l'occupation des sols en elle-même, c'est vraiment au niveau de... de la base d'image et à quelle fréquence on estime qu'il y a besoin d'avoir cette image à haute résolution, avec des contraintes économiques fortes, puisqu'il faut faire voler des avions sur tout le territoire, dans des plages de temps qui sont resserrées, puisqu'on va chercher à quand même, je vous ai dit mars, juin, mais en fait on va rester dans ces plages-là, pour faire voler des avions, pour quand même avoir de la végétation en feuille. et on peut le faire que les jours de beau temps, et on peut, etc. Donc quand on met ça et les équipements, on va avoir un nombre d'avions limité. Bon, ça, ça va dimensionner la fréquence à laquelle on fait l'image. Ça ne répond pas complètement à la question, puisque, dans ce cas, on peut se dire, ça déporte la question sur pourquoi est-ce qu'on s'appuie sur l'analyse de ces images-là pour le suivi de l'occupation des sols. On pourrait du coup aller chercher ailleurs si on estime qu'il faut des pas de temps plus fins. Dans le cas de la forêt ou de la cartographie agricole, on va chercher de l'image satellite aussi. qui a de la revisite tous les quelques jours, parce que pour différencier des types de végétation, voir ce qui se passe à l'intérieur d'une année, c'est très important. Vous allez voir une céréale de printemps, elle va avoir une pousse au printemps. Du coup, vous allez voir son activité de photosynthèse concentrée à cet endroit-là. Et donc, on a besoin de ça. Par contre, c'est beaucoup plus dégradé en résolution spatiale. C'est 10 mètres de résolution versus 20 centimètres. Et parfois, on va mixer les deux. Donc, dans le cas de l'occupation des sols, Après, tout dépend de ce qui se passe en aval. La donnée, elle sert là, en l'occurrence, elle va servir à mesurer l'artificialisation, à outiller un dialogue entre l'État et les collectivités, à outiller des décisions d'aménagement qui ne sont pas non plus sur des pas de temps de trois semaines. Donc, c'est proportionné à ça, en fait, ces enjeux de mesure. Non, pour l'instant, on ne fait pas de choses comme ça. La question se pose un peu, pour l'instant, de façon un peu théorique, mais sur le LIDAR. On a fait une première couverture LIDAR nationale. Est-ce que la mise à jour du LIDAR se fait avec une stratégie ciblée comme ça ? Mais parce que sur l'image, on est sur une logique vraiment exhaustive. Là, pour le coup, on veut la photo nationale tous les trois ans.

  • Speaker #3

    C'est Laurie, je pense, en tout cas Michel, côté institut, pour compléter. C'est-à-dire que les trois à quatre ans qui sont la fréquence, et je ne suis pas du tout spécialiste, mais... parce que pas de l'urbanisme justement et de l'aménagement. Mais ce que j'entends régulièrement de mes collègues, c'est le temps de la transformation du territoire. Et donc, c'est le temps logique. Après, et on l'évoquait parce qu'il y a des grands projets d'aménagement, notamment en Ile-de-France, on est ici au cœur, Nicolas Bockel disait, d'un territoire qui se transforme à pas de courses, Saint-Ouen également, etc. Enfin, toutes ces zones-là, où oui, se pose la question, et moi je trouve ça intéressant la réflexion de se dire, est-ce que... On ne déterminerait pas aussi grâce à l'IA des zones où on voit que ça commence à bouger et se dire on fait une repasse plus régulière.

  • Speaker #4

    Oui, effectivement, c'est une des questions qu'on s'est posé avec Michel sur la mise à jour de notre mode d'occupation du sol et de ce qu'on pouvait faire dans les traitements avec ou de l'aérien ou du satellite. Effectivement, nous, ce pas de temps, en tout cas en Ile-de-France, il nous convenait assez bien de tous les quatre ans, en tout cas pour le mode d'occupation du sol. Mais c'est vrai qu'on s'est interrogé à un moment donné de ne pas avoir de temps en temps des zooms dans la détection de changements ou des espèces d'alertes à grosse maille. De se dire, c'est là que ça bouge. Et qu'au moins pour les photointerprètes qui vont produire le millésime suivant, ils aient une attention particulière sur ces endroits où on sent bien qu'il y a des choses qui sont sorties. Ou dont l'occupation du sol a été profondément modifiée. Merci beaucoup Mathieu Porte. Merci à l'IGN.

  • Speaker #1

    Sous

Share

Embed

You may also like

undefined cover
undefined cover