- Speaker #0
Bonjour et bienvenue dans Le Dernier Clic, votre podcast tech, IA et no code. On se retrouve aujourd'hui pour un épisode thématique sur les communs numériques, suite de notre épisode d'il y a deux semaines. Je suis en compagnie de Lulu pour aborder ce sujet. Comment tu vas Lulu ?
- Speaker #1
Ça va et toi ?
- Speaker #0
Très bien. Donc, ravi de te retrouver justement pour qu'on poursuive ce qu'on avait entamé la dernière fois. Pour celles et ceux qui ne l'ont pas encore écouté, on vous invite à justement retourner sur cet épisode où on expliquait un petit peu ce que sont les communs numériques et on présentait un peu les grandes familles. Voilà, en quoi c'était différent justement des communs qui ne sont pas numériques et qu'est-ce qui définit un petit peu un commun. Et aujourd'hui, on va aller un petit peu plus loin en parlant et en revenant sur l'aspect vraiment plutôt européen. et notamment français, pour citer un petit peu des choses qui sont faites en France, quelques contradictions également. Et voilà, on va continuer un petit peu ce tour d'horizon des communs numériques. Et ça nous semblait important d'aborder ce sujet et d'en parler, puisque c'est un mot qu'on va revenir assez régulièrement dans les débats et les sujets sur la souveraineté, histoire de clarifier un petit peu et que vous sachiez un peu mieux de quoi ça parle. Et on abordera aussi dans cet épisode le rapport un petit peu à l'IA, pour distinguer... Poulias propriétaires, Open Source et Open Weight et en quoi ce sont des communs ou pas vraiment. On va dégrossir un petit peu tout ça, vous présenter un petit peu tout ça et si ça te va Lulu, on attaque dès maintenant.
- Speaker #1
C'est parti !
- Speaker #0
Alors déjà pour remettre un petit peu en contexte et que vous ayez une idée, là à 2026, de ce que ça représente les logiciels déjà, le budget en fait des logiciels qu'on alloue. aux entreprises américaines et au cloud américain. Donc, sur un budget qui est d'environ 330 milliards d'euros par an pour l'Europe, pour tout ce qui est logiciel et service cloud à usage professionnel, donc là, on ne va pas parler de matériel, on ne parle pas de télécom, on parle vraiment de logiciel, donc tout ce qui va être les suites bureautiques, type Microsoft 365, les Google Workspace, voilà, ces suites collaboratives-là, tout ce qui est infrastructure, donc les clouds de type Amazon, on appelle AWS, si jamais on refait l'acronyme vous l'aurez, Azure qui est du coup côté Microsoft, tout ce qui est logiciel SaaS, donc les logiciels de software as a service, donc grosso modo les programmes que vous avez utilisés justement en ligne, et les logiciels du quotidien qu'on utilise sur le web, tout ce qui est un peu au cyber sécu, bases de données, toutes ces grandes familles pour vous donner une petite idée, donc tout ça ça représente 330 milliards d'euros à l'échelle de l'Europe. Et sur ces 330 milliards, on a 80% environ, ce qui nous fait un petit billet de 264 milliards qui est alloué uniquement à des services non européens, justement des services américains. Ce qui correspond à peu près à 1,5% du PIB de toute l'Europe, qui correspond également à la facture énergétique du continent et ce qui représente aussi... une fois et demie le budget de fonctionnement de l'Union européenne, qui est dédié qu'à des logiciels et des Américains pour le boulot. Ce qui est immense, ce qui est énorme, et ce qui montre d'emblée une dépendance avérée à ces outils-là. Ce qui a mené l'Europe à une prise de conscience, donc qui a pris un peu de temps. et qui s'est fait à travers justement plusieurs choses, que ce soit en France ou à l'échelle européenne. Mais on va dire qu'il y a eu un premier pivot et un changement un peu significatif en 2022, quand l'ambassadeur du numérique français, Henri Verdier, présente un rapport, justement qui va être signé par 19 des États membres, pour présenter le fait que l'open source et les communs sont un enjeu à l'échelle de l'Europe pour un jour à terme pouvoir sortir justement de cette dépendance américaine et d'aller sur davantage d'outils open source qui vont pouvoir être utilisés directement par les états qui peuvent être complètement maîtrisé de bout en bout cadré utilisé sur des infrastructures nationales et dans un périmètre vraiment qui permet de la sécurité de la confidentialité justement des données et Et ce type de réflexion vient aussi notamment du fait du cloud. acte dont j'ai plus l'année, tu me diras le si jamais tu l'as en tête.
- Speaker #1
C'est 2017-2018 il me semble, c'est plus ou moins en même temps que le RGPD. ou en tout cas c'était avant 2020.
- Speaker #0
Sachant que le Cloud Act était déjà une refonte, un remaniement du patriotacte ou quelque chose dans ce goût-là. En gros, le concept du Cloud Act, c'est de dire que vos données, quand elles sont hébergées par une boîte américaine, qu'elles soient stockées dans un pays européen ou pas, peu importe, le gouvernement américain est en droit de demander à n'importe qui laquelle des sociétés américaines dédonnaient sur un citoyen américain, mais ça s'étend aussi à d'autres données, justement, utilisateurs. Et à partir de là, dans la version simplifiée, un peu vulgarisée, ça veut dire qu'à tout moment, le gouvernement américain peut aller réclamer vos données à Microsoft et Microsoft sera tenu de leur fournir. Ce qui est problématique à l'échelle individuelle, mais ce qui est aussi problématique à l'échelle d'une entreprise, évidemment. Et avec une illustration un peu forte de ça, on reviendra peut-être un peu dessus un peu plus tard, mais qui est liée aux données de santé, puisqu'en fait aujourd'hui les données de santé sont hébergées en grande partie chez Azure, donc chez Microsoft, et c'était l'an dernier le directeur France de Microsoft qui avait, du coup, dans un témoignage devant le Sénat, avoué publiquement qu'il ne pouvait pas garantir que les données de santé des Français, justement, soient protégés du Cloud Act et ne puissent pas être mises à la disposition du gouvernement américain. Voilà, ça c'est un exemple des plus parlants, c'est de vous dire qu'en fait, vos données de santé, aujourd'hui, à tout moment, elles peuvent finir dans les mains du gouvernement américain. Quand on voit ce que Trump en fait, on prend vite que c'est pas une bonne nouvelle. Mais voilà, tout ça pour revenir derrière, justement, au fait que le Cloud Act et donc les législations qui étaient... qui ont été mises en place au fur et à mesure des années, donc à travers le RGPD, à travers le DMA, je crois que c'est DMA ou DSA, différentes législations qui ont été mises en place pour protéger les données, les droits d'auteur, les données des personnels des utilisateurs européens. Et donc dans cette mouvance-là, justement le rapport Verdier a été plus loin en disant dans le... Si on veut se détacher un peu de tout ça, on a besoin d'aller sur des communs, d'aller sur l'open source. Mais aujourd'hui, ces solutions-là, on n'investit pas d'argent dedans et on est tributaire de communautés qui les développent par elles-mêmes, qui les font vivre de manière soit bénévole, soit intégrée à d'autres choses, à des fondations, à d'autres boîtes. Mais ce n'est pas suffisant pour l'amener à des niveaux étatiques et permettre de le développer et justement de sortir vraiment des... Ça,
- Speaker #1
ou comme on a vu l'épisode dernier, que c'est aussi parfois des GAFAM qui contribuent en grande partie à des projets open source. Donc, ces projets open source peuvent dépendre en quelque sorte aussi des grosses entreprises américaines. Ce n'est pas tout blanc, tout noir. Il y a des enjeux politiques, économiques aussi. et là vraiment La direction que prend l'Europe et même la France, c'est de ne pas juste agir sur des moyens, on va dire, défensifs. On défend les données, on défend toutes les données sensibles.
- Speaker #0
Oui, les législations en place étaient vraiment dans une posture d'aller attaquer légalement et pénalement les entreprises qui ne respectent pas ces juridictions et qui ne respectent pas le cadre qu'on voudrait imposer. Et là,
- Speaker #1
c'est vraiment d'aller faire une autre voie et pas juste essayer de faire un bras de fer avec... les Etats-Unis ou tout autre pays dont on pourrait dépendre. Et c'est plus ou moins ce qui s'est passé. Je ne sais pas si ça avait fait prendre conscience à l'époque de ce qui s'était passé avec Huawei en Chine, où on avait un leader mondial du smartphone et il a suffi que les Etats-Unis disent « Bon, on arrête de fournir les services Google » et ça a dégringolé complètement, presque du jour au lendemain.
- Speaker #0
Alors, oui, ça a été un peu plus compliqué que ça.
- Speaker #1
Oui,
- Speaker #0
effectivement, Huawei a été à un moment mis sur liste, je ne sais plus comment ils l'appellent, leur liste noire, grosso modo, au gouvernement américain, pour dire que c'était un danger d'un point de vue sécurité nationale. Pourquoi ils se sont retrouvés dans cette situation ? C'est qu'en fait, ils fournissaient pas mal de matériel de télécommunication, notamment des routeurs aussi. Alors, plein de choses qui sont liées à de l'infrastructure, en fait, et qui permettent de faire fonctionner les réseaux et les télécommunications. Et il y avait des failles de sécurité, mais il y avait aussi des suspicions. qui ont été, dans certains cas, je crois, avérés un peu plus que des suspicions d'espionnage industriel et d'espionnage à travers ces matériels. Donc, Huawei s'est fait bannir des États-Unis et ils ont poussé le truc un peu plus loin avec le fait que Google leur a retiré le droit de se positionner sur du Android, grosso modo. Et à partir de là, ça a eu un gros impact. puisque à partir du moment où Huawei ne pouvait plus mettre à disposition l'écosystème Android dans ses téléphones, dans ses smartphones, c'est qu'en Europe, en gros, on était habitués justement à iOS ou de l'Android. Et en fait, Huawei se retrouvait sans aucun des deux et a dû développer de son côté, je crois qu'il s'appelle Harmony OS, si je ne dis pas de bêtises, leur système. Mais ils ont dû construire leur propre système sur smartphone. pour pouvoir avoir un système d'exploitation opérationnel et open source à mettre dans leur téléphone pour pouvoir commercialiser à nouveau leur téléphone en Europe. En Europe et dans le reste du monde, je dis dans le reste du monde, mais je ne sais pas s'ils ne sont pas toujours interdits aux Etats-Unis d'ailleurs. Et en Europe, il y a aussi des questions là-dessus, puisque on a encore dans nos équipements réseaux du Huawei, Et c'était il n'y a pas longtemps d'ailleurs, je ne sais plus, je crois que c'était en 2025, 2025 ou 2026, je crois que c'était l'an dernier, qu'il y a le Luxembourg qui s'est retrouvé avec une coupure de télécommunication du réseau pendant 6 heures ou 8 heures, justement à travers ce type de matériel. Et en paralysant, on a fait des communications à l'échelle de tout l'État. Oui,
- Speaker #1
oui.
- Speaker #0
Voilà. Bref, petite digression sur Huawei pour remettre en contexte. Mais ils se sont retrouvés effectivement eux aussi très embêtés par le gouvernement américain et ce qu'ils imposaient. Sachant que ça c'est une liste aussi qui est un peu à la con leur système américain. Parce que dernièrement, c'est le même badissement qu'ils ont établi et menacé pour Anthropic avant de revenir en arrière. Puisque je digresse peut-être un peu trop. L'armée utilisait pas mal
- Speaker #1
Anthropique et que ça paraissait compliqué de juste jeter tout d'un coup et de dire on n'utilise plus
- Speaker #0
Très court, Anthropique est utilisé justement par Palantir dans les systèmes utilisés justement à l'échelle de Mystère de la Défense, je ne sais plus comment il s'appelle aux Etats-Unis mais voilà, au niveau de l'armée et en fait à un moment Il y a Entropy qui a été questionné, justement, le gouvernement, sur l'usage qui était fait de leur IA parce qu'ils avaient mis en place des interdictions sur la surveillance de masse et sur l'utilisation d'armes autonomes sur la population, qui est interdite dans les conditions d'Entropy, et en fait ça n'a pas plu, grosso modo, au ministère de l'Armée, et du coup au gouvernement américain, qui considérait qu'à partir du moment où ils achetaient un logiciel, ils en faisaient ce qu'ils voulaient. le cadre d'utilisation qu'il souhaitait. Ce qui amène à plusieurs débats et plusieurs trucs, puisqu'après on peut se dire, oui, mais est-ce qu'une boîte est à même de choisir elle-même des conditions quand on parle d'une question d'État et de sécurité nationale ? Pas forcément, mais en même temps, le point de vue qui est défendu s'entendait aussi, de se dire que la technologie n'est pas appropriée, n'est pas censée servir à ça. Quoi qu'il en soit, ils se sont fait un peu... pilonnés, il y a eu cette menace de les sortir et qu'ils soient interdits d'utilisation dans tout ce qui était public, enfin, établissement public et d'État, justement, fédéral, aux États-Unis. Mais ça n'a pas tenu, déjà parce qu'ils sont partis faire la guerre dans la foulée, et qu'en fait, Anthropique était déjà utilisé par l'antenne, était déjà utilisé par l'armée. Du coup, ils l'ont utilisé, justement, dans la guerre en ce moment. Et aussi parce qu'Anthropique a complètement renversé... la table en multipliant ses revenus en quelques mois et en s'imposant comme le leader aujourd'hui d'un point de vue IA et ce qui les a un peu mis... ce qui ne permet plus vraiment au gouvernement de passer outre et surtout depuis qu'ils ont proposé leur modèle qui s'appelle MITOS et qui lui est là pour les failles de sécurité et qui est justement aujourd'hui réservé aux états américains et à une poignée de boîte justement parce que l'IA serait trop puissante pour être mise dans les mains de n'importe qui. Voilà, désolé, grosse digression mais comme ça vous avez un peu le contexte des différents petits bouts.
- Speaker #1
J'ai vérifié le Cloud Act 2018. Et c'est arrivé à peu près en même temps, juste après le RGPD, je crois. Et justement, c'est là où il y avait des... Ça ne passait pas avec le RGPD. Il y a eu des tensions. C'est ce qui pose problème à beaucoup d'entreprises américaines pour s'implanter en Europe ou faire les choses comme il faut en Europe.
- Speaker #0
Oui, parce qu'en fait, ils sont obligés de mettre en place davantage de mesures de sécurité, de confidentialité. Ils ne peuvent pas exploiter les données comme ils le souhaiteraient. Et voilà ce qui amène des problématiques d'autant plus fortes pour eux sur la partie IA, où il y a tout un enjeu à aller exploiter, à travailler la donnée. Même si sur ce point-là, au final, même pour les boîtes américaines, officiellement, dans la plupart des cas, que ce soit sur les chatbots ou les API, aujourd'hui, vous pouvez désactiver. l'utilisation de vos données pour l'entraînement des modèles, mais il n'empêche qu'il y a encore plein d'autres choses autour, sur les données d'utilisation, de vos conversations directes, la manière dont vous les utilisez, les extensions, et toutes ces choses-là qui sont soumises justement à des législations et à un cadre très strict. Et voilà, petit détour, tout ça pour en revenir au fait que, suite au rapport Henri Verdier, en 2025, donc quelques années plus tard, la commission. européenne à valider la création de l'EDIC, Digital Commons. Donc EDIC pour l'European Digital Infrastructure Consortium qui est grosso modo un cadre européen qui est censé permettre aux États de déployer et mettre en place des solutions à l'échelle européenne et nationale. Il me semble que c'est les deux. D'abord de mettre en place des infrastructures numériques dites transfrontalières. Désolé, il y a l'air à dire. mais en fait de mutualiser les ressources logicielles et justement d'aller dans une démarche d'open source et de commun numérique et faire davantage de souveraineté que ce soit à l'échelle des États et à l'échelle européenne. Et ça, ça a été le lancement officiel du coup de l'IDIC, qui a été fait très récemment puisqu'on parle du 11 décembre 2025. Donc c'est encore tout frais, mais on part à l'aile de ça. On avait déjà des initiatives en France avec la suite numérique. Lulu, si tu veux bien nous la présenter un petit peu.
- Speaker #1
La suite numérique, c'est un projet open source.
- Speaker #0
Oui,
- Speaker #1
je pense qu'on a oui. Oui, mais c'est un peu en vue de remplacer la suite Microsoft qui est énormément implantée dans toutes les organisations d'État, même au niveau de l'enseignement. Et dedans, on a différents outils. Donc, il y a CHAP. Ça, c'est un outil de discussion qui équivaut un petit peu à WhatsApp, on peut dire. Il y a Vizio qui est basé sur BBB. Alors ça, ceux qui ont été à la fac ou ce genre de choses, ils ont peut-être déjà utilisé BigBlueButton. Ça marche bien. En plein Covid, il avait fallu réagir un petit peu vite pour les cours en Vizio et ça permet de... de faire des petits groupes, des sous-groupes et tout ça. Et le club prof, il passe vraiment comme s'il passait à différentes tables. Voilà, c'est généralement intégré avec Moodle, pour ceux qui connaissent. Il y a aussi Doc, Grist, Grist que certains membres de la communauté NoConFrance utilisent. Coucou Amandine. C'est peut-être la seule qui utilise Grist, je ne sais pas.
- Speaker #0
Oui, non, d'ailleurs... Parce que j'avais découvert Grist à la base dans un podcast qui s'appelle Projet Libre, je crois que c'est Projet Libre, je vais retrouver le nom, et justement qui présentait cet outil Grist qui est en fait un outil no-code qui fait un mélange entre du tableur et un système de formule, mais du coup qui fait du no-code qui permet de créer des systèmes. Même dans l'épisode quand ils le présentaient, en gros ce qu'ils en disaient c'est que c'était très moche, mais que ça faisait très bien le boulot globalement. et que c'était quand même assez puissant.
- Speaker #1
Après, au moins, tu n'es pas dépaysé si tu utilises du Excel ou ce genre de choses. C'est un argument comme un autre pour remplacer dans les boîtes. Mais tu peux faire des formulaires et je crois que la plupart des formulaires qu'on remplit en ligne sur tout ce qui est gouvernement, c'est fait avec Grist derrière.
- Speaker #0
D'accord.
- Speaker #1
Ou en tout cas, Amandine, quand elle nous en avait parlé à la NoCodeWeek l'année dernière, elle était en train de faire un formulaire et elle nous a montré rapidement. Et c'était moche, mais ça ressemblait aussi du gouvernement. Donc, tu étais un peu chez toi quand même. Et ça marchait bien.
- Speaker #0
Oui, ça change. Alors, j'ai retrouvé, donc c'est bien le podcast Projet Libre, on vous mettra aussi dans les sources et dans la référence. Podcast très chouette, et d'ailleurs, que ce soit, si vous avez l'impression qu'on passe peut-être un peu vite sur les sujets, que ce soit dans l'épisode précédent sur les communs ou sur celui-ci, et que vous avez envie d'en savoir plus sur le monde du libre et de l'open source, et voilà, tout cet écosystème et tout ce que ça implique, je vous renvoie très fortement sur cet épisode, enfin sur cet épisode, sur ce podcast, pardon, et les différents épisodes. qui adresse plein de sujets intéressants justement dans le mode de l'open source. Et on vous mettra aussi le lien vers Framasoft, qui propose en fait toute une suite et un ensemble d'outils open source et des articles, un sur lequel on s'est aussi appuyé justement pour préparer cet épisode, et qui vont beaucoup plus loin sur le détail, la technique, et qui sont dans la communauté du livre en fait depuis très longtemps. Lulu et moi ne sommes pas libristes de balaises ni... l'un ni l'autre. Et voilà, on est amené à utiliser des outils open source. Moi, j'en mets de plus en plus chaque année dans ma stack d'outils. Mais voilà, on ne connaît pas du tout cet écosystème comme pourrait l'être quelqu'un qui vit avec des outils libres depuis très longtemps. Voilà, pardon pour la digression. Et pour en revenir justement à la suite numérique.
- Speaker #1
Yuff. France Transfert et on a aussi une IA qui s'appelle Albert.
- Speaker #0
Alors,
- Speaker #1
je ne l'ai jamais testé. Je ne sais pas toi si tu l'as...
- Speaker #0
Non, mais j'en ai entendu parler il n'y a pas longtemps, justement, par quelqu'un qui était fonctionnaire. Je n'ai plus son poste là, mais en fait, qui l'avait utilisé dans un contexte... Derrière Albert, il y a Mistral, en fait, qui l'a utilisé. Et ils ont des portails qui commencent à être mis en place avec du Mistral. un peu spécialisé par domaine en quelque sorte. Et ils sont formés en interne justement à l'utiliser davantage. France Transfer, tu l'as dit, c'est l'outil de transfert. C'est un peu ce qui remplace des... J'ai FromSmash en tête qui est français, mais c'était pas FromSmash... C'était WeTransfer, pardon.
- Speaker #1
Oui, c'est Smash, sinon en équivalent français aussi.
- Speaker #0
Ouais. Et du coup, France Transfer permet d'envoyer des fichiers très volumineux. qui ne passerait pas justement habituellement dans un mail et autres. Docs, tu en as parlé rapidement, mais en fait, ça serait un remplaçant équivalent à du Word, grosso modo. Et sur Ausha et Visio, et un peu les différents outils que Lulu vient de citer, en fait, ce qui est intéressant derrière, c'est que les protocoles et les technos qui sont derrière sont justement open source. Donc derrière Ausha, c'est Matrix, je crois, ou Matrix, je ne sais plus. Je crois que c'est Matrix. Oui,
- Speaker #1
c'est ça.
- Speaker #0
Visio, donc tu l'as dit, c'était BBE. BBB. Et en fait, BBB. Et en fait, l'intérêt de ça, c'est que sur chacun de ces outils derrière, ça permet d'avoir des serveurs hébergés directement par l'État et donc que les données ne transitent à aucun moment par justement une boîte américaine pour X raison. Et pour donner un peu aussi une idée de l'envergure de cette suite, là, début 2026, on est quand même sur une suite qui est présente dans plus de 15 000. Elle est présente dans 15 ministères. Elle est accessible à 1,6 million d'agents. Et en utilisateur actif, on est sur du 500 000 par mois. Donc, on est quand même sur une suite de bureautique qui est réellement utilisée en production, avec du volume, pour le coup.
- Speaker #1
Et par exemple aussi, en termes de prix, c'est que la suite, on est à peu près à 75 euros par agent par an, alors que Par exemple, pour du Microsoft Office 365 ou du Google Workspace, on est plutôt autour de 300-600 euros par an, par agent. Voilà, c'est quatre à huit fois moins cher. Voilà, c'est clairement pas négligeable. Et dans une période où on cherche à faire des économies partout, c'est peut-être un point à aller explorer. En tout cas, j'espère que ça va continuer à aller dans cette direction, même si on va voir qu'il y a quand même pas mal de choses contradictoires.
- Speaker #0
Oui, mais c'est vrai que c'est fin. Justement, c'est un tout. C'est que d'aller vers les communs, ça a des bénéfices, comme on l'a dit, sur la partie sécurité, confidentialité des données, et aussi sur la partie financière, puisque le principe de base, c'est que les débuts sont plus difficiles, puisqu'il faut concevoir, mettre en place les outils, changer les habitudes des gens pour qu'ils puissent s'en servir. Et voilà, en termes de conduite du changement, ça a un coût. Mais d'un point de vue, justement, finance, on n'est plus tributaire d'une boîte. et justement d'un logiciel propriétaire dont le tarif peut changer un peu n'importe quand, dont le coût... va se faire à l'utilisateur ou en tout cas selon les modalités de l'entreprise en question. Et d'autant plus ces dernières années, depuis que l'IA est arrivée, qu'elle est enfoncée au chausse-pied dans tous les abonnements et qu'on se retrouve à payer de l'IA, qu'on s'en serve ou pas dans ces différents outils. Toutes les suites collaboratives aujourd'hui, que ce soit en perso ou en pro, quand vous allez payer un Microsoft 365 ou un Google Workspace, vous allez payer plus cher qu'avant pour des fonctionnalités IA que vous les utilisiez ou non. et en sachant que l'IA aura accès à vos données en permanence et voilà ce qui donne plus accès à d'autres écueils on va partir là dedans mais notamment une histoire récente avec les cartes Google Maps dont on peut avoir des clés API, les utiliser justement sur des sites ou des applications et en fait Gemini peut y avoir accès, ça devient des failles de sécurité et du coup c'est exploité pas mal de développeurs qui se sont retrouvés avec des factures astronomiques parce qu'en fait par défaut Gemini avait accès à des fonctionnalités qui n'ont rien à voir et à partir du moment où ils se faisaient contourner par ce biais là et qu'on récupérait leur clé API on avait accès à leur workspace Google et voilà ça coûtait vite très très cher et ça faisait très très mal mais c'est pour dire que voilà ça s'est accepté aujourd'hui d'un point de vue Google comme fonctionnement normal de se dire qu'il y a certains outils qui sont accessibles par Gemini que vous le vouliez ou non On pratique aujourd'hui, on peut aller le changer dans le Google Workspace, il y a des techniques à faire, il y a des réglages pour que ce ne soit plus par défaut. Mais c'est un peu tout ça qui est un enjeu dès que vous utilisez des outils numériques et des outils justement dans les suites bureautiques. Sachant que la suite a eu aussi ses détracteurs, et notamment c'est la Cour des comptes qui avait requestionné le budget investi dedans. Le questionnement est arrivé en 2024, je crois que ça refait parler de... enfin de ça il n'y a pas très longtemps, il y a quelques mois, mais parce qu'en gros ça représenterait aujourd'hui la suite numérique, un investissement, un développement, une mise en place, etc. d'environ 40 millions à aujourd'hui. Ce qui peut sembler beaucoup en un sens, et c'est un peu ce qui leur a été reproché, mais déjà ce qui va mettre en opposition avec deux choses, donc déjà tu l'as dit, les gains réels immédiats par rapport à du Microsoft Office ou à du Google Workspace, et aussi par rapport à d'autres projets. qui avaient été mis en place côté État, au lieu d'être orientés justement open source et du coup des briques qui pourraient perdurer, être réutilisées, remaniées et ouvertes, des projets qui avaient été mis en place justement avec des acteurs privés, comme le projet Louvois qui représentait en fait toute la gestion des paix pour les militaires, pour l'armée, qui représentait un coût de 500 millions. et qui a été abandonné après 10 ans, un peu plus de 10 ans, puisque ça a été une cata, que l'outil était très mal pensé, et en fait dès qu'il y avait des changements qu'il devait mettre en place pour les primes ou pour les salaires, ça déclenchait des gros soucis, et c'est vrai que moi ça m'avait fait tiquer et amuser en même temps, parce que j'avais un collègue militaire qui était concerné justement pendant le temps de son service militaire par ce type d'outil, et qui avait des... des retards de salaire qui étaient absolument lunaires, qui pouvaient se retrouver des fois à ne pas être payés pendant trois mois, des fois ils étaient trop payés, d'autres fois pas assez. Quand ils faisaient ce qu'on appelle des OPEX, des opérations en extérieur, avec un système de primes, etc., c'était encore plus le chaos. Je pense que tous les militaires qui ont bossé pendant quelques années justement pour l'État se sont mangés ça à un moment ou à un autre. Et bref, ça a été une cata, un projet abandonné, comme on disait, 500 millions. Y'a des... L'opérateur national de paye, l'ONP, qui avait été abandonné aussi après 7 ans, plus de 350 millions. Le sirène qui était utilisé côté RH pour l'éducation nationale, qui a représenté aussi environ 480 millions et qui a été abandonné aussi. Si on met en rapport ces projets-là, qui ont représenté plus d'un milliard d'investissements pour des projets abandonnés parce que c'était fait avec des boîtes en privé et que ça s'est mal passé, que ça s'est mal terminé et que ça a été la cata. à plein de moments pendant leurs années d'utilisation. Du coup, les 40 millions pour la suite numérique, qui a vocation à évoluer, qui est utilisée en production, ou a priori, ça a l'air quand même de bien se passer, et qui est sur des break-open sources, c'est à remettre en perspective. D'ailleurs, je vous invite vivement à lire l'article de Framasoft qui détaille davantage là-dessus, qui va plus loin aussi sur les points positifs et négatifs de cette suite. Puisqu'après sur la partie briques open source utilisée, il y a aussi des choses, des petits débats. Mais bref. C'est une initiative qui vaut quand même le coup d'être saluée et qui va dans le très bon sens et qui est quand même bénéfique à plus d'un titre. qu'on a présenté un petit peu la suite. Et on va parler un petit peu justement d'un autre point qui fâche. Et alors pourquoi il fâche, c'est pour le mettre un peu en explication. Le 8 avril, on a eu un séminaire de la DINEM qui a fait en gros des annonces pour dire qu'ils allaient sortir au niveau de l'État. et de la plupart des ministères, sortir de Windows pour les quitter et basculer sur du Linux. Avec plusieurs annonces, il y avait la Dynam en interne qui, elle, du coup, avait déjà migré ou était déjà en cours de migration des 250 postes qu'ils ont, eux, en local, justement, sur du Linux. Je crois qu'ils avaient déjà migré à ce moment-là, pour la déclaration. On avait le CNAM qui bascule 80 000 agents, justement, vers la suite numérique sur certains outils. On a le Health Data Hub dont on a parlé un petit peu plus tard. plutôt pour l'hébergement des données de santé, qui est censé quitter Azure d'ici fin 2026. Censé, on verra si ça sera fait ou pas. Mais en fait, il y a tout un plan interministériel qui consiste à dire que d'ici l'automne, chaque ministère devra identifier en fait tous les goulots d'étranglement qu'ils ont aujourd'hui, tous les outils qu'ils utilisent. Donc ça va des postes de travail, aux outils collaboratifs, à tout ce qui est antivirus, IA, système de sécurité, enfin un petit peu tout. Faire une espèce d'audit global pour voir grosso modo où sont les points de friction, quels sont les points les plus galères à migrer, et préparer justement une migration de tout ça dans les années à venir. Donc l'idée vraiment d'ici l'automne, c'est d'avoir un audit et en gros un plan de bascule sur les prochaines années pour aller vers du Linux, pour aller vers la suite numérique. pour aller vers de l'open source autant qu'on peut, et aller vers une souveraineté justement à l'échelle nationale.
- Speaker #1
Dans les faits, pour l'instant, c'est encore beaucoup d'annonces, et il n'y a pas grand-chose de concret encore.
- Speaker #0
Oui, sachant que ça, c'est à mettre en... Justement, le petit point qui est fâche, c'est qu'à peu près au même moment, enfin pas au même moment, donc en mars... L'éducation nationale a renouvelé son contrat avec Microsoft jusqu'en 2029, ce qui représente un petit billet de 152 millions d'euros et près d'un million de postes.
- Speaker #1
Sachant qu'on a 130 millions de licences là-dedans. 130 millions d'euros de licences sur les 152 millions.
- Speaker #0
Et du coup, ce qui est allé directement en contradiction avec ce que l'a dit NUM de son côté justement. vous voulez mettre en avant depuis quelques mois et vers là où est poussé pour aller sur justement l'évolution des outils et le fait d'aller vers plus de libres premier réflexe c'est de se dire que c'est très con quand même d'un côté de faire de super annonce et de l'autre côté de parfaite de re-signer chez microsoft et c'est là où il ya un point qui fait que ben on n'est pas déjà tous aujourd'hui sur du linux et donc ce sont dans les boîtes ou dans les ans enfin ou dans le public, pardon, dans les ministères, c'est qu'en fait, à court terme, basculer tout le monde, c'est compliqué. Puisqu'en fait, il y a toute la partie de l'héritage. Les gens utilisent du Excel depuis des années. Ils ont justement des macros, ils ont tout un document, en fait, qui sont déjà mis en place et instaurés un peu partout, avec des formules et des systèmes qu'il faudrait remplacer, mais qui ne se remplacent pas en un clic. On ne peut pas utiliser un libre-office. d'un coup et avoir justement l'intégralité de son document qui fonctionne sur les documents Word avec la même page, avec les systèmes, la même logique avec la mise en page, les systèmes de modèles et un peu tout ça. En fait, à court terme, les 152 millions, c'est moins cher que de se retrouver pendant des mois en galère parce que les gens n'arrivent plus à bosser, parce qu'on les a fait migrer d'un coup sans qu'ils soient préparés, sans qu'il y ait de conduite de changement. sans que tout soit mis en œuvre pour que ça se passe bien. Et le problème, c'est que ça, ça se retrouve un peu à chaque fois qu'il y a des initiatives, c'est qu'il y a des promesses, il y a des « oui, oui, on va le faire et on basculera » , et qu'en fait, arrivé sur le moment venu, c'est pénible, c'est galère, et on a ce qu'on appelle du legacy, le fameux héritage, qui rend l'ensemble compliqué.
- Speaker #1
Déjà, même quand tu vois tout ce qui est macro VBA, que ce soit dans l'administration française ou même dans les entreprises, Généralement, ce n'est pas des informaticiens ou ce n'est pas le service informatique qui les fait. C'est une personne du métier qui, à un moment, s'est dit « bon, je vais automatiser un peu, je vais faire ça » . Qui s'y connaît en VBA ? La personne, elle part et on se retrouve avec quelque chose qu'on ne sait pas gérer. Généralement, il n'y a même pas de documentation. Donc là, ça serait de migrer du legacy qu'on ne maîtrise pas et qu'on ne maîtrise plus. On n'a pas forcément la connaissance pour. Déjà, rien qu'à maintenir, je pense, en l'état, dans certaines boîtes. Je crois que c'était dans le laboratoire où j'étais avant. S'il n'y avait pas la personne qui savait faire un peu de macro et qu'il y en a une qui est tombée en panne, c'était foutu. Donc, je pense que c'est un autre problème. Et là, ça aurait peut-être mis trop le bazar de tout passer. Après, ça peut se faire aussi par palier. On ne dit pas de changer tout d'un coup. Est-ce que c'est vraiment pertinent de commencer par le système d'exploitation ? Peut-être commencer petit sur les logiciels qui fonctionnent à la fois sur Windows et sur Linux ? Oui,
- Speaker #0
après, là, en tout cas... C'était en licence et c'est un ensemble. Même en restant sur le Windows, rien que la bascule sur des logiciels, elle a quand même toutes les problématiques qu'on vient d'évoquer, sans même aller sur le Linux. Justement, c'est un ensemble, un écosystème, on va dire, à remettre en œuvre et à remettre en place. Mais du coup, à côté de ça, on va avoir des choses qui se font aussi... La stratégie de souveraineté. et d'aller vers de l'open source a déjà été mise en oeuvre par d'autres états, du coup des plus gros. Puisqu'on a notamment le cas de la Chine, et on en a parlé un petit peu à travers Huawei tout à l'heure, mais du coup, eux sont dans une démarche comme ça active d'aller mettre en oeuvre des communs chez eux. On a aussi la même chose du coup côté Russie, pour d'autres raisons. Tu nous présentais un petit peu justement déjà...
- Speaker #1
Oui, ça justement, c'était des notions qui étaient abordées dans le livre « Vive les communs numériques » de David Bull. Et que j'avais trouvé intéressant parce que, alors on sait que la Chine innove pas mal côté techno, mais en Russie, voilà, je n'y étais pas vraiment intéressée, alors qu'ils ont quand même des compétences en termes de côté développeur et tout ça en Russie. Et c'est intéressant de voir comment des régimes qui sont... pas des démocraties, fonctionnent avec tout ce qui est données ouvertes, open source, on pourrait se dire que ce n'est pas du tout l'ambition. Mais il y a la pression américaine qui fait que ça pousse vers l'open source, ou en tout cas vers les solutions maison. Et quand on regarde en Chine, la Chine, à partir du moment où elle ne peut pas accéder au logiciel américain, elle se tourne vers l'open source et après, ça vaut le coup de contribuer à cette open source. Et pour mettre en contexte, le premier contributeur open source, c'est les États-Unis. Mais après, derrière, c'est la Chine. Par exemple, même pour tout ce qui est cloud Linux, c'est la Chine, le troisième contributeur derrière les US et l'Allemagne. C'est quand même un gros acteur de l'open source. Ah oui, il y avait des petits... Des petits fun facts, là, il y a ces deux comptes chinois dans le top 5 GitHub. Voilà. C'est un peu marrant d'avoir ça. Mais ils ont aussi toute une politique de données ouvertes. Alors, ce n'est pas à l'échelle du pays, c'est plus par province, où il va y avoir de la donnée ouverte et de la possibilité d'exploiter ces données. Toujours dans l'idée de pousser à l'innovation et d'utiliser... que ce soit au niveau des villes, des données climatiques, qualité de l'air. Parce que nous, on a l'habitude des GAFAM, mais eux, ils ont aussi leurs propres GAFAM. C'est les BATX. Je crois que tu as assez... Attends, tu as Baidu.
- Speaker #0
Tu devrais avoir Jaumi à la fin. Je ne sais plus ce que c'est les deux autres.
- Speaker #1
Il y a Tencent.
- Speaker #0
Oui, Tencent, pour le coup, c'est très, très gros. Ils investissent dans... Dans le jeu vidéo, on les connaît un peu bien parce qu'ils investissent dans tous les studios de la planète, à peu de choses près. Ils ont beaucoup d'argent chez Ubisoft notamment, mais en fait... Et Alibaba. Oui, et Alibaba. Mais oui, Nontenset, on est sûr de très très grosse boîte.
- Speaker #1
C'est ça, donc... Ils ont leurs réseaux sociaux, c'est quand même très fermé. Et c'est pour ça que ça m'a surpris dans le livre. d'avoir un peu cette vue ouverte en allant contribuer beaucoup à tout ce qui est open source. Et je crois qu'ils ont même leur alternative GitHub. C'est Git-E, et qui est un investissement massif de Baidu, justement. Donc peut-être que quand GitHub cessera de fonctionner, parce que je pense que tu as un peu accusé certains contre-coups pendant le dev.
- Speaker #0
Oui, moi ça va, j'ai eu de la chance, mais effectivement GitHub en ce moment, en deux phrases en gros, ils n'ont pas anticipé l'explosion de l'utilisation de l'IA. qui développent et du coup qui utilisent GitHub et qui font des actions dessus et déploient des choses. Et ils avaient promis de monter de beaucoup l'infrastructure et pour gérer tout ça, ils ont fait des premières choses. Déjà, ils avaient une date technique depuis pas mal d'années qu'ils ont laissé traîner. Et hormis la date technique qu'ils ont laissé traîner, quand ils ont commencé à se rendre compte que ça n'allait pas le faire et qu'il fallait monter en charge et déployer plus d'infras, ils l'ont fait, mais sans anticiper à quel point ça allait exploser en quelques mois et ce qui fait que GitHub a été globalement tout le temps en panne ces derniers mois et jusqu'à chuter un 80% de disponibilité, ce qui est affreusement bas en termes de logiciels SaaS. Les moyennes tournent plutôt autour des 99,95 voire 99% de disponibilité. Donc voilà, le service est disponible, il peut avoir quelques perturbations, mais il est toujours là. là où la kit-top était tombée en dessous des 80%. D'ailleurs, petite parenthèse, Anthropique est aussi en train de bien shooter dernièrement. Ils sont passés sur les 99 justement, sur plusieurs de leurs services, à force d'avoir des pannes tous les jours. C'est les plus gros et... Enfin, c'est les plus gros. Ils font partie de ceux les plus en avance aujourd'hui, mais ils ont quand même des problèmes en termes d'infra, grossière, trop vite. Bref, fin de la digression sur GitHub, mais juste qu'il y a pas mal de monde dans l'univers de la tech qui est en train de se questionner sur est-ce qu'on va rester sur GitHub dans les prochaines années, parce qu'à partir du moment où ça héberge notre code et qu'il y a des moments dans la journée où on peut littéralement pas bosser, ou alors qu'on a des problèmes sur les logiciels qu'on développe parce que ça nous dit que ça déploie le code et c'est pas le cas, ça devient vraiment critique sur des grosses boîtes. et comme GitHub repose sur un système de versionning qui s'appelle Git, qui lui est open source et que du coup, on peut réutiliser sur d'autres outils, il n'est pas impossible ou pas inenvisageable que GitHub ne soit plus forcément l'outil de prédisposition dans les années à venir. Il y a une alternative chinoise qui existe. Oui,
- Speaker #1
il y en a d'autres, mais c'est marrant de savoir qu'ils contribuent beaucoup, mais ils commencent aussi à développer eux-mêmes, à faire rebelle. par exemple des forks ou ce genre de choses.
- Speaker #0
Les Chinois ont tout un écosystème à eux. Ils se sont recréés, en fait, tous leurs... Comme tu le disais, tout de bout en bout, du drive aux réseaux sociaux et dans une logique souveraine, en fait, théoriquement, c'est ce qu'il faudrait d'un point de vue éthérique.
- Speaker #1
C'est ça, et en Russie, on observe à peu près la même chose, même si, eux, ça date d'il y a un peu plus longtemps. Parce que... quand même aussi en Russie, il y a quand même un héritage assez fort côté mathématiques et développement de logiciels où ils ont du très bon niveau. Mais ils n'utilisent pas tout ce qui va être logiciel américain. Enfin, ils les utilisaient mais on va dire en 2011, il y avait 67% des logiciels qui étaient piratés en Russie. C'est quand même énorme et après, voilà, il y a une pression des États-Unis et la seule issue qu'ils avaient, c'était l'open source. Donc ça a été un peu forcé aussi par là. Et je crois que c'était en 2010, Poutine a fait passer un décret pour que toutes les agences gouvernementales passent en open source d'ici 2015. Ça n'a pas marché, parce qu'il y a eu un manque de soutien politique. Et après, il y a eu la guerre en Ukraine, les sanctions des États-Unis. Donc là, c'est de nouveau relancé. Et ils commencent à avoir leurs alternatives russes. Ils ont MyOffice pour remplir. placé Microsoft Office, Yandex Vidéo, ils ont Rutube aussi comme alternative à YouTube. Et je crois que c'est PostgreSQL pour contrebalancer Oracle.
- Speaker #0
Je ne vois pas le lien entre Oracle et PostgreSQL, mais...
- Speaker #1
C'est pour les migrations admin. C'est ce que j'avais lu dans le bouquin.
- Speaker #0
Mais après... Mitij, je ne sais pas où est la cour en 2026, parce que la tendance ces derniers mois est réussie. J'ai un peu survolé les dernières actualités de ces dernières semaines, mais ils sont quand même en train de fermer Internet petit à petit. et de basculer sur un truc complètement isolé, un peu comme la Chine à leur manière.
- Speaker #1
Oui, oui.
- Speaker #0
Donc, à côté Russie, c'est un peu particulier, j'ai l'impression, comme système d'open source, puisque...
- Speaker #1
Mais ils ont aussi annoncé un concurrent à GitHub.
- Speaker #0
Oui.
- Speaker #1
Tout le monde va avoir son GitHub après. Mais je sais qu'il fait un... Si en Russie... C'est le côté tout ce qui va être open data, où ils sont quand même très avancés, et plus que la Chine, ils organisent souvent des hackathons sur leur data publique pour pousser l'innovation. C'est intéressant, on n'y pense pas forcément, et je pense qu'il y a à creuser.
- Speaker #0
Avant qu'on embraye sur l'IA, et je vois que le temps défile, et qu'on va aller un peu plus rapidement sur la partie IA, Il me semble que tu voulais justement citer un des exemples de communs que toi, tu avais rencontré côté sciences.
- Speaker #1
Oui, je vais passer rapidement dessus. Mais en général, si on est un peu dans le milieu académique ou universitaire, on a souvent recours à Sci-Hub, qui est, comment dire, c'est un peu du piratage. Mais quand même, c'est pas... voler la recherche parce qu'en fait, il y a tout un historique au niveau des revues scientifiques qui prennent énormément de marge. Et concrètement, quand il y a des recherches qui sont menées, alors peu importe le domaine, ça peut être aussi de la recherche informatique ou dans la science, la chimie, même les sciences sociales, à chaque fois, il y a une pré-publication qui, elle, normalement, est ouverte. Donc ça, ça a été rendu. C'est un peu plus récent. Et après, ça passe dans une revue où l'article est publié. Et on va dire que la revue garde un peu l'exclusivité au niveau de la publication. Sauf qu'à l'époque, il y avait tout le travail de mise en page, pour bien présenter les paragraphes. Mais aujourd'hui, c'est les équipes de recherche qui font la mise en page. Donc en gros, les revues, elles ont juste à publier. Et c'est tout, juste pour avoir un peu le grand nom d'être publié par exemple dans Nature ou les grandes revues scientifiques. Et je crois qu'ils se font 40% de marge, donc ça fait un petit peu cher, sachant que le contribuable paye la recherche. Et après, t'es obligé de repayer pour accéder à ces résultats de recherche. Donc c'est... voilà. On va dire que même... en fait, quand on va pirater... On n'est pas obligé de forcément aller sur SciUp quand il y a des articles qui ne sont pas disponibles. Nous, on nous avait dit à la fac, en général, on contactait les auteurs, ils sont très contents de vous l'envoyer gratuitement l'article, et il n'y a pas de souci. Parce qu'eux-mêmes sont un peu contraints avec ce côté d'être tenus vraiment par ces boîtes de publications. Sci-Hub, c'est bien. Il y a plein de sites miroirs. Enfin non, ce n'est pas bien. Il ne faut pas utiliser Sci-Hub. Il faut payer les articles, cher. Mais dans le milieu universitaire, c'est vrai que déjà, les labos de recherche n'ont pas forcément trop d'argent. C'est eux qui payent quasiment tout pour que la revue scientifique ait juste à publier. Mais derrière, même eux doivent repayer pour accéder à leurs articles.
- Speaker #0
Oui, ce n'est pas très logique l'histoire. D'accord. On va passer à l'IA ?
- Speaker #1
De rien.
- Speaker #0
Oui, on va passer à l'IA. Je ne peux pas trop t'appuyer sur la partie sciences. Moi, je ne m'en suis jamais servi de Sci-Hub, pour le coup. C'est vrai que si j'avais allé chercher des articles, je l'envisagerais fortement, a priori.
- Speaker #1
Oui, donc des fois, ça te sort après le PDF. En fait, tu prends le titre de l'article ou le DOI, qui est l'identifiant de l'article scientifique. Et comme je dis, ça peut être des articles publiés même sur l'IA ou ce genre de choses. Et si ce n'est pas disponible, c'est une alternative plutôt que de payer 50 euros ton article.
- Speaker #0
Ok. Oui, puis encore une fois, Emile, si tu sais exactement ce que tu veux, que tu as un article en tête, oui, mais si tu as besoin de faire de la recherche et de collecter de la donnée et du coup d'en lire plein, tu ne peux pas forcément te permettre de mettre de tel budget à chaque fois.
- Speaker #1
Surtout quand tu es étudiant. Bon, normalement, tu as quand même une partie des portails qui te permettent d'accéder gratuitement avec ton mail étudiant. Mais ça marche une fois sur deux, donc ça y est.
- Speaker #0
OK. Maintenant, revenons-en à l'IA, justement sur cette approche des communs et cette logique d'open source. Alors, on l'avait déjà évoqué dans des épisodes précédents, mais on va avoir trois niveaux d'ouverture. On va avoir le classique, tout ce qui va être OpenAI, Anthropic, Gemini, donc grosso modo tout ce que vous avez chez Google quand vous utilisez du... Cloud ou du chat GPT, tout ça, on est sur des modèles propriétaires. Donc là-dessus, c'est le principe que tout est fermé, c'est une boîte noire, on ne sait pas avec quoi il les entraîne, on ne sait pas quel matos est réellement utilisé, quelles méthodes sont réellement utilisées, les données qu'il y a dedans, enfin, c'est opaque de bout en bout, mais la promesse, c'est que vous arrivez, vous n'allez pas réfléchir, vous avez les modèles les plus parmi... en tout cas les modèles aujourd'hui les plus performants sur le marché qui sont disponibles d'un coup juste en ayant appliqué votre abonnement ou votre utilisation. Ensuite on va voir les modèles dits open weight, qu'on appelle à poids ouvert. À poids ça veut dire quoi ? C'est que quand vous allez entraîner un modèle et fabriquer à proprement parler un LLM, à la fin vous avez un code qui va pouvoir être utilisé directement. donc les fameux poids, et qui va vous permettre en gros de déployer votre modèle IA sur votre serveur, sur votre ordinateur quand c'est un petit modèle, et qui est prêt à l'emploi en fait pour que vous puissiez le mettre un peu partout. Donc aujourd'hui ça a beaucoup la cote, et même nous on en a parlé, puisque un des avantages de ça c'est de prendre un modèle qui est relativement performant, de l'héberger sur un serveur en Europe par exemple, sur un serveur dans votre entreprise, et de vous assurer que toutes les données restent. entre vous et votre serveur et qu'elle ne transite pas par une boîte américaine ou autre. Vos données restent chez vous en termes de confidentialité, c'est très bien. La limite de ça, c'est qu'on est en point ouvert et pas en open source, ça veut dire que les données, vous ne savez pas ce qui a été utilisé pour la partie entraînement. Et on pourrait se dire, tant que ça marche, à la limite, ce n'est pas forcément grave. Et c'est là où ça pose souci. C'est que dans les données d'entraînement, s'il y a à des biais, s'il y a à être discriminante, si elle est assiste, si elle a des versions altérées d'un événement ou de fait, si elle a tout ce qui est amené à introduire des travers, on va dire ça comme ça, ou des erreurs factuelles dès l'entraînement. vous ne pouvez pas le savoir, vous ne pouvez pas le vérifier. Il y a aussi la question du droit d'auteur, c'est qu'à travers ça, vous ne pouvez pas savoir s'il y a à utiliser et voler des données soumises à droit d'auteur. Et ça fait partie des choses, par exemple, pour lesquelles des modèles comme Meta, qui avait mis à disposition l'IAMA, très connu en tant que modèle open-weight, euh... Ils ont toujours refusé, par exemple, de donner les modèles d'entraînement, puisqu'ils savent très bien que derrière, que ce soit eux ou d'autres, que des modèles, il me semble que Mistrap aussi, c'est des modèles open way, tu ne crois pas ? Je ne sais pas s'ils ont de l'open source, ils ont les deux peut-être. Je sais qu'ils ont du poids ouvert, je ne sais plus s'ils ont du vrai open source complet.
- Speaker #1
Je ne sais pas s'il y a les jeux de données... Je sais que sur Hugging Face, en général, t'as les jeux de données qui ont servi à fine-tune le modèle, ou en tout cas qui te mettent les jeux de données, côté Mistral. Je sais pas. Mais je suis pas sûre. Donc aussi à vérifier.
- Speaker #0
En tout cas, sur les acteurs américains, c'est une certitude. C'est une certitude, notamment parce que régulièrement, il y a des procès qui sont faits là-bas, en tout cas en guerre. Il y a déjà eu des procès côté OpenAI, Anthropik, Amazon ou Google qui avaient été concernés. Il y avait des cas, Nvidia aussi qui en avait fait une belle. Nvidia c'était rigolo parce qu'ils voulaient présenter un modèle à un salon à un moment donné. Ils avaient très peu de temps pour faire l'entraînement du modèle. Et ils ont directement acheté une énorme base de données piratées. Et ils sont fait griller avec littéralement l'end-made, celui qui revend la base de données. Mais vous savez que c'est complètement illégal, parce que tout ce que j'ai, moi, c'est piraté. Et le made de NVIDIA qui dit, je sais, mais de toute façon, on n'a pas le temps, on voit tout. c'est pour le proto on le fera mieux après c'est ça c'est encore une instruction un procès ça va prendre encore un peu des plans avant qu'il y ait des verdicts mais voilà on est sur ce niveau-là en réalité dans ce qui est pratique dans la tech aujourd'hui et d'ailleurs sur Anthropique et ChatGPT ce qui avait été rigolo vous voyez non c'est que d'un côté il y avait eu des procès d'écrivains parce que ils accusaient en gros l'IA d'être en mesure de restituer leur livre Et Anthropique avait dû prouver que non, ce n'était pas possible. Et qu'ils avaient effectivement numérisé les livres, mais des vrais livres achetés. Sachant que les livres achetés, en fait, ils prenaient des bouquins physiques, ils arrachaient les pages pour les faire scanner et les faire ingérer à l'IA et après, ils balançaient les bouquins. Mais ils se sont tous fait gauler parce qu'ils avaient aussi des bases de données piratées de livres. Et voilà. Et en fait, quand ils avaient pris des... Alors, c'était des petites douilles, au final. Il y avait eu des petits trucs, mais la partie où ils étaient, entre guillemets, embêtés, ce n'était pas sur le fait d'exploiter des livres protégés sous le droit d'auteur et de les exploiter de manière complètement abusive. C'était quand le livre en question avait été volé, en fait, à la base.
- Speaker #1
T'imagines tes stagiaires chez Anthropique et ton boulot à longueur de journée, c'est de découper des livres et de les scanner.
- Speaker #0
Oui, non,
- Speaker #1
je pense que ça devient fou. Alors, ça fait bien sur le CV, je pense, mais...
- Speaker #0
Oui, tu ne précises pas ta mission, mais... Enfin bon, et voilà.
- Speaker #1
Enrichissement des bases de données.
- Speaker #0
Juste pour vous expliquer un petit peu justement l'enjeu sur la partie données et pourquoi en réalité les poids ouverts, c'est une bonne chose puisque ça permet déjà une certaine relative autonomie. Mais ça veut dire aussi que quand vous l'utilisez, en fait, s'il y a des biais dans votre IA, vous n'avez pas moyen de le savoir et que ça peut être plus insidieux qu'on ne le croit. Et le troisième modèle, du coup, c'est le vraiment ouvert au sens Aussie. Alors Aussie, c'est pour... open source, c'était quoi ? Et I definition, mais je ne sais plus. Il doit y avoir un mot qui a été bouffé. Mais là, on est sur du vrai open source. Alors, le vrai open source a aussi un problème, enfin le modèle OZY. C'est que dans l'idée, il faudrait donner accès à tout et également les données d'entraînement. Mais si on prend le cas, un exemple, avec un modèle qu'on voudrait spécialiser sur de la finance. ou sur de la donnée médicale, par exemple, en entrée, il faut des données de vrais gens qu'on ne peut décemment pas mettre en open source, en accès à tout le monde sur Internet, puisque ce serait de vraies données de santé ou de vraies données financières, personnelles, avec tout ce qui va avec. Donc, dans ce cadre-là, ce qui a été décidé, c'est de ne pas donner directement l'accès aux données d'entraînement, mais de donner la liste. qui doit être le plus transparente et la plus exhaustive possible des sources de données qui vont servir à l'entraînement. Donc en gros, pas avoir la donnée en elle-même, mais avoir l'institut ou la boîte, ce qui a permis de récupérer ces données pour les mettre en place et toutes les méthodes de travail qui vont avec. Donc c'est en ça qu'on est sur des modèles dits vraiment ouverts, puisque là on a accès à tout et on sait exactement comment. L'IA a été entraînée, utilisée. Et il y a le modèle Lucie qui est concerné là-dedans, en OpenLLM français. Je n'ai plus du tout les données en tête de la performance de ce modèle-là. Mais j'imagine qu'on était sur un petit modèle. Je ne sais plus si tu les as en tête.
- Speaker #1
Je peux les retrouver. On peut aussi citer Playas, qui est une boîte française.
- Speaker #0
Oui, c'est vrai.
- Speaker #1
Alors eux, vraiment, leur donnée, c'est d'utiliser de la donnée qui est en accès libre, où il n'y a pas de droit d'auteur dessus. Et là aussi où ils se positionnent, c'est d'utiliser une donnée qui est de qualité. C'est là où c'est intéressant. Parce que tout en entrée, il y a moins de données d'entraînement, mais ces données d'entraînement ont été vérifiées. en amont, donc on nourrit le LLM, enfin l'entraînement du LLM avec une donnée qui est propre et pas biaisée, qui est représentative. Je crois que tu m'avais parlé, à l'échelle européenne aussi, d'utiliser peut-être des jeux de données où chaque langue est représentée, où j'avais peut-être dû passer ça aussi, pour qu'on ne se retrouve pas avec 80% d'anglais, mais que chaque pays puisse avoir le même poids, peut-être. dans un modèle européen.
- Speaker #0
Oui, je ne sais plus si c'est au niveau du consortium dont on parlait tout à l'heure, dans quel mouvement, mais effectivement, ça fait partie de la volonté côté IA d'aller sur des modèles plus souverains. Et c'est d'avoir des modèles qui sont représentatifs culturellement de l'Europe, puisque comme tu l'as dit, aujourd'hui, l'essentiel des données d'entraînement des modèles, je crois que c'est 80 ou 90% même, est anglo-saxon. Et donc, forcément, on va représenter des logiques, des fonctionnements, une culture qui est... Voilà. plutôt typée nord-américaine qu'ailleurs, autre chose. Et ce qui, de fait, de base, induit des biais, en voyant, sur les modèles d'IA propriétaires qu'on utilise aujourd'hui. Voilà, là où l'open source est un des moyens d'aller contrebalancer ça pour aller sur quelque chose de plus...
- Speaker #1
Ça, et d'ailleurs, avec l'IA Act qui arrive, quand on utilise de l'IA, notamment dans des process où il y a de la donnée sensible, notamment dans le recrutement. Et si on utilise de l'IA pour choisir ou non tel ou tel CV, il faut être en mesure de prouver que l'IA n'a pas de biais de genre raciste. Donc ça, c'est aussi compliqué si on n'a pas les données derrière pour vraiment voir si l'IA n'a pas ces biais-là qui ne seraient pas conformes avec l'IA Act. et qui serait pénalisable ?
- Speaker #0
Oui, tu as amené plein d'interrogations parce que ça demande, je ne l'ai pas encore creusé complètement, mais ça implique des méthodes justement pour mettre en place le plus de garde-fous possible, pour avoir une certaine traçabilité, pour savoir en gros qu'est-ce qui a été mis en place, comment, pourquoi, et les moyens qui ont été mis en œuvre pour éviter de la discrimination, pour éviter... à des biais pour éviter des erreurs factuelles, pour éviter toutes ces choses-là. Ce qui est délicat, en vrai, à mettre en œuvre.
- Speaker #1
Et là, pour Lucie, on est à 7 milliards de paramètres et on a eu à peu près 900 contributeurs sur le projet. Ça reste quand même quelque chose qui n'est pas négligeable. Et c'est des initiatives qui sont vouées à faire avancer ou en tout cas aller dans la bonne direction. C'est sûr qu'on ne va pas... créer tout de suite un anthropique ou un OpenIA européen ou français. Et après, c'est aussi toute la question aussi de se demander est-ce que ça vaut le coup d'avoir toujours les modèles frontières pour tout ?
- Speaker #0
Mais ça,
- Speaker #1
on pourra le voir après, dans un prochain épisode.
- Speaker #0
Oui, mais c'est ça, juste pour conclure là-dessus, c'est une des réflexions aussi de se dire que, et ça a été pas mal dit dans mon open source, que le fait de vouloir absolument créer un nouveau géant à l'échelle européenne, c'est un bon plan. On n'a pas les moyens en termes de finances, d'infrastructures et de l'ensemble de la chaîne d'aller rivaliser avec des Anthropique, avec des OpenAI, avec des Google, avec toutes ces boîtes-là. Et les communs à tous les niveaux, d'un point de vue logiciel, mais aussi infrastructure, etc., sont quelque part le meilleur moyen d'arriver à concurrencer ça, dans le sens où chaque état peut apporter un petit peu sa contribution. Ceux qui ont l'infrastructure, on va mettre à disposition. Ceux qui ont des données pertinentes, exploitables, justement, on les mettra en contribution pour les modèles d'entraînement. Du coup, les modèles, ensuite, de permettre de les utiliser à différents endroits, etc. Et là-dessus, on vous mettra dans les sources deux choses. Déjà, un article que j'avais beaucoup aimé, moi, du Grand Continent, qui parle justement de la souveraineté côté IA, et qu'une des approches viables, c'était plutôt d'aller dans une logique comme ça de répartition de l'argent. charge de travail, quelque part, et que c'était probablement la meilleure des approches. Et pour rebondir sur ce qu'on disait juste avant, là, sur la partie AI Act, et notamment, si on a évoqué le RGPD et des choses comme ça, dans l'épisode, on vous mettra le lien vers un, voire deux livres blancs, je crois, rédigés par Pierre, qui fait partie de la communauté du coup, CreaCity, et qui a... en fait écrite de livres blancs pour permettre à une petite boîte, à une TPE d'y voir clair un petit peu sur les enjeux qui les concernent en termes légaux sur ces deux sujets, notamment les actes qui arrivent, qui rentrent en vigueur en août je crois, je crois que c'est août, et voilà pour dégrossir un petit peu le sujet et vous dire un peu, il y a ça, tout le monde compte ces deux livres blancs sont très chouettes, on vous mettra les liens dans les sources de l'épisode
- Speaker #1
une petite tape pour pseudonymiser ces données. C'est aussi assez cool de suivre le développement de ça et de voir qu'il y a des personnes qui s'approprient ces sujets-là. Et on ne peut pas continuer de juste les ignorer et se dire qu'il faut faire la course à l'innovation et aller plus vite, Et c'est vrai qu'à l'ouverture des données, ça me fait penser aussi à bosser dans l'environnement. On avait souvent besoin d'acheter des données à Météo France pour exploiter, faire les roses des vents et toute l'exploitation météorologique. Et c'était début d'année dernière où toutes les données de Météo France sont passées en open source. Donc on peut les récupérer, on peut aller voir les données météorologiques de chaque station météo qu'il y a en France, pouvoir les exploiter. Et par-dessus, il y a les API aussi qui sont disponibles. Et c'est sûr que ça a un peu fait questionner, parce que Météo France était en partie financée par des boîtes qui achetaient ces données pour pouvoir les exploiter. et là c'est passé en open source, donc on a juste à sélectionner le département, la ville ou la station météo où on veut récupérer les données et tout ça. Je crois que c'est des questionnements qu'il y avait eu aussi quand il y avait eu les données qui s'étaient ouvertes, tout ce qui était les sirènes et les données d'entreprise. À chaque fois, les boîtes qui font de l'argent avec ce type de données, ils vont dire non, mais je... Je pense que sur le long terme, c'est plus bénéfique d'ouvrir ces données. Là, c'était notamment dans le cadre de la lutte contre le réchauffement climatique, de se dire, on ouvre les données pour permettre aux gens de les exploiter et d'innover du côté-là.
- Speaker #0
Ok, on a eu ce question. Merci Lulu pour justement de m'avoir accompagné sur cet épisode, à moins que tu aies une dernière chose à ajouter, mais sinon je pense qu'on a fait un bon petit tour justement d'Ecoma numérique. Je vous invite, si vous ne vous aviez pas écouté le premier épisode, à y aller, pour avoir juste les familles un petit aperçu. Et de toute façon, on se retrouve la semaine prochaine pour un épisode de Côté Outils. Un mot de la fin ?
- Speaker #1
Non, on va continuer à suivre tout ce qui se passe du côté des communs, et pourquoi pas essayer d'y contribuer, peut-être à notre échelle. En tout cas, ça donne envie de peut-être faire sa part, et d'aller... écrire des articles sur Wikipédia, ce genre de choses-là. J'ai vu un événement à Nancy où ils ont une expo, je crois, sur l'art nouveau et ils font un atelier, je crois, samedi avec les jeunes et les moins jeunes où ils vont mettre à disposition et les gens vont aller écrire des articles sur Wikipédia pour enrichir avec la collection du musée. Ça, c'est des petites initiatives qui sont cools. Et pourquoi pas mettre en avant tout ce qui est open source et les communs numériques.
- Speaker #0
Très bien. Merci Lulu, merci à tous et à toutes de nous avoir écoutés, on se retrouve la semaine prochaine pour un épisode Côté Outils, bonne journée ou bonne fin de journée à vous et à très bientôt !
- Speaker #1
Salut !