Du chaos du web à l'insight business : un Data Scientist raconte (Balthazar Mehus) | Déclic data

Description

Dans cet épisode, Balthazar Mehus, Data Scientist au parcours résolument atypique : de l'école militaire à la data science, en passant par les maths sup, l'ingénierie et le cloud. Touche-à-tout, curieux et pragmatique, il aborde la donnée comme un terrain à conquérir avec méthode et rigueur.

On y explore un sujet souvent sous-estimé : comment transformer les données d'internet en valeur business, depuis leur collecte jusqu'à la valeur délivrée au métier.

Au programme de cet échange vivant et sans détour :

Le scraping démystifié : ce que c'est vraiment, ce que ça permet, et les limites à respecter pour ne pas franchir la ligne rouge.
De la donnée brute à la connaissance : comment nettoyer, structurer et donner du sens à des données hétérogènes et non structurées issues du web.
Les pièges concrets : structure HTML qui change du jour au lendemain, données similaires mais de sens différents, alertes à mettre en place pour éviter les ruptures silencieuses.
L'IA au service de l'analyse : comment les LLM changent la donne pour interpréter des données textuelles complexes, et pourquoi ça a un coût qu'il faut savoir arbitrer.
Le critère de réussite comme boussole : à travers un cas concret de trading algorithmique enrichi par l'analyse de sentiment, Balthazar illustre pourquoi poser la bonne question au métier est plus précieux que la meilleure des solutions techniques.

Un épisode pour tous ceux qui veulent aller chercher la donnée là où elle se cache, sans perdre de vue ce qui compte vraiment : l'impact business.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Bienvenue à ce nouvel épisode de Déclic Data. Aujourd'hui, on plonge dans l'univers fascinant des données issues du web, donc celles qu'on ne trouve pas forcément dans les systèmes internes des entreprises, que ce soit des entrepôts de données ou des bases de données métiers, mais un peu partout, sur les sites web, dans les API, les portails open data, bref, dans le grand bazar numérique et Internet. Et pourtant, derrière ce chaos apparent se cache une véritable mine d'or, des informations capables d'éclairer des décisions. d'anticiper des tendances ou même de révéler des insights que les bases internes ignoreront toujours. Pour capter ces données, on utilise souvent un procédé ou une technique qu'on appelle le scrapping. C'est tout simplement le fait d'extraire des informations présentes sur une page web comme si un robot venait parcourir le site pour le lire et récupérer le contenu utile, que ce soit des chiffres, des produits, des commentaires, tout signal intéressant. Et donc bien évidemment, cette matière brute... a besoin d'être nettoyé, structuré, transformé pour devenir exploitable d'un point de vue business. Pour parler de ce sujet, j'ai le plaisir d'avoir à mes côtés Balthazar Meus, data scientist d'une curiosité insatiable avec un parcours assez atypique puisqu'il a commencé sa carrière dans l'armée. Avec Balthazar, on va voir comment on passe concrètement du scrapping à la valeur métier. Et les pièges à éviter, bien évidemment, les bonnes pratiques et puis aussi comment donner du sens à tous ces flux foisonnants d'informations. Donc cet épisode va être dédié à comment transformer le chaos du web en valeur business. Eurk Baltazar, avant de plonger dans le sujet, je t'invite à te présenter, parler de ton parcours et puis ce que représente le métier de data scientist pour toi.
Speaker #1
Merci pour la présentation. Comme tu l'as dit, j'ai fait plein de choses et je crois que pour me qualifier, on pourrait parler de diversité. C'est peut-être ça qui fait mon unicité. Mais en deux mots, j'ai eu des bonnes notes à l'école et des mauvaises, des moyennes, des excellentes. J'ai fait un peu de tout. Et un jour, quand je ne savais pas quoi faire, je me suis orienté vers une voie militaire. Et j'ai fait d'abord dans une école militaire qui m'a un petit peu serré les vis, qui m'a obligé à être bon à l'école. J'ai fait maths sup et maths p. Après, j'ai fait une école d'ingénieur dans une école militaire encore. Et c'est là où je découvre l'informatique. Et à l'époque en fait, l'informatique c'était 2009. C'était pas du tout mon objectif. Mon objectif moi c'était de partir à la guerre. Donc j'ai pas vraiment écouté.
Speaker #0
Pas encore la guerre de la data hein mais...
Speaker #1
C'est une façon de parler quand je dis... Vous pourrez pas me prendre pour un fou mais c'était pour simplifier en fait. Mon objectif c'était plutôt le terrain, c'était la tactique, emmener des hommes au combat, protéger la France, toutes ces grandes valeurs. Et donc la partie académique de l'école militaire, bah disons qu'elle passait en second plan mais... Mine de rien, ça a infusé en moi et j'ai eu des cours d'informatique et j'ai passé un diplôme d'ingénieur généraliste avec une spécialisation en informatique. Et déjà d'ailleurs en 2010, j'ai commencé à travailler sur l'IA, sur la donnée sans le savoir, sur l'automatisation, sur l'architecture logicielle, sur plein de choses comme ça. Mais j'étais forcé en fait. Et après j'ai choisi dans l'armée une voie qui est très technique parce que je voulais d'une part faire le métier de militaire, mais sans oublier que c'est aussi important l'ingénierie, la technique, donc j'ai choisi les transmissions.
Speaker #0
Le militaire, il y a beaucoup beaucoup de technique derrière, beaucoup de maîtrise.
Speaker #1
Il y en a plus ou moins. Si tu es fantassin, il y en a un petit peu. Et puis si tu es dans le génie, il y en a beaucoup plus. Si tu es transmetteur, il y en a encore plus. C'était la voie normale informatique, après transmetteur, donc j'ai fait les systèmes d'information et de communication. J'ai appris à manager des équipes dans le monde de la radio, dans le monde du système, dans le monde du réseau. Et le but était donc de délivrer des services informatiques à un quartier général pour qu'il puisse commander. J'ai fait ça, et puis j'ai eu mon premier job à Toulouse en tant que parachutiste. Et puis là un jour ma femme m'a dit, j'ai un cours, elle était encore à la fac, j'ai un cours d'informatique, j'y comprends rien, je faisais fac de communication. Elle devait faire un site web. Elle m'a dit, tiens Balthazar, pendant tes études tu n'avais pas fait un peu d'informatique ? J'ai dit si si, mais c'est facile, tu vas voir, HTML, 1, 2, 2, c'est fait. Bon, au bout d'une heure elle a lâché l'affaire, elle a laissé se coucher. Moi à 80 du match j'étais encore dessus. Et en fait depuis ce jour là, en 2014 je pense, j'ai plus jamais lâché un PC et j'ai fait de l'informatique.
Speaker #0
C'est marrant hein. L'histoire comme ça arrive et fait quelque part un déclic.
Speaker #1
C'est vraiment ça, je suis tombé amoureux. Et puis en parallèle de ma carrière militaire, j'ai monté une agence de communication orientée digitale. Donc on faisait des sites, des sites e-commerce, on faisait du marketing en ligne, on faisait des choses comme ça.
Speaker #0
Et la data science alors ? Comment tu es arrivé jusque là ?
Speaker #1
Et ouais, c'est un long parcours finalement. Je me suis rendu compte que je n'aimais pas trop ce qu'on appelle le front-end, donc la partie design. et que Je trouvais plus d'intérêt à coder dans le back-end, à manipuler des données, à faire des algorithmes. Puis un jour j'ai quitté l'armée et je me suis dit qu'est-ce que je vais faire ? Je suis allé vers une voie ingénieur informatique et entre 2009, mon diplôme d'ingénieur, ou 2021, il s'était passé plein de choses, la containerisation, l'IA a explosé, le calcul distribué, plein de choses, plein de nouvelles choses. Et donc je me suis un peu remis à jour. J'ai cherché un job derrière. J'ai fait d'abord chef de projet dans le cloud, donc très infrastructurel, puis finalement ça me plaisait pas du tout, ça manquait vraiment d'algorithme. Et comme je suis un peu mygiver finalement... dans l'informatique, dans le réseau, dans le système, dans l'algorithmie, les mathématiques. Finalement, Data Science, ça se prêtait bien à ce que je voulais faire. Parce que c'est un carrefour entre les mathématiques, l'informatique et puis le métier. Donc, les trois pôles étaient là, entre le business, information, communication que j'avais fait, entre les mathématiques de mon parcours scolaire et puis l'informatique. Du coup, pour toi,
Speaker #0
c'est ce côté un peu à la croisée des chemins qui te plaît. Comment tu expliquerais à quelqu'un qui... qui ne connaît pas la data science ou le métier de data scientist, que fait un data scientist ? Je sais que c'est souvent, avec beaucoup de métiers dans l'IT, c'est difficile de répondre à ça. Mais grosso modo, pour toi, c'est quoi l'essence d'un data scientist ?
Speaker #1
J'aime beaucoup cette question, parce que tout le monde se la pose pour de vrai, et même les employeurs. Je crois qu'il y a plusieurs formes de data scientist. Tu as celui qui fait des recherches, qui va construire des modèles prédictifs, qui est très mathématicien, qui est dans l'université. Tu as celui qui va... Utiliser ses modèles en entreprise et ne faire que ça, c'est-à-dire vraiment trouver la meilleure façon d'utiliser ses modèles pour répondre à un cas d'usage. Et puis tu as celui, le troisième, celui qui est plus ingénieur, qui va en fait essayer de donner de la valeur à la donnée avec tous les outils qu'il a autour de lui, notamment des modèles d'intelligence artificielle, mais ce n'est pas toujours l'outil le mieux adapté. Donc finalement la data c'est plus une philosophie, plus qu'un secteur en fait, c'est comment faire en sorte d'être rigoureux. dans un process industriel informatisé à partir de la donnée en fait. Et la donnée c'est le coeur du truc d'abord on voue un culte à la donnée et ensuite on va pouvoir la faire parler.
Speaker #0
Oui, sans minerais il n'y a pas d'or, donc il faut bien avoir la donnée pour pouvoir creuser. Donc très intéressant, du coup j'entends qu'il y a plusieurs profils, plusieurs types de data scientist et toi tu dirais que tu es plutôt...
Speaker #1
Moi je suis le troisième je suis le troisième plutôt Touche à tout. En fait, dans mon métier, la direction, les métiers vont poser des questions qui nécessitent de la donnée, beaucoup de données. Alors, on pourrait parler de big data, moi j'aime bien dire strong data parce que ça tient encore sur un seul serveur, mais à la plupart du temps. Mais grosso modo, on va nous poser une question qui nécessite de croiser énormément de données dans tous les sens. Et si ça sort du cadre classique, c'est-à-dire les outils classiques de data analysis, et bien finalement c'est là où j'entre en jeu parce qu'il y a besoin d'un peu plus d'ingéniosité, de créativité. Alors, il y a la partie recherche. développement d'abord l'analyse après on essaie de faire un pas ou voir si ça peut mener quelque part si on arrive à livrer un produit avec un livrable derrière qui parle au métier une fois qu'il est d'accord bah là on va l'industrialiser et faire en sorte que ça tourne tous les jours et que ça soit robuste résilient sécurisé tout ça ok donc data
Speaker #0
science en fait intervient quand on a fait un peu en mode approfondi c'est à dire que les outils d'analyse de données classiques ne peuvent pas répondre aux besoins donc Donc il y a besoin de faire des outils spécifiques. Et donc d'utiliser aussi des modèles, des techniques en fait qui vont être un peu plus avancés que les techniques statistiques qu'on peut utiliser de base quand on fait de l'analyse de données. Je ne sais pas moi, peut-être oui, un data scientist va faire une régression linéaire alors que dans un business analyst ou un data analyst va faire plutôt des modèles statistiques de base de type des moyennes, des agrégations,
Speaker #1
des choses comme ça.
Speaker #0
Ok, très clair, en tout cas... Par rapport au sujet qui nous réunit aujourd'hui, les sources web, tu l'as un petit peu abordé, mais quel était ton premier vrai projet où tu as exploité des sources de données web, où tu as dû faire du scrapping ou d'utiliser des techniques pour exploiter ces données web ?
Speaker #1
En fait, le scrapping, ça part d'un besoin. C'est-à-dire que moi, quand j'étais chez moi, je n'avais pas encore accès à... des bases de données d'entreprise. Et donc, il a fallu que j'aille chercher ces données quelque part. Et donc, mes vrais projets, ils ont commencé relativement tôt parce qu'on a toujours besoin des choses pour soi. Mais si tu parles de projets plus professionnels dans le monde de l'entreprise, le premier projet où j'ai dû aller chercher de la donnée qui était non structurée, c'était pour aller chercher des corpus de textes sous forme de PDF. Et c'est là où j'ai compris qu'en fait, même si c'est un PDF et que ça a un certain standard, ça reste quand même... Une norme qui est privée mais ça reste un peu pas son nom.
Speaker #0
Oui c'est un standard le PDF, c'est un standard d'archivage des documents.
Speaker #1
Même si c'était dans le monde universitaire, parce que le but c'était de donner du sens à tous les papiers de recherche que rédigeaient les chercheurs, et donc comme c'est dans le monde universitaire ça reste assez structuré, il y a toujours plein de petites différences entre les documents. Et donc mon premier projet c'était ça, c'était récupérer... un maximum de PDF et de les classer en fonction du thème, la thématique, des liens qu'ils ont entre eux, entre les chercheurs qui ont travaillé sur un sujet, peut-être que d'autres chercheurs avaient travaillé sur le même sujet ou un sujet similaire quelques temps avant, et dans une autre université. Le but, c'était de donner du sens à de la donnée pour en faire de la connaissance. Donc on a donné information et connaissance, c'est les trois niveaux de qualité de cette donnée et d'utilité de la donnée.
Speaker #0
C'est les trois niveaux de raffinement. On a donné information. connaissance donc oui ben c'est un peu ce qui C'est un peu ce qu'on essaie de faire avec les sources de données web. À partir de la donnée, on va structurer des informations pour avoir de la connaissance. Tu as parlé de sources de données web, tu as parlé de fichiers PDF, c'est une source.
Speaker #1
Je n'ai pas parlé.
Speaker #0
Qu'est-ce qu'on a comme source ? Quand on parle de source web, on trouve des sources externes, des sources hétérogènes, tous ces genres de termes qui peuvent décrire ces données-là. Quelles sont les grandes familles ? Concrètement, c'est quoi ? De quoi on parle ?
Speaker #1
C'est vrai que je parlais des PDF, c'est-à-dire le support plutôt de la donnée. Ce que je n'ai pas dit, c'est que ces PDF étaient disponibles, mises à disposition sur plusieurs sites, qui avaient des API ou pas, c'est-à-dire des interfaces qui permettent de l'avoir facilement, ou alors des choses beaucoup moins faciles d'accès. Alors, il y a plusieurs grandes familles de données, effectivement. Sur le web, en fait, ce qu'on appelle le web, c'est le réseau, c'est-à-dire tout ce qui est accessible depuis ton PC. Moi, c'est comme ça que je vois le web. Et du coup, tu as les bases de données classiques. Il y en a certaines qui sont ouvertes. quasiment au grand public on va dire donc là tu te connectes avec un connecteur et puis les bases sont très structurées tu sais à quoi t'attendre on t'explique le schéma après tu as des choses qui sont plus courantes donc les api api c'est une manière de donner de servir de la donnée de manière contractualisée donc moi si j'ai de la donnée chez moi sur mes serveurs parce que j'ai des applicatifs des choses intéressantes je vais les exposer gratuitement ou non publiquement ou non et je vais créer plusieurs façon de la récupérer plusieurs guichets on va dire dès que tu viens sur ce guichet là les endpoints si tu viens sur ce endpoints là je vais te donner une partie de ce que j'ai en base de données sous un certain format donc ça l'API en fait finalement c'est hyper pratique parce que en gros quand tu viens pour récupérer la donnée on t'explique ce qu'on va te donner il y a déjà des contrats il y a de la documentation et tout si les documentations sont à jour bien sûr pas toujours le cas c'est une question qui viendra j'en suis sûr donc il y a les API et puis après toutes les entreprises ne laissent pas leur API publique où toutes les plateformes n'ont pas d'API. Donc l'autre source de données classique, c'est ce que tu vois en tant qu'utilisateur, c'est-à-dire le site web lui-même. Et c'est ça, en fait, le scrapping, c'est je viens gratter tout ce que je peux sans passer par les portes classiques, je prends la porte dérobée. Et ça, c'est hyper intéressant, parce qu'on est face à la plus grande difficulté de collecte de données pour plein de raisons.
Speaker #0
Est-ce que c'est légal de faire ça ?
Speaker #1
Oui et non, ça dépend en fait de ce que dit le propriétaire. C'est comme si tu viens chez quelqu'un, est-ce que c'est légal ? Si tu ouvres la porte, oui c'est légal, si tu ouvres pas la porte, bah ça l'est pas. Mais pour savoir si c'est légal, c'est assez simple, t'as les conditions du général d'utilisation, t'as aussi un petit fichier qu'on appelle le robo.txt, qui est pas un fichier qui est visible par l'utilisateur classique, mais qui est accessible publiquement, dans lequel il est listé toutes les pages, toutes les url sur lesquelles on a le droit d'aller, ou sur celles qu'on a pas le droit d'aller. Normalement c'est un truc qui parle aux robots crawlers de Google, donc ceux qui vont référencer des pages, pour dire Google ne va pas sur cette page parce que ça sert à rien ou parce que c'est interdit, c'est privé, ou vas-y s'il te plaît parce que là il y a du contenu intéressant. Et bien techniquement si tu fais du scrapping tu devrais regarder cette page. De base je pense que le scrapping est interdit parce qu'il est connoté négatif. Mais c'est pas toujours vrai en fait, parce qu'il y a des sites qui n'ont pas d'API et qui vont te dire si tu veux la donner débrouille-toi en fait. Si tu vas ponctuellement comme si tu étais un utilisateur il n'y a aucun problème.
Speaker #0
Tant qu'on ne sollicite pas le site de manière un peu... Parce que voilà, qui dit robot, c'est un vrai utilisateur. Donc les ressources du site, elles sont mobilisées. Donc effectivement, s'il y a une armée de robots qui vient, c'est ce qu'on appelle dans le jargon de la sécurité, une attaque par des lignes de service. Quand on demande de manière incessante telle ressource, c'est que... Du coup, on empêche aussi les utilisateurs. Donc il y a peut-être aussi des limites un peu de bon sens, je dirais paysannes. en tout cas pour ne pas exagérer dans cette exploitation, qu'on s'est autorisé bien sûr.
Speaker #1
Sur une API, il existe ce qu'on appelle le rate limit, donc c'est les taux limite d'utilisation, soit c'est un nombre de requêtes à la seconde, soit un nombre de requêtes par minute, soit les deux, soit une quantité donnée ou c'est un nombre de points, et ça c'est contractualisé. Comme tu es identifié sur l'API avec ton IP ou ce genre de choses, ou avec un token, de toute manière au bout d'un moment, si tu dépasses, ils vont te bloquer et tu ne pourras plus le faire. Sur le web, c'est différent parce que le web, en général, les pages sont publiques et sont ouvertes à n'importe qui. Mais comme tu dis, et j'ai envie de reprendre une expression, il y a le bon scrapper et le mauvais scrapper, il y a le scrapper white, white scrapper et le black scrapper, comme pour les hackers finalement. Soit tu y vas et tu respectes l'hébergeur ou le propriétaire du site, soit tu y vas et tu respectes rien. Je crois que la limite est assez fine entre la légalité...
Speaker #0
On est des fois dans des zones un peu grises. Est-ce que tu as une anecdote ou un exemple concret où tu as dû te débrouiller pour récupérer un peu de l'information utile mais où c'était chaud et où tu n'étais pas... Enfin, dans un contexte très clair.
Speaker #1
Une des premières fois où j'ai voulu faire du scrapping, je me suis dit je veux récupérer des données qui sont dans un certain domaine sur le web entier. Il y a une façon de faire, soit tu fais comme Google, tu crawles toutes les pages web qui existent, et après tu regardes ce qui t'intéresse. Je me suis dit, bon, j'ai pas des gros serveurs pour faire ça, j'ai pas le temps, j'ai pas 2500 ingénieurs qui sont dédiés à ça, je suis tout seul. Donc ce que je vais faire, c'est que je vais demander à Google de me donner toutes les pages qui parlent de telles thématiques, et après j'irai sur chaque site. Du coup, j'ai commencé à automatiser mes requêtes sur Google. Et je me suis fait bannir de Google. Tu t'es fait de la merde par le p****.
Speaker #0
Oui je pense que t'es pas le premier à essayer un truc comme ça, ni le dernier,
Speaker #1
mais en tout cas,
Speaker #0
il y a des mécanismes.
Speaker #1
Quand t'apprends, tu te rends compte que si tu laisses faire ton logiciel, enfin ton script, lui il a pas de limites, c'est-à-dire que si tu dis, bah, requête, telle requête, il va le faire, il va t'envoyer 1000 requêtes par seconde, et Google il va dire, hum, une IP qui m'envoie 1000 requêtes par seconde, j'aime pas trop. Et après, tu apprends du coup à... à mettre des timers, à calmer le jeu, à changer d'IP, à passer par des proxys, des trucs comme ça.
Speaker #0
Et des astuces pour pouvoir rester sous les radars peut-être.
Speaker #1
Je ne sais pas si je réponds à la question.
Speaker #0
Non mais je vois bien, en tout cas ça pose la question aussi des sources, parce que là quand on parle de sources hétérogènes, de sources externes à l'entreprise, forcément ces sources-là on n'a aucune maîtrise dessus, on utilise quelque chose sur laquelle on n'a aucune certitude. Du coup, comment tu fais pour évaluer déjà la qualité, la fiabilité, pour faire que ton système d'exploitation de ces données soit fiable ?
Speaker #1
C'est hyper difficile. Et c'est ce pourquoi j'aime bien ça, parce que ça demande vraiment beaucoup de technicité ou d'astuces. C'est un vrai challenge. Le premier, comme on l'a vu, la question c'est comment être résilient.
Speaker #0
Comment faire que le système soit résilient, qu'il soit fiable un minimum, et comment s'adapter aux évolutions, comment tu fais pour que la maintenance de ce système reste gérable, et pas que ce soit un ticket d'auto. On a créé un système, peut-être dans deux jours, on a travaillé, on a fait plein de choses, et peut-être que dans deux jours, ça ne servira plus à rien.
Speaker #1
Véritablement, je crois qu'il n'y a pas de magie. à part peut-être aujourd'hui en 2026 on pourrait passer par des agents IA qui étudient la structure du site et tout mais globalement en fait il faut respecter la méthode classique qui est j'ai un jeu de données devant moi je l'étudie, j'analyse je fais une analyse exploratoire préliminaire ensuite je comprends comment elle est faite je mets en place du pré-processing pour la traiter pour faire en sorte de la nettoyer une fois que ça c'est en place je vais pas plus loin mais Merci. Une fois ça en place, comme tu l'as dit, qu'est-ce qui se passe si la structure de données d'origine change ? Pour les bases de données, il n'y a pas de problème, pour les API, très peu, parce qu'ils te préviennent. Sur les gros API, ils t'envoient des mails pour te dire attention, il y a des choses qui vont être obsolètes ou pas. Mais c'est vrai que sur le web, surtout quand les sites ne veulent pas que tu récupères leurs données de manière générale, ils ne vont pas t'envoyer un mail pour dire « Hey, Coco, je ne vais pas tout changer. Mon architecture HTML, mon DOM JavaScript, donc prépare-toi. » Non, non, ils changent du jour au lendemain. Comment on fait ? il faut mettre... des alertes comme on ferait de manière classique. Si la donnée drift, si la donnée change, forcément derrière, elle peut changer de range. Imagine que tu t'attends à une donnée qui soit positive, si du jour au lendemain elle est négative, tu sais qu'il y a eu un problème. Mais en général, ça pète avant parce que c'est la structure même de la page web qui va changer. C'est-à-dire que si tu veux récupérer le prix de la baguette de toutes les villes, peut-être qu'il y a un site qui va te donner le prix de la baguette de toutes les villes. et que le champ prix sera à tel endroit, il sera référencé par prix de la baguette. Underscore 10. Un autre jour, il ne sera plus là, il sera à un autre endroit, il ne s'appellera pas prix de la baguette, il s'appellera baguette price. Et toi, tu cherchais prix de la baguette. Forcément, tu vas chercher des données qui n'existent plus, ton système est pète. Quand tu fais du code Python ou autre, tu vas essayer de faire des try-catch, try-except, ce genre de trucs. Forcément, ça va te relever une erreur et ça va éviter d'ingérer la donnée qui n'existe pas ou qui est fausse. Et on va se dire, attention, ce que tu cherches n'existe pas, donc il faut vite que tu revoies le code. Il n'y a pas de magie, en fait. C'est très dur à maintenir, ce genre de truc.
Speaker #0
Donc ça nécessite une implication forte pour pouvoir garder le système stable et réagir rapidement, parce que surtout si on a, comment dire, exploité ces données dans un autre contexte, pour faire, par exemple, des dashboards d'entreprise sur un suivi de concurrence ou des choses comme ça, du coup, c'est important d'être réactif, en fait, quelque part.
Speaker #1
Tu l'as dit, la clé c'est la réactivité et donc pour ça en fait il faut être capable de lever des alertes. Donc ça passe par l'analyse de ce que tu prends, au lieu de tout péter ton code parce qu'il y a une exception qui arrive et que ça casse tout, en fait on va capter ces exceptions et au lieu de tout casser le pipe, on va dire attention là finalement ça marche plus, on envoie un mail, on envoie une notif dans un canal Slack, Teams, ce que tu veux, et puis après du coup ça demande un peu de run, un peu de maintenance dessus, un peu d'analyse pour corriger, réparer. Ou alors... il y a une autre façon de faire, mais ça c'est un peu un pansement c'est à dire que si tu cherches prix de la baguette underscore 10 et tu dis ah bah tiens l'exception arrive, c'est plus le prix de la baguette t'as peut-être en dessous un fallback qui va te dire ah finalement si le prix de la baguette ne marche pas, essaye dans la case baguette dans la zone tableau chiffre va chercher ce qui finit par un euro peut-être, et là t'auras peut-être le prix même si le nom de la balise a changé Et là tu vas avoir un fallback. Et tu peux faire une liste de fallback comme ça, de plein de règles qui disent si le premier ne marche plus, et c'est le deuxième, et tu vas en fait à chaque fois avoir un scope qui va s'élargir ou qui sera un peu moins propre, mais qui va finir par trouver ce que tu cherches. Ça sera moins optimisé en termes de code, parce que forcément c'est plus difficile de parser de loin, de bien cibler précisément, mais ça marchera quand même et ça permettra d'être réactif derrière. Et si derrière tu as un gros dashboard qui sert vraiment à des prises de décision qui sont urgentes, Ce qui est rarement le cas quand tu fais de l'analyse web, sauf dans des cas où on pourrait parler. Mais globalement, ce que tu vas chercher sur le web, c'est plus des données courantes. Et puis si elles n'existent pas, tu as le temps d'attendre. On n'est pas dans le monde hospitalier, on n'est pas dans le monde du nucléaire. Et donc, si vraiment il y a besoin de le corriger, tu le corriges. Il n'y a pas de règles. C'est très difficile de maintenir ça.
Speaker #0
Une question annexe à ça, du coup, est-ce qu'il t'est déjà arrivé de mal interpréter des données issues du web ? de... Comment on fait pour avoir le contexte, ou en tout cas enrichir les données de leur contexte ? Parce que j'imagine que les données web sont tellement diverses et variées. Comment tu fais pour créer le bon contexte d'interprétation ?
Speaker #1
C'est toute la différence entre la donnée, l'information et la connaissance. La donnée, c'est vraiment ce que tu récupères brut, un numérique, une chaîne de caractère, un texte, une photo. L'information c'est le contexte justement qui est autour, c'est en quoi ces données a du sens et la connaissance c'est le lien qu'il y a entre toutes ces données qui vont en fait pouvoir être interprétées par quelqu'un et mener à une décision ou mener à une action. Dans le web ça arrive tout le temps en fait justement que tu t'interprètes mal et c'est pour ça que l'analyse préliminaire est hyper importante, il faut passer énormément de temps dessus pour savoir ce que ça veut dire avant d'industrialiser le pipe. en question d'extraction de données parce que sinon tu vas créer des dashboards qui ne veulent plus rien dire et derrière tu vas livrer une donnée qui n'a pas de sens.
Speaker #0
Est-ce que tu penses que l'IA avec les agents IA peut vraiment, je ne sais pas si tu as eu une expérience avec ça dans ce contexte de scrapping ou d'exploitation de données externes, d'utiliser un agent IA, est-ce que du coup ça fait une différence ? Bon. Comme on peut l'imaginer, il y a de souplesse dans un système d'IA.
Speaker #1
Il y a un cas où, au tout début de ChatGPT, ChatGPT a été hyper utile. C'est quand on s'amusait à récupérer des posts publics, par exemple sur Twitter ou sur d'autres plateformes, et on récupérait l'opinion de ces posts-là en fonction d'un sujet. En fait, on s'est rendu compte que le contexte du post, la discussion qu'il y a autour, était hyper importante pour comprendre le sarcasme. C'est-à-dire que si tu as un poste qui dit que les motos c'est super, mais que juste avant quelqu'un disait qu'un proche était décédé en moto, c'était peut-être de l'ironie. Et toi tu te dis que les motos c'est bien, tout le monde aime les motos. Et Tchadjé Pété était capable de nous dire, en prenant le contexte global, est-ce que c'est du sarcasme ou pas ?
Speaker #0
Très intéressant. Alors qu'un système classique, pour arriver à ça, c'est difficile. Sinon il faut peut-être utiliser des techniques beaucoup plus avancées, de machine learning du coup. L'IA fait du machine learning aussi quelque part, mais disons peut-être que l'IA le rend beaucoup plus abordable. Avec CGPT, le système, on lui donne l'info sans devoir préparer la donnée ou sans devoir lui préciser c'est quoi le modèle mathématique derrière à utiliser pour donner la conclusion. Là, en fait, il va se débrouiller parce que les modèles de langage... sont plus adaptés à traiter ce genre de problématiques et d'interprétations.
Speaker #1
C'est vraiment fait pour, d'ailleurs c'est dans le nom. Alors à l'origine, parce qu'aujourd'hui, ce qu'il y a derrière ChatGPT, c'est un gros système de plein d'agents qui se parlent et qui sont spécialisés sur plein de trucs. Mais grosso modo, LLM, c'est un modèle de langage, et il est fait pour comprendre le contexte, pour pouvoir prédire le prochain mot, et donc construire des phrases comme ça. C'est vraiment adapté pour analyser de la donnée qui est non structurée, de la donnée langagière. On est en plein dans le NLP, donc l'analyse du langage. et ça c'est essentiel si tu veux pouvoir donner du contexte, comme tu dis, et éviter certaines dérives. Mais ça coûte très cher. Ça coûte extrêmement cher à faire tourner. Parfois, il faut faire le choix du pauvre et consentir à avoir une donnée qui est moins propre, surtout si tu n'as pas besoin d'une grosse précision. Si derrière, dans ton dashboard, tu dis 98% au lieu de 96%, on a compris que c'était très très proche de 100%, et ça passe.
Speaker #0
Tu parles de dashboard et justement de pourcentage. J'aimerais qu'on creuse un peu ce côté valeur business. Parce que maintenant, peut-être que effectivement, une fois qu'on arrive à à extraire ces données, à relever les défis, les challenges par rapport à leur mise au propre, etc. Comment on passe du côté, on va dire, connaissance ? En tout cas, créer cette connaissance chez l'utilisateur final, dans une entreprise. Comment, j'ai envie de te dire, on passe de la donnée brute à un insight qui a du sens ? Comment tu génères cet insight ? Comment, en tout cas, le produire, en fait ?
Speaker #1
Je crois que chez les techos, les geeks, L'ingénieur, l'informaticien, il y a deux gros biais. Le premier, c'est être...
Speaker #0
C'est sentir un poster, on appelle ça le syndrome de l'imposteur. Et le deuxième, c'est de faire de la tech pour de la tech. C'est le deuxième qui nous intéresse là. Même moi qui sais que c'est hyper dangereux de faire de la tech pour de la tech, intrinsèquement j'aime ça, j'aime développer des trucs pour développer des trucs. Plus c'est complexe, plus je m'exalte. Mais en général, plus c'est complexe, moins ça sert. En tout cas, moins ça sert le métier. Et donc, souvent j'ai voulu faire des choses hyper techniques. Si, si, regardez, c'est super, c'est génial, ça te fait même du café. Et le gars qui est en face, il dit, je ne comprends pas, ça ne me sert à rien en fait. Et avec le temps, je m'assagie. J'ai passé beaucoup plus de temps à essayer de comprendre ce que veut le métier, et de dire, OK, c'est quoi le but final, c'est quoi ton objectif, c'est quoi ce que tu veux vraiment, comment tu le nommes. Il y a un truc qui s'appelle le domaine de R&D, je crois. Oui,
Speaker #1
le domaine de R&D.
Speaker #0
Ça, c'est quelque chose qui doit être au centre de la discussion. Dans des équipes qui sont très structurées, tu as des managers, des product owners, qui font l'interface normalement avec le métier. et des chefs de projet aussi, et dont le travail c'est de traduire le langage métier aux équipes techniques, et de traduire le langage technique aux équipes métiers. Quand t'as pas cette strat là, t'as l'habitude de le faire toi-même, donc de te baser sur le domaine de Driven Design, comprendre ce que veut dire le métier, et surtout demander c'est quoi les règles que tu veux, comment tu veux définir la qualité de ta donnée, qu'est-ce que tu veux à la fin, c'est quoi le but final. Vraiment dire le why, why, why, les trois premières questions qu'il faut poser, avant de se plonger dans la tech. Vraiment, c'est ça. Alors, il n'y a pas de recette magique, en fait. C'est surtout une vraie connaissance de la personne qui est en face de toi, parce qu'à tous les niveaux, tu as des gens qui sont très geekos, qui sont capables de faire des trucs. D'ailleurs, tu es un peu jaloux, parce que tu vois, quand même, j'aurais bien voulu le faire moi. Le métier, le fais à ta place. Puis, il y a des gens qui n'inhibitent rien et surtout, ils ne veulent pas comprendre. Donc, il faut s'adapter à son public. Puis, une fois que tu as fait ça, avant de s'engager dans une gestion de projet en V, comme on faisait à l'époque, tu fais un petit truc, tu lui proposes, il va te disputer parce que ce n'est pas du tout ce qu'il attend. Il faut accepter de se faire engueuler.
Speaker #1
Oui, en fait, c'est la démarche itérative. Itérative,
Speaker #0
oui, complètement itérative. Et finalement, accepter de se faire engueuler à chaque itération. Parce que lui, il s'attend à ce que tu livres un produit fini. Mais toi, tu fais exprès de ne pas lui donner parce que tu sais que si tu lui donnes tout de suite, tu auras passé des heures et des heures, des jours, des mois à faire un truc qui finalement, en tous les cas, ne lui plaira pas.
Speaker #1
Oui, peut-être qu'il n'est pas pertinent. Ça, c'est hyper intéressant cet aspect parce que je pense que c'est une vraie clé de succès. Je pense que le côté itératif de... et essentiel parce que effectivement Rome ne s'est pas fait en un jour. On ne va pas avoir le dashboard peut-être ultime au bout d'une itération. Et je pense qu'effectivement, une des vertus d'un professionnel qui maîtrise son sujet, c'est d'être capable d'avoir cette démarche et d'accompagner le métier à formaliser quelque part. son besoin de manière progressive. Est-ce que tu as, encore une fois, le podcast se veut très pragmatique, est-ce que tu as une idée, un exemple de projet ou d'une donnée web qui a vraiment fait la différence par rapport à un besoin métier ou par rapport à des insights ?
Speaker #0
J'ai un exemple assez concret qui vient en tête et ça me permet d'introduire la notion de critère de réussite. Le critère de réussite, c'est la question que tu poses au client. Quand est-ce qu'on sait que ce que je vais te livrer te sert à quelque chose ? Quand est-ce que tu es content ? Et comment on fait pour le caractériser dans quelques cas pays ? Moi, je voudrais parler du trading. Le trading, c'est simple. Tu gagnes de l'argent, tu as un critère de réussite. Tu perds de l'argent, tu as un critère d'échec. Et donc, pour en revenir à ce sujet d'analyse d'opinion, on avait un client qui se demandait s'il pouvait améliorer ses robots de trading. Donc RoboTrading qui se base sur le marché, sur les données fiduciaires, et s'est dit comment on peut faire pour l'améliorer ? Peut-être qu'en captant l'opinion des gens, en captant ce que disent les gens de tel ou tel produit de bourse, peut-être que je pourrais anticiper des hausses ou des baisses. Et il nous a demandé de pouvoir introduire cette information-là dans ces bots de trading. Donc là le KPI est très simple, le critère de réussite est simple. Si mon bot fait mieux, génère plus d'argent après qu'avant l'introduction de cette notion, c'est tout gagné. Et en l'occurrence, on l'a réussi. On a montré, mais ça c'était un peu une intuition, on a montré que l'opinion du marché, des gens en fait, avait une influence, ou était corrélée, de plus ou moins près, à la bourse. Et ça tout le monde le sait, quand les gens s'inquiètent, ils vendent, quand ils sont heureux, ils achètent. Mais après, fallait-il encore l'utiliser, fallait-il encore le montrer, et surtout, arriver à un critère de réussite tangible, c'est-à-dire, le bot est meilleur après qu'avant, avec des données.
Speaker #1
J'aime beaucoup ce... notion-là de critère de réussite parce qu'elle permet de justement quand on a un profil très technique comme toi, et ça me fait très plaisir d'entendre ça de la part de quelqu'un comme toi, c'est quand on pose en fait très très vite au métier cette question qu'est-ce qu'il va faire ? Ce qu'on va faire pour vous, ça va vous être utile. En fait, ça permet de garder le focus quelque part sur l'essentiel. Et aussi de ne pas perdre de l'énergie à faire des choses qui ne le sont pas. Parce que je pense que pour réussir un projet, c'est aussi important de savoir ce qu'il faut faire que de savoir ce qu'il ne faut pas faire. Des fois, c'est peut-être plus important de savoir ce qu'il ne faut pas faire que ce qu'il faut faire. Parce que quelque part, on met l'énergie au bon endroit. tu as envie de réagir.
Speaker #0
J'ai envie de réagir parce que ce que tu dis est outrement vrai, ou beaucoup plus vrai encore. Et moi, j'ai simplifié la notion de critère de réussite en disant « Ok, si je fais mieux qu'un seul, dans ce cas, j'ai réussi. » Mais en fait, la question qu'il faut se poser, c'est aussi quel est le coût pour arriver à cette réussite-là ou à ce bénéfice-là. Simplifier en disant « Ok, j'ai atteint l'objectif, c'est super, mais à quel coût ? » Et souvent, sans l'oublier, à finir avec l'expérience, on se dit Merci. Avant de mettre en place quelque chose, combien ça va me coûter ? Et est-ce que le coût envoie la chandelle ? Est-ce que je vais rester bénéficiaire ? Parce que c'est bien de faire 2-3% en plus en bourse, mais si ton robot t'a coûté des milliards et qu'il te coûte 4-5% de plus, en fait, tu perds. Donc c'est ce que j'avais commencé à dire tout à l'heure, c'est que parfois, tu n'as pas besoin d'un LLM, parce que c'est très gourmand à faire fonctionner. Si, c'est pour vous gagner 2-3%, alors qu'en fait... Ton but, c'est juste d'avoir une tendance globale de ton activité. Si tu es à 3, 4, même 15% de précision, peut-être que ça suffit. Par contre, dans un monde où 1% c'est hyper dangereux, même un millième de pourcent, c'est très dangereux, c'est-à-dire le nucléaire, le monde hospitalier, si ta machine, elle se met à s'arrêter alors qu'elle n'aurait pas dû, parce que tu as dépassé le seuil, tu as quelqu'un qui meurt. Donc là, on n'est pas dans le même registre. La question qu'il faut se poser, c'est toujours, je vais mettre en place un char d'assaut, Est-ce qu'en face, finalement, je n'ai pas que des gens avec des lances-pierres ? Est-ce que j'ai besoin d'un char d'assaut ?
Speaker #1
Le ratio en coût bénéfice, quelque part. C'est un peu ça le sujet que tu poses. On se rapproche de la fin de notre podcast et il y a un sujet sur lequel je voulais échanger avec toi, c'est la place qu'il y a par rapport à ces systèmes-là. Comment faire en sorte que l'IA reste utilisée dans un cadre qui est propre, sécurisé, fiable, parce qu'effectivement ça coûte cher, mais parce que ça pose des questions éthiques par rapport à l'usage ? Comment tu approches ça ? Quelle est peut-être aussi ta philosophie ou ta vision par rapport à ce sujet ? Je sais que ce n'est pas une question facile, mais je pense que c'est une question qui est importante.
Speaker #0
C'est une question... plein coeur de tous les débats et je crois que tout dépend du contexte. Il faut être assez monacal avec l'IA, c'est-à-dire qu'il faut être assez frugal dans le sens où il faut vraiment l'utiliser quand il faut. Ok, ça donne envie de jouer avec, mais il y a plusieurs modes de fonctionnement. Soit tu utilises perso pour toi, il n'y a pas de problème, tu fais attention à tes données, RGPD, etc. Soit tu utilises dans le cadre de l'entreprise ou dans le cadre où il y a une responsabilité. envers d'autres personnes, envers un business, envers plein de choses. Donc là, il faut vraiment faire attention parce que la plupart des IA qu'on te vend, même s'ils te disent « Ok, c'est hébergé en France et tout » , on l'a vu dans plein de cas, il y a des données qui vont partout et les pays étrangers à la France sont vraiment très friands des informations sur le business français. Et ce n'est pas parce que ton entreprise ne vaut rien sur le marché que tu vois un seul Morgan. Parce qu'en fait, ton entreprise, c'est un maillon de la statistique. Et si tu donnes ce maillon de plus à la statistique, la statistique devient de plus en plus vraie. Et plus la statistique devient vraie, plus ton adversaire industriel a des armes contre ton marché. Pour de vrai, j'ai commencé l'année dernière à travailler sur ce sujet, parce que je sais que les directions ne sont pas hyper matures avec ça, déjà avec la souveraineté de la donnée de manière globale, elles ne sont pas hyper matures non plus avec la gouvernance, qu'est-ce que c'est, comment je fais pour gérer mes données, on parle de plein de choses, on parle de data centers qui sont souverains. En gros, moi ce que je dirais c'est... Déjà, d'une part, il faut anonymiser ta donnée, et il faut trouver un équilibre hybride, c'est-à-dire tout ce qui est intelligence, connaissance, orchestration, tu le fais chez toi, sur tes propres serveurs. Et quand tu as besoin d'inférence, vraiment de puissance de calcul, tu peux utiliser des modèles qui sont distants. Soit tu consens à ce que ta donnée part ailleurs, et donc tu utilises des modèles qui sont en SAS, LDPT, d'autres. Soit tu vas entraîner ton propre modèle. Aujourd'hui, il existe des modèles qui sont instructeurs, des modèles même de plein de types que tu peux avoir chez toi, hébergés chez toi, qui ont été pré-entraînés et que tu vas ré-entraîner ou tu vas affiner avec ta propre donnée d'entreprise. Donc ça, tu le mets sur ton propre serveur et tu peux le faire. Il y a des gens qui vont te vendre ce genre de trucs, mais leurs serveurs, ils ne sont pas chez toi. Ils sont loin. C'est juste des sortes de brokers. Finalement, ça peut être très dangereux. Donc pour simplifier, tout ce qui est intelligence, ça reste à toi. Pour ça, puissance de calcul, si tu as besoin de l'avoir ailleurs, tu l'as ailleurs, mais si tu peux avoir ton modèle d'IA, peu importe ce que c'est, chez toi sur un serveur, tu l'as. Si tu n'as pas la capacité, parce que ça coûte très cher d'avoir des GPU ou des TPU, tu vas l'entraîner chez toi ponctuellement, ou utiliser des machines ponctuellement dans le cloud, tu vas l'entraîner, tu vas détruire cette machine, détruire les données, et de la requête de temps en temps qui va demander l'inférence de ce modèle entraîné, tu vas l'envoyer sur un serveur que tu vas allumer à la demande, avec la donnée qui va être juste en transit, pas stockée, et voilà. Ça demande une ingénierie énorme à mettre en place. J'ai décidé de ne pas trop entrer dans les détails.
Speaker #1
C'est très intéressant. Je pense que justement, ton regard un peu stratégique et peut-être aussi ta vision d'ancien militaire se ressemble bien dans cette réponse. Ça me va. C'est très intéressant. Peut-être une dernière question pour finir. Est-ce qu'il y aurait déjà une question ou un sujet que tu aurais souhaité aborder, qu'on n'a pas abordé ? Vraiment l'échange. J'ai quelque chose que je voudrais transmettre peut-être à nos auditeurs qui te paraît intéressant par rapport à nos sujets abordés.
Speaker #0
En fait, je suis un peu déçu que ça soit si court, et j'ai plein de sujets que je voudrais aborder, et le plus dur, ça va être de choisir...
Speaker #1
On pourra refaire un autre podcast, avec plaisir. Je pense que nos auditeurs seront très intéressés. Peut-être un conseil, ou un sujet, peut-être, à nos auditeurs, qui souhaiteraient se lancer.
Speaker #0
Si quelqu'un est intéressé dans le monde de la data, déjà, il faut savoir que c'est une philosophie qui demande énormément de rigueur, et qui demande à sacraliser la donnée. C'est d'abord une démarche scientifique. vraiment et qui apporte aussi les avantages de l'informatique ce côté empirique de l'informatique c'est à dire ok je veux quelque chose je développe un truc je teste ok ça marche pas mais dans tous les cas il ya quand même la rigueur de la donnée derrière c'est la donnée qui qui parle c'est elle qui le dit si tu as réussi ou pas si si les gens qui voudraient se lancer là dessus moi je leur conseille vraiment de ce focus sur une techno faire de tester plein de choses Ne pas trop laisser coder chatGPT. Moi, aujourd'hui, j'utilise à 80% chatGPT ou d'autres modèles quand je code. Et je n'ai pas honte de le dire. Ça serait con de se passer la calculette alors que je suis comptable. En revanche, si je le fais, c'est parce que je comprends exactement comment ces modèles fonctionnent. Et aussi, je comprends exactement ce qu'ils génèrent pour moi. C'est-à-dire que je suis capable de juger comme si le modèle était pour moi un stagiaire gratuit.
Speaker #1
Ouais, un stagiaire super intelligent.
Speaker #0
Ils sont tous très intelligents. Il faut vraiment comprendre ce qu'on fait, donc avant de se casser les dents avec ses propres scripts, essayer de comprendre jusqu'au bout, parce qu'on n'a jamais fini d'apprendre dans ce milieu. Et c'est aussi pour ça que je travaille dans l'informatique, parce que je sais que même si c'est fatigant, je ne serai jamais dans le repos de me dire « Ok, c'est bon, j'ai tout compris. » Tous les jours, j'apprends un truc, tous les jours, je me casse les dents sur quelque chose.
Speaker #1
La posture de l'humilité est importante.
Speaker #0
Tous les jours, je me tiens aux cheveux, on dirait pas comme ça, mais vraiment, c'est un monde qui est très difficile.
Speaker #1
Heureusement, il en reste quelques-uns.
Speaker #0
Je voudrais rassurer ceux qui écoutent, si jamais toi, t'es un jeune ou même un vieux et que tu te casses les dents, franchement, je crois qu'on est tous dans la même galère, et ça sera ta vie quotidienne. Donc, soyons ensemble.
Speaker #1
En tout cas, je pense que si c'est la vie quotidienne avec un tel sourire, c'est plutôt pas mal. Donc c'est très chouette. En tout cas, merci beaucoup, Balthazar. Je mettrai tes coordonnées si nos auditeurs ont envie de te contacter. Merci beaucoup pour avoir accepté cette invitation et pour t'avoir prêté au jeu.

Chapters

Introduction au Scrapping et à la Data Science
0sec
Le Parcours de Balthazar Mehus
1min
Comprendre le Rôle du Data Scientist
5min
Projets de Scrapping et Sources de Données
9min
Les Types de Sources de Données Web
11min
Légalité et Éthique du Scrapping
13min
Défis et Solutions en Scrapping
15min
Maintenir la Fiabilité des Systèmes de Scrapping
18min
Interprétation des données web
22min
L'impact de l'IA sur l'analyse des données
27min
De la donnée brute à l'insight
29min
Critères de réussite dans les projets de données
33min
L'éthique et la sécurité de l'IA
37min

Description

On y explore un sujet souvent sous-estimé : comment transformer les données d'internet en valeur business, depuis leur collecte jusqu'à la valeur délivrée au métier.

Au programme de cet échange vivant et sans détour :

Le scraping démystifié : ce que c'est vraiment, ce que ça permet, et les limites à respecter pour ne pas franchir la ligne rouge.
De la donnée brute à la connaissance : comment nettoyer, structurer et donner du sens à des données hétérogènes et non structurées issues du web.
Les pièges concrets : structure HTML qui change du jour au lendemain, données similaires mais de sens différents, alertes à mettre en place pour éviter les ruptures silencieuses.
L'IA au service de l'analyse : comment les LLM changent la donne pour interpréter des données textuelles complexes, et pourquoi ça a un coût qu'il faut savoir arbitrer.
Le critère de réussite comme boussole : à travers un cas concret de trading algorithmique enrichi par l'analyse de sentiment, Balthazar illustre pourquoi poser la bonne question au métier est plus précieux que la meilleure des solutions techniques.

Un épisode pour tous ceux qui veulent aller chercher la donnée là où elle se cache, sans perdre de vue ce qui compte vraiment : l'impact business.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Bienvenue à ce nouvel épisode de Déclic Data. Aujourd'hui, on plonge dans l'univers fascinant des données issues du web, donc celles qu'on ne trouve pas forcément dans les systèmes internes des entreprises, que ce soit des entrepôts de données ou des bases de données métiers, mais un peu partout, sur les sites web, dans les API, les portails open data, bref, dans le grand bazar numérique et Internet. Et pourtant, derrière ce chaos apparent se cache une véritable mine d'or, des informations capables d'éclairer des décisions. d'anticiper des tendances ou même de révéler des insights que les bases internes ignoreront toujours. Pour capter ces données, on utilise souvent un procédé ou une technique qu'on appelle le scrapping. C'est tout simplement le fait d'extraire des informations présentes sur une page web comme si un robot venait parcourir le site pour le lire et récupérer le contenu utile, que ce soit des chiffres, des produits, des commentaires, tout signal intéressant. Et donc bien évidemment, cette matière brute... a besoin d'être nettoyé, structuré, transformé pour devenir exploitable d'un point de vue business. Pour parler de ce sujet, j'ai le plaisir d'avoir à mes côtés Balthazar Meus, data scientist d'une curiosité insatiable avec un parcours assez atypique puisqu'il a commencé sa carrière dans l'armée. Avec Balthazar, on va voir comment on passe concrètement du scrapping à la valeur métier. Et les pièges à éviter, bien évidemment, les bonnes pratiques et puis aussi comment donner du sens à tous ces flux foisonnants d'informations. Donc cet épisode va être dédié à comment transformer le chaos du web en valeur business. Eurk Baltazar, avant de plonger dans le sujet, je t'invite à te présenter, parler de ton parcours et puis ce que représente le métier de data scientist pour toi.
Speaker #1
Merci pour la présentation. Comme tu l'as dit, j'ai fait plein de choses et je crois que pour me qualifier, on pourrait parler de diversité. C'est peut-être ça qui fait mon unicité. Mais en deux mots, j'ai eu des bonnes notes à l'école et des mauvaises, des moyennes, des excellentes. J'ai fait un peu de tout. Et un jour, quand je ne savais pas quoi faire, je me suis orienté vers une voie militaire. Et j'ai fait d'abord dans une école militaire qui m'a un petit peu serré les vis, qui m'a obligé à être bon à l'école. J'ai fait maths sup et maths p. Après, j'ai fait une école d'ingénieur dans une école militaire encore. Et c'est là où je découvre l'informatique. Et à l'époque en fait, l'informatique c'était 2009. C'était pas du tout mon objectif. Mon objectif moi c'était de partir à la guerre. Donc j'ai pas vraiment écouté.
Speaker #0
Pas encore la guerre de la data hein mais...
Speaker #1
C'est une façon de parler quand je dis... Vous pourrez pas me prendre pour un fou mais c'était pour simplifier en fait. Mon objectif c'était plutôt le terrain, c'était la tactique, emmener des hommes au combat, protéger la France, toutes ces grandes valeurs. Et donc la partie académique de l'école militaire, bah disons qu'elle passait en second plan mais... Mine de rien, ça a infusé en moi et j'ai eu des cours d'informatique et j'ai passé un diplôme d'ingénieur généraliste avec une spécialisation en informatique. Et déjà d'ailleurs en 2010, j'ai commencé à travailler sur l'IA, sur la donnée sans le savoir, sur l'automatisation, sur l'architecture logicielle, sur plein de choses comme ça. Mais j'étais forcé en fait. Et après j'ai choisi dans l'armée une voie qui est très technique parce que je voulais d'une part faire le métier de militaire, mais sans oublier que c'est aussi important l'ingénierie, la technique, donc j'ai choisi les transmissions.
Speaker #0
Le militaire, il y a beaucoup beaucoup de technique derrière, beaucoup de maîtrise.
Speaker #1
Il y en a plus ou moins. Si tu es fantassin, il y en a un petit peu. Et puis si tu es dans le génie, il y en a beaucoup plus. Si tu es transmetteur, il y en a encore plus. C'était la voie normale informatique, après transmetteur, donc j'ai fait les systèmes d'information et de communication. J'ai appris à manager des équipes dans le monde de la radio, dans le monde du système, dans le monde du réseau. Et le but était donc de délivrer des services informatiques à un quartier général pour qu'il puisse commander. J'ai fait ça, et puis j'ai eu mon premier job à Toulouse en tant que parachutiste. Et puis là un jour ma femme m'a dit, j'ai un cours, elle était encore à la fac, j'ai un cours d'informatique, j'y comprends rien, je faisais fac de communication. Elle devait faire un site web. Elle m'a dit, tiens Balthazar, pendant tes études tu n'avais pas fait un peu d'informatique ? J'ai dit si si, mais c'est facile, tu vas voir, HTML, 1, 2, 2, c'est fait. Bon, au bout d'une heure elle a lâché l'affaire, elle a laissé se coucher. Moi à 80 du match j'étais encore dessus. Et en fait depuis ce jour là, en 2014 je pense, j'ai plus jamais lâché un PC et j'ai fait de l'informatique.
Speaker #0
C'est marrant hein. L'histoire comme ça arrive et fait quelque part un déclic.
Speaker #1
C'est vraiment ça, je suis tombé amoureux. Et puis en parallèle de ma carrière militaire, j'ai monté une agence de communication orientée digitale. Donc on faisait des sites, des sites e-commerce, on faisait du marketing en ligne, on faisait des choses comme ça.
Speaker #0
Et la data science alors ? Comment tu es arrivé jusque là ?
Speaker #1
Et ouais, c'est un long parcours finalement. Je me suis rendu compte que je n'aimais pas trop ce qu'on appelle le front-end, donc la partie design. et que Je trouvais plus d'intérêt à coder dans le back-end, à manipuler des données, à faire des algorithmes. Puis un jour j'ai quitté l'armée et je me suis dit qu'est-ce que je vais faire ? Je suis allé vers une voie ingénieur informatique et entre 2009, mon diplôme d'ingénieur, ou 2021, il s'était passé plein de choses, la containerisation, l'IA a explosé, le calcul distribué, plein de choses, plein de nouvelles choses. Et donc je me suis un peu remis à jour. J'ai cherché un job derrière. J'ai fait d'abord chef de projet dans le cloud, donc très infrastructurel, puis finalement ça me plaisait pas du tout, ça manquait vraiment d'algorithme. Et comme je suis un peu mygiver finalement... dans l'informatique, dans le réseau, dans le système, dans l'algorithmie, les mathématiques. Finalement, Data Science, ça se prêtait bien à ce que je voulais faire. Parce que c'est un carrefour entre les mathématiques, l'informatique et puis le métier. Donc, les trois pôles étaient là, entre le business, information, communication que j'avais fait, entre les mathématiques de mon parcours scolaire et puis l'informatique. Du coup, pour toi,
Speaker #0
c'est ce côté un peu à la croisée des chemins qui te plaît. Comment tu expliquerais à quelqu'un qui... qui ne connaît pas la data science ou le métier de data scientist, que fait un data scientist ? Je sais que c'est souvent, avec beaucoup de métiers dans l'IT, c'est difficile de répondre à ça. Mais grosso modo, pour toi, c'est quoi l'essence d'un data scientist ?
Speaker #1
J'aime beaucoup cette question, parce que tout le monde se la pose pour de vrai, et même les employeurs. Je crois qu'il y a plusieurs formes de data scientist. Tu as celui qui fait des recherches, qui va construire des modèles prédictifs, qui est très mathématicien, qui est dans l'université. Tu as celui qui va... Utiliser ses modèles en entreprise et ne faire que ça, c'est-à-dire vraiment trouver la meilleure façon d'utiliser ses modèles pour répondre à un cas d'usage. Et puis tu as celui, le troisième, celui qui est plus ingénieur, qui va en fait essayer de donner de la valeur à la donnée avec tous les outils qu'il a autour de lui, notamment des modèles d'intelligence artificielle, mais ce n'est pas toujours l'outil le mieux adapté. Donc finalement la data c'est plus une philosophie, plus qu'un secteur en fait, c'est comment faire en sorte d'être rigoureux. dans un process industriel informatisé à partir de la donnée en fait. Et la donnée c'est le coeur du truc d'abord on voue un culte à la donnée et ensuite on va pouvoir la faire parler.
Speaker #0
Oui, sans minerais il n'y a pas d'or, donc il faut bien avoir la donnée pour pouvoir creuser. Donc très intéressant, du coup j'entends qu'il y a plusieurs profils, plusieurs types de data scientist et toi tu dirais que tu es plutôt...
Speaker #1
Moi je suis le troisième je suis le troisième plutôt Touche à tout. En fait, dans mon métier, la direction, les métiers vont poser des questions qui nécessitent de la donnée, beaucoup de données. Alors, on pourrait parler de big data, moi j'aime bien dire strong data parce que ça tient encore sur un seul serveur, mais à la plupart du temps. Mais grosso modo, on va nous poser une question qui nécessite de croiser énormément de données dans tous les sens. Et si ça sort du cadre classique, c'est-à-dire les outils classiques de data analysis, et bien finalement c'est là où j'entre en jeu parce qu'il y a besoin d'un peu plus d'ingéniosité, de créativité. Alors, il y a la partie recherche. développement d'abord l'analyse après on essaie de faire un pas ou voir si ça peut mener quelque part si on arrive à livrer un produit avec un livrable derrière qui parle au métier une fois qu'il est d'accord bah là on va l'industrialiser et faire en sorte que ça tourne tous les jours et que ça soit robuste résilient sécurisé tout ça ok donc data
Speaker #0
science en fait intervient quand on a fait un peu en mode approfondi c'est à dire que les outils d'analyse de données classiques ne peuvent pas répondre aux besoins donc Donc il y a besoin de faire des outils spécifiques. Et donc d'utiliser aussi des modèles, des techniques en fait qui vont être un peu plus avancés que les techniques statistiques qu'on peut utiliser de base quand on fait de l'analyse de données. Je ne sais pas moi, peut-être oui, un data scientist va faire une régression linéaire alors que dans un business analyst ou un data analyst va faire plutôt des modèles statistiques de base de type des moyennes, des agrégations,
Speaker #1
des choses comme ça.
Speaker #0
Ok, très clair, en tout cas... Par rapport au sujet qui nous réunit aujourd'hui, les sources web, tu l'as un petit peu abordé, mais quel était ton premier vrai projet où tu as exploité des sources de données web, où tu as dû faire du scrapping ou d'utiliser des techniques pour exploiter ces données web ?
Speaker #1
En fait, le scrapping, ça part d'un besoin. C'est-à-dire que moi, quand j'étais chez moi, je n'avais pas encore accès à... des bases de données d'entreprise. Et donc, il a fallu que j'aille chercher ces données quelque part. Et donc, mes vrais projets, ils ont commencé relativement tôt parce qu'on a toujours besoin des choses pour soi. Mais si tu parles de projets plus professionnels dans le monde de l'entreprise, le premier projet où j'ai dû aller chercher de la donnée qui était non structurée, c'était pour aller chercher des corpus de textes sous forme de PDF. Et c'est là où j'ai compris qu'en fait, même si c'est un PDF et que ça a un certain standard, ça reste quand même... Une norme qui est privée mais ça reste un peu pas son nom.
Speaker #0
Oui c'est un standard le PDF, c'est un standard d'archivage des documents.
Speaker #1
Même si c'était dans le monde universitaire, parce que le but c'était de donner du sens à tous les papiers de recherche que rédigeaient les chercheurs, et donc comme c'est dans le monde universitaire ça reste assez structuré, il y a toujours plein de petites différences entre les documents. Et donc mon premier projet c'était ça, c'était récupérer... un maximum de PDF et de les classer en fonction du thème, la thématique, des liens qu'ils ont entre eux, entre les chercheurs qui ont travaillé sur un sujet, peut-être que d'autres chercheurs avaient travaillé sur le même sujet ou un sujet similaire quelques temps avant, et dans une autre université. Le but, c'était de donner du sens à de la donnée pour en faire de la connaissance. Donc on a donné information et connaissance, c'est les trois niveaux de qualité de cette donnée et d'utilité de la donnée.
Speaker #0
C'est les trois niveaux de raffinement. On a donné information. connaissance donc oui ben c'est un peu ce qui C'est un peu ce qu'on essaie de faire avec les sources de données web. À partir de la donnée, on va structurer des informations pour avoir de la connaissance. Tu as parlé de sources de données web, tu as parlé de fichiers PDF, c'est une source.
Speaker #1
Je n'ai pas parlé.
Speaker #0
Qu'est-ce qu'on a comme source ? Quand on parle de source web, on trouve des sources externes, des sources hétérogènes, tous ces genres de termes qui peuvent décrire ces données-là. Quelles sont les grandes familles ? Concrètement, c'est quoi ? De quoi on parle ?
Speaker #1
C'est vrai que je parlais des PDF, c'est-à-dire le support plutôt de la donnée. Ce que je n'ai pas dit, c'est que ces PDF étaient disponibles, mises à disposition sur plusieurs sites, qui avaient des API ou pas, c'est-à-dire des interfaces qui permettent de l'avoir facilement, ou alors des choses beaucoup moins faciles d'accès. Alors, il y a plusieurs grandes familles de données, effectivement. Sur le web, en fait, ce qu'on appelle le web, c'est le réseau, c'est-à-dire tout ce qui est accessible depuis ton PC. Moi, c'est comme ça que je vois le web. Et du coup, tu as les bases de données classiques. Il y en a certaines qui sont ouvertes. quasiment au grand public on va dire donc là tu te connectes avec un connecteur et puis les bases sont très structurées tu sais à quoi t'attendre on t'explique le schéma après tu as des choses qui sont plus courantes donc les api api c'est une manière de donner de servir de la donnée de manière contractualisée donc moi si j'ai de la donnée chez moi sur mes serveurs parce que j'ai des applicatifs des choses intéressantes je vais les exposer gratuitement ou non publiquement ou non et je vais créer plusieurs façon de la récupérer plusieurs guichets on va dire dès que tu viens sur ce guichet là les endpoints si tu viens sur ce endpoints là je vais te donner une partie de ce que j'ai en base de données sous un certain format donc ça l'API en fait finalement c'est hyper pratique parce que en gros quand tu viens pour récupérer la donnée on t'explique ce qu'on va te donner il y a déjà des contrats il y a de la documentation et tout si les documentations sont à jour bien sûr pas toujours le cas c'est une question qui viendra j'en suis sûr donc il y a les API et puis après toutes les entreprises ne laissent pas leur API publique où toutes les plateformes n'ont pas d'API. Donc l'autre source de données classique, c'est ce que tu vois en tant qu'utilisateur, c'est-à-dire le site web lui-même. Et c'est ça, en fait, le scrapping, c'est je viens gratter tout ce que je peux sans passer par les portes classiques, je prends la porte dérobée. Et ça, c'est hyper intéressant, parce qu'on est face à la plus grande difficulté de collecte de données pour plein de raisons.
Speaker #0
Est-ce que c'est légal de faire ça ?
Speaker #1
Oui et non, ça dépend en fait de ce que dit le propriétaire. C'est comme si tu viens chez quelqu'un, est-ce que c'est légal ? Si tu ouvres la porte, oui c'est légal, si tu ouvres pas la porte, bah ça l'est pas. Mais pour savoir si c'est légal, c'est assez simple, t'as les conditions du général d'utilisation, t'as aussi un petit fichier qu'on appelle le robo.txt, qui est pas un fichier qui est visible par l'utilisateur classique, mais qui est accessible publiquement, dans lequel il est listé toutes les pages, toutes les url sur lesquelles on a le droit d'aller, ou sur celles qu'on a pas le droit d'aller. Normalement c'est un truc qui parle aux robots crawlers de Google, donc ceux qui vont référencer des pages, pour dire Google ne va pas sur cette page parce que ça sert à rien ou parce que c'est interdit, c'est privé, ou vas-y s'il te plaît parce que là il y a du contenu intéressant. Et bien techniquement si tu fais du scrapping tu devrais regarder cette page. De base je pense que le scrapping est interdit parce qu'il est connoté négatif. Mais c'est pas toujours vrai en fait, parce qu'il y a des sites qui n'ont pas d'API et qui vont te dire si tu veux la donner débrouille-toi en fait. Si tu vas ponctuellement comme si tu étais un utilisateur il n'y a aucun problème.
Speaker #0
Tant qu'on ne sollicite pas le site de manière un peu... Parce que voilà, qui dit robot, c'est un vrai utilisateur. Donc les ressources du site, elles sont mobilisées. Donc effectivement, s'il y a une armée de robots qui vient, c'est ce qu'on appelle dans le jargon de la sécurité, une attaque par des lignes de service. Quand on demande de manière incessante telle ressource, c'est que... Du coup, on empêche aussi les utilisateurs. Donc il y a peut-être aussi des limites un peu de bon sens, je dirais paysannes. en tout cas pour ne pas exagérer dans cette exploitation, qu'on s'est autorisé bien sûr.
Speaker #1
Sur une API, il existe ce qu'on appelle le rate limit, donc c'est les taux limite d'utilisation, soit c'est un nombre de requêtes à la seconde, soit un nombre de requêtes par minute, soit les deux, soit une quantité donnée ou c'est un nombre de points, et ça c'est contractualisé. Comme tu es identifié sur l'API avec ton IP ou ce genre de choses, ou avec un token, de toute manière au bout d'un moment, si tu dépasses, ils vont te bloquer et tu ne pourras plus le faire. Sur le web, c'est différent parce que le web, en général, les pages sont publiques et sont ouvertes à n'importe qui. Mais comme tu dis, et j'ai envie de reprendre une expression, il y a le bon scrapper et le mauvais scrapper, il y a le scrapper white, white scrapper et le black scrapper, comme pour les hackers finalement. Soit tu y vas et tu respectes l'hébergeur ou le propriétaire du site, soit tu y vas et tu respectes rien. Je crois que la limite est assez fine entre la légalité...
Speaker #0
On est des fois dans des zones un peu grises. Est-ce que tu as une anecdote ou un exemple concret où tu as dû te débrouiller pour récupérer un peu de l'information utile mais où c'était chaud et où tu n'étais pas... Enfin, dans un contexte très clair.
Speaker #1
Une des premières fois où j'ai voulu faire du scrapping, je me suis dit je veux récupérer des données qui sont dans un certain domaine sur le web entier. Il y a une façon de faire, soit tu fais comme Google, tu crawles toutes les pages web qui existent, et après tu regardes ce qui t'intéresse. Je me suis dit, bon, j'ai pas des gros serveurs pour faire ça, j'ai pas le temps, j'ai pas 2500 ingénieurs qui sont dédiés à ça, je suis tout seul. Donc ce que je vais faire, c'est que je vais demander à Google de me donner toutes les pages qui parlent de telles thématiques, et après j'irai sur chaque site. Du coup, j'ai commencé à automatiser mes requêtes sur Google. Et je me suis fait bannir de Google. Tu t'es fait de la merde par le p****.
Speaker #0
Oui je pense que t'es pas le premier à essayer un truc comme ça, ni le dernier,
Speaker #1
mais en tout cas,
Speaker #0
il y a des mécanismes.
Speaker #1
Quand t'apprends, tu te rends compte que si tu laisses faire ton logiciel, enfin ton script, lui il a pas de limites, c'est-à-dire que si tu dis, bah, requête, telle requête, il va le faire, il va t'envoyer 1000 requêtes par seconde, et Google il va dire, hum, une IP qui m'envoie 1000 requêtes par seconde, j'aime pas trop. Et après, tu apprends du coup à... à mettre des timers, à calmer le jeu, à changer d'IP, à passer par des proxys, des trucs comme ça.
Speaker #0
Et des astuces pour pouvoir rester sous les radars peut-être.
Speaker #1
Je ne sais pas si je réponds à la question.
Speaker #0
Non mais je vois bien, en tout cas ça pose la question aussi des sources, parce que là quand on parle de sources hétérogènes, de sources externes à l'entreprise, forcément ces sources-là on n'a aucune maîtrise dessus, on utilise quelque chose sur laquelle on n'a aucune certitude. Du coup, comment tu fais pour évaluer déjà la qualité, la fiabilité, pour faire que ton système d'exploitation de ces données soit fiable ?
Speaker #1
C'est hyper difficile. Et c'est ce pourquoi j'aime bien ça, parce que ça demande vraiment beaucoup de technicité ou d'astuces. C'est un vrai challenge. Le premier, comme on l'a vu, la question c'est comment être résilient.
Speaker #0
Comment faire que le système soit résilient, qu'il soit fiable un minimum, et comment s'adapter aux évolutions, comment tu fais pour que la maintenance de ce système reste gérable, et pas que ce soit un ticket d'auto. On a créé un système, peut-être dans deux jours, on a travaillé, on a fait plein de choses, et peut-être que dans deux jours, ça ne servira plus à rien.
Speaker #1
Véritablement, je crois qu'il n'y a pas de magie. à part peut-être aujourd'hui en 2026 on pourrait passer par des agents IA qui étudient la structure du site et tout mais globalement en fait il faut respecter la méthode classique qui est j'ai un jeu de données devant moi je l'étudie, j'analyse je fais une analyse exploratoire préliminaire ensuite je comprends comment elle est faite je mets en place du pré-processing pour la traiter pour faire en sorte de la nettoyer une fois que ça c'est en place je vais pas plus loin mais Merci. Une fois ça en place, comme tu l'as dit, qu'est-ce qui se passe si la structure de données d'origine change ? Pour les bases de données, il n'y a pas de problème, pour les API, très peu, parce qu'ils te préviennent. Sur les gros API, ils t'envoient des mails pour te dire attention, il y a des choses qui vont être obsolètes ou pas. Mais c'est vrai que sur le web, surtout quand les sites ne veulent pas que tu récupères leurs données de manière générale, ils ne vont pas t'envoyer un mail pour dire « Hey, Coco, je ne vais pas tout changer. Mon architecture HTML, mon DOM JavaScript, donc prépare-toi. » Non, non, ils changent du jour au lendemain. Comment on fait ? il faut mettre... des alertes comme on ferait de manière classique. Si la donnée drift, si la donnée change, forcément derrière, elle peut changer de range. Imagine que tu t'attends à une donnée qui soit positive, si du jour au lendemain elle est négative, tu sais qu'il y a eu un problème. Mais en général, ça pète avant parce que c'est la structure même de la page web qui va changer. C'est-à-dire que si tu veux récupérer le prix de la baguette de toutes les villes, peut-être qu'il y a un site qui va te donner le prix de la baguette de toutes les villes. et que le champ prix sera à tel endroit, il sera référencé par prix de la baguette. Underscore 10. Un autre jour, il ne sera plus là, il sera à un autre endroit, il ne s'appellera pas prix de la baguette, il s'appellera baguette price. Et toi, tu cherchais prix de la baguette. Forcément, tu vas chercher des données qui n'existent plus, ton système est pète. Quand tu fais du code Python ou autre, tu vas essayer de faire des try-catch, try-except, ce genre de trucs. Forcément, ça va te relever une erreur et ça va éviter d'ingérer la donnée qui n'existe pas ou qui est fausse. Et on va se dire, attention, ce que tu cherches n'existe pas, donc il faut vite que tu revoies le code. Il n'y a pas de magie, en fait. C'est très dur à maintenir, ce genre de truc.
Speaker #0
Donc ça nécessite une implication forte pour pouvoir garder le système stable et réagir rapidement, parce que surtout si on a, comment dire, exploité ces données dans un autre contexte, pour faire, par exemple, des dashboards d'entreprise sur un suivi de concurrence ou des choses comme ça, du coup, c'est important d'être réactif, en fait, quelque part.
Speaker #1
Tu l'as dit, la clé c'est la réactivité et donc pour ça en fait il faut être capable de lever des alertes. Donc ça passe par l'analyse de ce que tu prends, au lieu de tout péter ton code parce qu'il y a une exception qui arrive et que ça casse tout, en fait on va capter ces exceptions et au lieu de tout casser le pipe, on va dire attention là finalement ça marche plus, on envoie un mail, on envoie une notif dans un canal Slack, Teams, ce que tu veux, et puis après du coup ça demande un peu de run, un peu de maintenance dessus, un peu d'analyse pour corriger, réparer. Ou alors... il y a une autre façon de faire, mais ça c'est un peu un pansement c'est à dire que si tu cherches prix de la baguette underscore 10 et tu dis ah bah tiens l'exception arrive, c'est plus le prix de la baguette t'as peut-être en dessous un fallback qui va te dire ah finalement si le prix de la baguette ne marche pas, essaye dans la case baguette dans la zone tableau chiffre va chercher ce qui finit par un euro peut-être, et là t'auras peut-être le prix même si le nom de la balise a changé Et là tu vas avoir un fallback. Et tu peux faire une liste de fallback comme ça, de plein de règles qui disent si le premier ne marche plus, et c'est le deuxième, et tu vas en fait à chaque fois avoir un scope qui va s'élargir ou qui sera un peu moins propre, mais qui va finir par trouver ce que tu cherches. Ça sera moins optimisé en termes de code, parce que forcément c'est plus difficile de parser de loin, de bien cibler précisément, mais ça marchera quand même et ça permettra d'être réactif derrière. Et si derrière tu as un gros dashboard qui sert vraiment à des prises de décision qui sont urgentes, Ce qui est rarement le cas quand tu fais de l'analyse web, sauf dans des cas où on pourrait parler. Mais globalement, ce que tu vas chercher sur le web, c'est plus des données courantes. Et puis si elles n'existent pas, tu as le temps d'attendre. On n'est pas dans le monde hospitalier, on n'est pas dans le monde du nucléaire. Et donc, si vraiment il y a besoin de le corriger, tu le corriges. Il n'y a pas de règles. C'est très difficile de maintenir ça.
Speaker #0
Une question annexe à ça, du coup, est-ce qu'il t'est déjà arrivé de mal interpréter des données issues du web ? de... Comment on fait pour avoir le contexte, ou en tout cas enrichir les données de leur contexte ? Parce que j'imagine que les données web sont tellement diverses et variées. Comment tu fais pour créer le bon contexte d'interprétation ?
Speaker #1
C'est toute la différence entre la donnée, l'information et la connaissance. La donnée, c'est vraiment ce que tu récupères brut, un numérique, une chaîne de caractère, un texte, une photo. L'information c'est le contexte justement qui est autour, c'est en quoi ces données a du sens et la connaissance c'est le lien qu'il y a entre toutes ces données qui vont en fait pouvoir être interprétées par quelqu'un et mener à une décision ou mener à une action. Dans le web ça arrive tout le temps en fait justement que tu t'interprètes mal et c'est pour ça que l'analyse préliminaire est hyper importante, il faut passer énormément de temps dessus pour savoir ce que ça veut dire avant d'industrialiser le pipe. en question d'extraction de données parce que sinon tu vas créer des dashboards qui ne veulent plus rien dire et derrière tu vas livrer une donnée qui n'a pas de sens.
Speaker #0
Est-ce que tu penses que l'IA avec les agents IA peut vraiment, je ne sais pas si tu as eu une expérience avec ça dans ce contexte de scrapping ou d'exploitation de données externes, d'utiliser un agent IA, est-ce que du coup ça fait une différence ? Bon. Comme on peut l'imaginer, il y a de souplesse dans un système d'IA.
Speaker #1
Il y a un cas où, au tout début de ChatGPT, ChatGPT a été hyper utile. C'est quand on s'amusait à récupérer des posts publics, par exemple sur Twitter ou sur d'autres plateformes, et on récupérait l'opinion de ces posts-là en fonction d'un sujet. En fait, on s'est rendu compte que le contexte du post, la discussion qu'il y a autour, était hyper importante pour comprendre le sarcasme. C'est-à-dire que si tu as un poste qui dit que les motos c'est super, mais que juste avant quelqu'un disait qu'un proche était décédé en moto, c'était peut-être de l'ironie. Et toi tu te dis que les motos c'est bien, tout le monde aime les motos. Et Tchadjé Pété était capable de nous dire, en prenant le contexte global, est-ce que c'est du sarcasme ou pas ?
Speaker #0
Très intéressant. Alors qu'un système classique, pour arriver à ça, c'est difficile. Sinon il faut peut-être utiliser des techniques beaucoup plus avancées, de machine learning du coup. L'IA fait du machine learning aussi quelque part, mais disons peut-être que l'IA le rend beaucoup plus abordable. Avec CGPT, le système, on lui donne l'info sans devoir préparer la donnée ou sans devoir lui préciser c'est quoi le modèle mathématique derrière à utiliser pour donner la conclusion. Là, en fait, il va se débrouiller parce que les modèles de langage... sont plus adaptés à traiter ce genre de problématiques et d'interprétations.
Speaker #1
C'est vraiment fait pour, d'ailleurs c'est dans le nom. Alors à l'origine, parce qu'aujourd'hui, ce qu'il y a derrière ChatGPT, c'est un gros système de plein d'agents qui se parlent et qui sont spécialisés sur plein de trucs. Mais grosso modo, LLM, c'est un modèle de langage, et il est fait pour comprendre le contexte, pour pouvoir prédire le prochain mot, et donc construire des phrases comme ça. C'est vraiment adapté pour analyser de la donnée qui est non structurée, de la donnée langagière. On est en plein dans le NLP, donc l'analyse du langage. et ça c'est essentiel si tu veux pouvoir donner du contexte, comme tu dis, et éviter certaines dérives. Mais ça coûte très cher. Ça coûte extrêmement cher à faire tourner. Parfois, il faut faire le choix du pauvre et consentir à avoir une donnée qui est moins propre, surtout si tu n'as pas besoin d'une grosse précision. Si derrière, dans ton dashboard, tu dis 98% au lieu de 96%, on a compris que c'était très très proche de 100%, et ça passe.
Speaker #0
Tu parles de dashboard et justement de pourcentage. J'aimerais qu'on creuse un peu ce côté valeur business. Parce que maintenant, peut-être que effectivement, une fois qu'on arrive à à extraire ces données, à relever les défis, les challenges par rapport à leur mise au propre, etc. Comment on passe du côté, on va dire, connaissance ? En tout cas, créer cette connaissance chez l'utilisateur final, dans une entreprise. Comment, j'ai envie de te dire, on passe de la donnée brute à un insight qui a du sens ? Comment tu génères cet insight ? Comment, en tout cas, le produire, en fait ?
Speaker #1
Je crois que chez les techos, les geeks, L'ingénieur, l'informaticien, il y a deux gros biais. Le premier, c'est être...
Speaker #0
C'est sentir un poster, on appelle ça le syndrome de l'imposteur. Et le deuxième, c'est de faire de la tech pour de la tech. C'est le deuxième qui nous intéresse là. Même moi qui sais que c'est hyper dangereux de faire de la tech pour de la tech, intrinsèquement j'aime ça, j'aime développer des trucs pour développer des trucs. Plus c'est complexe, plus je m'exalte. Mais en général, plus c'est complexe, moins ça sert. En tout cas, moins ça sert le métier. Et donc, souvent j'ai voulu faire des choses hyper techniques. Si, si, regardez, c'est super, c'est génial, ça te fait même du café. Et le gars qui est en face, il dit, je ne comprends pas, ça ne me sert à rien en fait. Et avec le temps, je m'assagie. J'ai passé beaucoup plus de temps à essayer de comprendre ce que veut le métier, et de dire, OK, c'est quoi le but final, c'est quoi ton objectif, c'est quoi ce que tu veux vraiment, comment tu le nommes. Il y a un truc qui s'appelle le domaine de R&D, je crois. Oui,
Speaker #1
le domaine de R&D.
Speaker #0
Ça, c'est quelque chose qui doit être au centre de la discussion. Dans des équipes qui sont très structurées, tu as des managers, des product owners, qui font l'interface normalement avec le métier. et des chefs de projet aussi, et dont le travail c'est de traduire le langage métier aux équipes techniques, et de traduire le langage technique aux équipes métiers. Quand t'as pas cette strat là, t'as l'habitude de le faire toi-même, donc de te baser sur le domaine de Driven Design, comprendre ce que veut dire le métier, et surtout demander c'est quoi les règles que tu veux, comment tu veux définir la qualité de ta donnée, qu'est-ce que tu veux à la fin, c'est quoi le but final. Vraiment dire le why, why, why, les trois premières questions qu'il faut poser, avant de se plonger dans la tech. Vraiment, c'est ça. Alors, il n'y a pas de recette magique, en fait. C'est surtout une vraie connaissance de la personne qui est en face de toi, parce qu'à tous les niveaux, tu as des gens qui sont très geekos, qui sont capables de faire des trucs. D'ailleurs, tu es un peu jaloux, parce que tu vois, quand même, j'aurais bien voulu le faire moi. Le métier, le fais à ta place. Puis, il y a des gens qui n'inhibitent rien et surtout, ils ne veulent pas comprendre. Donc, il faut s'adapter à son public. Puis, une fois que tu as fait ça, avant de s'engager dans une gestion de projet en V, comme on faisait à l'époque, tu fais un petit truc, tu lui proposes, il va te disputer parce que ce n'est pas du tout ce qu'il attend. Il faut accepter de se faire engueuler.
Speaker #1
Oui, en fait, c'est la démarche itérative. Itérative,
Speaker #0
oui, complètement itérative. Et finalement, accepter de se faire engueuler à chaque itération. Parce que lui, il s'attend à ce que tu livres un produit fini. Mais toi, tu fais exprès de ne pas lui donner parce que tu sais que si tu lui donnes tout de suite, tu auras passé des heures et des heures, des jours, des mois à faire un truc qui finalement, en tous les cas, ne lui plaira pas.
Speaker #1
Oui, peut-être qu'il n'est pas pertinent. Ça, c'est hyper intéressant cet aspect parce que je pense que c'est une vraie clé de succès. Je pense que le côté itératif de... et essentiel parce que effectivement Rome ne s'est pas fait en un jour. On ne va pas avoir le dashboard peut-être ultime au bout d'une itération. Et je pense qu'effectivement, une des vertus d'un professionnel qui maîtrise son sujet, c'est d'être capable d'avoir cette démarche et d'accompagner le métier à formaliser quelque part. son besoin de manière progressive. Est-ce que tu as, encore une fois, le podcast se veut très pragmatique, est-ce que tu as une idée, un exemple de projet ou d'une donnée web qui a vraiment fait la différence par rapport à un besoin métier ou par rapport à des insights ?
Speaker #0
J'ai un exemple assez concret qui vient en tête et ça me permet d'introduire la notion de critère de réussite. Le critère de réussite, c'est la question que tu poses au client. Quand est-ce qu'on sait que ce que je vais te livrer te sert à quelque chose ? Quand est-ce que tu es content ? Et comment on fait pour le caractériser dans quelques cas pays ? Moi, je voudrais parler du trading. Le trading, c'est simple. Tu gagnes de l'argent, tu as un critère de réussite. Tu perds de l'argent, tu as un critère d'échec. Et donc, pour en revenir à ce sujet d'analyse d'opinion, on avait un client qui se demandait s'il pouvait améliorer ses robots de trading. Donc RoboTrading qui se base sur le marché, sur les données fiduciaires, et s'est dit comment on peut faire pour l'améliorer ? Peut-être qu'en captant l'opinion des gens, en captant ce que disent les gens de tel ou tel produit de bourse, peut-être que je pourrais anticiper des hausses ou des baisses. Et il nous a demandé de pouvoir introduire cette information-là dans ces bots de trading. Donc là le KPI est très simple, le critère de réussite est simple. Si mon bot fait mieux, génère plus d'argent après qu'avant l'introduction de cette notion, c'est tout gagné. Et en l'occurrence, on l'a réussi. On a montré, mais ça c'était un peu une intuition, on a montré que l'opinion du marché, des gens en fait, avait une influence, ou était corrélée, de plus ou moins près, à la bourse. Et ça tout le monde le sait, quand les gens s'inquiètent, ils vendent, quand ils sont heureux, ils achètent. Mais après, fallait-il encore l'utiliser, fallait-il encore le montrer, et surtout, arriver à un critère de réussite tangible, c'est-à-dire, le bot est meilleur après qu'avant, avec des données.
Speaker #1
J'aime beaucoup ce... notion-là de critère de réussite parce qu'elle permet de justement quand on a un profil très technique comme toi, et ça me fait très plaisir d'entendre ça de la part de quelqu'un comme toi, c'est quand on pose en fait très très vite au métier cette question qu'est-ce qu'il va faire ? Ce qu'on va faire pour vous, ça va vous être utile. En fait, ça permet de garder le focus quelque part sur l'essentiel. Et aussi de ne pas perdre de l'énergie à faire des choses qui ne le sont pas. Parce que je pense que pour réussir un projet, c'est aussi important de savoir ce qu'il faut faire que de savoir ce qu'il ne faut pas faire. Des fois, c'est peut-être plus important de savoir ce qu'il ne faut pas faire que ce qu'il faut faire. Parce que quelque part, on met l'énergie au bon endroit. tu as envie de réagir.
Speaker #0
J'ai envie de réagir parce que ce que tu dis est outrement vrai, ou beaucoup plus vrai encore. Et moi, j'ai simplifié la notion de critère de réussite en disant « Ok, si je fais mieux qu'un seul, dans ce cas, j'ai réussi. » Mais en fait, la question qu'il faut se poser, c'est aussi quel est le coût pour arriver à cette réussite-là ou à ce bénéfice-là. Simplifier en disant « Ok, j'ai atteint l'objectif, c'est super, mais à quel coût ? » Et souvent, sans l'oublier, à finir avec l'expérience, on se dit Merci. Avant de mettre en place quelque chose, combien ça va me coûter ? Et est-ce que le coût envoie la chandelle ? Est-ce que je vais rester bénéficiaire ? Parce que c'est bien de faire 2-3% en plus en bourse, mais si ton robot t'a coûté des milliards et qu'il te coûte 4-5% de plus, en fait, tu perds. Donc c'est ce que j'avais commencé à dire tout à l'heure, c'est que parfois, tu n'as pas besoin d'un LLM, parce que c'est très gourmand à faire fonctionner. Si, c'est pour vous gagner 2-3%, alors qu'en fait... Ton but, c'est juste d'avoir une tendance globale de ton activité. Si tu es à 3, 4, même 15% de précision, peut-être que ça suffit. Par contre, dans un monde où 1% c'est hyper dangereux, même un millième de pourcent, c'est très dangereux, c'est-à-dire le nucléaire, le monde hospitalier, si ta machine, elle se met à s'arrêter alors qu'elle n'aurait pas dû, parce que tu as dépassé le seuil, tu as quelqu'un qui meurt. Donc là, on n'est pas dans le même registre. La question qu'il faut se poser, c'est toujours, je vais mettre en place un char d'assaut, Est-ce qu'en face, finalement, je n'ai pas que des gens avec des lances-pierres ? Est-ce que j'ai besoin d'un char d'assaut ?
Speaker #1
Le ratio en coût bénéfice, quelque part. C'est un peu ça le sujet que tu poses. On se rapproche de la fin de notre podcast et il y a un sujet sur lequel je voulais échanger avec toi, c'est la place qu'il y a par rapport à ces systèmes-là. Comment faire en sorte que l'IA reste utilisée dans un cadre qui est propre, sécurisé, fiable, parce qu'effectivement ça coûte cher, mais parce que ça pose des questions éthiques par rapport à l'usage ? Comment tu approches ça ? Quelle est peut-être aussi ta philosophie ou ta vision par rapport à ce sujet ? Je sais que ce n'est pas une question facile, mais je pense que c'est une question qui est importante.
Speaker #0
C'est une question... plein coeur de tous les débats et je crois que tout dépend du contexte. Il faut être assez monacal avec l'IA, c'est-à-dire qu'il faut être assez frugal dans le sens où il faut vraiment l'utiliser quand il faut. Ok, ça donne envie de jouer avec, mais il y a plusieurs modes de fonctionnement. Soit tu utilises perso pour toi, il n'y a pas de problème, tu fais attention à tes données, RGPD, etc. Soit tu utilises dans le cadre de l'entreprise ou dans le cadre où il y a une responsabilité. envers d'autres personnes, envers un business, envers plein de choses. Donc là, il faut vraiment faire attention parce que la plupart des IA qu'on te vend, même s'ils te disent « Ok, c'est hébergé en France et tout » , on l'a vu dans plein de cas, il y a des données qui vont partout et les pays étrangers à la France sont vraiment très friands des informations sur le business français. Et ce n'est pas parce que ton entreprise ne vaut rien sur le marché que tu vois un seul Morgan. Parce qu'en fait, ton entreprise, c'est un maillon de la statistique. Et si tu donnes ce maillon de plus à la statistique, la statistique devient de plus en plus vraie. Et plus la statistique devient vraie, plus ton adversaire industriel a des armes contre ton marché. Pour de vrai, j'ai commencé l'année dernière à travailler sur ce sujet, parce que je sais que les directions ne sont pas hyper matures avec ça, déjà avec la souveraineté de la donnée de manière globale, elles ne sont pas hyper matures non plus avec la gouvernance, qu'est-ce que c'est, comment je fais pour gérer mes données, on parle de plein de choses, on parle de data centers qui sont souverains. En gros, moi ce que je dirais c'est... Déjà, d'une part, il faut anonymiser ta donnée, et il faut trouver un équilibre hybride, c'est-à-dire tout ce qui est intelligence, connaissance, orchestration, tu le fais chez toi, sur tes propres serveurs. Et quand tu as besoin d'inférence, vraiment de puissance de calcul, tu peux utiliser des modèles qui sont distants. Soit tu consens à ce que ta donnée part ailleurs, et donc tu utilises des modèles qui sont en SAS, LDPT, d'autres. Soit tu vas entraîner ton propre modèle. Aujourd'hui, il existe des modèles qui sont instructeurs, des modèles même de plein de types que tu peux avoir chez toi, hébergés chez toi, qui ont été pré-entraînés et que tu vas ré-entraîner ou tu vas affiner avec ta propre donnée d'entreprise. Donc ça, tu le mets sur ton propre serveur et tu peux le faire. Il y a des gens qui vont te vendre ce genre de trucs, mais leurs serveurs, ils ne sont pas chez toi. Ils sont loin. C'est juste des sortes de brokers. Finalement, ça peut être très dangereux. Donc pour simplifier, tout ce qui est intelligence, ça reste à toi. Pour ça, puissance de calcul, si tu as besoin de l'avoir ailleurs, tu l'as ailleurs, mais si tu peux avoir ton modèle d'IA, peu importe ce que c'est, chez toi sur un serveur, tu l'as. Si tu n'as pas la capacité, parce que ça coûte très cher d'avoir des GPU ou des TPU, tu vas l'entraîner chez toi ponctuellement, ou utiliser des machines ponctuellement dans le cloud, tu vas l'entraîner, tu vas détruire cette machine, détruire les données, et de la requête de temps en temps qui va demander l'inférence de ce modèle entraîné, tu vas l'envoyer sur un serveur que tu vas allumer à la demande, avec la donnée qui va être juste en transit, pas stockée, et voilà. Ça demande une ingénierie énorme à mettre en place. J'ai décidé de ne pas trop entrer dans les détails.
Speaker #1
C'est très intéressant. Je pense que justement, ton regard un peu stratégique et peut-être aussi ta vision d'ancien militaire se ressemble bien dans cette réponse. Ça me va. C'est très intéressant. Peut-être une dernière question pour finir. Est-ce qu'il y aurait déjà une question ou un sujet que tu aurais souhaité aborder, qu'on n'a pas abordé ? Vraiment l'échange. J'ai quelque chose que je voudrais transmettre peut-être à nos auditeurs qui te paraît intéressant par rapport à nos sujets abordés.
Speaker #0
En fait, je suis un peu déçu que ça soit si court, et j'ai plein de sujets que je voudrais aborder, et le plus dur, ça va être de choisir...
Speaker #1
On pourra refaire un autre podcast, avec plaisir. Je pense que nos auditeurs seront très intéressés. Peut-être un conseil, ou un sujet, peut-être, à nos auditeurs, qui souhaiteraient se lancer.
Speaker #0
Si quelqu'un est intéressé dans le monde de la data, déjà, il faut savoir que c'est une philosophie qui demande énormément de rigueur, et qui demande à sacraliser la donnée. C'est d'abord une démarche scientifique. vraiment et qui apporte aussi les avantages de l'informatique ce côté empirique de l'informatique c'est à dire ok je veux quelque chose je développe un truc je teste ok ça marche pas mais dans tous les cas il ya quand même la rigueur de la donnée derrière c'est la donnée qui qui parle c'est elle qui le dit si tu as réussi ou pas si si les gens qui voudraient se lancer là dessus moi je leur conseille vraiment de ce focus sur une techno faire de tester plein de choses Ne pas trop laisser coder chatGPT. Moi, aujourd'hui, j'utilise à 80% chatGPT ou d'autres modèles quand je code. Et je n'ai pas honte de le dire. Ça serait con de se passer la calculette alors que je suis comptable. En revanche, si je le fais, c'est parce que je comprends exactement comment ces modèles fonctionnent. Et aussi, je comprends exactement ce qu'ils génèrent pour moi. C'est-à-dire que je suis capable de juger comme si le modèle était pour moi un stagiaire gratuit.
Speaker #1
Ouais, un stagiaire super intelligent.
Speaker #0
Ils sont tous très intelligents. Il faut vraiment comprendre ce qu'on fait, donc avant de se casser les dents avec ses propres scripts, essayer de comprendre jusqu'au bout, parce qu'on n'a jamais fini d'apprendre dans ce milieu. Et c'est aussi pour ça que je travaille dans l'informatique, parce que je sais que même si c'est fatigant, je ne serai jamais dans le repos de me dire « Ok, c'est bon, j'ai tout compris. » Tous les jours, j'apprends un truc, tous les jours, je me casse les dents sur quelque chose.
Speaker #1
La posture de l'humilité est importante.
Speaker #0
Tous les jours, je me tiens aux cheveux, on dirait pas comme ça, mais vraiment, c'est un monde qui est très difficile.
Speaker #1
Heureusement, il en reste quelques-uns.
Speaker #0
Je voudrais rassurer ceux qui écoutent, si jamais toi, t'es un jeune ou même un vieux et que tu te casses les dents, franchement, je crois qu'on est tous dans la même galère, et ça sera ta vie quotidienne. Donc, soyons ensemble.
Speaker #1
En tout cas, je pense que si c'est la vie quotidienne avec un tel sourire, c'est plutôt pas mal. Donc c'est très chouette. En tout cas, merci beaucoup, Balthazar. Je mettrai tes coordonnées si nos auditeurs ont envie de te contacter. Merci beaucoup pour avoir accepté cette invitation et pour t'avoir prêté au jeu.

Chapters

Introduction au Scrapping et à la Data Science
0sec
Le Parcours de Balthazar Mehus
1min
Comprendre le Rôle du Data Scientist
5min
Projets de Scrapping et Sources de Données
9min
Les Types de Sources de Données Web
11min
Légalité et Éthique du Scrapping
13min
Défis et Solutions en Scrapping
15min
Maintenir la Fiabilité des Systèmes de Scrapping
18min
Interprétation des données web
22min
L'impact de l'IA sur l'analyse des données
27min
De la donnée brute à l'insight
29min
Critères de réussite dans les projets de données
33min
L'éthique et la sécurité de l'IA
37min

Embed

Introduction au Scrapping et à la Data Science

0sec

Le Parcours de Balthazar Mehus

1min

Comprendre le Rôle du Data Scientist

5min

Projets de Scrapping et Sources de Données

9min

Les Types de Sources de Données Web

11min

Légalité et Éthique du Scrapping

13min

Défis et Solutions en Scrapping

15min

Maintenir la Fiabilité des Systèmes de Scrapping

18min

Interprétation des données web

22min

L'impact de l'IA sur l'analyse des données

27min

De la donnée brute à l'insight

29min

Critères de réussite dans les projets de données

33min

L'éthique et la sécurité de l'IA

37min

Transcription

Speaker #0
Bienvenue à ce nouvel épisode de Déclic Data. Aujourd'hui, on plonge dans l'univers fascinant des données issues du web, donc celles qu'on ne trouve pas forcément dans les systèmes internes des entreprises, que ce soit des entrepôts de données ou des bases de données métiers, mais un peu partout, sur les sites web, dans les API, les portails open data, bref, dans le grand bazar numérique et Internet. Et pourtant, derrière ce chaos apparent se cache une véritable mine d'or, des informations capables d'éclairer des décisions. d'anticiper des tendances ou même de révéler des insights que les bases internes ignoreront toujours. Pour capter ces données, on utilise souvent un procédé ou une technique qu'on appelle le scrapping. C'est tout simplement le fait d'extraire des informations présentes sur une page web comme si un robot venait parcourir le site pour le lire et récupérer le contenu utile, que ce soit des chiffres, des produits, des commentaires, tout signal intéressant. Et donc bien évidemment, cette matière brute... a besoin d'être nettoyé, structuré, transformé pour devenir exploitable d'un point de vue business. Pour parler de ce sujet, j'ai le plaisir d'avoir à mes côtés Balthazar Meus, data scientist d'une curiosité insatiable avec un parcours assez atypique puisqu'il a commencé sa carrière dans l'armée. Avec Balthazar, on va voir comment on passe concrètement du scrapping à la valeur métier. Et les pièges à éviter, bien évidemment, les bonnes pratiques et puis aussi comment donner du sens à tous ces flux foisonnants d'informations. Donc cet épisode va être dédié à comment transformer le chaos du web en valeur business. Eurk Baltazar, avant de plonger dans le sujet, je t'invite à te présenter, parler de ton parcours et puis ce que représente le métier de data scientist pour toi.
Speaker #1
Merci pour la présentation. Comme tu l'as dit, j'ai fait plein de choses et je crois que pour me qualifier, on pourrait parler de diversité. C'est peut-être ça qui fait mon unicité. Mais en deux mots, j'ai eu des bonnes notes à l'école et des mauvaises, des moyennes, des excellentes. J'ai fait un peu de tout. Et un jour, quand je ne savais pas quoi faire, je me suis orienté vers une voie militaire. Et j'ai fait d'abord dans une école militaire qui m'a un petit peu serré les vis, qui m'a obligé à être bon à l'école. J'ai fait maths sup et maths p. Après, j'ai fait une école d'ingénieur dans une école militaire encore. Et c'est là où je découvre l'informatique. Et à l'époque en fait, l'informatique c'était 2009. C'était pas du tout mon objectif. Mon objectif moi c'était de partir à la guerre. Donc j'ai pas vraiment écouté.
Speaker #0
Pas encore la guerre de la data hein mais...
Speaker #1
C'est une façon de parler quand je dis... Vous pourrez pas me prendre pour un fou mais c'était pour simplifier en fait. Mon objectif c'était plutôt le terrain, c'était la tactique, emmener des hommes au combat, protéger la France, toutes ces grandes valeurs. Et donc la partie académique de l'école militaire, bah disons qu'elle passait en second plan mais... Mine de rien, ça a infusé en moi et j'ai eu des cours d'informatique et j'ai passé un diplôme d'ingénieur généraliste avec une spécialisation en informatique. Et déjà d'ailleurs en 2010, j'ai commencé à travailler sur l'IA, sur la donnée sans le savoir, sur l'automatisation, sur l'architecture logicielle, sur plein de choses comme ça. Mais j'étais forcé en fait. Et après j'ai choisi dans l'armée une voie qui est très technique parce que je voulais d'une part faire le métier de militaire, mais sans oublier que c'est aussi important l'ingénierie, la technique, donc j'ai choisi les transmissions.
Speaker #0
Le militaire, il y a beaucoup beaucoup de technique derrière, beaucoup de maîtrise.
Speaker #1
Il y en a plus ou moins. Si tu es fantassin, il y en a un petit peu. Et puis si tu es dans le génie, il y en a beaucoup plus. Si tu es transmetteur, il y en a encore plus. C'était la voie normale informatique, après transmetteur, donc j'ai fait les systèmes d'information et de communication. J'ai appris à manager des équipes dans le monde de la radio, dans le monde du système, dans le monde du réseau. Et le but était donc de délivrer des services informatiques à un quartier général pour qu'il puisse commander. J'ai fait ça, et puis j'ai eu mon premier job à Toulouse en tant que parachutiste. Et puis là un jour ma femme m'a dit, j'ai un cours, elle était encore à la fac, j'ai un cours d'informatique, j'y comprends rien, je faisais fac de communication. Elle devait faire un site web. Elle m'a dit, tiens Balthazar, pendant tes études tu n'avais pas fait un peu d'informatique ? J'ai dit si si, mais c'est facile, tu vas voir, HTML, 1, 2, 2, c'est fait. Bon, au bout d'une heure elle a lâché l'affaire, elle a laissé se coucher. Moi à 80 du match j'étais encore dessus. Et en fait depuis ce jour là, en 2014 je pense, j'ai plus jamais lâché un PC et j'ai fait de l'informatique.
Speaker #0
C'est marrant hein. L'histoire comme ça arrive et fait quelque part un déclic.
Speaker #1
C'est vraiment ça, je suis tombé amoureux. Et puis en parallèle de ma carrière militaire, j'ai monté une agence de communication orientée digitale. Donc on faisait des sites, des sites e-commerce, on faisait du marketing en ligne, on faisait des choses comme ça.
Speaker #0
Et la data science alors ? Comment tu es arrivé jusque là ?
Speaker #1
Et ouais, c'est un long parcours finalement. Je me suis rendu compte que je n'aimais pas trop ce qu'on appelle le front-end, donc la partie design. et que Je trouvais plus d'intérêt à coder dans le back-end, à manipuler des données, à faire des algorithmes. Puis un jour j'ai quitté l'armée et je me suis dit qu'est-ce que je vais faire ? Je suis allé vers une voie ingénieur informatique et entre 2009, mon diplôme d'ingénieur, ou 2021, il s'était passé plein de choses, la containerisation, l'IA a explosé, le calcul distribué, plein de choses, plein de nouvelles choses. Et donc je me suis un peu remis à jour. J'ai cherché un job derrière. J'ai fait d'abord chef de projet dans le cloud, donc très infrastructurel, puis finalement ça me plaisait pas du tout, ça manquait vraiment d'algorithme. Et comme je suis un peu mygiver finalement... dans l'informatique, dans le réseau, dans le système, dans l'algorithmie, les mathématiques. Finalement, Data Science, ça se prêtait bien à ce que je voulais faire. Parce que c'est un carrefour entre les mathématiques, l'informatique et puis le métier. Donc, les trois pôles étaient là, entre le business, information, communication que j'avais fait, entre les mathématiques de mon parcours scolaire et puis l'informatique. Du coup, pour toi,
Speaker #0
c'est ce côté un peu à la croisée des chemins qui te plaît. Comment tu expliquerais à quelqu'un qui... qui ne connaît pas la data science ou le métier de data scientist, que fait un data scientist ? Je sais que c'est souvent, avec beaucoup de métiers dans l'IT, c'est difficile de répondre à ça. Mais grosso modo, pour toi, c'est quoi l'essence d'un data scientist ?
Speaker #1
J'aime beaucoup cette question, parce que tout le monde se la pose pour de vrai, et même les employeurs. Je crois qu'il y a plusieurs formes de data scientist. Tu as celui qui fait des recherches, qui va construire des modèles prédictifs, qui est très mathématicien, qui est dans l'université. Tu as celui qui va... Utiliser ses modèles en entreprise et ne faire que ça, c'est-à-dire vraiment trouver la meilleure façon d'utiliser ses modèles pour répondre à un cas d'usage. Et puis tu as celui, le troisième, celui qui est plus ingénieur, qui va en fait essayer de donner de la valeur à la donnée avec tous les outils qu'il a autour de lui, notamment des modèles d'intelligence artificielle, mais ce n'est pas toujours l'outil le mieux adapté. Donc finalement la data c'est plus une philosophie, plus qu'un secteur en fait, c'est comment faire en sorte d'être rigoureux. dans un process industriel informatisé à partir de la donnée en fait. Et la donnée c'est le coeur du truc d'abord on voue un culte à la donnée et ensuite on va pouvoir la faire parler.
Speaker #0
Oui, sans minerais il n'y a pas d'or, donc il faut bien avoir la donnée pour pouvoir creuser. Donc très intéressant, du coup j'entends qu'il y a plusieurs profils, plusieurs types de data scientist et toi tu dirais que tu es plutôt...
Speaker #1
Moi je suis le troisième je suis le troisième plutôt Touche à tout. En fait, dans mon métier, la direction, les métiers vont poser des questions qui nécessitent de la donnée, beaucoup de données. Alors, on pourrait parler de big data, moi j'aime bien dire strong data parce que ça tient encore sur un seul serveur, mais à la plupart du temps. Mais grosso modo, on va nous poser une question qui nécessite de croiser énormément de données dans tous les sens. Et si ça sort du cadre classique, c'est-à-dire les outils classiques de data analysis, et bien finalement c'est là où j'entre en jeu parce qu'il y a besoin d'un peu plus d'ingéniosité, de créativité. Alors, il y a la partie recherche. développement d'abord l'analyse après on essaie de faire un pas ou voir si ça peut mener quelque part si on arrive à livrer un produit avec un livrable derrière qui parle au métier une fois qu'il est d'accord bah là on va l'industrialiser et faire en sorte que ça tourne tous les jours et que ça soit robuste résilient sécurisé tout ça ok donc data
Speaker #0
science en fait intervient quand on a fait un peu en mode approfondi c'est à dire que les outils d'analyse de données classiques ne peuvent pas répondre aux besoins donc Donc il y a besoin de faire des outils spécifiques. Et donc d'utiliser aussi des modèles, des techniques en fait qui vont être un peu plus avancés que les techniques statistiques qu'on peut utiliser de base quand on fait de l'analyse de données. Je ne sais pas moi, peut-être oui, un data scientist va faire une régression linéaire alors que dans un business analyst ou un data analyst va faire plutôt des modèles statistiques de base de type des moyennes, des agrégations,
Speaker #1
des choses comme ça.
Speaker #0
Ok, très clair, en tout cas... Par rapport au sujet qui nous réunit aujourd'hui, les sources web, tu l'as un petit peu abordé, mais quel était ton premier vrai projet où tu as exploité des sources de données web, où tu as dû faire du scrapping ou d'utiliser des techniques pour exploiter ces données web ?
Speaker #1
En fait, le scrapping, ça part d'un besoin. C'est-à-dire que moi, quand j'étais chez moi, je n'avais pas encore accès à... des bases de données d'entreprise. Et donc, il a fallu que j'aille chercher ces données quelque part. Et donc, mes vrais projets, ils ont commencé relativement tôt parce qu'on a toujours besoin des choses pour soi. Mais si tu parles de projets plus professionnels dans le monde de l'entreprise, le premier projet où j'ai dû aller chercher de la donnée qui était non structurée, c'était pour aller chercher des corpus de textes sous forme de PDF. Et c'est là où j'ai compris qu'en fait, même si c'est un PDF et que ça a un certain standard, ça reste quand même... Une norme qui est privée mais ça reste un peu pas son nom.
Speaker #0
Oui c'est un standard le PDF, c'est un standard d'archivage des documents.
Speaker #1
Même si c'était dans le monde universitaire, parce que le but c'était de donner du sens à tous les papiers de recherche que rédigeaient les chercheurs, et donc comme c'est dans le monde universitaire ça reste assez structuré, il y a toujours plein de petites différences entre les documents. Et donc mon premier projet c'était ça, c'était récupérer... un maximum de PDF et de les classer en fonction du thème, la thématique, des liens qu'ils ont entre eux, entre les chercheurs qui ont travaillé sur un sujet, peut-être que d'autres chercheurs avaient travaillé sur le même sujet ou un sujet similaire quelques temps avant, et dans une autre université. Le but, c'était de donner du sens à de la donnée pour en faire de la connaissance. Donc on a donné information et connaissance, c'est les trois niveaux de qualité de cette donnée et d'utilité de la donnée.
Speaker #0
C'est les trois niveaux de raffinement. On a donné information. connaissance donc oui ben c'est un peu ce qui C'est un peu ce qu'on essaie de faire avec les sources de données web. À partir de la donnée, on va structurer des informations pour avoir de la connaissance. Tu as parlé de sources de données web, tu as parlé de fichiers PDF, c'est une source.
Speaker #1
Je n'ai pas parlé.
Speaker #0
Qu'est-ce qu'on a comme source ? Quand on parle de source web, on trouve des sources externes, des sources hétérogènes, tous ces genres de termes qui peuvent décrire ces données-là. Quelles sont les grandes familles ? Concrètement, c'est quoi ? De quoi on parle ?
Speaker #1
C'est vrai que je parlais des PDF, c'est-à-dire le support plutôt de la donnée. Ce que je n'ai pas dit, c'est que ces PDF étaient disponibles, mises à disposition sur plusieurs sites, qui avaient des API ou pas, c'est-à-dire des interfaces qui permettent de l'avoir facilement, ou alors des choses beaucoup moins faciles d'accès. Alors, il y a plusieurs grandes familles de données, effectivement. Sur le web, en fait, ce qu'on appelle le web, c'est le réseau, c'est-à-dire tout ce qui est accessible depuis ton PC. Moi, c'est comme ça que je vois le web. Et du coup, tu as les bases de données classiques. Il y en a certaines qui sont ouvertes. quasiment au grand public on va dire donc là tu te connectes avec un connecteur et puis les bases sont très structurées tu sais à quoi t'attendre on t'explique le schéma après tu as des choses qui sont plus courantes donc les api api c'est une manière de donner de servir de la donnée de manière contractualisée donc moi si j'ai de la donnée chez moi sur mes serveurs parce que j'ai des applicatifs des choses intéressantes je vais les exposer gratuitement ou non publiquement ou non et je vais créer plusieurs façon de la récupérer plusieurs guichets on va dire dès que tu viens sur ce guichet là les endpoints si tu viens sur ce endpoints là je vais te donner une partie de ce que j'ai en base de données sous un certain format donc ça l'API en fait finalement c'est hyper pratique parce que en gros quand tu viens pour récupérer la donnée on t'explique ce qu'on va te donner il y a déjà des contrats il y a de la documentation et tout si les documentations sont à jour bien sûr pas toujours le cas c'est une question qui viendra j'en suis sûr donc il y a les API et puis après toutes les entreprises ne laissent pas leur API publique où toutes les plateformes n'ont pas d'API. Donc l'autre source de données classique, c'est ce que tu vois en tant qu'utilisateur, c'est-à-dire le site web lui-même. Et c'est ça, en fait, le scrapping, c'est je viens gratter tout ce que je peux sans passer par les portes classiques, je prends la porte dérobée. Et ça, c'est hyper intéressant, parce qu'on est face à la plus grande difficulté de collecte de données pour plein de raisons.
Speaker #0
Est-ce que c'est légal de faire ça ?
Speaker #1
Oui et non, ça dépend en fait de ce que dit le propriétaire. C'est comme si tu viens chez quelqu'un, est-ce que c'est légal ? Si tu ouvres la porte, oui c'est légal, si tu ouvres pas la porte, bah ça l'est pas. Mais pour savoir si c'est légal, c'est assez simple, t'as les conditions du général d'utilisation, t'as aussi un petit fichier qu'on appelle le robo.txt, qui est pas un fichier qui est visible par l'utilisateur classique, mais qui est accessible publiquement, dans lequel il est listé toutes les pages, toutes les url sur lesquelles on a le droit d'aller, ou sur celles qu'on a pas le droit d'aller. Normalement c'est un truc qui parle aux robots crawlers de Google, donc ceux qui vont référencer des pages, pour dire Google ne va pas sur cette page parce que ça sert à rien ou parce que c'est interdit, c'est privé, ou vas-y s'il te plaît parce que là il y a du contenu intéressant. Et bien techniquement si tu fais du scrapping tu devrais regarder cette page. De base je pense que le scrapping est interdit parce qu'il est connoté négatif. Mais c'est pas toujours vrai en fait, parce qu'il y a des sites qui n'ont pas d'API et qui vont te dire si tu veux la donner débrouille-toi en fait. Si tu vas ponctuellement comme si tu étais un utilisateur il n'y a aucun problème.
Speaker #0
Tant qu'on ne sollicite pas le site de manière un peu... Parce que voilà, qui dit robot, c'est un vrai utilisateur. Donc les ressources du site, elles sont mobilisées. Donc effectivement, s'il y a une armée de robots qui vient, c'est ce qu'on appelle dans le jargon de la sécurité, une attaque par des lignes de service. Quand on demande de manière incessante telle ressource, c'est que... Du coup, on empêche aussi les utilisateurs. Donc il y a peut-être aussi des limites un peu de bon sens, je dirais paysannes. en tout cas pour ne pas exagérer dans cette exploitation, qu'on s'est autorisé bien sûr.
Speaker #1
Sur une API, il existe ce qu'on appelle le rate limit, donc c'est les taux limite d'utilisation, soit c'est un nombre de requêtes à la seconde, soit un nombre de requêtes par minute, soit les deux, soit une quantité donnée ou c'est un nombre de points, et ça c'est contractualisé. Comme tu es identifié sur l'API avec ton IP ou ce genre de choses, ou avec un token, de toute manière au bout d'un moment, si tu dépasses, ils vont te bloquer et tu ne pourras plus le faire. Sur le web, c'est différent parce que le web, en général, les pages sont publiques et sont ouvertes à n'importe qui. Mais comme tu dis, et j'ai envie de reprendre une expression, il y a le bon scrapper et le mauvais scrapper, il y a le scrapper white, white scrapper et le black scrapper, comme pour les hackers finalement. Soit tu y vas et tu respectes l'hébergeur ou le propriétaire du site, soit tu y vas et tu respectes rien. Je crois que la limite est assez fine entre la légalité...
Speaker #0
On est des fois dans des zones un peu grises. Est-ce que tu as une anecdote ou un exemple concret où tu as dû te débrouiller pour récupérer un peu de l'information utile mais où c'était chaud et où tu n'étais pas... Enfin, dans un contexte très clair.
Speaker #1
Une des premières fois où j'ai voulu faire du scrapping, je me suis dit je veux récupérer des données qui sont dans un certain domaine sur le web entier. Il y a une façon de faire, soit tu fais comme Google, tu crawles toutes les pages web qui existent, et après tu regardes ce qui t'intéresse. Je me suis dit, bon, j'ai pas des gros serveurs pour faire ça, j'ai pas le temps, j'ai pas 2500 ingénieurs qui sont dédiés à ça, je suis tout seul. Donc ce que je vais faire, c'est que je vais demander à Google de me donner toutes les pages qui parlent de telles thématiques, et après j'irai sur chaque site. Du coup, j'ai commencé à automatiser mes requêtes sur Google. Et je me suis fait bannir de Google. Tu t'es fait de la merde par le p****.
Speaker #0
Oui je pense que t'es pas le premier à essayer un truc comme ça, ni le dernier,
Speaker #1
mais en tout cas,
Speaker #0
il y a des mécanismes.
Speaker #1
Quand t'apprends, tu te rends compte que si tu laisses faire ton logiciel, enfin ton script, lui il a pas de limites, c'est-à-dire que si tu dis, bah, requête, telle requête, il va le faire, il va t'envoyer 1000 requêtes par seconde, et Google il va dire, hum, une IP qui m'envoie 1000 requêtes par seconde, j'aime pas trop. Et après, tu apprends du coup à... à mettre des timers, à calmer le jeu, à changer d'IP, à passer par des proxys, des trucs comme ça.
Speaker #0
Et des astuces pour pouvoir rester sous les radars peut-être.
Speaker #1
Je ne sais pas si je réponds à la question.
Speaker #0
Non mais je vois bien, en tout cas ça pose la question aussi des sources, parce que là quand on parle de sources hétérogènes, de sources externes à l'entreprise, forcément ces sources-là on n'a aucune maîtrise dessus, on utilise quelque chose sur laquelle on n'a aucune certitude. Du coup, comment tu fais pour évaluer déjà la qualité, la fiabilité, pour faire que ton système d'exploitation de ces données soit fiable ?
Speaker #1
C'est hyper difficile. Et c'est ce pourquoi j'aime bien ça, parce que ça demande vraiment beaucoup de technicité ou d'astuces. C'est un vrai challenge. Le premier, comme on l'a vu, la question c'est comment être résilient.
Speaker #0
Comment faire que le système soit résilient, qu'il soit fiable un minimum, et comment s'adapter aux évolutions, comment tu fais pour que la maintenance de ce système reste gérable, et pas que ce soit un ticket d'auto. On a créé un système, peut-être dans deux jours, on a travaillé, on a fait plein de choses, et peut-être que dans deux jours, ça ne servira plus à rien.
Speaker #1
Véritablement, je crois qu'il n'y a pas de magie. à part peut-être aujourd'hui en 2026 on pourrait passer par des agents IA qui étudient la structure du site et tout mais globalement en fait il faut respecter la méthode classique qui est j'ai un jeu de données devant moi je l'étudie, j'analyse je fais une analyse exploratoire préliminaire ensuite je comprends comment elle est faite je mets en place du pré-processing pour la traiter pour faire en sorte de la nettoyer une fois que ça c'est en place je vais pas plus loin mais Merci. Une fois ça en place, comme tu l'as dit, qu'est-ce qui se passe si la structure de données d'origine change ? Pour les bases de données, il n'y a pas de problème, pour les API, très peu, parce qu'ils te préviennent. Sur les gros API, ils t'envoient des mails pour te dire attention, il y a des choses qui vont être obsolètes ou pas. Mais c'est vrai que sur le web, surtout quand les sites ne veulent pas que tu récupères leurs données de manière générale, ils ne vont pas t'envoyer un mail pour dire « Hey, Coco, je ne vais pas tout changer. Mon architecture HTML, mon DOM JavaScript, donc prépare-toi. » Non, non, ils changent du jour au lendemain. Comment on fait ? il faut mettre... des alertes comme on ferait de manière classique. Si la donnée drift, si la donnée change, forcément derrière, elle peut changer de range. Imagine que tu t'attends à une donnée qui soit positive, si du jour au lendemain elle est négative, tu sais qu'il y a eu un problème. Mais en général, ça pète avant parce que c'est la structure même de la page web qui va changer. C'est-à-dire que si tu veux récupérer le prix de la baguette de toutes les villes, peut-être qu'il y a un site qui va te donner le prix de la baguette de toutes les villes. et que le champ prix sera à tel endroit, il sera référencé par prix de la baguette. Underscore 10. Un autre jour, il ne sera plus là, il sera à un autre endroit, il ne s'appellera pas prix de la baguette, il s'appellera baguette price. Et toi, tu cherchais prix de la baguette. Forcément, tu vas chercher des données qui n'existent plus, ton système est pète. Quand tu fais du code Python ou autre, tu vas essayer de faire des try-catch, try-except, ce genre de trucs. Forcément, ça va te relever une erreur et ça va éviter d'ingérer la donnée qui n'existe pas ou qui est fausse. Et on va se dire, attention, ce que tu cherches n'existe pas, donc il faut vite que tu revoies le code. Il n'y a pas de magie, en fait. C'est très dur à maintenir, ce genre de truc.
Speaker #0
Donc ça nécessite une implication forte pour pouvoir garder le système stable et réagir rapidement, parce que surtout si on a, comment dire, exploité ces données dans un autre contexte, pour faire, par exemple, des dashboards d'entreprise sur un suivi de concurrence ou des choses comme ça, du coup, c'est important d'être réactif, en fait, quelque part.
Speaker #1
Tu l'as dit, la clé c'est la réactivité et donc pour ça en fait il faut être capable de lever des alertes. Donc ça passe par l'analyse de ce que tu prends, au lieu de tout péter ton code parce qu'il y a une exception qui arrive et que ça casse tout, en fait on va capter ces exceptions et au lieu de tout casser le pipe, on va dire attention là finalement ça marche plus, on envoie un mail, on envoie une notif dans un canal Slack, Teams, ce que tu veux, et puis après du coup ça demande un peu de run, un peu de maintenance dessus, un peu d'analyse pour corriger, réparer. Ou alors... il y a une autre façon de faire, mais ça c'est un peu un pansement c'est à dire que si tu cherches prix de la baguette underscore 10 et tu dis ah bah tiens l'exception arrive, c'est plus le prix de la baguette t'as peut-être en dessous un fallback qui va te dire ah finalement si le prix de la baguette ne marche pas, essaye dans la case baguette dans la zone tableau chiffre va chercher ce qui finit par un euro peut-être, et là t'auras peut-être le prix même si le nom de la balise a changé Et là tu vas avoir un fallback. Et tu peux faire une liste de fallback comme ça, de plein de règles qui disent si le premier ne marche plus, et c'est le deuxième, et tu vas en fait à chaque fois avoir un scope qui va s'élargir ou qui sera un peu moins propre, mais qui va finir par trouver ce que tu cherches. Ça sera moins optimisé en termes de code, parce que forcément c'est plus difficile de parser de loin, de bien cibler précisément, mais ça marchera quand même et ça permettra d'être réactif derrière. Et si derrière tu as un gros dashboard qui sert vraiment à des prises de décision qui sont urgentes, Ce qui est rarement le cas quand tu fais de l'analyse web, sauf dans des cas où on pourrait parler. Mais globalement, ce que tu vas chercher sur le web, c'est plus des données courantes. Et puis si elles n'existent pas, tu as le temps d'attendre. On n'est pas dans le monde hospitalier, on n'est pas dans le monde du nucléaire. Et donc, si vraiment il y a besoin de le corriger, tu le corriges. Il n'y a pas de règles. C'est très difficile de maintenir ça.
Speaker #0
Une question annexe à ça, du coup, est-ce qu'il t'est déjà arrivé de mal interpréter des données issues du web ? de... Comment on fait pour avoir le contexte, ou en tout cas enrichir les données de leur contexte ? Parce que j'imagine que les données web sont tellement diverses et variées. Comment tu fais pour créer le bon contexte d'interprétation ?
Speaker #1
C'est toute la différence entre la donnée, l'information et la connaissance. La donnée, c'est vraiment ce que tu récupères brut, un numérique, une chaîne de caractère, un texte, une photo. L'information c'est le contexte justement qui est autour, c'est en quoi ces données a du sens et la connaissance c'est le lien qu'il y a entre toutes ces données qui vont en fait pouvoir être interprétées par quelqu'un et mener à une décision ou mener à une action. Dans le web ça arrive tout le temps en fait justement que tu t'interprètes mal et c'est pour ça que l'analyse préliminaire est hyper importante, il faut passer énormément de temps dessus pour savoir ce que ça veut dire avant d'industrialiser le pipe. en question d'extraction de données parce que sinon tu vas créer des dashboards qui ne veulent plus rien dire et derrière tu vas livrer une donnée qui n'a pas de sens.
Speaker #0
Est-ce que tu penses que l'IA avec les agents IA peut vraiment, je ne sais pas si tu as eu une expérience avec ça dans ce contexte de scrapping ou d'exploitation de données externes, d'utiliser un agent IA, est-ce que du coup ça fait une différence ? Bon. Comme on peut l'imaginer, il y a de souplesse dans un système d'IA.
Speaker #1
Il y a un cas où, au tout début de ChatGPT, ChatGPT a été hyper utile. C'est quand on s'amusait à récupérer des posts publics, par exemple sur Twitter ou sur d'autres plateformes, et on récupérait l'opinion de ces posts-là en fonction d'un sujet. En fait, on s'est rendu compte que le contexte du post, la discussion qu'il y a autour, était hyper importante pour comprendre le sarcasme. C'est-à-dire que si tu as un poste qui dit que les motos c'est super, mais que juste avant quelqu'un disait qu'un proche était décédé en moto, c'était peut-être de l'ironie. Et toi tu te dis que les motos c'est bien, tout le monde aime les motos. Et Tchadjé Pété était capable de nous dire, en prenant le contexte global, est-ce que c'est du sarcasme ou pas ?
Speaker #0
Très intéressant. Alors qu'un système classique, pour arriver à ça, c'est difficile. Sinon il faut peut-être utiliser des techniques beaucoup plus avancées, de machine learning du coup. L'IA fait du machine learning aussi quelque part, mais disons peut-être que l'IA le rend beaucoup plus abordable. Avec CGPT, le système, on lui donne l'info sans devoir préparer la donnée ou sans devoir lui préciser c'est quoi le modèle mathématique derrière à utiliser pour donner la conclusion. Là, en fait, il va se débrouiller parce que les modèles de langage... sont plus adaptés à traiter ce genre de problématiques et d'interprétations.
Speaker #1
C'est vraiment fait pour, d'ailleurs c'est dans le nom. Alors à l'origine, parce qu'aujourd'hui, ce qu'il y a derrière ChatGPT, c'est un gros système de plein d'agents qui se parlent et qui sont spécialisés sur plein de trucs. Mais grosso modo, LLM, c'est un modèle de langage, et il est fait pour comprendre le contexte, pour pouvoir prédire le prochain mot, et donc construire des phrases comme ça. C'est vraiment adapté pour analyser de la donnée qui est non structurée, de la donnée langagière. On est en plein dans le NLP, donc l'analyse du langage. et ça c'est essentiel si tu veux pouvoir donner du contexte, comme tu dis, et éviter certaines dérives. Mais ça coûte très cher. Ça coûte extrêmement cher à faire tourner. Parfois, il faut faire le choix du pauvre et consentir à avoir une donnée qui est moins propre, surtout si tu n'as pas besoin d'une grosse précision. Si derrière, dans ton dashboard, tu dis 98% au lieu de 96%, on a compris que c'était très très proche de 100%, et ça passe.
Speaker #0
Tu parles de dashboard et justement de pourcentage. J'aimerais qu'on creuse un peu ce côté valeur business. Parce que maintenant, peut-être que effectivement, une fois qu'on arrive à à extraire ces données, à relever les défis, les challenges par rapport à leur mise au propre, etc. Comment on passe du côté, on va dire, connaissance ? En tout cas, créer cette connaissance chez l'utilisateur final, dans une entreprise. Comment, j'ai envie de te dire, on passe de la donnée brute à un insight qui a du sens ? Comment tu génères cet insight ? Comment, en tout cas, le produire, en fait ?
Speaker #1
Je crois que chez les techos, les geeks, L'ingénieur, l'informaticien, il y a deux gros biais. Le premier, c'est être...
Speaker #0
C'est sentir un poster, on appelle ça le syndrome de l'imposteur. Et le deuxième, c'est de faire de la tech pour de la tech. C'est le deuxième qui nous intéresse là. Même moi qui sais que c'est hyper dangereux de faire de la tech pour de la tech, intrinsèquement j'aime ça, j'aime développer des trucs pour développer des trucs. Plus c'est complexe, plus je m'exalte. Mais en général, plus c'est complexe, moins ça sert. En tout cas, moins ça sert le métier. Et donc, souvent j'ai voulu faire des choses hyper techniques. Si, si, regardez, c'est super, c'est génial, ça te fait même du café. Et le gars qui est en face, il dit, je ne comprends pas, ça ne me sert à rien en fait. Et avec le temps, je m'assagie. J'ai passé beaucoup plus de temps à essayer de comprendre ce que veut le métier, et de dire, OK, c'est quoi le but final, c'est quoi ton objectif, c'est quoi ce que tu veux vraiment, comment tu le nommes. Il y a un truc qui s'appelle le domaine de R&D, je crois. Oui,
Speaker #1
le domaine de R&D.
Speaker #0
Ça, c'est quelque chose qui doit être au centre de la discussion. Dans des équipes qui sont très structurées, tu as des managers, des product owners, qui font l'interface normalement avec le métier. et des chefs de projet aussi, et dont le travail c'est de traduire le langage métier aux équipes techniques, et de traduire le langage technique aux équipes métiers. Quand t'as pas cette strat là, t'as l'habitude de le faire toi-même, donc de te baser sur le domaine de Driven Design, comprendre ce que veut dire le métier, et surtout demander c'est quoi les règles que tu veux, comment tu veux définir la qualité de ta donnée, qu'est-ce que tu veux à la fin, c'est quoi le but final. Vraiment dire le why, why, why, les trois premières questions qu'il faut poser, avant de se plonger dans la tech. Vraiment, c'est ça. Alors, il n'y a pas de recette magique, en fait. C'est surtout une vraie connaissance de la personne qui est en face de toi, parce qu'à tous les niveaux, tu as des gens qui sont très geekos, qui sont capables de faire des trucs. D'ailleurs, tu es un peu jaloux, parce que tu vois, quand même, j'aurais bien voulu le faire moi. Le métier, le fais à ta place. Puis, il y a des gens qui n'inhibitent rien et surtout, ils ne veulent pas comprendre. Donc, il faut s'adapter à son public. Puis, une fois que tu as fait ça, avant de s'engager dans une gestion de projet en V, comme on faisait à l'époque, tu fais un petit truc, tu lui proposes, il va te disputer parce que ce n'est pas du tout ce qu'il attend. Il faut accepter de se faire engueuler.
Speaker #1
Oui, en fait, c'est la démarche itérative. Itérative,
Speaker #0
oui, complètement itérative. Et finalement, accepter de se faire engueuler à chaque itération. Parce que lui, il s'attend à ce que tu livres un produit fini. Mais toi, tu fais exprès de ne pas lui donner parce que tu sais que si tu lui donnes tout de suite, tu auras passé des heures et des heures, des jours, des mois à faire un truc qui finalement, en tous les cas, ne lui plaira pas.
Speaker #1
Oui, peut-être qu'il n'est pas pertinent. Ça, c'est hyper intéressant cet aspect parce que je pense que c'est une vraie clé de succès. Je pense que le côté itératif de... et essentiel parce que effectivement Rome ne s'est pas fait en un jour. On ne va pas avoir le dashboard peut-être ultime au bout d'une itération. Et je pense qu'effectivement, une des vertus d'un professionnel qui maîtrise son sujet, c'est d'être capable d'avoir cette démarche et d'accompagner le métier à formaliser quelque part. son besoin de manière progressive. Est-ce que tu as, encore une fois, le podcast se veut très pragmatique, est-ce que tu as une idée, un exemple de projet ou d'une donnée web qui a vraiment fait la différence par rapport à un besoin métier ou par rapport à des insights ?
Speaker #0
J'ai un exemple assez concret qui vient en tête et ça me permet d'introduire la notion de critère de réussite. Le critère de réussite, c'est la question que tu poses au client. Quand est-ce qu'on sait que ce que je vais te livrer te sert à quelque chose ? Quand est-ce que tu es content ? Et comment on fait pour le caractériser dans quelques cas pays ? Moi, je voudrais parler du trading. Le trading, c'est simple. Tu gagnes de l'argent, tu as un critère de réussite. Tu perds de l'argent, tu as un critère d'échec. Et donc, pour en revenir à ce sujet d'analyse d'opinion, on avait un client qui se demandait s'il pouvait améliorer ses robots de trading. Donc RoboTrading qui se base sur le marché, sur les données fiduciaires, et s'est dit comment on peut faire pour l'améliorer ? Peut-être qu'en captant l'opinion des gens, en captant ce que disent les gens de tel ou tel produit de bourse, peut-être que je pourrais anticiper des hausses ou des baisses. Et il nous a demandé de pouvoir introduire cette information-là dans ces bots de trading. Donc là le KPI est très simple, le critère de réussite est simple. Si mon bot fait mieux, génère plus d'argent après qu'avant l'introduction de cette notion, c'est tout gagné. Et en l'occurrence, on l'a réussi. On a montré, mais ça c'était un peu une intuition, on a montré que l'opinion du marché, des gens en fait, avait une influence, ou était corrélée, de plus ou moins près, à la bourse. Et ça tout le monde le sait, quand les gens s'inquiètent, ils vendent, quand ils sont heureux, ils achètent. Mais après, fallait-il encore l'utiliser, fallait-il encore le montrer, et surtout, arriver à un critère de réussite tangible, c'est-à-dire, le bot est meilleur après qu'avant, avec des données.
Speaker #1
J'aime beaucoup ce... notion-là de critère de réussite parce qu'elle permet de justement quand on a un profil très technique comme toi, et ça me fait très plaisir d'entendre ça de la part de quelqu'un comme toi, c'est quand on pose en fait très très vite au métier cette question qu'est-ce qu'il va faire ? Ce qu'on va faire pour vous, ça va vous être utile. En fait, ça permet de garder le focus quelque part sur l'essentiel. Et aussi de ne pas perdre de l'énergie à faire des choses qui ne le sont pas. Parce que je pense que pour réussir un projet, c'est aussi important de savoir ce qu'il faut faire que de savoir ce qu'il ne faut pas faire. Des fois, c'est peut-être plus important de savoir ce qu'il ne faut pas faire que ce qu'il faut faire. Parce que quelque part, on met l'énergie au bon endroit. tu as envie de réagir.
Speaker #0
J'ai envie de réagir parce que ce que tu dis est outrement vrai, ou beaucoup plus vrai encore. Et moi, j'ai simplifié la notion de critère de réussite en disant « Ok, si je fais mieux qu'un seul, dans ce cas, j'ai réussi. » Mais en fait, la question qu'il faut se poser, c'est aussi quel est le coût pour arriver à cette réussite-là ou à ce bénéfice-là. Simplifier en disant « Ok, j'ai atteint l'objectif, c'est super, mais à quel coût ? » Et souvent, sans l'oublier, à finir avec l'expérience, on se dit Merci. Avant de mettre en place quelque chose, combien ça va me coûter ? Et est-ce que le coût envoie la chandelle ? Est-ce que je vais rester bénéficiaire ? Parce que c'est bien de faire 2-3% en plus en bourse, mais si ton robot t'a coûté des milliards et qu'il te coûte 4-5% de plus, en fait, tu perds. Donc c'est ce que j'avais commencé à dire tout à l'heure, c'est que parfois, tu n'as pas besoin d'un LLM, parce que c'est très gourmand à faire fonctionner. Si, c'est pour vous gagner 2-3%, alors qu'en fait... Ton but, c'est juste d'avoir une tendance globale de ton activité. Si tu es à 3, 4, même 15% de précision, peut-être que ça suffit. Par contre, dans un monde où 1% c'est hyper dangereux, même un millième de pourcent, c'est très dangereux, c'est-à-dire le nucléaire, le monde hospitalier, si ta machine, elle se met à s'arrêter alors qu'elle n'aurait pas dû, parce que tu as dépassé le seuil, tu as quelqu'un qui meurt. Donc là, on n'est pas dans le même registre. La question qu'il faut se poser, c'est toujours, je vais mettre en place un char d'assaut, Est-ce qu'en face, finalement, je n'ai pas que des gens avec des lances-pierres ? Est-ce que j'ai besoin d'un char d'assaut ?
Speaker #1
Le ratio en coût bénéfice, quelque part. C'est un peu ça le sujet que tu poses. On se rapproche de la fin de notre podcast et il y a un sujet sur lequel je voulais échanger avec toi, c'est la place qu'il y a par rapport à ces systèmes-là. Comment faire en sorte que l'IA reste utilisée dans un cadre qui est propre, sécurisé, fiable, parce qu'effectivement ça coûte cher, mais parce que ça pose des questions éthiques par rapport à l'usage ? Comment tu approches ça ? Quelle est peut-être aussi ta philosophie ou ta vision par rapport à ce sujet ? Je sais que ce n'est pas une question facile, mais je pense que c'est une question qui est importante.
Speaker #0
C'est une question... plein coeur de tous les débats et je crois que tout dépend du contexte. Il faut être assez monacal avec l'IA, c'est-à-dire qu'il faut être assez frugal dans le sens où il faut vraiment l'utiliser quand il faut. Ok, ça donne envie de jouer avec, mais il y a plusieurs modes de fonctionnement. Soit tu utilises perso pour toi, il n'y a pas de problème, tu fais attention à tes données, RGPD, etc. Soit tu utilises dans le cadre de l'entreprise ou dans le cadre où il y a une responsabilité. envers d'autres personnes, envers un business, envers plein de choses. Donc là, il faut vraiment faire attention parce que la plupart des IA qu'on te vend, même s'ils te disent « Ok, c'est hébergé en France et tout » , on l'a vu dans plein de cas, il y a des données qui vont partout et les pays étrangers à la France sont vraiment très friands des informations sur le business français. Et ce n'est pas parce que ton entreprise ne vaut rien sur le marché que tu vois un seul Morgan. Parce qu'en fait, ton entreprise, c'est un maillon de la statistique. Et si tu donnes ce maillon de plus à la statistique, la statistique devient de plus en plus vraie. Et plus la statistique devient vraie, plus ton adversaire industriel a des armes contre ton marché. Pour de vrai, j'ai commencé l'année dernière à travailler sur ce sujet, parce que je sais que les directions ne sont pas hyper matures avec ça, déjà avec la souveraineté de la donnée de manière globale, elles ne sont pas hyper matures non plus avec la gouvernance, qu'est-ce que c'est, comment je fais pour gérer mes données, on parle de plein de choses, on parle de data centers qui sont souverains. En gros, moi ce que je dirais c'est... Déjà, d'une part, il faut anonymiser ta donnée, et il faut trouver un équilibre hybride, c'est-à-dire tout ce qui est intelligence, connaissance, orchestration, tu le fais chez toi, sur tes propres serveurs. Et quand tu as besoin d'inférence, vraiment de puissance de calcul, tu peux utiliser des modèles qui sont distants. Soit tu consens à ce que ta donnée part ailleurs, et donc tu utilises des modèles qui sont en SAS, LDPT, d'autres. Soit tu vas entraîner ton propre modèle. Aujourd'hui, il existe des modèles qui sont instructeurs, des modèles même de plein de types que tu peux avoir chez toi, hébergés chez toi, qui ont été pré-entraînés et que tu vas ré-entraîner ou tu vas affiner avec ta propre donnée d'entreprise. Donc ça, tu le mets sur ton propre serveur et tu peux le faire. Il y a des gens qui vont te vendre ce genre de trucs, mais leurs serveurs, ils ne sont pas chez toi. Ils sont loin. C'est juste des sortes de brokers. Finalement, ça peut être très dangereux. Donc pour simplifier, tout ce qui est intelligence, ça reste à toi. Pour ça, puissance de calcul, si tu as besoin de l'avoir ailleurs, tu l'as ailleurs, mais si tu peux avoir ton modèle d'IA, peu importe ce que c'est, chez toi sur un serveur, tu l'as. Si tu n'as pas la capacité, parce que ça coûte très cher d'avoir des GPU ou des TPU, tu vas l'entraîner chez toi ponctuellement, ou utiliser des machines ponctuellement dans le cloud, tu vas l'entraîner, tu vas détruire cette machine, détruire les données, et de la requête de temps en temps qui va demander l'inférence de ce modèle entraîné, tu vas l'envoyer sur un serveur que tu vas allumer à la demande, avec la donnée qui va être juste en transit, pas stockée, et voilà. Ça demande une ingénierie énorme à mettre en place. J'ai décidé de ne pas trop entrer dans les détails.
Speaker #1
C'est très intéressant. Je pense que justement, ton regard un peu stratégique et peut-être aussi ta vision d'ancien militaire se ressemble bien dans cette réponse. Ça me va. C'est très intéressant. Peut-être une dernière question pour finir. Est-ce qu'il y aurait déjà une question ou un sujet que tu aurais souhaité aborder, qu'on n'a pas abordé ? Vraiment l'échange. J'ai quelque chose que je voudrais transmettre peut-être à nos auditeurs qui te paraît intéressant par rapport à nos sujets abordés.
Speaker #0
En fait, je suis un peu déçu que ça soit si court, et j'ai plein de sujets que je voudrais aborder, et le plus dur, ça va être de choisir...
Speaker #1
On pourra refaire un autre podcast, avec plaisir. Je pense que nos auditeurs seront très intéressés. Peut-être un conseil, ou un sujet, peut-être, à nos auditeurs, qui souhaiteraient se lancer.
Speaker #0
Si quelqu'un est intéressé dans le monde de la data, déjà, il faut savoir que c'est une philosophie qui demande énormément de rigueur, et qui demande à sacraliser la donnée. C'est d'abord une démarche scientifique. vraiment et qui apporte aussi les avantages de l'informatique ce côté empirique de l'informatique c'est à dire ok je veux quelque chose je développe un truc je teste ok ça marche pas mais dans tous les cas il ya quand même la rigueur de la donnée derrière c'est la donnée qui qui parle c'est elle qui le dit si tu as réussi ou pas si si les gens qui voudraient se lancer là dessus moi je leur conseille vraiment de ce focus sur une techno faire de tester plein de choses Ne pas trop laisser coder chatGPT. Moi, aujourd'hui, j'utilise à 80% chatGPT ou d'autres modèles quand je code. Et je n'ai pas honte de le dire. Ça serait con de se passer la calculette alors que je suis comptable. En revanche, si je le fais, c'est parce que je comprends exactement comment ces modèles fonctionnent. Et aussi, je comprends exactement ce qu'ils génèrent pour moi. C'est-à-dire que je suis capable de juger comme si le modèle était pour moi un stagiaire gratuit.
Speaker #1
Ouais, un stagiaire super intelligent.
Speaker #0
Ils sont tous très intelligents. Il faut vraiment comprendre ce qu'on fait, donc avant de se casser les dents avec ses propres scripts, essayer de comprendre jusqu'au bout, parce qu'on n'a jamais fini d'apprendre dans ce milieu. Et c'est aussi pour ça que je travaille dans l'informatique, parce que je sais que même si c'est fatigant, je ne serai jamais dans le repos de me dire « Ok, c'est bon, j'ai tout compris. » Tous les jours, j'apprends un truc, tous les jours, je me casse les dents sur quelque chose.
Speaker #1
La posture de l'humilité est importante.
Speaker #0
Tous les jours, je me tiens aux cheveux, on dirait pas comme ça, mais vraiment, c'est un monde qui est très difficile.
Speaker #1
Heureusement, il en reste quelques-uns.
Speaker #0
Je voudrais rassurer ceux qui écoutent, si jamais toi, t'es un jeune ou même un vieux et que tu te casses les dents, franchement, je crois qu'on est tous dans la même galère, et ça sera ta vie quotidienne. Donc, soyons ensemble.
Speaker #1
En tout cas, je pense que si c'est la vie quotidienne avec un tel sourire, c'est plutôt pas mal. Donc c'est très chouette. En tout cas, merci beaucoup, Balthazar. Je mettrai tes coordonnées si nos auditeurs ont envie de te contacter. Merci beaucoup pour avoir accepté cette invitation et pour t'avoir prêté au jeu.

Chapters

Introduction au Scrapping et à la Data Science

0sec

Le Parcours de Balthazar Mehus

1min

Comprendre le Rôle du Data Scientist

5min

Projets de Scrapping et Sources de Données

9min

Les Types de Sources de Données Web

11min

Légalité et Éthique du Scrapping

13min

Défis et Solutions en Scrapping

15min

Maintenir la Fiabilité des Systèmes de Scrapping

18min

Interprétation des données web

22min

L'impact de l'IA sur l'analyse des données

27min

De la donnée brute à l'insight

29min

Critères de réussite dans les projets de données

33min

L'éthique et la sécurité de l'IA

37min