ZD Tech : tout comprendre en moins de 3 minutes avec ZDNet

Les outils pour identifier les contenus en ligne se suivent et ne se ressemblent pas

03min | 06/03/2022

Description

Bonjour à tous et bienvenue dans le ZD Tech, le podcast quotidien de la rédaction de ZDNet. Je m’appelle Clarisse Treilles, et aujourd’huije passe en revue les différentes techniques d’identification des fichiers audios, vidéos et images.

Au musée, une œuvre originale est généralement signée de la main de l’artiste. Sur internet, le principe est le même, mais les outils employés divergent. On trouve sur certaines plateformes des systèmes de reconnaissance dit de “fingerprinting”, par empreintes numériques, ou sur d’autres encore des “tatouages” numériques.

A l’instar de YouTube, et son système nommé “Content ID”, ou encore Facebook qui a développé l’outil Rights Manager, les techniques par empreintes (dites de “fingerprinting” en anglais) sont les plus répandues sur internet.

Ce qu’il faut d’abord comprendre, c’est qu’une empreinte est distincte de l'œuvre elle-même. La technique se base sur une représentation numérique unique d’un contenu. Pour générer une telle empreinte, les méthodes consistent à réduire ou simplifier un contenu entier pour n’en conserver que des éléments caractéristiques. A noter que ce procédé n’est pas réversible : il est donc impossible de recréer le contenu d’origine en entier à partir de son empreinte.

Pour vérifier l’authenticité d’un document par ce biais, il faut disposer d’un système de reconnaissance de contenu. Il se compose généralement d’une base de données où sont stockées les empreintes de tous les documents à identifier. Une fois cette base créée, le système est utilisé comme moteur de recherche.

Reste que la technique de l’empreinte a bien un défaut : elle doit être alimentée par une grosse base de référence. Cela demande des capacités importantes de stockage, ce qui peut représenter un coût élevé, en particulier pour les petits producteurs.

A côté de cela, il existe aussi la technique dite du “hachage”. Par ce biais, n’importe quel fichier ou donnée peut être représenté par une chaîne de caractères alphanumérique unique, que l’on nomme le hash. C’est un petit peu la signature unique d’une œuvre numérique. Ainsi, deux fichiers strictement identiques auront toujours le même hash.

Ce hash est certes pratique, mais pas très flexible : cette technique ne fonctionne que lorsque deux fichiers sont parfaitement identiques. Ainsi, le moindre changement dans un fichier de départ - comme le simple fait de changer le format d’une image par exemple - créera un hash distinct. Comparer les hashs ne permet donc pas d’identifier toutes les copies d’une image, uniquement les copies exactes.

Enfin, la dernière méthode dont nous allons parler est celle du “watermarking”, ou tatouage numérique. Contrairement aux deux autres méthodes, le watermarking implique une modification du contenu. Cela consiste à intégrer dans un fichier une marque, qu’il sera ensuite possible de retrouver. Pour réaliser cela, il faut deux choses : d’abord un marqueur pour “tatouer le contenu”, puis un détecteur pour retrouver un tatouage numérique. Ce marqueur peut être visible, comme par exemple un logo sur une image ou une vidéo, et il peut aussi invisible à l'œil nu.

Et voilà, normalement on a fait le tour du sujet. Pour en savoir plus, rendez-vous sur ZDNet.fr. Et retrouvez tous les jours un nouvel épisode du ZDTech sur vos plateformes de podcast préférées

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.