Description
Bonjour à tous et bienvenue dans le ZDTech, le podcast quotidien de la rédaction de ZDNet. Je m’appelle Guillaume Serries et aujourd’hui je vais vous expliquer pourquoi un nouveau format de fichier permet de réduire le temps d'analyse de l'ADN. Oui, nous allons parler de calculs simultanés.
Le traitement des données produites par le séquençage de l'ADN est chronophage. Comptez en général deux semaines. Mais voici qu'un nouveau format de données permet de passer à une demi-journée de traitement. Comment et pourquoi ? Et bien écoutez ce qui suit.
Ce nouveau format de fichier informatique accélère l'analyse du séquençage par nanopore. Et allez ! Encore un terme incompréhensible.
Voilà, je vous explique ce qu'est le séquençage nanopore.
Cette méthode de séquençage de l'ADN est utilisée depuis 1995. Pour ce faire les laborantins utilisent des trous d'un diamètre de l'ordre du nanomètre, d'où le terme nanopore.
Et le séquençage par nanopore permet d'améliorer les traitements de patients atteints de cancer par exemple. Problème, le processus d'analyse du séquençage prend beaucoup de temps.
Mais voici que des chercheurs australiens ont mis au point un nouveau format de fichier informatique qui permet d'accélérer l'analyse du séquençage. Oui, un format de fichier qui a une incidence sur le temps de traitement.
Les résultats de ces chercheurs ont été publiés dans la revue Nature Biotechnology. Le format SLOW5 permet de traiter le séquençage de l'ADN par nanopore "plus de 30 fois plus vite" que le format de fichier précédent. Ne riez pas, ce format de fichier un peu lent s'appelle lui FAST5.
Jusqu'à présent, les données produites par le processus de séquençage d'ADN sont systématiquement enregistrées dans des formats de fichiers FAST5.
Le résultat d'un séquençage d'ADN est contenu dans un fichier informatique d'un volume d'environ 1,3 téraoctet. Soit l'équivalent de 650 heures de vidéo haute définition.
Et pour traiter plus d'un Teraoctet de données, il faut environ deux semaines aux ordinateurs. Avec le format de fichier SLOW5, on passe à une demi-journée pour le même volume d'information.
Et voici pourquoi.
Contrairement au format FAST5, le format SLOW5 permet le calcul parallèle.
C'est-à-dire que plusieurs processeurs peuvent exécuter simultanément de multiples analyses à partir du même fichier. D'où ce gain de temps très conséquent.
"C'est comme si vous essayiez de creuser un très grand trou avec 10 personnes" explique un chercheur. "S'il n'y a qu'une seule pelle, vous devez la partager. C'est comme ça que ça se passe avec FAST5".
"Mais avec SLOW5" poursuit-il, "chacun a sa propre pelle, et ils peuvent tous creuser en même temps et faire le travail beaucoup plus rapidement".
Le format FAST5 est lent parce que les données ne sont pas accessibles en parallèle. Il est basé sur le format de données hiérarchique qui a été conçu dans les années 1990 pour fonctionner sur des machines qui, à l'époque, n'avaient qu'un seul processeur.
Les machines modernes, elles, embarquent plusieurs processeurs. Inventer un format de fichier qui permette de tirer parti de la simultanéité de la puissance de calcul de ces machines.
Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.