Quand les sons se séparent - Emmanuel Vincent | Les Podcasts d'Interstices

Description

Les sons, omniprésents dans notre quotidien, nous aident à percevoir ce qui nous entoure, à communiquer, à nous divertir. Emmanuel Vincent cherche à les analyser, les identifier, les séparer. Il nous en parle dans cet épisode du podcast audio.

Épisode initialement publié sur le site Interstices le 24 octobre 2014.

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Technologie Science Algorithme
Speaker #1
Simulation
Speaker #0
Informatique Technologie Chers auditeurs, bienvenue dans ce 61ème épisode du podcast Interstice. Les données audio sont au cœur de notre vie, que ce soit pour la communication parlée, les vidéos personnelles, dans les médias, la radio, la télévision, les divertissements, cinéma, jeux vidéo, etc. Toutes ces données nécessitent parfois d'être manipulées, séparées, retravaillées. Pour en discuter, nous recevons Emmanuel Vincent, chercheur dans l'équipe INRIA Multispeech au centre INRIA Nancy Grand Est. Emmanuel Vincent, bonjour.
Speaker #1
Bonjour.
Speaker #0
La séparation de sources sonores fait à juste titre partie de votre quotidien, puisque c'est votre spécialité. C'est un domaine de recherche quelque peu intriguant pour les non-initiés. Pouvez-vous nous expliquer brièvement de quoi il s'agit ?
Speaker #1
Alors aujourd'hui, vous nous écoutez peut-être dans votre bureau ou dans votre voiture, et dans ces contextes, le signal sonore, le son qui est présent dans le bureau ou la voiture, est un mélange... de plusieurs sources sonores. Il y a votre voix, le bruit du collègue qui va taper sur son clavier ou qui éternue, et si vous êtes en voiture, le bruit des roues des autres voitures qui passent à côté. C'est juste un exemple. pour vous montrer que dans beaucoup de situations de tous les jours, on a plusieurs sources sonores qui sont actives en même temps. Le but de la séparation de sources, c'est de séparer, de récupérer uniquement une de ces sources qui vous intéresse et ensuite de pouvoir appliquer des traitements à cette source.
Speaker #0
Donc c'est identifier, extraire un son en particulier pour une analyse.
Speaker #1
Tout à fait. Alors un exemple que beaucoup d'entre vous ont certainement entendu, c'est dans le film La Maume sur la vie d'Edith Piaf, où une entreprise française qui s'appelle Audionamix et qui est le spécialiste... de la séparation de sources, à effectuer un traitement des anciens enregistrements d'élite piaf pour séparer la voix et la musique et ensuite remélanger, remasteriser ces vieux enregistrements sous forme 5.1 et c'est ce qui a fait toute la qualité de la musique qu'on peut entendre dans ce film.
Speaker #0
Quels sont les enjeux de vos travaux ?
Speaker #1
Plus généralement, au-delà de la séparation de sources, l'objectif c'est, à partir d'un enregistrement, de pouvoir extraire et décrire la scène sonore, c'est-à-dire où sont les sources, ce que sont les sources. Est-ce que c'est un instrument de musique, une voix ? Quel instrument ? Quelle personne parle ? Et puis, pour aller encore plus loin, quelle est la mélodie jouée par l'instrument ? Quel est le texte prononcé par la personne ? Quelles sont les émotions qui sont présentes ? dans sa voix. Donc c'est une analyse par l'informatique de tout ce que notre système auditif perçoit lorsqu'on entend des scènes sonores dans la vie de tous les jours.
Speaker #0
Vous parlez de l'audition naturelle, mais d'un point de vue scientifique, quels sont les outils ou méthodes que vous utilisez ?
Speaker #1
Pour répondre à toutes ces questions, on va construire ce qu'on appelle des modèles du son. Un modèle, c'est une représentation mathématique d'un objet, ici le son. Et ces modèles. Ils vont s'inspirer de différentes choses qu'on sait sur le son. Ils vont s'inspirer en partie de l'audition, mais pas seulement. On va aussi utiliser la physique des sons. On va utiliser des techniques d'apprentissage qui vont nous permettre de faire coller ces modèles autant que possible aux données sonores qu'on aura enregistrées.
Speaker #0
Et donc, quel est le rôle de l'informatique dans ce domaine ?
Speaker #1
L'informatique a permis beaucoup de choses. Avant, quand on avait uniquement des enregistrements analogiques, on pouvait faire très peu de traitements sur ces enregistrements. Ça se limitait principalement à la reproduction de l'enregistrement. Donc l'informatique a rendu possible ce champ scientifique. Et les dernières avancées en informatique qui nous ont permis de progresser encore, je citerai par exemple d'un point de vue hardware, aujourd'hui, la grosse puissance de calcul qui est rendue possible par les... les GPU, donc les cartes de traitement graphique, nous permet de mettre en œuvre des modèles beaucoup plus complexes que ceux qu'on utilisait avant et qui ont donc une puissance de représentation du monde réel bien supérieure à ce qu'on pouvait faire il n'y a ne serait-ce que 5 ans. D'un point de vue plus théorique, d'autres branches de l'informatique comme le machine learning, c'est-à-dire l'apprentissage statistique, nous ont aussi permis de mettre en œuvre des modèles. et en combinant cela à nos connaissances propres sur la perception sonore et la physique des sons, on a engrangé des progrès importants dans les 5 à 10 dernières années.
Speaker #0
Et quels sont les défis scientifiques auxquels vous devez faire face ?
Speaker #1
Les défis qui sont posés par ce problème général d'analyser les scènes sonores, ce sont en premier lieu le fait que plusieurs sources sont présentes à la fois et ces sources sonores subissent des dégradations importantes. Par exemple, quand on enregistre à distance, le son va se réfléchir sur les murs, sur les parois de la pièce et va donner lieu à ce qu'on appelle la réverbération qui va... noyer un petit peu le son par rapport à un enregistrement proche de la bouche de la personne qui parle par exemple. Et d'autre part, quand tous ces sons s'ajoutent, il y a énormément de diversité. La voix d'une personne, un instrument de musique, un klaxon, ce sont des sons très différents qui vont nécessiter des modèles différents et beaucoup de données pour pouvoir apprendre avec ces techniques d'apprentissage statistique toute la diversité. des sons possibles. Donc voilà les défis qui sont posés par les données elles-mêmes. Maintenant, du point de vue du traitement de ces données, il y a un défi en termes de puissance de calcul qui va être nécessaire pour pouvoir mettre en œuvre ces modèles. Et donc une part importante de notre recherche consiste aussi à chercher des façons d'apprendre et d'utiliser les paramètres de ces modèles avec... aussi peu de calculs que possible.
Speaker #0
Donc on a parlé de séparation de sources, de localisation et d'identification de voix. Est-ce que ces traitements se font indépendamment ou partagent certains points communs ?
Speaker #1
Chacun de ces traitements a des spécificités par rapport aux autres, mais si on veut résoudre le problème global de comprendre la scène sonore telle que le ferait notre système auditif, on a besoin de mettre en œuvre tous ces traitements en même temps. Par exemple, si vous enregistrez une voix à distance, à 1 mètre ou 2 mètres, pour faire la séparation de source, je vais avoir besoin d'abord de localiser où est la voix, et ensuite, pour reconnaître la personne qui parle et ce qu'elle dit, je vais avoir besoin d'avoir déjà fait la séparation. Donc ces traitements vont s'enchaîner, et une autre difficulté à laquelle on fait face, c'est d'arriver à enchaîner ces traitements sans propager les erreurs d'un traitement à un autre. Par exemple, si j'ai mal localisé la source au début, qui a une petite imprécision sur la localisation, je ne veux pas que cette imprécision génère une grosse imprécision de séparation et une encore plus grosse imprécision sur l'identification de la personne et de ce qu'elle dit. Pour cela, on utilise à nouveau des outils de statistique pour caractériser l'incertitude ou la confiance qu'on a sur les données en sortie de chaque traitement. et pour propager cette incertitude ou cette confiance à travers la chaîne des traitements.
Speaker #0
Quelles sont les perspectives de recherche envisagées ?
Speaker #1
Dans les perspectives, il y a l'extension du champ d'application des techniques actuelles à des cas de plus en plus difficiles. Aujourd'hui, la reconnaissance de la parole, par exemple, c'est une application qui marche relativement bien quand on est dans des conditions pas trop bruitées. et qu'on parle à proximité du micro. C'est probablement quelque chose que vous avez déjà expérimenté vous-même. Si vous parlez à votre assistant sur votre téléphone et que vous tenez le téléphone à peu près en face de votre bouche, ça va généralement bien se passer.
Speaker #0
Mais il faut qu'il n'y ait pas de bruit autour ?
Speaker #1
Tout à fait. Et donc aujourd'hui, commercialement, ça devient intéressant d'étendre ça à des conditions où le micro est beaucoup plus loin de la bouche. Et à partir de là, l'énergie du signal de parole devient de moins en moins forte par rapport à celle du bruit environnant, puisqu'on est plus loin du micro. Donc ça, c'est une première perspective, et ce n'est pas qu'une perspective applicative, puisque ce défi applicatif nous oblige à définir de nouvelles approches théoriques pour résoudre le problème. Une autre perspective. c'est d'aller encore plus loin après avoir reconnu la parole ou le son, d'aller dans des tâches qu'on dit de plus haut niveau, c'est-à-dire de plus haut niveau cognitif, par exemple de faire de la recommandation de musique. Pour faire cela, il ne faut pas seulement décomposer le son, mais analyser ce qu'une personne peut aimer ou pas dans tous les détails de tous les instruments. d'un enregistrement qui va permettre de recommander un autre enregistrement que cette personne pourra aimer. C'est un exemple, une autre perspective d'analyse en sortie des traitements qu'on peut faire. Ce qu'on est en train d'étudier aujourd'hui, c'est pour les robots. Les robots, aujourd'hui, ils ont des façons de percevoir le monde qui sont beaucoup basées sur des capteurs de type laser ou ultrason, ou sur des caméras, et le son est encore peu développé. Et quand on y réfléchit, dans la vie de tous les jours, la communication parlée véhicule beaucoup d'informations par rapport à ce qu'on peut voir. Par exemple, vous regardez le journal télévisé sans le son, En général, ça va être moins intéressant que si vous le regardez sans l'image. Et c'est pareil quand on communique avec les personnes tous les jours. Donc les robots, par exemple dans un contexte domestique, les robots compagnons qui vont accompagner les personnes âgées ou les personnes qui ont des difficultés de motricité ou d'autres handicaps à domicile, pour eux, la perception sonore va être très importante. Et après qu'on donne la capacité aux robots d'analyser le son, mais il faut lui donner aussi la capacité de répondre en fonction de ce qu'il a analysé. Par exemple, de se déplacer dans la pièce pour se rapprocher de la personne qui lui parle, ou bien de déclencher une alarme si, par exemple, une personne est tombée et qu'il a besoin d'appeler les secours. Et donc, il y a à nouveau ce problème de robustesse et de propagation des erreurs qu'il faut éviter pour qu'à la fin, la bonne décision soit prise.
Speaker #0
Emmanuel Vincent, merci d'avoir accepté cet entretien.
Speaker #1
Merci.
Speaker #0
Chers auditeurs, à la prochaine et n'oubliez pas les sciences du numérique avec Interstice.

About Les Podcasts d'Interstices

Donner la parole aux chercheurs et chercheuses en sciences et technologies du numérique, pour démystifier les travaux de recherche et les parcours des scientifiques alors que le numérique devient omniprésent dans notre quotidien. Ce rendez-vous audio permet de décrypter les enjeux scientifiques du numérique et de les découvrir, lors d'un entretien à 2 ou 3 voix, en toute simplicité, pour mettre l'informatique et les mathématiques appliquées à la portée des curieuses et curieux de sciences.

Ce podcast est réalisé par Interstices, revue en ligne de culture scientifique, créée par des scientifiques pour vous inviter à explorer les sciences du numérique. Le média Interstices est publié par Inria, institut public de recherche en sciences et technologies du numérique, en collaboration avec des scientifiques issus d'Inria, du CNRS et des universités.

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Description

Épisode initialement publié sur le site Interstices le 24 octobre 2014.

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Technologie Science Algorithme
Speaker #1
Simulation
Speaker #0
Informatique Technologie Chers auditeurs, bienvenue dans ce 61ème épisode du podcast Interstice. Les données audio sont au cœur de notre vie, que ce soit pour la communication parlée, les vidéos personnelles, dans les médias, la radio, la télévision, les divertissements, cinéma, jeux vidéo, etc. Toutes ces données nécessitent parfois d'être manipulées, séparées, retravaillées. Pour en discuter, nous recevons Emmanuel Vincent, chercheur dans l'équipe INRIA Multispeech au centre INRIA Nancy Grand Est. Emmanuel Vincent, bonjour.
Speaker #1
Bonjour.
Speaker #0
La séparation de sources sonores fait à juste titre partie de votre quotidien, puisque c'est votre spécialité. C'est un domaine de recherche quelque peu intriguant pour les non-initiés. Pouvez-vous nous expliquer brièvement de quoi il s'agit ?
Speaker #1
Alors aujourd'hui, vous nous écoutez peut-être dans votre bureau ou dans votre voiture, et dans ces contextes, le signal sonore, le son qui est présent dans le bureau ou la voiture, est un mélange... de plusieurs sources sonores. Il y a votre voix, le bruit du collègue qui va taper sur son clavier ou qui éternue, et si vous êtes en voiture, le bruit des roues des autres voitures qui passent à côté. C'est juste un exemple. pour vous montrer que dans beaucoup de situations de tous les jours, on a plusieurs sources sonores qui sont actives en même temps. Le but de la séparation de sources, c'est de séparer, de récupérer uniquement une de ces sources qui vous intéresse et ensuite de pouvoir appliquer des traitements à cette source.
Speaker #0
Donc c'est identifier, extraire un son en particulier pour une analyse.
Speaker #1
Tout à fait. Alors un exemple que beaucoup d'entre vous ont certainement entendu, c'est dans le film La Maume sur la vie d'Edith Piaf, où une entreprise française qui s'appelle Audionamix et qui est le spécialiste... de la séparation de sources, à effectuer un traitement des anciens enregistrements d'élite piaf pour séparer la voix et la musique et ensuite remélanger, remasteriser ces vieux enregistrements sous forme 5.1 et c'est ce qui a fait toute la qualité de la musique qu'on peut entendre dans ce film.
Speaker #0
Quels sont les enjeux de vos travaux ?
Speaker #1
Plus généralement, au-delà de la séparation de sources, l'objectif c'est, à partir d'un enregistrement, de pouvoir extraire et décrire la scène sonore, c'est-à-dire où sont les sources, ce que sont les sources. Est-ce que c'est un instrument de musique, une voix ? Quel instrument ? Quelle personne parle ? Et puis, pour aller encore plus loin, quelle est la mélodie jouée par l'instrument ? Quel est le texte prononcé par la personne ? Quelles sont les émotions qui sont présentes ? dans sa voix. Donc c'est une analyse par l'informatique de tout ce que notre système auditif perçoit lorsqu'on entend des scènes sonores dans la vie de tous les jours.
Speaker #0
Vous parlez de l'audition naturelle, mais d'un point de vue scientifique, quels sont les outils ou méthodes que vous utilisez ?
Speaker #1
Pour répondre à toutes ces questions, on va construire ce qu'on appelle des modèles du son. Un modèle, c'est une représentation mathématique d'un objet, ici le son. Et ces modèles. Ils vont s'inspirer de différentes choses qu'on sait sur le son. Ils vont s'inspirer en partie de l'audition, mais pas seulement. On va aussi utiliser la physique des sons. On va utiliser des techniques d'apprentissage qui vont nous permettre de faire coller ces modèles autant que possible aux données sonores qu'on aura enregistrées.
Speaker #0
Et donc, quel est le rôle de l'informatique dans ce domaine ?
Speaker #1
L'informatique a permis beaucoup de choses. Avant, quand on avait uniquement des enregistrements analogiques, on pouvait faire très peu de traitements sur ces enregistrements. Ça se limitait principalement à la reproduction de l'enregistrement. Donc l'informatique a rendu possible ce champ scientifique. Et les dernières avancées en informatique qui nous ont permis de progresser encore, je citerai par exemple d'un point de vue hardware, aujourd'hui, la grosse puissance de calcul qui est rendue possible par les... les GPU, donc les cartes de traitement graphique, nous permet de mettre en œuvre des modèles beaucoup plus complexes que ceux qu'on utilisait avant et qui ont donc une puissance de représentation du monde réel bien supérieure à ce qu'on pouvait faire il n'y a ne serait-ce que 5 ans. D'un point de vue plus théorique, d'autres branches de l'informatique comme le machine learning, c'est-à-dire l'apprentissage statistique, nous ont aussi permis de mettre en œuvre des modèles. et en combinant cela à nos connaissances propres sur la perception sonore et la physique des sons, on a engrangé des progrès importants dans les 5 à 10 dernières années.
Speaker #0
Et quels sont les défis scientifiques auxquels vous devez faire face ?
Speaker #1
Les défis qui sont posés par ce problème général d'analyser les scènes sonores, ce sont en premier lieu le fait que plusieurs sources sont présentes à la fois et ces sources sonores subissent des dégradations importantes. Par exemple, quand on enregistre à distance, le son va se réfléchir sur les murs, sur les parois de la pièce et va donner lieu à ce qu'on appelle la réverbération qui va... noyer un petit peu le son par rapport à un enregistrement proche de la bouche de la personne qui parle par exemple. Et d'autre part, quand tous ces sons s'ajoutent, il y a énormément de diversité. La voix d'une personne, un instrument de musique, un klaxon, ce sont des sons très différents qui vont nécessiter des modèles différents et beaucoup de données pour pouvoir apprendre avec ces techniques d'apprentissage statistique toute la diversité. des sons possibles. Donc voilà les défis qui sont posés par les données elles-mêmes. Maintenant, du point de vue du traitement de ces données, il y a un défi en termes de puissance de calcul qui va être nécessaire pour pouvoir mettre en œuvre ces modèles. Et donc une part importante de notre recherche consiste aussi à chercher des façons d'apprendre et d'utiliser les paramètres de ces modèles avec... aussi peu de calculs que possible.
Speaker #0
Donc on a parlé de séparation de sources, de localisation et d'identification de voix. Est-ce que ces traitements se font indépendamment ou partagent certains points communs ?
Speaker #1
Chacun de ces traitements a des spécificités par rapport aux autres, mais si on veut résoudre le problème global de comprendre la scène sonore telle que le ferait notre système auditif, on a besoin de mettre en œuvre tous ces traitements en même temps. Par exemple, si vous enregistrez une voix à distance, à 1 mètre ou 2 mètres, pour faire la séparation de source, je vais avoir besoin d'abord de localiser où est la voix, et ensuite, pour reconnaître la personne qui parle et ce qu'elle dit, je vais avoir besoin d'avoir déjà fait la séparation. Donc ces traitements vont s'enchaîner, et une autre difficulté à laquelle on fait face, c'est d'arriver à enchaîner ces traitements sans propager les erreurs d'un traitement à un autre. Par exemple, si j'ai mal localisé la source au début, qui a une petite imprécision sur la localisation, je ne veux pas que cette imprécision génère une grosse imprécision de séparation et une encore plus grosse imprécision sur l'identification de la personne et de ce qu'elle dit. Pour cela, on utilise à nouveau des outils de statistique pour caractériser l'incertitude ou la confiance qu'on a sur les données en sortie de chaque traitement. et pour propager cette incertitude ou cette confiance à travers la chaîne des traitements.
Speaker #0
Quelles sont les perspectives de recherche envisagées ?
Speaker #1
Dans les perspectives, il y a l'extension du champ d'application des techniques actuelles à des cas de plus en plus difficiles. Aujourd'hui, la reconnaissance de la parole, par exemple, c'est une application qui marche relativement bien quand on est dans des conditions pas trop bruitées. et qu'on parle à proximité du micro. C'est probablement quelque chose que vous avez déjà expérimenté vous-même. Si vous parlez à votre assistant sur votre téléphone et que vous tenez le téléphone à peu près en face de votre bouche, ça va généralement bien se passer.
Speaker #0
Mais il faut qu'il n'y ait pas de bruit autour ?
Speaker #1
Tout à fait. Et donc aujourd'hui, commercialement, ça devient intéressant d'étendre ça à des conditions où le micro est beaucoup plus loin de la bouche. Et à partir de là, l'énergie du signal de parole devient de moins en moins forte par rapport à celle du bruit environnant, puisqu'on est plus loin du micro. Donc ça, c'est une première perspective, et ce n'est pas qu'une perspective applicative, puisque ce défi applicatif nous oblige à définir de nouvelles approches théoriques pour résoudre le problème. Une autre perspective. c'est d'aller encore plus loin après avoir reconnu la parole ou le son, d'aller dans des tâches qu'on dit de plus haut niveau, c'est-à-dire de plus haut niveau cognitif, par exemple de faire de la recommandation de musique. Pour faire cela, il ne faut pas seulement décomposer le son, mais analyser ce qu'une personne peut aimer ou pas dans tous les détails de tous les instruments. d'un enregistrement qui va permettre de recommander un autre enregistrement que cette personne pourra aimer. C'est un exemple, une autre perspective d'analyse en sortie des traitements qu'on peut faire. Ce qu'on est en train d'étudier aujourd'hui, c'est pour les robots. Les robots, aujourd'hui, ils ont des façons de percevoir le monde qui sont beaucoup basées sur des capteurs de type laser ou ultrason, ou sur des caméras, et le son est encore peu développé. Et quand on y réfléchit, dans la vie de tous les jours, la communication parlée véhicule beaucoup d'informations par rapport à ce qu'on peut voir. Par exemple, vous regardez le journal télévisé sans le son, En général, ça va être moins intéressant que si vous le regardez sans l'image. Et c'est pareil quand on communique avec les personnes tous les jours. Donc les robots, par exemple dans un contexte domestique, les robots compagnons qui vont accompagner les personnes âgées ou les personnes qui ont des difficultés de motricité ou d'autres handicaps à domicile, pour eux, la perception sonore va être très importante. Et après qu'on donne la capacité aux robots d'analyser le son, mais il faut lui donner aussi la capacité de répondre en fonction de ce qu'il a analysé. Par exemple, de se déplacer dans la pièce pour se rapprocher de la personne qui lui parle, ou bien de déclencher une alarme si, par exemple, une personne est tombée et qu'il a besoin d'appeler les secours. Et donc, il y a à nouveau ce problème de robustesse et de propagation des erreurs qu'il faut éviter pour qu'à la fin, la bonne décision soit prise.
Speaker #0
Emmanuel Vincent, merci d'avoir accepté cet entretien.
Speaker #1
Merci.
Speaker #0
Chers auditeurs, à la prochaine et n'oubliez pas les sciences du numérique avec Interstice.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Embed

You may also like

Description

Épisode initialement publié sur le site Interstices le 24 octobre 2014.

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Technologie Science Algorithme
Speaker #1
Simulation
Speaker #0
Informatique Technologie Chers auditeurs, bienvenue dans ce 61ème épisode du podcast Interstice. Les données audio sont au cœur de notre vie, que ce soit pour la communication parlée, les vidéos personnelles, dans les médias, la radio, la télévision, les divertissements, cinéma, jeux vidéo, etc. Toutes ces données nécessitent parfois d'être manipulées, séparées, retravaillées. Pour en discuter, nous recevons Emmanuel Vincent, chercheur dans l'équipe INRIA Multispeech au centre INRIA Nancy Grand Est. Emmanuel Vincent, bonjour.
Speaker #1
Bonjour.
Speaker #0
La séparation de sources sonores fait à juste titre partie de votre quotidien, puisque c'est votre spécialité. C'est un domaine de recherche quelque peu intriguant pour les non-initiés. Pouvez-vous nous expliquer brièvement de quoi il s'agit ?
Speaker #1
Alors aujourd'hui, vous nous écoutez peut-être dans votre bureau ou dans votre voiture, et dans ces contextes, le signal sonore, le son qui est présent dans le bureau ou la voiture, est un mélange... de plusieurs sources sonores. Il y a votre voix, le bruit du collègue qui va taper sur son clavier ou qui éternue, et si vous êtes en voiture, le bruit des roues des autres voitures qui passent à côté. C'est juste un exemple. pour vous montrer que dans beaucoup de situations de tous les jours, on a plusieurs sources sonores qui sont actives en même temps. Le but de la séparation de sources, c'est de séparer, de récupérer uniquement une de ces sources qui vous intéresse et ensuite de pouvoir appliquer des traitements à cette source.
Speaker #0
Donc c'est identifier, extraire un son en particulier pour une analyse.
Speaker #1
Tout à fait. Alors un exemple que beaucoup d'entre vous ont certainement entendu, c'est dans le film La Maume sur la vie d'Edith Piaf, où une entreprise française qui s'appelle Audionamix et qui est le spécialiste... de la séparation de sources, à effectuer un traitement des anciens enregistrements d'élite piaf pour séparer la voix et la musique et ensuite remélanger, remasteriser ces vieux enregistrements sous forme 5.1 et c'est ce qui a fait toute la qualité de la musique qu'on peut entendre dans ce film.
Speaker #0
Quels sont les enjeux de vos travaux ?
Speaker #1
Plus généralement, au-delà de la séparation de sources, l'objectif c'est, à partir d'un enregistrement, de pouvoir extraire et décrire la scène sonore, c'est-à-dire où sont les sources, ce que sont les sources. Est-ce que c'est un instrument de musique, une voix ? Quel instrument ? Quelle personne parle ? Et puis, pour aller encore plus loin, quelle est la mélodie jouée par l'instrument ? Quel est le texte prononcé par la personne ? Quelles sont les émotions qui sont présentes ? dans sa voix. Donc c'est une analyse par l'informatique de tout ce que notre système auditif perçoit lorsqu'on entend des scènes sonores dans la vie de tous les jours.
Speaker #0
Vous parlez de l'audition naturelle, mais d'un point de vue scientifique, quels sont les outils ou méthodes que vous utilisez ?
Speaker #1
Pour répondre à toutes ces questions, on va construire ce qu'on appelle des modèles du son. Un modèle, c'est une représentation mathématique d'un objet, ici le son. Et ces modèles. Ils vont s'inspirer de différentes choses qu'on sait sur le son. Ils vont s'inspirer en partie de l'audition, mais pas seulement. On va aussi utiliser la physique des sons. On va utiliser des techniques d'apprentissage qui vont nous permettre de faire coller ces modèles autant que possible aux données sonores qu'on aura enregistrées.
Speaker #0
Et donc, quel est le rôle de l'informatique dans ce domaine ?
Speaker #1
L'informatique a permis beaucoup de choses. Avant, quand on avait uniquement des enregistrements analogiques, on pouvait faire très peu de traitements sur ces enregistrements. Ça se limitait principalement à la reproduction de l'enregistrement. Donc l'informatique a rendu possible ce champ scientifique. Et les dernières avancées en informatique qui nous ont permis de progresser encore, je citerai par exemple d'un point de vue hardware, aujourd'hui, la grosse puissance de calcul qui est rendue possible par les... les GPU, donc les cartes de traitement graphique, nous permet de mettre en œuvre des modèles beaucoup plus complexes que ceux qu'on utilisait avant et qui ont donc une puissance de représentation du monde réel bien supérieure à ce qu'on pouvait faire il n'y a ne serait-ce que 5 ans. D'un point de vue plus théorique, d'autres branches de l'informatique comme le machine learning, c'est-à-dire l'apprentissage statistique, nous ont aussi permis de mettre en œuvre des modèles. et en combinant cela à nos connaissances propres sur la perception sonore et la physique des sons, on a engrangé des progrès importants dans les 5 à 10 dernières années.
Speaker #0
Et quels sont les défis scientifiques auxquels vous devez faire face ?
Speaker #1
Les défis qui sont posés par ce problème général d'analyser les scènes sonores, ce sont en premier lieu le fait que plusieurs sources sont présentes à la fois et ces sources sonores subissent des dégradations importantes. Par exemple, quand on enregistre à distance, le son va se réfléchir sur les murs, sur les parois de la pièce et va donner lieu à ce qu'on appelle la réverbération qui va... noyer un petit peu le son par rapport à un enregistrement proche de la bouche de la personne qui parle par exemple. Et d'autre part, quand tous ces sons s'ajoutent, il y a énormément de diversité. La voix d'une personne, un instrument de musique, un klaxon, ce sont des sons très différents qui vont nécessiter des modèles différents et beaucoup de données pour pouvoir apprendre avec ces techniques d'apprentissage statistique toute la diversité. des sons possibles. Donc voilà les défis qui sont posés par les données elles-mêmes. Maintenant, du point de vue du traitement de ces données, il y a un défi en termes de puissance de calcul qui va être nécessaire pour pouvoir mettre en œuvre ces modèles. Et donc une part importante de notre recherche consiste aussi à chercher des façons d'apprendre et d'utiliser les paramètres de ces modèles avec... aussi peu de calculs que possible.
Speaker #0
Donc on a parlé de séparation de sources, de localisation et d'identification de voix. Est-ce que ces traitements se font indépendamment ou partagent certains points communs ?
Speaker #1
Chacun de ces traitements a des spécificités par rapport aux autres, mais si on veut résoudre le problème global de comprendre la scène sonore telle que le ferait notre système auditif, on a besoin de mettre en œuvre tous ces traitements en même temps. Par exemple, si vous enregistrez une voix à distance, à 1 mètre ou 2 mètres, pour faire la séparation de source, je vais avoir besoin d'abord de localiser où est la voix, et ensuite, pour reconnaître la personne qui parle et ce qu'elle dit, je vais avoir besoin d'avoir déjà fait la séparation. Donc ces traitements vont s'enchaîner, et une autre difficulté à laquelle on fait face, c'est d'arriver à enchaîner ces traitements sans propager les erreurs d'un traitement à un autre. Par exemple, si j'ai mal localisé la source au début, qui a une petite imprécision sur la localisation, je ne veux pas que cette imprécision génère une grosse imprécision de séparation et une encore plus grosse imprécision sur l'identification de la personne et de ce qu'elle dit. Pour cela, on utilise à nouveau des outils de statistique pour caractériser l'incertitude ou la confiance qu'on a sur les données en sortie de chaque traitement. et pour propager cette incertitude ou cette confiance à travers la chaîne des traitements.
Speaker #0
Quelles sont les perspectives de recherche envisagées ?
Speaker #1
Dans les perspectives, il y a l'extension du champ d'application des techniques actuelles à des cas de plus en plus difficiles. Aujourd'hui, la reconnaissance de la parole, par exemple, c'est une application qui marche relativement bien quand on est dans des conditions pas trop bruitées. et qu'on parle à proximité du micro. C'est probablement quelque chose que vous avez déjà expérimenté vous-même. Si vous parlez à votre assistant sur votre téléphone et que vous tenez le téléphone à peu près en face de votre bouche, ça va généralement bien se passer.
Speaker #0
Mais il faut qu'il n'y ait pas de bruit autour ?
Speaker #1
Tout à fait. Et donc aujourd'hui, commercialement, ça devient intéressant d'étendre ça à des conditions où le micro est beaucoup plus loin de la bouche. Et à partir de là, l'énergie du signal de parole devient de moins en moins forte par rapport à celle du bruit environnant, puisqu'on est plus loin du micro. Donc ça, c'est une première perspective, et ce n'est pas qu'une perspective applicative, puisque ce défi applicatif nous oblige à définir de nouvelles approches théoriques pour résoudre le problème. Une autre perspective. c'est d'aller encore plus loin après avoir reconnu la parole ou le son, d'aller dans des tâches qu'on dit de plus haut niveau, c'est-à-dire de plus haut niveau cognitif, par exemple de faire de la recommandation de musique. Pour faire cela, il ne faut pas seulement décomposer le son, mais analyser ce qu'une personne peut aimer ou pas dans tous les détails de tous les instruments. d'un enregistrement qui va permettre de recommander un autre enregistrement que cette personne pourra aimer. C'est un exemple, une autre perspective d'analyse en sortie des traitements qu'on peut faire. Ce qu'on est en train d'étudier aujourd'hui, c'est pour les robots. Les robots, aujourd'hui, ils ont des façons de percevoir le monde qui sont beaucoup basées sur des capteurs de type laser ou ultrason, ou sur des caméras, et le son est encore peu développé. Et quand on y réfléchit, dans la vie de tous les jours, la communication parlée véhicule beaucoup d'informations par rapport à ce qu'on peut voir. Par exemple, vous regardez le journal télévisé sans le son, En général, ça va être moins intéressant que si vous le regardez sans l'image. Et c'est pareil quand on communique avec les personnes tous les jours. Donc les robots, par exemple dans un contexte domestique, les robots compagnons qui vont accompagner les personnes âgées ou les personnes qui ont des difficultés de motricité ou d'autres handicaps à domicile, pour eux, la perception sonore va être très importante. Et après qu'on donne la capacité aux robots d'analyser le son, mais il faut lui donner aussi la capacité de répondre en fonction de ce qu'il a analysé. Par exemple, de se déplacer dans la pièce pour se rapprocher de la personne qui lui parle, ou bien de déclencher une alarme si, par exemple, une personne est tombée et qu'il a besoin d'appeler les secours. Et donc, il y a à nouveau ce problème de robustesse et de propagation des erreurs qu'il faut éviter pour qu'à la fin, la bonne décision soit prise.
Speaker #0
Emmanuel Vincent, merci d'avoir accepté cet entretien.
Speaker #1
Merci.
Speaker #0
Chers auditeurs, à la prochaine et n'oubliez pas les sciences du numérique avec Interstice.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Description

Épisode initialement publié sur le site Interstices le 24 octobre 2014.

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Transcription

Speaker #0
Technologie Science Algorithme
Speaker #1
Simulation
Speaker #0
Informatique Technologie Chers auditeurs, bienvenue dans ce 61ème épisode du podcast Interstice. Les données audio sont au cœur de notre vie, que ce soit pour la communication parlée, les vidéos personnelles, dans les médias, la radio, la télévision, les divertissements, cinéma, jeux vidéo, etc. Toutes ces données nécessitent parfois d'être manipulées, séparées, retravaillées. Pour en discuter, nous recevons Emmanuel Vincent, chercheur dans l'équipe INRIA Multispeech au centre INRIA Nancy Grand Est. Emmanuel Vincent, bonjour.
Speaker #1
Bonjour.
Speaker #0
La séparation de sources sonores fait à juste titre partie de votre quotidien, puisque c'est votre spécialité. C'est un domaine de recherche quelque peu intriguant pour les non-initiés. Pouvez-vous nous expliquer brièvement de quoi il s'agit ?
Speaker #1
Alors aujourd'hui, vous nous écoutez peut-être dans votre bureau ou dans votre voiture, et dans ces contextes, le signal sonore, le son qui est présent dans le bureau ou la voiture, est un mélange... de plusieurs sources sonores. Il y a votre voix, le bruit du collègue qui va taper sur son clavier ou qui éternue, et si vous êtes en voiture, le bruit des roues des autres voitures qui passent à côté. C'est juste un exemple. pour vous montrer que dans beaucoup de situations de tous les jours, on a plusieurs sources sonores qui sont actives en même temps. Le but de la séparation de sources, c'est de séparer, de récupérer uniquement une de ces sources qui vous intéresse et ensuite de pouvoir appliquer des traitements à cette source.
Speaker #0
Donc c'est identifier, extraire un son en particulier pour une analyse.
Speaker #1
Tout à fait. Alors un exemple que beaucoup d'entre vous ont certainement entendu, c'est dans le film La Maume sur la vie d'Edith Piaf, où une entreprise française qui s'appelle Audionamix et qui est le spécialiste... de la séparation de sources, à effectuer un traitement des anciens enregistrements d'élite piaf pour séparer la voix et la musique et ensuite remélanger, remasteriser ces vieux enregistrements sous forme 5.1 et c'est ce qui a fait toute la qualité de la musique qu'on peut entendre dans ce film.
Speaker #0
Quels sont les enjeux de vos travaux ?
Speaker #1
Plus généralement, au-delà de la séparation de sources, l'objectif c'est, à partir d'un enregistrement, de pouvoir extraire et décrire la scène sonore, c'est-à-dire où sont les sources, ce que sont les sources. Est-ce que c'est un instrument de musique, une voix ? Quel instrument ? Quelle personne parle ? Et puis, pour aller encore plus loin, quelle est la mélodie jouée par l'instrument ? Quel est le texte prononcé par la personne ? Quelles sont les émotions qui sont présentes ? dans sa voix. Donc c'est une analyse par l'informatique de tout ce que notre système auditif perçoit lorsqu'on entend des scènes sonores dans la vie de tous les jours.
Speaker #0
Vous parlez de l'audition naturelle, mais d'un point de vue scientifique, quels sont les outils ou méthodes que vous utilisez ?
Speaker #1
Pour répondre à toutes ces questions, on va construire ce qu'on appelle des modèles du son. Un modèle, c'est une représentation mathématique d'un objet, ici le son. Et ces modèles. Ils vont s'inspirer de différentes choses qu'on sait sur le son. Ils vont s'inspirer en partie de l'audition, mais pas seulement. On va aussi utiliser la physique des sons. On va utiliser des techniques d'apprentissage qui vont nous permettre de faire coller ces modèles autant que possible aux données sonores qu'on aura enregistrées.
Speaker #0
Et donc, quel est le rôle de l'informatique dans ce domaine ?
Speaker #1
L'informatique a permis beaucoup de choses. Avant, quand on avait uniquement des enregistrements analogiques, on pouvait faire très peu de traitements sur ces enregistrements. Ça se limitait principalement à la reproduction de l'enregistrement. Donc l'informatique a rendu possible ce champ scientifique. Et les dernières avancées en informatique qui nous ont permis de progresser encore, je citerai par exemple d'un point de vue hardware, aujourd'hui, la grosse puissance de calcul qui est rendue possible par les... les GPU, donc les cartes de traitement graphique, nous permet de mettre en œuvre des modèles beaucoup plus complexes que ceux qu'on utilisait avant et qui ont donc une puissance de représentation du monde réel bien supérieure à ce qu'on pouvait faire il n'y a ne serait-ce que 5 ans. D'un point de vue plus théorique, d'autres branches de l'informatique comme le machine learning, c'est-à-dire l'apprentissage statistique, nous ont aussi permis de mettre en œuvre des modèles. et en combinant cela à nos connaissances propres sur la perception sonore et la physique des sons, on a engrangé des progrès importants dans les 5 à 10 dernières années.
Speaker #0
Et quels sont les défis scientifiques auxquels vous devez faire face ?
Speaker #1
Les défis qui sont posés par ce problème général d'analyser les scènes sonores, ce sont en premier lieu le fait que plusieurs sources sont présentes à la fois et ces sources sonores subissent des dégradations importantes. Par exemple, quand on enregistre à distance, le son va se réfléchir sur les murs, sur les parois de la pièce et va donner lieu à ce qu'on appelle la réverbération qui va... noyer un petit peu le son par rapport à un enregistrement proche de la bouche de la personne qui parle par exemple. Et d'autre part, quand tous ces sons s'ajoutent, il y a énormément de diversité. La voix d'une personne, un instrument de musique, un klaxon, ce sont des sons très différents qui vont nécessiter des modèles différents et beaucoup de données pour pouvoir apprendre avec ces techniques d'apprentissage statistique toute la diversité. des sons possibles. Donc voilà les défis qui sont posés par les données elles-mêmes. Maintenant, du point de vue du traitement de ces données, il y a un défi en termes de puissance de calcul qui va être nécessaire pour pouvoir mettre en œuvre ces modèles. Et donc une part importante de notre recherche consiste aussi à chercher des façons d'apprendre et d'utiliser les paramètres de ces modèles avec... aussi peu de calculs que possible.
Speaker #0
Donc on a parlé de séparation de sources, de localisation et d'identification de voix. Est-ce que ces traitements se font indépendamment ou partagent certains points communs ?
Speaker #1
Chacun de ces traitements a des spécificités par rapport aux autres, mais si on veut résoudre le problème global de comprendre la scène sonore telle que le ferait notre système auditif, on a besoin de mettre en œuvre tous ces traitements en même temps. Par exemple, si vous enregistrez une voix à distance, à 1 mètre ou 2 mètres, pour faire la séparation de source, je vais avoir besoin d'abord de localiser où est la voix, et ensuite, pour reconnaître la personne qui parle et ce qu'elle dit, je vais avoir besoin d'avoir déjà fait la séparation. Donc ces traitements vont s'enchaîner, et une autre difficulté à laquelle on fait face, c'est d'arriver à enchaîner ces traitements sans propager les erreurs d'un traitement à un autre. Par exemple, si j'ai mal localisé la source au début, qui a une petite imprécision sur la localisation, je ne veux pas que cette imprécision génère une grosse imprécision de séparation et une encore plus grosse imprécision sur l'identification de la personne et de ce qu'elle dit. Pour cela, on utilise à nouveau des outils de statistique pour caractériser l'incertitude ou la confiance qu'on a sur les données en sortie de chaque traitement. et pour propager cette incertitude ou cette confiance à travers la chaîne des traitements.
Speaker #0
Quelles sont les perspectives de recherche envisagées ?
Speaker #1
Dans les perspectives, il y a l'extension du champ d'application des techniques actuelles à des cas de plus en plus difficiles. Aujourd'hui, la reconnaissance de la parole, par exemple, c'est une application qui marche relativement bien quand on est dans des conditions pas trop bruitées. et qu'on parle à proximité du micro. C'est probablement quelque chose que vous avez déjà expérimenté vous-même. Si vous parlez à votre assistant sur votre téléphone et que vous tenez le téléphone à peu près en face de votre bouche, ça va généralement bien se passer.
Speaker #0
Mais il faut qu'il n'y ait pas de bruit autour ?
Speaker #1
Tout à fait. Et donc aujourd'hui, commercialement, ça devient intéressant d'étendre ça à des conditions où le micro est beaucoup plus loin de la bouche. Et à partir de là, l'énergie du signal de parole devient de moins en moins forte par rapport à celle du bruit environnant, puisqu'on est plus loin du micro. Donc ça, c'est une première perspective, et ce n'est pas qu'une perspective applicative, puisque ce défi applicatif nous oblige à définir de nouvelles approches théoriques pour résoudre le problème. Une autre perspective. c'est d'aller encore plus loin après avoir reconnu la parole ou le son, d'aller dans des tâches qu'on dit de plus haut niveau, c'est-à-dire de plus haut niveau cognitif, par exemple de faire de la recommandation de musique. Pour faire cela, il ne faut pas seulement décomposer le son, mais analyser ce qu'une personne peut aimer ou pas dans tous les détails de tous les instruments. d'un enregistrement qui va permettre de recommander un autre enregistrement que cette personne pourra aimer. C'est un exemple, une autre perspective d'analyse en sortie des traitements qu'on peut faire. Ce qu'on est en train d'étudier aujourd'hui, c'est pour les robots. Les robots, aujourd'hui, ils ont des façons de percevoir le monde qui sont beaucoup basées sur des capteurs de type laser ou ultrason, ou sur des caméras, et le son est encore peu développé. Et quand on y réfléchit, dans la vie de tous les jours, la communication parlée véhicule beaucoup d'informations par rapport à ce qu'on peut voir. Par exemple, vous regardez le journal télévisé sans le son, En général, ça va être moins intéressant que si vous le regardez sans l'image. Et c'est pareil quand on communique avec les personnes tous les jours. Donc les robots, par exemple dans un contexte domestique, les robots compagnons qui vont accompagner les personnes âgées ou les personnes qui ont des difficultés de motricité ou d'autres handicaps à domicile, pour eux, la perception sonore va être très importante. Et après qu'on donne la capacité aux robots d'analyser le son, mais il faut lui donner aussi la capacité de répondre en fonction de ce qu'il a analysé. Par exemple, de se déplacer dans la pièce pour se rapprocher de la personne qui lui parle, ou bien de déclencher une alarme si, par exemple, une personne est tombée et qu'il a besoin d'appeler les secours. Et donc, il y a à nouveau ce problème de robustesse et de propagation des erreurs qu'il faut éviter pour qu'à la fin, la bonne décision soit prise.
Speaker #0
Emmanuel Vincent, merci d'avoir accepté cet entretien.
Speaker #1
Merci.
Speaker #0
Chers auditeurs, à la prochaine et n'oubliez pas les sciences du numérique avec Interstice.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

About Les Podcasts d'Interstices

---

Interstices · Une référence en ligne pour comprendre la recherche en informatique et mathématiques appliquées.

---

Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

Embed