L’IA permet aux handicapés de communiquer malgré leur trouble d’audition et de locution

DiploDoc
5 min readMay 14, 2021

--

Des projets initiés par Google pour lutter contre les troubles de la locution

Les troubles de la locution peuvent être liés à de nombreuses pathologies: surdité, Trisomie 21, SLA (Maladie de Charcot), AVC. Google a lancé plusieurs projets pour permettre, à ceux qui sont atteints de difficultés de locution, d’accéder à des applications qui leur simplifient le quotidien ou augmentent leur capacité de communication avec les autres. Les projets Parrotron et Live Transcribe reposent sur des algorithmes de reconnaissance vocale et de synthèse vocale.

Le Parrotron

La transformation du langage des malentendants

Pour lutter contre les troubles de la parole qui affectent 7,5 millions d’américains, les ingénieurs de Google ont fait évoluer les modèles de reconnaissance vocale et de synthèse vocale pilotés par l’IA. Ils ont développé le Parrotron qui permet aux personnes ayant un discours atypique de se faire comprendre.

La section Section 3.2 “Normalization of hearing-impaired speech” de l’article “Audio samples from “Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications… montre la façon dont le Parrotron transforme le langage d’un malentendant (Input) en un discours sans trouble de la locution (Output).

L’architecture du Parrotron : le pouvoir du LSTM

Le Parrotron repose sur des réseaux de neurones convolutifs (CNN) et des LSTM (Long Short Term Memory networks).

Architecture du Parrotron

Les LSTM ont été créés comme la solution à la mémoire à court terme des RNN. Ils possèdent des mécanismes internes appelés “gates” qui peuvent réguler le flux d’informations. Ces gates peuvent apprendre quelles données d’une séquence sont importantes à conserver ou à oublier pour effectuer les prédictions.

L’entraînement et la mise en production du Parrotron

Dimitri Kanevski, ingénieur chez Google, a développé 20000 enregistrements pour entraîner son modèle Parrotron. Il a ensuite déployé son modèle sur deux hardwares: Google Home et son téléphone mobile équipé de l’application Google Assistant (équivalent de Siri d’Apple). Les commandes vocales de Dimitri Kanevski qui ne sont pas prises en compte par un modèle de reconnaissance de texte classique le sont désormais par le Parrotron.

Démo du Parrotron avec Google Home et Google Assistant
Dimitri Kanevski présente ses recherches

Google Live Transcribe

La transformation de l’audio en texte

Google Live Transcribe est une application disponible, depuis février 2019, sur les 1,8 milliard de téléphones Androïd en circulation dans le monde.

Elle fonctionne avec 70 langues ou dialectes. L’application repose sur la Google Cloud Speech API constituée d’algorithmes d’apprentissage automatiques capables de transformer l’audio en texte écrit en temps réel (Automatic Speech Recognition-ASR).

Le développement des ASR (Automatic Speech Recognition)

Pour entraîner les ASR, les chercheurs enregistrent des milliers de phrases correspondant à des centaine d’heures d’enregistrement. Il existe également des “ASR Corpus” Open Source qui permettent d’entraîner les modèles comme LibriSpeech : un corpus d’environ 1000 heures de discours en anglais lu à 16 kHz.

Une fois les phrases enregistrées, les ondes sonores sont transformées en spectogramme via une opération mathématique la transformée de Fourier qui décompose l’onde sonore complexe en ondes sonores simples qui la composent.

Transformation d’une phrase enregistrée en spectogramme

Puis les modèles composés de réseaux de neurones convolutifs (CNN) ou/et de réseaux de neurones récurrents (LSTM, GRU) sont alimentés par des morceaux de spectogramme (Input) pour déterminer en sortie (Output): la lettre qui correspond au son émis.

Le déploiement de Google Live Transcribe en production

En 2020, des chercheurs de Google ont développé un prototype de lunette qui permet d’inscrire sur les verres la transcription de l’audio en texte. Ils ont également comparé l’utilisation de Live Transcribe sur téléphone mobile et sur ces montures. Résultat : les lunettes permettent à la personne handicapée de se déplacer sans risque, de mieux percevoir son environnement et de mieux suivre une conversation à plusieurs.

Du Speech to text au Lip to speech

Après le speech to text: les sourds, les malentendants, les personnes souffrant d’aphasie bénéficieront peut-être bientôt du “Lip to speech” (des lèvres à la parole). La génération de son ou de texte ne passera plus forcément par le son mais par l’image.

En mai 2020, des chercheurs ont publié un papier de recherche sur le modèle Lip2Wav : capable de synthétiser du son à partir d’une vidéo “muette” de personnes en train de parler.

Génération d’un son à partir d’une vidéo

Comme le Parrotron ou Google Transcribe, les modèles reposent sur des réseaux de neurones convolutifs (CNN) et des LSTM (Long Short Term Memory networks).

Architecture du Lip2Wav complexe composée d’un encodeur faits de Conv 3D et d’un décodeur faits de LSTM

Allez plus loin ….d’autres projets Google à destination des handicapés

Projet Euphonia pour les personnes atteintes de SLA

Project Understood à destination des trisomiques

--

--

DiploDoc
DiploDoc

Written by DiploDoc

Diplodocus interested in the applications of artificial intelligence to healthcare.

No responses yet