Des chercheurs en intelligence artificielle ont mis au point des avatars supposés traduire du texte en langue des signes. Si certains testeurs et connaisseurs y voient des résultats tantôt « semi-compréhensibles », tantôt « inintelligibles », d’autres les jugent prometteurs.
On le sait, la fracture numérique ne se limite pas à l’accès aux technologies. Elle englobe aussi l’accessibilité aux contenus en ligne pour les personnes en situation de handicap. Pour les malvoyants, les sites web dépourvus de compatibilité avec les lecteurs d’écran présentent un obstacle majeur, de même que les personnes sourdes ou malentendantes rencontrent des difficultés à naviguer sur des plateformes qui ne proposent pas de sous-titres ou de traductions en langue des signes.
Seulement environ 10 à 20 % des sites web sont pleinement accessibles pour les personnes malvoyantes. Cela inclut des éléments comme des descriptions d’images appropriées, une navigation au clavier, et une mise en page adaptable pour les lecteurs d’écran. L’accessibilité pour les personnes sourdes est souvent plus négligée, avec une proportion encore plus faible de sites offrant des sous-titres pour le contenu vidéo, des transcriptions, ou des interfaces visuelles adaptées. On estime que moins de 10 % des vidéos en ligne sont sous-titrées, ce qui en limite grandement l’accessibilité pour les personnes sourdes. Quant aux ressources en éducation, selon la Fédération mondiale des sourds, « Seuls 2 % des enfants sourds dans le monde bénéficient d’un enseignement en langue des signes ».
SignLLM
Dans ce contexte, des solutions technologiques émergent de projets de recherche visant à combler ces lacunes, comme le modèle de langage « SignLLM », qui consiste en la création d’avatars qui traduisent du texte en langue des signes, grâce à l’intelligence artificielle.
Bien qu’il ne soit pas encore possible pour le grand public d’y avoir recours, les chercheurs derrière ce modèle ont dévoilé une série de vidéos démonstratives, ayant pour objectif d’illustrer son potentiel. Téléchargées et repartagées à de nombreuses reprises sur les réseaux sociaux, elles reçoivent des réactions mitigées.
L’un des chercheurs derrière SignLLM, Sen Fang de l’Université Rutgers au New Jersey, précise que son équipe a constitué une base de données de vidéos de personnes utilisant l’un des huit langages des signes reconnus. De là, ils ont développé un modèle « squelettique » du haut du corps humain pour entraîner leur IA à traduire des textes en langue des signes, à partir de l’anglais ou de l’allemand.
Un début, mais pas la panacée
Bien que les chercheurs aient qualifié leurs résultats d’« encourageants », les avatars des vidéos traduites, obtenus avec leur IA, sont vivement critiqués pour leur manque de fluidité et d’expression faciale, un aspect essentiel de la langue des signes.
En réponses à leurs détracteurs, les ambassadeurs de SignLL rappellent que « Les vidéos ne sont pas une sortie directe de notre modèle et sont en fait très difficiles à réaliser, elles sont uniquement à des fins de démonstration. Ces vidéos sont le résultat du retraitement des vidéos de pose sortie de notre modèle en utilisant le modèle de transfert de style, beaucoup de médias exagèrent spontanément notre travail, ce n’est pas ce que nous voulons voir. »
Malgré ces limites, Melissa Malzkuhn, professeur enseignant à l’Université Gallaudet de Washington, une institution pour les sourds et malentendants, y voit du potentiel. Elle souligne que d’autres groupes travaillent également sur la mise au point d’avatars pour des usages spécifiques, comme des contes pour enfants ou des annonces dans des gares.
Actuellement sur le marché
Très médiatisée et déjà sur le marché depuis un certain temps, l’application payante « Hand Talk », dont l’entreprise éponyme fait la promotion en présentant un service de traduction similaire, propose des avatars moins réalistes et plus comiques, également alimentés par l’IA. Souvent qualifiée de « décevante » par les experts, personnes sourdes et malentendantes, et leurs proches, l’application ne serait en fait qu’un service qui épelle les mots en langue des signes, sans faire preuve de fluidité en contexte de présentation ou de dialogue.
Crédit Image à la Une : Des images tirées d’une démo de SignLLM