KI für die Übersetzung von Gebärdensprache

Die Ausgabe in Gebädensprache erfolgt über einen Avatar, der Inhalte realistisch mit Ganzkörperbewegungen, Mimik und emotionalem Ausdruck darstellt. Abbildung: DFKI/ Character: Charamel

Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) und das französische Informatik-Institut Inria wollen die nächste Generation von Systemen zur Übersetzung von Gebärdensprache entwickeln, im gemeinsamen Projekt RoGSiLT.

Im Rahmes des Projektes „Robust and Generalizable Sign Language Translation“(RoGSiLT) entstehen KI-basierte Lösungen für die Deutsche und Französische Gebärdensprache (DGS und LSF). Ziel ist es, innovative Methoden der Künstlichen Intelligenz (KI) zu entwickeln, die Übersetzungen zwischen gesprochener Sprache und Gebärdensprache deutlich verbessern. Damit soll die Teilhabe gehörloser und schwerhöriger Menschen am öffentlichen Leben gestärkt werden.

Bestehende Systeme geben Mimik und Körpersprache nur ungenau wider

Bestehende Gebärdensprach-Systeme können bereits gesprochene oder geschriebene Sprache in Gebärdensprache übertragen und mithilfe von Avataren visualisieren. In der Praxis stoßen sie an Grenzen. Mimik und Körpersprache werden oft nur ungenau wiedergegeben, Bedeutungsaspekte gehen verloren und die Darstellung wirkt häufig unnatürlich.

Das auf drei Jahre angelegte Projekt setzt genau hier an. Es verbessert sowohl die Übersetzung von Text in Gebärdensprache als auch die Umwandlung von Gebärdensprache aus Videos in geschriebene Sprache. Durch moderne Verfahren wie multimodale neuronale Netze, selbstüberwachtes Lernen und große Sprachmodelle sollen bestehende Hürden – etwa begrenzte Datenverfügbarkeit, mangelnde Generalisierbarkeit und unnatürliche Übersetzungen – überwunden werden. Ein wichtiger Baustein ist der Aufbau neuer Datenressourcen, darunter umfangreiche parallele Korpora aus Gebärdensprach-Videos und damit verknüpften Texten.

Das Ziel: Automatische Übersetzung von Gebärdensprache in beide Richtungen

„Unser Ziel ist es, robuste und natürlich wirkende Übersetzungssysteme zu entwickeln, die im Alltag nutzbar sind“, erklärt DFKI-Projektleiter Eleftherios Avramidis. „Mit neuen KI-Modellen, die verschiedene Informationen wie Bild und Bewegung gleichzeitig verarbeiten, sowie verbesserten Methoden zur Aufbereitung von Trainingsdaten bringen wir die Gebärdensprachübersetzung einen wichtigen Schritt voran und erweitern den Stand der Technik.“

Am Ende des Projekts steht ein Prototyp für automatische Übersetzungen von Gebärdensprache in beide Richtungen – zwischen Deutsch und DGS sowie Französisch und LSF. Die gebärdende Ausgabe erfolgt über einen Avatar, der Inhalte realistisch mit Ganzkörperbewegungen, Mimik und emotionalem Ausdruck darstellt.

Neben wissenschaftlichen Fortschritten verfolgt RoGSiLT ein klares gesellschaftliches Ziel. Die entwickelten Technologien sollen Barrieren abbauen und neue Kommunikationsmöglichkeiten eröffnen – in Bildung, Arbeitswelt und beim Zugang zu Informationen. Damit leiste das Projekt einen Beitrag zur Umsetzung europäischer und internationaler Strategien für Inklusion und Barrierefreiheit, wie dem European Accessibility Act und der UN-Behindertenrechtskonvention, wi die DFKI betont.

Projektpartner ergänzen sich

RoGSiLT ist bereits das neunte gemeinsame Projekt von DFKI und Inria. Die Zusammenarbeit baue auf vorhandenen Stärken auf, so die DFKI. Beide Partner brächten umfangreiche Datensätze ein – darunter Gebärdensprachdaten aus früheren Forschungsprojekten sowie mehr als 300 Stunden Videomaterial aus Nachrichtensendungen. Gleichzeitig ergänzen sich die fachlichen Schwerpunkte. Während Inria besondere Expertise im maschinellen Lernen und in gesprochener Sprache besitzt, verfügt das DFKI über langjährige Erfahrung in der Modellierung von Gebärdensprach-Elementen.

Fokus auf Zusammenarbeit mit Gehörlosen-Community

Ein besonderer Schwerpunkt liegt auf der Zusammenarbeit mit der Gehörlosen-Community, die aktiv in Entwicklung und Evaluation eingebunden wird. Die entwickelten Systeme zur Übersetzung von Gebärdensprache werden gemeinsam mit Nutzerinnen und Nutzern erprobt und bewertet, um ihre Alltagstauglichkeit sicherzustellen. Alle wesentlichen Projektergebnisse werden als Open Source zugänglich gemacht, um Innovationen in Forschung und Industrie weiter voranzutreiben und die Entwicklung inklusiver Technologien oder die Bereitstellung barrierefreier Inhalte nachhaltig zu fördern.

Die Ergebnisse des Projekts versprechen nach Darstellung der DFKI nicht nur bessere Zugänge zu Bildung, Arbeitsmarkt und gesellschaftlicher Teilhabe für gehörlose Menschen, sondern bieten zugleich konkrete Vorteile für öffentliche Institutionen, Medien, das Gesundheitswesen und die Wirtschaft – indem sie Kommunikation erleichtern und barrierefreie Dienstleistungen verbessern.