Was kann eigentlich maschinelle Übersetzung?

Mit dem Begriff „maschinelle Übersetzung“ kann vieles gemeint sein: Gratis-Tools im Internet, kostenpflichtige Software-Plugins oder hochspezialisierte Translation Engines. Doch was steckt eigentlich dahinter? Welche Entwicklungen gibt es in der maschinellen Übersetzung und warum hat das Auswirkungen auf digitale Märkte in Europa und weltweit? Katrin Marheinecke erläutert es.

Der Wunsch der Menschheit, Sprachbarrieren zu überwinden und mühelos fremde Sprachen zu verstehen, ist fast so alt wie die Menschheit. Während die Bibel noch auf Wunder hoffte, versuchten (teils selbst ernannte) Sprachwissenschaftler zwischen dem späten 19. Jahrhundert und dem 2. Weltkrieg immer wieder, künstliche Plansprachen international zu etablieren. Militärische Interessen in der Zeit des Kalten Krieges brachten das Interesse an maschinellen Übersetzungslösungen in den USA, der Sowjetunion und Japan auf die Tagesordnung und sorgten auch für die notwendige finanzielle Förderung. Doch brauchbare Erfolge bei der Entwicklung maschineller Modelle ließen lange auf sich warten.

Erst in den letzten 15 Jahren lässt sich ein Durchbruch in Bezug auf die Übersetzungsqualität verzeichnen. Inzwischen hat die maschinelle Übersetzung (MÜ) auch in das Alltagsleben von Laiennutzern Einzug gehalten. Google Translate und kostenlose Übersetzungs-Apps machen die Nutzung auch für Nichtwissenschaftler einfach – Übersetzungen auf Knopfdruck sind heutzutage für jeden zu haben.

Aber wie funktioniert die maschinelle Übersetzung eigentlich? Und kann sie für alle Sprachen und Texte eingesetzt werden?

Regelbasierte und statistische Übersetzungssysteme

Regelbasiert

Zunächst muss zwischen regelbasierten und statistischen Übersetzungssystemen unterschieden werden. Die Ältere von beiden basiert, wie ihr Name schon vermuten lässt, auf grammatischen Regeln. Den Kern des Übersetzungssystems bilden ein Regelsatz für jede Sprache sowie ein Wörterbuch mit detaillierten grammatischen Informationen zu den jeweiligen Einträgen. Zudem können allgemeine, nicht sprachspezifische Regeln definiert werden. Beim Übersetzen analysiert die Engine den Ausgangssatz und „dekonstruiert“ ihn in seine jeweiligen grammatischen Bestandteile. Dann „schlägt“ das MÜ-System die Wörter und Wendungen im Wörterbuch nach und kombiniert sie mit den hinterlegten Sprachregeln für die Zielsprache. Daraus setzt sich dann die zielsprachliche Übersetzung zusammen. So weit, so gut.

Allerdings kann die regelbasierte maschinelle Übersetzung nur mit Phänomenen umgehen, für die sie Regeln zur Verfügung hat. Weil Sprachen sich aber eben nicht immer konform zu ihren eigenen Regeln verhalten, klingen diese Übersetzung häufig zu wörtlich – wenn nicht gar falsch. Davon abgesehen ist die Vorbereitung der Übersetzungs-Engines mit Regeln und Wörterbüchern sehr mühsam und zeitaufwendig. Ein Vorteil ist, dass die Übersetzungsergebnisse meist grammatisch wohlgeformt sind und weniger Nachkorrekturen (Post-Editing) erfordern.

Statistisch

Die zweite Methode beruht auf Statistik. Sie benötigt große Mengen hochwertig übersetzter Sprachdaten. Damit eine Engine sinnvoll für den Einsatz vorbereitet werden kann, benötigen die MÜ-Experten Abermillionen übersetzter Wörter in Quell- und Zielsprache. Die Maschine wird so trainiert, dass sie typische korrespondierende Wortgruppen erkennt. Dabei „lernt“ sie zum Beispiel die Reihenfolge, in der die Wörter üblicherweise vorkommen. Je mehr und je besser die Trainingsdaten und je ähnlicher die zu übersetzenden Texte, desto genauer die Ergebnisse. Die Übersetzung erfolgt dann auf der Basis statistischer Häufigkeit der korrespondierenden Wörter, Wortgruppen und Sätze.

Der große Vorteil dieser Methode ist, dass auch dann übersetzt werden kann, wenn keine theoretischen Kenntnisse über die betreffenden Sprachen vorliegen. Außerdem kommen die Ergebnisse der natürlichen Sprache oft sehr nah. Der größte Nachteil dieser Methode ist die Notwendigkeit riesiger bilingualer Datenbestände. Das erklärt auch, warum Google oder Microsoft in dieser Methode die Nase vorn haben: Beide Konzerne verfügen über gigantische multilinguale Datenmengen, die sich für die maschinelle Übersetzung aufbereiten lassen. Für bestimmte Sprachpaare sind die Ergebnisse daher oft schon erstaunlich gut, und zwar für die, in denen sehr große zweisprachige Textkorpora bestehen.

Problematisch wird es allerdings bei Sprachpaaren, in denen noch nicht so viele übersetzte Texte vorliegen – den slawischen oder baltischen Sprachen zum Beispiel. Hinzu kommt, dass diese Sprachen zu den sogenannten „stark flektierenden“ Sprachen zählen – sich also je nach Fall, Anzahl oder grammatischem Geschlecht verändern. Das ist ein Faktor, mit dem insbesondere die statistisch basierte maschinelle Übersetzung traditionell schlecht zurechtkommt. Ein weiterer Nachteil des statistischen Ansatzes ist, dass es schwieriger ist, in ein einmal trainiertes System einzugreifen und die Ergebnisse zu verändern.

Die maschinelle Übersetzung durch Evaluierung nachhaltig verbessern

Genau an diesem Punkt setzt das Forschungsprojekt QT21 an. Dieses von der EU finanzierte Forschungsprojekt unter der Leitung des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) hat es sich zum Ziel gesetzt, statistisch basierte Übersetzungsmodelle speziell für diese „schwierigen“ Sprachgruppen zu entwickeln sowie Techniken zur automatischen Datenvor- und -nachbereitung zu erarbeiten. Mithilfe systematischer Fehleranalysen und Evaluierungsmethoden sollen die Datenlagen und die wissenschaftlichen Erkenntnisse speziell in diesen Sprachen nachhaltig verbessert werden. Das Konsortium für dieses Projekt setzt sich aus namhaften Forschungseinrichtungen, Hochschulfakultäten und Sprachdienstleistern zusammen.

text&form kümmert sich im Rahmen dieses Projekts um die Evaluierung und Qualitätsbewertung der Übersetzungsergebnisse. Sprachexperten prüfen Tausende maschinell übersetzter Sätze, verbessern sie bei Bedarf und klassifizieren die Fehler nach linguistischen Kriterien. Diese Analysen, so die Hoffnung, geben den Wissenschaftlern Aufschluss darüber, wo ihre MÜ-Systeme funktionieren und wo Optimierungen nötig sind. So lassen sich typische Problemfelder einkreisen, die statistisch basierte maschinelle Übersetzungen mit sich bringen. Ein weiteres Ziel dieser umfangreichen Nachbearbeitung ist der Aufbau eines systematisch ausgewerteten Textkorpus, der auch über die Projektgrenzen hinaus zu Forschungs- und Entwicklungszwecken genutzt werden kann.

Digitaler EU-Binnenmarkt

Doch warum setzt sich die EU für dieses Forschungsfeld überhaupt ein? Ein barrierefreier digitaler Binnenmarkt in Europa zählt zu den zehn Prioritäten, die die Europäische Kommission formuliert hat. Eines der Haupthindernisse für einen gleichberechtigten Internethandel sind nach wie vor die linguistischen Barrieren. Märkte wie Großbritannien und Frankreich sind hier aus Gründen der sprachlichen Akzeptanz klar im Vorteil. Der Schlüssel zu mehr Chancengleichheit im digitalen Markt könnte in der maschinellen Übersetzung liegen – wenn sie leistungsstark, wissenschaftlich gut abgesichert und problemlos verfügbar ist.

Denn wenn einfach zugängliche und preisgünstige Übersetzungslösungen für alle europäischen Sprachpaare zur Verfügung stehen, lassen sich nicht nur neue Märkte erschließen und die Umsätze im Internet steigern. Auch der Zugang zu zentralen Informationen steht dann nicht mehr nur Sprechern der am weitesten verbreiteten Sprachen zur Verfügung – sondern allen Europäern. Projekte wie QT 21 leisten einen wichtigen Beitrag zur Harmonisierung des digitalen Binnenmarkts und damit zu einer ausgewogenen Teilhabe an E-Commerce und Informationsangeboten.

ÜBER DIE AUTORIN

Katrin Marheinecke (Quality Manager bei text&form) ist seit 2006 in der Übersetzungsbranche tätig, erst als Übersetzerin und Lektorin; 2007 wechselte sie in das Projektmanagement. Seit ihrer Zertifizierung als Qualitätsbeauftragte arbeitet sie an der kontinuierlichen Verbesserung des Übersetzungsprozesses.