Bridging & NMT – Teil 1

Hochgelobt und verschrien – Neuronale maschinelle Übersetzung ist ein Thema, das die Übersetzungsbranche beschäftigt wie kein anderes. Zum einen schürt sie Ängste vor drastischen Veränderungen, zum anderen verspricht sie Produktivitäts- und Qualitätssteigerung. Ohne eines der beiden Szenarien zu beschwören kann mit Sicherheit gesagt werden, dass sie die Branche bereits mittelfristig verändern wird. Der potentiell daraus resultierende Konflikt beruht, wie auch in so vielen anderen Branchen, auf der vermeintlichen Überlegenheit der Maschine über dem Menschen. Deswegen lohnt es sich, einen Blick ins Detail zu werfen, um zu verstehen, warum die Maschine uns noch nicht gänzlich den Rang abgelaufen hat.

 

Ein Fallbeispiel

Neuronale maschinelle Übersetzung oder NMT (neural machine translation) hat trotz verblüffend guter Ergebnisse noch einige Hürden zu überwinden. Ein für die Verhältnisse von text&form alltägliches Beispiel soll auf zwei dieser Hürden aufmerksam machen. Diese mögen vielleicht zu Beginn marginal erscheinen, allerdings sind es jene Details, die eine Übersetzung schlussendlich menschlich machen. Lesen Sie zunächst folgenden (zugegebenermaßen sehr technischen) Satz:

“For instance, while a healthcare monitoring service might suffice with single cellular network coverage, a trucking fleet might require more than one mobile network footprint.”

Vorab etwas Kontext: Der Text einer unserer Partner handelt von so genannter Maschine-zu-Maschine-Kommunikation (wie etwa das erwähnte Gesundheitsüberwachungssystem oder die LKW-Flotte) und den dafür benötigten SIM-Karten (hier paraphrasiert mit cellular network und mobile network footprint), die einen kabellosen Informationsaustausch ermöglichen. Genauer gesagt macht der Satz auf die Anforderungen an das mobile Netzwerk in Abhängigkeit des Umfangs der Maschine-zu-Maschine-Anwendung aufmerksam. So interpretiere ich zumindest diesen Satz, genauso wie unser Reviewer. Eine mögliche, sehr originalgetreue Übersetzung wäre also:

Während z. B. ein Gesundheitsüberwachungssystem mit einem einzigen Mobilfunknetz auskommen könnte, könnte eine LKW-Flotte mehr als ein Mobilfunknetz benötigen.“

Die Ergebnisse mehrerer namhafter NMT-Anbieter sehen in etwa so aus:

„Während z. B. ein Gesundheitsüberwachungssystem mit einem einzigen Mobilfunknetz ausreichen könnte, könnte eine LKW-Flotte mehr als ein Mobilfunknetz benötigen.“

Die Übersetzung ist bewusst so angepasst, damit das Ergebnis nicht auf einen bestimmten Anbieter zurückverfolgt werden kann. Der entscheidende Teil bleibt jedoch immer gleich: Im ersten Hauptsatz ist es das Gesundheitsüberwachungssystem, welches „ausreicht“ und nicht das Mobilfunknetz, auf das sich das „ausreichen“ eigentlich bezieht. Der Satz wird dadurch zwar nicht völlig unverständlich, eine Revision würde der Satz in dieser Form allerdings nicht überleben.

 

Unvollkommenheit durch Perfektion

Der Grund für diese Übersetzung liegt im Design solcher NMT-Modelle. Die Übersetzungen unserer „Probanden“ basieren auf bilingualen Datensätzen von schwindelerregendem Ausmaß. Solche in der Regel sprachlich makellosen Texte werden zum Training von NMT-Modellen genutzt, die auf diese Weise die Kunst des Übersetzens lernen. All unsere Probanden haben auf diese Weise gelernt, dass das Verb to suffice immer mit dem deutschen Verb ausreichen oder einem seiner nahen Synonyme übersetzt wird. Wir können unseren Probanden und auch deren Entwicklern deshalb keinen Vorwurf machen – Sie haben lediglich nach bestem Wissen und Gewissen gelernt bzw. gelehrt. Was unsere Musterschüler jedoch nicht kennen, ist die Verwendung nicht-standardisierter Sprache, in diesem Fall die Verwendung von to suffice with im Sinne von to make do with, was so viel bedeutet wie mit etwas auskommen. Kein mir bekanntes einsprachiges Lexikon verweist auf diese Verwendung, Quellen dieser Konstruktion sind rar und deshalb „kennt“ keiner unserer Probanden diese Übersetzung. Und dennoch hat sich der Autor des Textes für diese Konstruktion entschieden. Zwar lässt sich die Konstruktion sogar in einem frei zugänglichen Translation Memory einer unserer Probanden finden, aber wahrscheinlich nicht oft genug. Man möchte meinen, das Design dieser NMT-Modelle sei zu perfekt, als dass sie solche informellen Besonderheiten korrekt übersetzen könnten.

Sicherlich könnte man jetzt die Verwendung und auch die Korrektheit der Konstruktion to suffice with in Frage stellen, am Ende des Tages sprechen jedoch zwei ernüchternde Faktoren gegen ein solches Gedankenspiel: Erstens macht Sprache, was sie will, und zweitens müssen sowohl biologische als auch digitale Übersetzer letztendlich immer mit dem arbeiten, was auf dem (metaphorischen) Tisch liegt.

Halten wir also fest, dass informeller Sprachgebrauch eine Art Achillesferse der NMT-Modelle ist und bleiben wird, solange keine Balance zwischen informellen und „verunreinigten“ Datensätzen für das Training unserer Probanden gefunden wird. Dieses Problem ist aber nicht unbedingt auf Maschinen beschränkt, denn auch der Mensch ist fehlbar. Deshalb handelt der nächste Teil dieses Beitrags von einem dem Menschen vorbehaltenen Workaround für dieses Problem: dem Bridging.

Fortsetzung folgt


Über den Autor:

Daniel Nad, Project Manager at text&formEine geregelte Aneinanderreihung von Lauten, konserviert in abstrakten Zeichenfolgen mit tausenden, untereinander unverständlichen Varianten: Die menschliche Sprache ist faszinierend. Zumindest behauptet das unser Autor Daniel Nad. Als passionierter Sprachwissenschaftler und Mitarbeiter bei text&form erlebt er Sprache direkt – und freut sich, seine Passion mit anderen teilen zu können.