Blog

Qualität maschineller Übersetzungen: bewerten oder prognostizieren?

Qualität maschinell erstellter Übersetzungen

Aufgrund der enormen Fortschritte, welche die Qualität der maschinellen Übersetzung (Machine Translation; MT) in den letzten zehn Jahren gemacht hat, ist diese Technologie inzwischen für viele Unternehmen zu einem wesentlichen Bestandteil ihrer Übersetzungs-Workflows geworden. Um den größtmöglichen Nutzen aus maschineller Übersetzung zu ziehen, stellt sich allerdings sowohl für neue als auch erfahrene Anwender die Frage, welche MT-Engine sie verwenden sollen. In diesem Artikel beschäftigen wir uns mit der Bewertung der Qualität von MT-Engines und der Auswahl der optimalen Engine für Ihr nächstes Projekt.

Setzen Sie sich erstmals mit maschineller Übersetzung auseinander? Dann empfehlen wir Ihnen unseren [„Beginner’s Guide to Machine Translation“Beginner’s Guide to Machine Translation (Dokument in englischer Sprache).

Die richtige Engine für Ihr Übersetzungsprojekt

Ganz gleich, ob Sie sich zum ersten Mal mit maschineller Übersetzung beschäftigen oder diese bereits in Ihren Projekten einsetzen: Der wichtigste Faktor ist die Auswahl der passenden MT-Engine.

Mittlerweile gibt es eine Vielzahl von MT-Engines verschiedenster Art. Auch verändert sich die MT-Landschaft ständig – es werden immer wieder neue Engines vorgestellt und etablierte Lösungen verbessert. Dementsprechend kompliziert und frustrierend kann sich die Auswahl der optimalen Engine für ein Projekt gestalten.

Dabei hilft es, das „große Ganze“ im Blick zu behalten. Die zentralen Vorteile bei der Verwendung von MT sind die Zeit- und Kosteneinsparungen: Übersetzungen stehen praktisch in Echtzeit zur Verfügung, und die Kosten sind im Vergleich zur menschlichen Übersetzung verschwindend gering. Dies gilt grundsätzlich für alle heute verfügbaren MT-Engines.

Es bleibt damit nur ein kritischer Aspekt: die Qualität der maschinellen Übersetzung. Dies ist wahrscheinlich die wichtigste Variable, die beim Aufbau eines MT-Workflows berücksichtigt werden muss, da schlechte Resultate die Zeit- und Kostengewinne wieder zunichte machen können.

Zur Qualität maschinell erstellter Übersetzungen

Jüngste Entwicklungen im Bereich der maschinellen Übersetzung haben zu einer deutlich höheren Basisqualität der resultierenden Texte geführt. Hier ist unter anderem der nahezu vollständige Wechsel von statistischen maschinellen Übersetzungsverfahren zur neuronalen maschinellen Übersetzung zu nennen. Unsere eigenen internen Daten deuten darauf hin, dass sich die Wahrscheinlichkeit, ein nahezu perfektes Segment zu erhalten, das allenfalls noch minimal nachbearbeitet werden muss, seit dem Jahr 2017 fast verdoppelt hat. Die heutzutage am häufigsten verwendeten MT-Engines können mit hoher Wahrscheinlichkeit passable Übersetzungen liefern, die zwar nicht immer die stilistischen Nuancen, wohl aber die wesentlichen Inhalte des Originaltextes vermitteln.

Qualität maschinell erstellter Übersetzungen

Für wie belastbar man die Qualität einer maschinellen Übersetzung hält, hängt vor allem vom Umfang und der Relevanz der konkreten Aufgabenstellung ab. Ein Schüler, der hofft, vor dem nächsten Sprachkurs noch schnell ein paar Zeilen seiner Hausaufgaben übersetzt zu bekommen (also wirklich!), wird nicht besonders wählerisch sein: Alle heute relevanten MT-Engines werden hier wahrscheinlich ein passables Ergebnis liefern. Wenn es zu Fehlern kommt, wird dies eher an Ambivalenzen im Quelltext als einer schlechten MT-Engine liegen. Wer sich hingegen sein Lebensmotto ins Französische oder Chinesische übersetzen lassen will, bevor er es als Tattoo auf seinem Körper verewigt, wird hoffentlich so klug sein, eine maschinelle Übersetzung dieses Mottos erst noch einmal von einem Muttersprachler prüfen zu lassen. Im Internet gibt es zahllose Bildbeweise dafür, was passieren kann, wenn man sich maschinell übersetzte Texte ungeprüft in die Haut ritzen lässt.

Qualität und Größenordnung korrelieren. Für ein Großunternehmen ist eine „passable“ Übersetzung wahrscheinlich nicht gut genug. Bei größeren Übersetzungsprojekten nimmt natürlich auch die Zahl der Fehler zu, und auch das Risiko katastrophaler Fehlübersetzungen steigt proportional an, sodass letztlich eine umfassende (und dementsprechend teure) Überprüfung und Nachbearbeitung unvermeidbar wird. Aus Pfennigen werden große Beträge, und Projekte nehmen mehr Zeit in Anspruch.

Aber mit der Größenordnung von Übersetzungsprojekten wächst auch die Einsicht in die Qualität der Resultate. Je größer das Übersetzungsvolumen, um so öfter werden Sie Unterschiede zwischen den Resultaten aus verschiedenen MT-Engines erkennen, die bei kleinen Stichproben nicht zu erkennen wären. Und diese kleinen Unterschiede summieren sich bei größeren Projekten natürlich. Einige Engines liefern bei bestimmten Textarten bessere Ergebnisse, und durch die Auswahl der richtigen Engine können Sie eine höhere Qualität und entsprechende Einsparungen erzielen. Kurz: Die Auswahl der am besten geeigneten MT-Engine ist von großer Bedeutung.

In unserem Report zur Qualität von MT-Engines erfahren Sie, wie sich verschiedene MT-Engines im Vergleich schlagen.

Arten von MT-Engines

Bei der Auswahl der richtigen MT-Engine für Ihr Projekt haben Sie grundsätzlich die Wahl zwischen generischen Engines wie Amazon Translate, Google Translate und Microsoft Translator auf der einen und trainierbaren Engines auf der anderen Seite. Beide Engine-Typen basieren auf der Auswertung existierender Übersetzungen.

Bei trainierbaren Engines stellt das anwendende Unternehmen Trainingsdaten zur Verfügung, um die Qualität der Übersetzungsergebnisse zu steigern. Vorliegende Übersetzungen in guter Qualität dienen der Engine als „Richtschnur“, sodass diese mit höherer Wahrscheinlichkeit Übersetzungen in der gewünschten Qualität produziert. So eignen sich zum Beispiel Inhalte aus den Bereichen Tourismus und Gastronomie besonders gut zum Training entsprechender „lernfähiger“ Engines. Angebotsseiten und Benutzerrezensionen für Hotels sind sich oft sehr ähnlich, und allein aufgrund der Menge der verfügbaren Inhalte ist das Training von MT-Engines möglich und wünschenswert.

Die Spezialisierung aufgrund gegebener Inhalte ist der größte Vorteil trainierbarer Engines, gleichzeitig aber auch ihr Hauptnachteil. Durch die Fokussierung auf bestimmte Arten von Inhalten ist außerhalb des betreffenden Themengebietes mit schlechteren Ergebnissen zu rechnen. Eine mit Hotelbeschreibungen und -bewertungen trainierte Engine wird wahrscheinlich bei der Übersetzung von Nachrichten deutlich schlechtere Ergebnisse liefern.

Die Einrichtung und Wartung solcher trainierbarer Engines ist in der Regel aufwändiger und teurer. Sie eignen sich gut für Unternehmen, die große Mengen stilistisch und inhaltlich ähnlicher Texte verarbeiten und die resultierenden, etwas höheren Kosten rechtfertigen können.

Generische Engines stellen für die meisten Anwender die bessere Wahl dar, da sie schneller konfiguriert werden können und die Kosten deutlich niedriger sind als bei den trainierbaren Engines. Wenn Qualität das wichtigste Kriterium darstellt, fällt die Entscheidung schwerer.

Qualität der maschinellen Übersetzung: Bewerten oder prognostizieren?

Bei der Auswahl einer MT-Engine sollte zuerst die Qualität der Resultate der in Frage kommenden Alternativen evaluiert werden, um entscheiden zu können, ob sie ihr Geld wert sind. Viele MT-Anwender bewerten zunächst verschiedene Engines in umfassenden Tests, bevor sie sich für eine Engine entscheiden. Die Übersetzungsbranche hat eine Reihe von Qualitätsmetriken eingeführt, um diesen Prozess zu standardisieren.

Dabei wird grundsätzlich unterschieden zwischen Qualitätsbewertung und Qualitätsprognose.

Bei der Qualitätsbewertung wird die Qualität der maschinellen Übersetzung bewertet. Als Bezugsgröße dient dabei in der Regel die von einem Menschen erstellte Übersetzung desselben Quelltextes. Während die meisten Leser im direkten Vergleich leicht sagen können, welche Übersetzung „natürlicher“ klingt, ist eine rein subjektive Bewertung in größerem Maßstab nicht mehr ohne weiteres möglich.

Bei einer gängigen Bewertungsmethode werden zweisprachige Experten herangezogen, die in einem Blindtest die maschinelle Übersetzung mit der Übersetzung aus der Hand eines professionellen Übersetzers vergleichen. Im Anschluss an solche Blindtests sind schon mehrfach recht kühne Aussagen über die Qualität maschinell erstellter Übersetzungen gemacht worden. In jedem Fall ist zu beachten, dass sie prinzipbedingt an Grenzen stoßen.

An erster Stelle steht hier der Kostenaspekt: Für die Durchführung eines solchen Tests sind sowohl professionelle Übersetzer und menschliche Gutachter erforderlich. Ein Unternehmen, das sich belastbare Bewertungen wünscht, muss hierfür also erst einmal beträchtliche Ressourcen investieren. Es gibt auch Bedenken hinsichtlich der Subjektivität des Verfahrens. Studien haben gezeigt, dass professionelle Übersetzer eher höhere Noten für die von ihren menschlichen Kollegen erstellten Übersetzungen geben als andere Teilnehmer. In ähnlicher Weise werden maschinell erstellte Übersetzung auf Segmentebene eher positiv bewertet (im Gegensatz zur Bewertung im Zusammenhang eines Artikels).

Ein alternativer Ansatz ist die Bewertung großer Textmengen durch Computeralgorithmen, um schnell zu einer objektiven, numerischen Bewertung zu gelangen. Entsprechende Kennzahlen werden durch einen automatisierten Vergleich maschinell erstellter Übersetzungen mit einer Referenzübersetzung berechnet. Die konkreten Variablen, die bei dieser Berechnung einbezogen werden, unterscheiden sich von Algorithmus zu Algorithmus, aber grundsätzlich gilt: Je näher die maschinelle Übersetzung an der Referenzübersetzung liegt, umso höher ist die erreichte Punktzahl.

Es gibt zahlreiche Algorithmen. Die heute am häufigsten verwendeten sind:

  • BLEU (BiLingual Evaluation Understudy)
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
  • METEOR (Metric for Evaluation of Translation with Explicit ORdering)

Jeder dieser Algorithmen verfolgt einen anderen Ansatz, um zu messen, wie „ähnlich“ die maschinelle Übersetzung der Referenzübersetzung ist. Auch ihre spezifischen Vor- und Nachteile werden diskutiert.

Grundsätzlich ist die Qualitätsbewertung eine effektive Methode zur Evaluierung der maschinellen Übersetzung. Sie gibt dem Benutzer weitreichende Kontrolle über den Prozess und stellt zuverlässige Ergebnisse bereit, die effektive Vergleiche zwischen den Engines ermöglichen. Da hierbei jedoch von Menschen übersetzte Texte herangezogen werden und die Evaluierung selbst sehr zeitaufwendig ist, ist dieses Verfahren relativ langsam und kostspielig. Ein weiteres Problem besteht darin, dass diese Evaluierungen letzten Endes als „Momentaufnahmen“ nur den Stand zu einem bestimmten Zeitpunkt dokumentieren. Die Qualität der meisten aktiv entwickelten MT-Engines verbessert sich relativ schnell, sodass eine gestern erstellte Bewertung heute möglicherweise schon keine Aussagekraft mehr hat.

Die Qualitätsprognose hingegen funktioniert anders. Anstatt eine maschinell erstellte Übersetzung zu bewerten, analysiert sie den Quelltext und prognostiziert anhand bestimmter Kriterien, wie gut die Übersetzung sein könnte.

Memsource selbst hat unter dem Namen Machine Translation Quality Estimation (MTQE) eine Lösung für die Qualitätsprognose entwickelt. Dabei wird nur der Quelltext benötigt, keine Referenzübersetzung, da die Prognose auf der Grundlage vorliegender Leistungsdaten erfolgt. Die Qualität wird auf der Grundlage der voraussichtlich erforderlichen Nachbearbeitungen der maschinell erstellen Übersetzung prognostiziert. Bei MTQE wird dies als Prozentsatz ausgedrückt, der bestimmten Segmenten der Übersetzung zugeordnet ist. Der Prozentwert 100 ist zum Beispiel so zu verstehen, dass das entsprechende Segment nahezu perfekt und eine Nachbearbeitung voraussichtlich nicht erforderlich ist. Ein Wert von 75% deutet darauf hin, dass das Segment durch Überarbeitungen verbessert werden kann. Obwohl die Prognose auf einer granularen Ebene für jedes einzelne Segment erfolgt, können die resultierenden Kennzahlen in der Summe ein recht gutes Bild der zu erwartenden Leistung einer Engine vermitteln. Einer der Vorteile der Qualitätsprognose ist, dass es sich um einen dynamischen Prozess handelt, der auf der Grundlage von Benutzer-Feedback kontinuierlich verbessert wird und zunehmend bessere Ergebnisse liefert. Sie ist nicht „statisch“.

Unabhängig davon, welche Methode Sie wählen, werden Sie sich ein Bild davon machen können, wie die verschiedenen MT-Engines funktionieren und welche der ideale Kandidat für Ihre eigenen Anforderungen und Projekte ist.

Mehr als eine MT-Engine?

Bedenken Sie auch, dass Sie sich nicht dauerhaft auf eine einzelne Engine festlegen müssen. Die meisten Übersetzungsmanagement-Lösungen erlauben es dem Benutzer, relativ schnell auf eine andere MT-Engine umzuschalten. Es kann durchaus sein, dass sich bei Ihren konkreten Projekten Engine „A“ besonders für ein bestimmtes Sprachpaar eignet, während Engine „B“ bei bestimmten Inhalten bessere Ergebnisse liefert. Mit der Festlegung auf „A“ oder „B“ würden Sie sich der Vorteile berauben, welche die andere Engine bietet.

Wir haben bei Memsource mit Memsource Translate eine einzigartige Lösung für die Verwaltung und Nutzung von MT-Engines entwickelt, mit der Sie bequem mehrere Engines nutzen können, um die bestmöglichen Ergebnisse zu erhalten. Unser KI-basierter Algorithmus wählt auf der Grundlage des Sprachpaares und der Inhalte eines Dokumentes automatisch die am besten geeignete MT-Engine aus. Die Daten zu den Leistungsdaten der verfügbaren Engines werden in Echtzeit gesammelt und verwendet, um die Empfehlungen des Algorithmus kontinuierlich zu verbessern. Memsource Translate umfasst drei vollständig gemanagte Engines. Ergänzend dazu können Benutzer ihre eigenen Engines – auch trainierbare Engines – hinzuzufügen. Verwaltung und Tests der Engines sind hier automatisiert – eine hervorragende Grundlage zur Optimierung von Übersetzungs-Workflows, sowohl für routinierte MT-Nutzer als auch Einsteiger.

Die Frage, welche Qualität Sie von einer bestimmten MT-Engine erwarten können, sollte Sie nicht davon abhalten, das volle Potenzial maschineller Übersetzung auszuschöpfen. Es gibt viele Möglichkeiten, sich dem Thema „Qualität“ zu nähern – und technische Innovationen werden Sie auch in Zukunft dabei unterstützen, noch bessere Übersetzungen zu erstellen.

Suchen Sie eine zusammenfassende Darstellung zur Qualität maschinell erstellter Übersetzungen? Dann haben wir etwas für Sie.

Jetzt herunterladen
Von: Dan Zdarek
Von: Dan Zdarek

Product Marketing Specialist bei Memsource