"Google kann uns nicht überholen"

Das Kölner Start-up DeepL will mit seiner gleichnamigen Übersetzungswebsite großen US-Konkurrenten die Butter vom Brot nehmen.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 13 Beiträge
Von

Die neue Übersetzungsmaschine DeepL aus Deutschland hat, als sie Ende August auf den Markt kam, im Internet für viel Wirbel gesorgt – insbesondere aufgrund der guten Übersetzungsqualität. Im Gespräch mit TR Online spricht Redaktionsleiterin Dr. Silvia Lipski über Technik und Geschäftsmodell.

Technology Review: Wie lange hat Ihr Team an DeepL gearbeitet?

Silvia Lipski: Seit 2008 entwickeln wir maschinelle Systeme zur Textverarbeitung. Mit diesen Systemen haben wir die größte Datenbasis der Welt an hochqualitativen Übersetzungen aufgebaut. Diese Daten sind mittels Linguee durchsuchbar.

In den letzten zwei Jahren haben wir unsere Machine-Learning Systeme mehr und mehr auf neuronale Netze umgestellt. Wir haben Systeme, die alle Arten von Daten analysieren können, Schreibfehler finden, britisches gegen amerikanisches Englisch differenzieren, Wortarten vorhersagen – all das ist mit diesen Systemen möglich, die dadurch schon einer Volltextübersetzung sehr nahe kommen.

Das Volltextübersetzungsprojekt haben wir ungefähr vor einem Jahr begonnen und haben sehr viel Ressourcen in diese Aufgabe gesteckt. Die Weiterentwicklung von Linguee wurde vorübergehend unterbrochen und wir haben neuronale Netzwerke für die Volltextübersetzung entwickelt. Im Februar diesen Jahres konnten wir kurze Sätze besser übersetzen als Google. Seit Juni diesen Jahres sind wir auch bei langen Sätzen besser.

TR: Aktuell läuft DeepL in sieben Sprachen. Wie viele sollen noch hinzukommen?

Lipski: Wir starten mit den Sprachen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Niederländisch und Polnisch. In Kürze werden weitere Sprachen wir Chinesisch, Japanisch, Russisch und Portugiesisch hinzukommen. Wir planen, in Zukunft 230 Sprachkombinationen zu unterstützen.

TR: Ihr direkter Konkurrent ist Google Translate. Welche Chance hat eine junge Firma wie die Ihre gegen einen solchen Giganten?

Lipski: Es gibt in Deutschland einige der besten Forscher zu Maschinellem Lernen weltweit und wir waren in der Lage, die talentiertesten davon für uns zu gewinnen. Wir sind nicht der Meinung, dass Google in dieser Hinsicht besser aufgestellt ist.

Wir haben außerdem Verbesserungen der neuronalen Netzwerke implementiert, die Google offensichtlich nicht implementiert hat. Für die nahe Zukunft erwarten wir weitere Verbesserungen unseres Systems. Wir denken nicht, dass Google uns kurz- oder langfristig überholen kann.

Außerdem – wer hätte uns vor einem Jahr geglaubt, wenn wir gesagt hätten, dass wir Google in der Übersetzung mit neuronalen Netzwerken schlagen würden?

TR: Sie betonen, dass die Übersetzungsqualität von DeepL von Lesern als natürlicher wahrgenommen wird als die der Konkurrenz. Was sind die Grundlagen dafür?

Lipski: Wir haben Übersetzungen des DeepL-Übersetzers aus verschiedensten Bereichen mit denen der Konkurrenz verglichen – Texte aus Zeitungsartikeln, Rechtstexte, Business, literarische Texte, Umgangssprache, wissenschaftliche Artikel. In allen Bereichen wurden die DeepL-Übersetzungen in Blindtests von professionellen Übersetzern mehrheitlich als beste Übersetzungen bewertet. Das Feedback zu den DeepL-Übersetzungen war überwältigend, alle Tests vor der Markteinführung zeigten, dass der DeepL-Übersetzer die Konkurrenz in der Qualität weit übertrifft. Probieren Sie es selbst aus.

TR: Bislang kommt die DeepL-Website ohne Werbung aus – jeder kann sie frei nutzen. Welches Geschäftsmodell wollen Sie auf längere Sicht verfolgen? Werbung? Oder den Verkauf der Software an Unternehmen?

Lipski: DeepLs erstes Produkt Linguee, ein zweisprachiges Online-Wörterbuch und eine Suchmaschine für Übersetzungen, hat 2016 über zwei Milliarden Suchanfragen von über 300 Millionen Nutzern beantwortet. Zur Finanzierung werden Werbeanzeigen auf der Webseite gezeigt, wodurch die Firma Cashflow-positiv ist.

Den DeepL-Übersetzer ist kostenlos. Für Firmen planen wir, kostenpflichtige APIs in naher Zukunft anzubieten. Wir wissen, dass ein großes Interesse an maschineller Übersetzung besteht und viele Firmen dies in ihre Produkte integrieren möchten. Dafür werden wir bezahlte APIs anbieten, mit sehr viel höherer Qualität als unsere Konkurrenz und zu günstigeren Preisen. Wir planen nicht, die Firma zu verkaufen.

TR: Ihre Firma betrieb, Sie haben es erwähnt, zuvor über einen längeren Zeitraum die Sprachwebsite Linguee. Wie wichtig war die für den Aufbau von DeepL?

Lipski: Durch Linguee werden zum Training der neuronalen Netze über eine Milliarde an hochqualitativen Trainingsdaten zur Verfügung gestellt. Dies bedeutet einen sehr großen Vorteil gegenüber unserer Konkurrenz.

TR: Wie unterscheidet sich der technische Ansatz von DeepL gegenüber dem von Google Translate?

Lipski: Vor der sehr berühmten Publikation von Bahdanau, Cho und Bengio 2014 wurden rekurrente neuronale Netzwerke zur Verarbeitung von Sätzen von links nach rechts eingesetzt (mittels LSTM-Zellen oder anderen Strukturen). 2014 stellten Bahdanau et al. dann sogenannte Attention-Mechanismen vor, die dieses Konzept stark verbesserten. Die neuronalen Netzwerke übersetzen immer noch von links nach rechts, aber sie haben zusätzlich die Fähigkeit, unterschiedliche Teile eines Satzes zu unterschiedlichen Zeiten zu betrachten.

Unsere Systeme haben dieses Konzept weiterentwickelt. Unsere Systeme beruhen sehr stark auf Attention-Mechanismen, konstruieren die Sätze Wort für Wort, von links nach rechts. Jedoch können wir in jedem Arbeitsschritt verschiedene Bereiche der vorherigen Verarbeitung berücksichtigen und entscheiden, welche Information für den derzeitigen Arbeitsschritt wichtig ist. Genau wie ein professioneller menschlicher Übersetzer, der immer wieder auf das bereits Übersetzte zurückschaut.

Zusätzlich zu Verbesserungen am neuronalen Netzwerk selbst haben wir auch Verbesserungen bei der Vorverarbeitung der Daten und bei der sogenannten Beam Search implementiert.

TR: Ihre Hauptserver läuft in Island. Was sind die Gründe dafür?

Lipski: In Island gibt es ein Überangebot an erneuerbaren Energien und wir können dort unsere neuronalen Netze sehr kostengünstig trainieren.

(bsc)