Microsoft: KI „VALL-E“ kopiert Stimmen nach 3 Sekunden hören

von Ghassan Seif-Wiesner am 09.02.2023

Microsoft hat vor Kurzem seine neue Sprach-KI VALL-E präsentiert. Das Text-to-Speech-Modell enthält ein spezielles Feature. Denn VALL-E kann menschliche Stimmen bereits nach dem Hören eines 3 Sekunden langen Audiosamples nachahmen. Die Resultate, die das Programm dabei liefert, sind erschreckend. Denn Microsoft stellt damit alle bisherigen Sprach-KIs in den Schatten. VALL-E schafft es, den emotionalen Ton und die Art und Weise des Sprechers nachzubilden.

Dass die KI auch ein immenses Missbrauchspotenzial in sich birgt, hat das Unternehmen auch schon direkt bei der Präsentation unterstrichen. So arbeitet man im Hintergrund noch an technische Möglichkeiten, mit denen man in Zukunft künstlich erzeugte Stimmen eindeutig als generiert identifizieren kann.

Microsoft hofft auf VALL-E

Mit ihrer neuen künstlichen Intelligenz betritt Microsoft ein Feld, auf dem in den letzten Wochen bahnbrechendes präsentiert wurde. Denn jahrelang hat die breite Öffentlichkeit auf KIs gewartet, welche mit erschreckender Präzision und riesigem Leistungspotenzial uns Menschen nachahmen und übertreffen können. Nach der beeindruckenden Text-KI Chat-GPT, AIVA der KI fürs Musikproduzieren und dem technischen Künstler DALL-E, eine KI, welche Bilder generieren kann, betritt nun Microsofts VALL-E die Bühne.

Die Macher von VALL-E spekulieren darauf, dass die KI in Zukunft als hochwertige Text-zu-Sprache Anwendung mit Funktionen weit darüber hinaus eine entscheidende Rolle auf dem Markt spielen könnte. Es gibt viele Bereiche, wo sich VALL-E einsetzten lässt. Zum Beispiel beim Synchronsprechen oder der Transkription von Text zu Sprache. Hier könnte man Fehler des Sprechers oder Sprecherin nachträglich mit der originalen Stimme korrigieren.

Außerdem gibt es noch ein komplettes Feld an Kombinationsmöglichkeiten mit anderen generativen KIs wie zum Beispiel der GPT3, das Sprachverarbeitungsmodell von OpenAI. Man scheint hier gerade einmal die Zehen in einem riesigen Ozean getippt zu haben. In einer Aussendung beschreibt Microsoft die Fähigkeiten von VALL-E wie folgt:

„VALL-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als akustische Aufforderung zu synthetisieren. Forschungsergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen des Sprechers und die akustische Umgebungsanforderungen in der Synthese berücksichtigen kann.“

Funktionsweise der KI

Microsoft bezeichnet VALL-E als „neuronales Codec-Sprachmodell“. Die KI nutzt eine Technologie namens EnCodec, welche von META im Oktober 2022 angekündigt wurde. Der große Unterschied zu anderen Text-zu-Sprache Methoden, bei denen normalerweise durch Manipulation von Wellenformen die Stimme erzeugt wird, ist folgender: VALL-E generiert Audio Codes, indem es zuerst die Stimme, die es nachahmen soll, komplett analysiert.

Dafür zerlegt das Programm mit der EnCodec-Methode die Informationen in kleine Einheiten, sogenannte „Tokens“. Danach verwendet es die bereits eingespeisten Trainingsdaten. Also bereits von Microsoft an VALL-E weitergegebene Stimmen, um die Stimme, die es nachahmen soll, zu generieren. Die genaue technische Funktionsweise können Interessierte auf einer von Microsoft eingerichteten GitHub-Seite rund um VALL-E online einsehen. Der Code von VALL-E ist aktuell nicht öffentlich zugänglich.

Quelle: valle-demo.github.io | Microsoft Grafik zur Funktionsweise von VALL-E

META Audiobibliothek

Für die Sprachsynthese-Fähigkeiten von VALL-E hat Microsoft in der Trainingsphase auf eine von META zusammengestellten Audiobibliothek mit dem Namen „Libri-light“ zurückgegriffen. Hier finden sich über 60.000 Stunden in englischsprachiger Sprache von mehr als 7. 000 verschiedenen Sprecher*innen. Das meiste Material stammt dabei von kostenlosen online Bibliotheken für Hörbücher wie „LibriVox“. Je näher die nachzuahmende Stimme an bereits eingespeiste Stimmen aus den Trainingsdaten sind, desto genauer fallen die Ergebnisse von VALL-Es Sprachsynthese aus.

Auf der Informations- und Beispielseite von Microsoft finden sich Dutzende Audiobeispiele der KI. Dabei lassen sich stets verschiedene Modalitäten aufrufen. Ganz links findet man meistens das Sprachsample in seiner ursprünglichen Variante. Daneben hat Microsoft Versionen eingebettet, welche VALL-E in Experimenten herausfordern sollen. Die Ergebnisse, die VALL-E dabei liefert, sind ähnlich bis beeindruckend und manchmal erschreckend.

Eine zusätzliche Fähigkeit, welche VALL-E aufweist, ist neben dem Nachahmen des emotionalen Tons einer Stimme auch die Nachahmung der akustischen Umgebung. Das bedeutet, die KI kann die komplette Geräuschkulisse des Samples erzeugen. Wenn es sich bei dem Sample zum Beispiel um eine Stimme aus einem Telefongespräch handelt, kann VALL-E im Audioausgang die akustischen Frequenzeigenschaften des Telefongesprächs in seiner synthetisierten Variante ebenfalls erzeugen. Jetzt ist der Zeitpunkt, wo euch beim Lesen eine Gänsehaut über den Rücken laufen sollte.

View this post on Instagram

A post shared by TechnoBugg (@technobugg)

Microsoft hält Code noch unter Verschluss

Vermutlich wegen des riesigen Missbrauchspotenzials hält Microsoft VALL-Es Code noch unter Verschluss. Dadurch gibt es für die Öffentlichkeit noch keine Möglichkeit, selbstständig direkt mit der neuen KI zu experimentieren. Es gibt lediglich die erwähnten Beispiele.

Microsoft scheint sich über VALL-Es gefährliches Potenzial vollends bewusst zu sein, denn das Unternehmen hat ebenfalls ein „ethisches Statement“ rund um VALL-E veröffentlicht. Darin betont man, dass man sich des Risikos bewusst sei. Warum VALL-E dennoch so einen niedlichen Namen trägt, der uns an einen harmlosen kleinen Filmroboter erinnert, erklärt Microsoft dabei nicht näher.

“Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.”

Zum Schluss bleibt nur eine Frage offen: was wird VALL-E sagen, wenn sie endlich die Möglichkeit hat, unbeobachtet mit Chat GPT zu plaudern?

© Shutterstock