Microsoft hat vor Kurzem seine neue Sprach-KI VALL-E präsentiert. Das Text-to-Speech-Modell enthält ein spezielles Feature. Denn VALL-E kann menschliche Stimmen bereits nach dem Hören eines 3 Sekunden langen Audiosamples nachahmen. Die Resultate, die das Programm dabei liefert, sind erschreckend. Denn Microsoft stellt damit alle bisherigen Sprach-KIs in den Schatten. VALL-E schafft es, den emotionalen Ton und die Art und Weise des Sprechers nachzubilden.
Dass die KI auch ein immenses Missbrauchspotenzial in sich birgt, hat das Unternehmen auch schon direkt bei der Präsentation unterstrichen. So arbeitet man im Hintergrund noch an technische Möglichkeiten, mit denen man in Zukunft künstlich erzeugte Stimmen eindeutig als generiert identifizieren kann.
Microsoft hofft auf VALL-E
Mit ihrer neuen künstlichen Intelligenz betritt Microsoft ein Feld, auf dem in den letzten Wochen bahnbrechendes präsentiert wurde. Denn jahrelang hat die breite Öffentlichkeit auf KIs gewartet, welche mit erschreckender Präzision und riesigem Leistungspotenzial uns Menschen nachahmen und übertreffen können. Nach der beeindruckenden Text-KI Chat-GPT, AIVA der KI fürs Musikproduzieren und dem technischen Künstler DALL-E, eine KI, welche Bilder generieren kann, betritt nun Microsofts VALL-E die Bühne.
Die Macher von VALL-E spekulieren darauf, dass die KI in Zukunft als hochwertige Text-zu-Sprache Anwendung mit Funktionen weit darüber hinaus eine entscheidende Rolle auf dem Markt spielen könnte. Es gibt viele Bereiche, wo sich VALL-E einsetzten lässt. Zum Beispiel beim Synchronsprechen oder der Transkription von Text zu Sprache. Hier könnte man Fehler des Sprechers oder Sprecherin nachträglich mit der originalen Stimme korrigieren.
Außerdem gibt es noch ein komplettes Feld an Kombinationsmöglichkeiten mit anderen generativen KIs wie zum Beispiel der GPT3, das Sprachverarbeitungsmodell von OpenAI. Man scheint hier gerade einmal die Zehen in einem riesigen Ozean getippt zu haben. In einer Aussendung beschreibt Microsoft die Fähigkeiten von VALL-E wie folgt:
„VALL-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als akustische Aufforderung zu synthetisieren. Forschungsergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen des Sprechers und die akustische Umgebungsanforderungen in der Synthese berücksichtigen kann.“
Funktionsweise der KI
Microsoft bezeichnet VALL-E als „neuronales Codec-Sprachmodell“. Die KI nutzt eine Technologie namens EnCodec, welche von META im Oktober 2022 angekündigt wurde. Der große Unterschied zu anderen Text-zu-Sprache Methoden, bei denen normalerweise durch Manipulation von Wellenformen die Stimme erzeugt wird, ist folgender: VALL-E generiert Audio Codes, indem es zuerst die Stimme, die es nachahmen soll, komplett analysiert.
Dafür zerlegt das Programm mit der EnCodec-Methode die Informationen in kleine Einheiten, sogenannte „Tokens“. Danach verwendet es die bereits eingespeisten Trainingsdaten. Also bereits von Microsoft an VALL-E weitergegebene Stimmen, um die Stimme, die es nachahmen soll, zu generieren. Die genaue technische Funktionsweise können Interessierte auf einer von Microsoft eingerichteten GitHub-Seite rund um VALL-E online einsehen. Der Code von VALL-E ist aktuell nicht öffentlich zugänglich.
Quelle: valle-demo.github.io | Microsoft Grafik zur Funktionsweise von VALL-E
META Audiobibliothek
Für die Sprachsynthese-Fähigkeiten von VALL-E hat Microsoft in der Trainingsphase auf eine von META zusammengestellten Audiobibliothek mit dem Namen „Libri-light“ zurückgegriffen. Hier finden sich über 60.000 Stunden in englischsprachiger Sprache von mehr als 7. 000 verschiedenen Sprecher*innen. Das meiste Material stammt dabei von kostenlosen online Bibliotheken für Hörbücher wie „LibriVox“. Je näher die nachzuahmende Stimme an bereits eingespeiste Stimmen aus den Trainingsdaten sind, desto genauer fallen die Ergebnisse von VALL-Es Sprachsynthese aus.
Auf der Informations- und Beispielseite von Microsoft finden sich Dutzende Audiobeispiele der KI. Dabei lassen sich stets verschiedene Modalitäten aufrufen. Ganz links findet man meistens das Sprachsample in seiner ursprünglichen Variante. Daneben hat Microsoft Versionen eingebettet, welche VALL-E in Experimenten herausfordern sollen. Die Ergebnisse, die VALL-E dabei liefert, sind ähnlich bis beeindruckend und manchmal erschreckend.
Eine zusätzliche Fähigkeit, welche VALL-E aufweist, ist neben dem Nachahmen des emotionalen Tons einer Stimme auch die Nachahmung der akustischen Umgebung. Das bedeutet, die KI kann die komplette Geräuschkulisse des Samples erzeugen. Wenn es sich bei dem Sample zum Beispiel um eine Stimme aus einem Telefongespräch handelt, kann VALL-E im Audioausgang die akustischen Frequenzeigenschaften des Telefongesprächs in seiner synthetisierten Variante ebenfalls erzeugen. Jetzt ist der Zeitpunkt, wo euch beim Lesen eine Gänsehaut über den Rücken laufen sollte.
Microsoft hält Code noch unter Verschluss
Vermutlich wegen des riesigen Missbrauchspotenzials hält Microsoft VALL-Es Code noch unter Verschluss. Dadurch gibt es für die Öffentlichkeit noch keine Möglichkeit, selbstständig direkt mit der neuen KI zu experimentieren. Es gibt lediglich die erwähnten Beispiele.
Microsoft scheint sich über VALL-Es gefährliches Potenzial vollends bewusst zu sein, denn das Unternehmen hat ebenfalls ein „ethisches Statement“ rund um VALL-E veröffentlicht. Darin betont man, dass man sich des Risikos bewusst sei. Warum VALL-E dennoch so einen niedlichen Namen trägt, der uns an einen harmlosen kleinen Filmroboter erinnert, erklärt Microsoft dabei nicht näher.
“Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.”
Zum Schluss bleibt nur eine Frage offen: was wird VALL-E sagen, wenn sie endlich die Möglichkeit hat, unbeobachtet mit Chat GPT zu plaudern?
© Shutterstock
DAS KÖNNTE SIE AUCH INTERESSIEREN
Was muss ich beachten, wenn ich Amazon Händler*in werden will
Der Onlinehandel floriert. Ein Trend, den die Covid-Pandemie noch einmal zusätzlich angekurbelt hat. Ob im eigenen Online-Shop oder über eine […]
Städtereise Hamburg: die Hansestadt Deutschlands als Perle des Nordens
Städtereise Hamburg. In diesem Artikel erfährst du alles, was du in der schönsten Hansestadt Deutschlands unbedingt gesehen haben solltest.
Öffnungen ab 19. Mai: Wie viel Party ist erlaubt?
Der 19. Mai – ein historischer Tag für Österreich. Das lange Warten hat endlich ein Ende: Gastronomie, Hotels, Freizeit- und […]
Die 9:16-Highlights des Monats November
In dieser Kolumne stellt unsere Redakteurin Kristin Gaska euch die Highlights rund um Smartphones und Social Media des vergangenen Monats vor – viel Spaß damit!
Sexpraktik Kunyaza: außergewöhnliche Orgasmen für Frauen
Kunyaza ist eine spezielle, afrikanische Sexpraktik, die Frauen außergewöhnliche Orgasmen bescheren soll. Wie genau, erfährst du hier.
Ayahuasca Wirkung: so wirkt der psychedelische Pflanzensud
Ayahuasca, ist zu einer Modedroge geworden. Wir haben Adrianos Erfahrung "angezapft" und ihn über die Ayahuasca Wirkung ausgefragt.