Microsoft hat vor Kurzem seine neue Sprach-KI VALL-E präsentiert. Das Text-to-Speech-Modell enthält ein spezielles Feature. Denn VALL-E kann menschliche Stimmen bereits nach dem Hören eines 3 Sekunden langen Audiosamples nachahmen. Die Resultate, die das Programm dabei liefert, sind erschreckend. Denn Microsoft stellt damit alle bisherigen Sprach-KIs in den Schatten. VALL-E schafft es, den emotionalen Ton und die Art und Weise des Sprechers nachzubilden.
Dass die KI auch ein immenses Missbrauchspotenzial in sich birgt, hat das Unternehmen auch schon direkt bei der Präsentation unterstrichen. So arbeitet man im Hintergrund noch an technische Möglichkeiten, mit denen man in Zukunft künstlich erzeugte Stimmen eindeutig als generiert identifizieren kann.
Microsoft hofft auf VALL-E
Mit ihrer neuen künstlichen Intelligenz betritt Microsoft ein Feld, auf dem in den letzten Wochen bahnbrechendes präsentiert wurde. Denn jahrelang hat die breite Öffentlichkeit auf KIs gewartet, welche mit erschreckender Präzision und riesigem Leistungspotenzial uns Menschen nachahmen und übertreffen können. Nach der beeindruckenden Text-KI Chat-GPT, AIVA der KI fürs Musikproduzieren und dem technischen Künstler DALL-E, eine KI, welche Bilder generieren kann, betritt nun Microsofts VALL-E die Bühne.
Die Macher von VALL-E spekulieren darauf, dass die KI in Zukunft als hochwertige Text-zu-Sprache Anwendung mit Funktionen weit darüber hinaus eine entscheidende Rolle auf dem Markt spielen könnte. Es gibt viele Bereiche, wo sich VALL-E einsetzten lässt. Zum Beispiel beim Synchronsprechen oder der Transkription von Text zu Sprache. Hier könnte man Fehler des Sprechers oder Sprecherin nachträglich mit der originalen Stimme korrigieren.
Außerdem gibt es noch ein komplettes Feld an Kombinationsmöglichkeiten mit anderen generativen KIs wie zum Beispiel der GPT3, das Sprachverarbeitungsmodell von OpenAI. Man scheint hier gerade einmal die Zehen in einem riesigen Ozean getippt zu haben. In einer Aussendung beschreibt Microsoft die Fähigkeiten von VALL-E wie folgt:
„VALL-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als akustische Aufforderung zu synthetisieren. Forschungsergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Darüber hinaus stellen wir fest, dass VALL-E die Emotionen des Sprechers und die akustische Umgebungsanforderungen in der Synthese berücksichtigen kann.“
Funktionsweise der KI
Microsoft bezeichnet VALL-E als „neuronales Codec-Sprachmodell“. Die KI nutzt eine Technologie namens EnCodec, welche von META im Oktober 2022 angekündigt wurde. Der große Unterschied zu anderen Text-zu-Sprache Methoden, bei denen normalerweise durch Manipulation von Wellenformen die Stimme erzeugt wird, ist folgender: VALL-E generiert Audio Codes, indem es zuerst die Stimme, die es nachahmen soll, komplett analysiert.
Dafür zerlegt das Programm mit der EnCodec-Methode die Informationen in kleine Einheiten, sogenannte „Tokens“. Danach verwendet es die bereits eingespeisten Trainingsdaten. Also bereits von Microsoft an VALL-E weitergegebene Stimmen, um die Stimme, die es nachahmen soll, zu generieren. Die genaue technische Funktionsweise können Interessierte auf einer von Microsoft eingerichteten GitHub-Seite rund um VALL-E online einsehen. Der Code von VALL-E ist aktuell nicht öffentlich zugänglich.
Quelle: valle-demo.github.io | Microsoft Grafik zur Funktionsweise von VALL-E
META Audiobibliothek
Für die Sprachsynthese-Fähigkeiten von VALL-E hat Microsoft in der Trainingsphase auf eine von META zusammengestellten Audiobibliothek mit dem Namen „Libri-light“ zurückgegriffen. Hier finden sich über 60.000 Stunden in englischsprachiger Sprache von mehr als 7. 000 verschiedenen Sprecher*innen. Das meiste Material stammt dabei von kostenlosen online Bibliotheken für Hörbücher wie „LibriVox“. Je näher die nachzuahmende Stimme an bereits eingespeiste Stimmen aus den Trainingsdaten sind, desto genauer fallen die Ergebnisse von VALL-Es Sprachsynthese aus.
Auf der Informations- und Beispielseite von Microsoft finden sich Dutzende Audiobeispiele der KI. Dabei lassen sich stets verschiedene Modalitäten aufrufen. Ganz links findet man meistens das Sprachsample in seiner ursprünglichen Variante. Daneben hat Microsoft Versionen eingebettet, welche VALL-E in Experimenten herausfordern sollen. Die Ergebnisse, die VALL-E dabei liefert, sind ähnlich bis beeindruckend und manchmal erschreckend.
Eine zusätzliche Fähigkeit, welche VALL-E aufweist, ist neben dem Nachahmen des emotionalen Tons einer Stimme auch die Nachahmung der akustischen Umgebung. Das bedeutet, die KI kann die komplette Geräuschkulisse des Samples erzeugen. Wenn es sich bei dem Sample zum Beispiel um eine Stimme aus einem Telefongespräch handelt, kann VALL-E im Audioausgang die akustischen Frequenzeigenschaften des Telefongesprächs in seiner synthetisierten Variante ebenfalls erzeugen. Jetzt ist der Zeitpunkt, wo euch beim Lesen eine Gänsehaut über den Rücken laufen sollte.
Microsoft hält Code noch unter Verschluss
Vermutlich wegen des riesigen Missbrauchspotenzials hält Microsoft VALL-Es Code noch unter Verschluss. Dadurch gibt es für die Öffentlichkeit noch keine Möglichkeit, selbstständig direkt mit der neuen KI zu experimentieren. Es gibt lediglich die erwähnten Beispiele.
Microsoft scheint sich über VALL-Es gefährliches Potenzial vollends bewusst zu sein, denn das Unternehmen hat ebenfalls ein „ethisches Statement“ rund um VALL-E veröffentlicht. Darin betont man, dass man sich des Risikos bewusst sei. Warum VALL-E dennoch so einen niedlichen Namen trägt, der uns an einen harmlosen kleinen Filmroboter erinnert, erklärt Microsoft dabei nicht näher.
“Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.”
Zum Schluss bleibt nur eine Frage offen: was wird VALL-E sagen, wenn sie endlich die Möglichkeit hat, unbeobachtet mit Chat GPT zu plaudern?
© Shutterstock
DAS KÖNNTE SIE AUCH INTERESSIEREN
12 JAHRE CALLE LIBRE – WIEN WIRD WIEDER ZUR LEINWAND
Vom 16. bis 23. August verwandelt sich Wien einmal mehr in ein riesiges Open-Air-Atelier: Das Calle Libre Festival geht in […]
Wisch dir den Winter weg! Tipps und Tricks für deinen Frühjahrsputz
Die ersten Sonnenstrahlen blitzen durch das Fenster, die Vögel zwitschern, die Tage werden länger- der Frühling steht vor der Tür. […]
Lighthouse 2024: ein Wochenende voller Highlights
Du hast das Lighthouse Festival 2024 in Kroatien verpasst? Wir waren dort und von uns erfährst du alles, was du darüber wissen musst.
TikTok-Trend: Autos stehlen, die meisten Likes aller Zeiten und andere Highlights
TikTok wildert in YouTubes Gefilden, US-Bundesstaaten klagen Meta, YouTube plant eigenen Nachrichtendienst und andere Trends.
TikTok & Fashion: Wie das soziale Medium eine Branche erobert
TikTok und die internationale Fashionbranche – was angesichts der Pandemie zunächst wie eine Notlösung wirkte, entwickelte sich zu einer “Win […]
Tipps für die Studentenwohnung und WG: 10 Dinge, die du beachten solltest
Für viele Studierende ist ein klassisches WG-Leben in der Studienzeit unverzichtbar. Nur wenige können sich eine eigene, erste Wohnung leisten. […]