Dolly hat Sprechen gelernt! Chancen und Gefahren digitaler Stimmen-Zwillinge (Von André Schlegl) - Schwerpunkt: "Künstliche Intelligenz" - horus 3/2024 - Horus - Veröffentlichungen

Die Weltöffentlichkeit hielt vor Staunen und Skepsis den Atem an, als am 5. Juli 1996 das weltweit erste geklonte Säugetier das Licht der Welt erblickte. Schnell wurden berechtigterweise nicht nur tierschutzpolitische, sondern auch ethische Fragen laut. Werden bereits Menschen geklont? Wie würden sich geklonte Menschen auf das allgemeine Leben auf der Welt auswirken? Und wie nahe sind wir dem Szenario, in dem Menschen nur aus militärischen Gründen geklont und als Armee gegen andere Völker eingesetzt werden?

Diese Fragen kommen zunächst sehr hochtrabend daher. Jedoch können deren Antworten durchaus das Ende bestimmter Gedankenketten bedeuten. Ähnliche Fragestellungen werden beim Thema laut, wenn sogenannte Deepfake-Skandale bekannt werden. Unter Deepfakes versteht man den Aufbau einer Täuschung, mit der anderen Menschen vorgegaukelt werden soll, es handle sich bei einer Audio- oder Videoaufnahme um eine ernstgemeinte und vor allem echte Botschaft.

Ein Beispiel: Erst vor wenigen Monaten wurde bekannt, dass beim britischen Ingenieurkonzern Arup ein Mitarbeiter dazu gebracht wurde, umgerechnet 23 Millionen Euro an Betrüger zu überweisen. Innerhalb einer Videokonferenz wurden derart komplexe Audio- und Videoaufnahmen durch künstliche Intelligenz (KI) angefertigt, dass der Angestellte glaubte, mit dem Finanzvorstand des Konzerns zu kommunizieren. Hierbei war die Technik des Voiceclonings, auch "audio deepfake" genannt, maßgeblich mitbeteiligt.

Der digitale Stimmen-Zwilling - Spielerei oder absolute Gefahr?

Seit Beginn der 2020er-Jahre erfreuen sich sämtliche KI-Lösungen, wie ChatGPT, Midjourney, Suno oder ElevenLabs, größter Beliebtheit. In kürzester Zeit lassen sich von ChatGPT Zeitungsartikel verfassen, welche mittels ElevenLabs vertont und mit ansprechenden Fotos von Midjourney ergänzt werden. Da bleibt es nicht fern, dass in privaten Kreisen mal Sätze fallen wie: "Wow, lass mich doch mal singen wie Künstler XY" oder "Ich kaufe mir jetzt nur noch Bücher im ePub-Format und lasse sie von Hollywood-Synchronsprechern lesen."

Seit geraumer Zeit gibt es Dienste, mit denen sich Hörbücher per KI generieren lassen. Jedoch arbeitet die KI nur so gut wie das Transkript, also das Schriftgut, welches der KI-Technik zu Grunde liegt. Hinzukommen die Herausforderungen, wenn es darum geht, das Schriftgut in natürlich klingende Stimme zu verwandeln. Durch stetige Weiterentwicklung existieren mittlerweile KI-Lernmodelle, die nicht nur Frequenz, Tongeschlecht oder grundlegende Melodiemuster von Sprachaufnahmen imitieren, sondern auch mit einer gewissen Trefferwahrscheinlichkeit Satzmelodien und sogar emotionale Stimmlagen auf Basis des vorliegenden Manuskripts berechnen und in Audiosignal umwandeln können.

Wie funktioniert KI und die Technologie des Voiceclonings?

Eine KI funktioniert grundsätzlich nur in einem Verbund. Viele kleinere Programme mit spezifischen Aufgaben analysieren Daten und werden anschließend zusammengetragen und von übergeordneten Programmen ausgewertet. Diese Ergebnisse werden wiederum verarbeitet und erneut von einem Kollektiv aus kleineren Programmen verarbeitet und ausgewertet. Dies geschieht so lange, bis das neuronale Netzwerk mit dem Ergebnis "zufrieden" ist und das Ergebnis nun in Form von Audio, Bild, Video oder Text ausgegeben werden kann. Unser menschliches Gehirn funktioniert exakt genau nach diesem Prinzip. Dabei entsteht das "Zufriedenheitsgefühl" aus der Summe der Teilergebnisse sämtlicher Gruppen innerhalb des Kollektivs.

Ein Beispiel aus dem Alltag: Wenn Sie beispielsweise einen Kuchenteig kneten, dann tun Sie dies auch nur so lange, bis Sie der Meinung sind, dass jetzt genug geknetet wurde.

Während Sie im Allgemeinen damit beschäftigt sind, einen Kuchenteig zu Kneten, arbeitet Ihr neuronales Netzwerk auf Hochtouren. Sensoren in Ihren Fingerspitzen nehmen die Struktur und Temperatur des Kuchenteigs wahr, Muskeln und Sehnen melden an sämtliche Nervenbahnen, wie leicht oder schwer der Teig zu kneten ist. Aus gelernten Erfahrungen wissen Sie, wie ein Teig grundsätzlich beschaffen sein muss, um als geeignet für die weitere Verarbeitung zu gelten. Haben Sie diese Vorerfahrung nicht, so müssen Sie mit dieser Vorerfahrung "gefüttert" werden. Dies passiert dann wiederum über Bücher zum Thema Backen oder Sie fragen im Kreis Ihrer Freunde oder Familie nach. Wiederholen Sie den Vorgang viele Male und das auch noch intensiv, so spricht man vom sog. "Deep Learning". Sie merken also, eine KI ist nur so gut wie die Daten, mit denen sie "gefüttert" wird, und wie lernbereit diese ist. Übertragen auf die Technologie des Voiceclonings lernt eine KI anhand des vorliegenden Audiomaterials sämtliche Stimmeneigenschaften wie Satzmelodie, Tonhöhe, Formanten etc. auswendig, um die Stimme nachbilden zu können.

Ethische und Sicherheitstechnische Bedenken

Eine der größten Sorgen im Zusammenhang mit Voicecloning ist das Potenzial für Missbrauch. Täuschend echte Stimmnachbildungen könnten für Betrug, Identitätsdiebstahl oder die Verbreitung von Desinformation genutzt werden. Siehe das obige Beispiel hinsichtlich des Ingenieurkonzerns. Ebenso politische Gegner könnten gefälschte Aussagen generieren, um das Ansehen eines Politikers zu schädigen. Solche Szenarien unterstreichen die Notwendigkeit strenger gesetzlicher Regelungen und technischer Schutzmaßnahmen.

Datenschutz und Einwilligung

Ein weiterer kritischer Aspekt betrifft den Datenschutz und die Einwilligung der betroffenen Personen.

Die Erstellung eines Voiceclones erfordert umfangreiche Sprachproben, ein bis drei Stunden Audiomaterial der Zielperson. Ohne deren ausdrückliche Zustimmung stellt dies einen gravierenden Eingriff in die Privatsphäre der Person dar, deren Stimme geklont wird.

Hier müssen klare Richtlinien und ethische Standards entwickelt werden, um den Missbrauch zu verhindern und die Rechte der Individuen zu schützen. Hierzu hat die EU mit dem "AI Act" im Mai 2024 erste Grundlagen zur Regulierung von KI-Technologien gelegt. So werden beispielsweise Gefahrenpotenziale in Gefahrengruppen eingeteilt. Bedeutet: Ein Backautomat mit intelligenter Bilderkennung zur Bestimmung des perfekten Bräunungsgrads von Brötchen bekommt das Prädikat "Bedenkenlos - MINIMAL RISK", während eine KI zur Erzeugung von fotorealistischen Misshandlungen von Menschen das Prädikat "absolute Gefährdung - UNACCEPTABLE RISK" bekommt.

Positive Aspekte und Chancen für Menschen mit Behinderungen

Trotz der genannten Bedenken bietet Voicecloning erhebliche Vorteile, insbesondere für Menschen mit Behinderungen. Die Technologie kann dazu beitragen, technische Barrieren zu überwinden und die Lebensqualität Betroffener erheblich zu verbessern.

Für Menschen, die ihre Stimme aufgrund von Krankheiten wie ALS (Amyotrophe Lateralsklerose) oder aufgrund von Unfällen verloren haben, kann Voicecloning eine revolutionäre Lösung darstellen. Durch die Nutzung früherer Sprachaufnahmen kann eine KI die verlorene Stimme nahezu originalgetreu rekonstruieren. Dies ermöglicht Betroffenen, ihre eigene Stimme in der Kommunikation zu nutzen, was eine tiefgehende emotionale Bedeutung hat und die Lebensqualität deutlich steigern kann.

Voicecloning kann auch für personalisierte Assistenzsysteme verwendet werden. Menschen mit Sehbehinderungen oder anderen Einschränkungen, die auf Sprachassistenten angewiesen sind, könnten von einem System profitieren, das speziell auf ihre Bedürfnisse zugeschnittene, vertraute Stimmen verwendet. Unternehmen wie Acapella bieten dies bereits seit geraumer Zeit an. Es lässt sich quasi eine Sprachausgabe mit der eigenen Stimme erzeugen. Wenngleich bei einigen Unternehmen derzeit die Erstellung einer solchen KI noch nicht barrierefrei möglich ist und das Aufnehmen von Audiodaten noch fremder Hilfe bedarf.

Die Technologie kann ebenfalls dazu beitragen, barrierefreie Medienangebote zu schaffen. Hörbücher, Nachrichtensendungen und andere audiovisuelle Inhalte könnten mit einer vertrauten Stimme bereitgestellt werden, was für Menschen mit Sehbehinderungen oder Leseschwierigkeiten von großem Vorteil ist. Mittlerweile finden sich auf vielen Nachrichtenportalen Buttons wie "Vorlesen". Hierbei handelt es sich mittlerweile nicht mehr um einfach "Text zu Sprache"-Anwendungen, sondern um KI-Lösungen, die eben nicht nur mittels einer roboterähnlichen Stimme sämtlichen Text zum Klingen bringen, sondern um komplexere Programme, die versuchen, kontextbezogene Emotionen mit in den hörbaren Vortrag aufzunehmen. Dies gelingt, trotz intensiver Entwicklung, derzeit noch mittelmäßig gut. Während nahezu reine Sachtexte gut bis sehr gut vorgetragen werden, bleibt die passende Emotion bei belletristischen oder gar ironischen Texten teilweise aus oder wird fehlinterpretiert, was zu einem negativen Hörerlebnis führt. Anzumerken sei hier, dass Ironie für eine KI ein Meisterstück der Meisterklasse darstellt. Ironie ist menschengemachte Komplexität in Reinform und bildet ein Kommunikationsverhalten, welches sich bisher nur mit sehr viel Aufwand künstlich nachbilden lässt.

Zum Autor

André Schlegl ist Tontechniker sowie Informatikkaufmann. Seit 2016 arbeitet er in der Deutschen Blindenstudienanstalt e.V. (blista) und ist dort für die Deutsche Blinden-Hörbücherei (Audioproduktionen), das Kompetenzzentrum für barrierefreie IT (u. a. Zugänglichkeitstests sowie Schulung externer Kunden zur Barrierefreiheit) und die Veranstaltungstechnik tätig. Er unterstützt außerdem Schüler*innen mit Hör-Sehbeeinträchtigungen hinsichtlich akustischer Hilfsmittelsysteme.