KIViPro: 🔈 Voice und Sound

Überblick

Neben der klassischen Sprachaufnahmen besteht die Möglichkeit, den Sprecher-Text auch durch eine KI einsprechen zu lassen. Am Ende wird eine Aufnahme generiert, die teilweise nicht mehr von einer realen Aufnahme zu unterscheiden ist.

Kompetenzen

KI-gestützte Text-to-Speech-Modelle nutzen
Verschiedene Voice-Optionen auswählen und konfigurieren, inklusive Intonation, Betonung, Tempo und Tonalität
KI-gestützte Soundeffekte und Musik generieren oder anpassen, passend zum Videomaterial und Produktionskontext.
Einsatz von KI Voices und Soundlösungen kritisch abwägen, unter Berücksichtigung von Anonymität, Zielgruppe, Lernwirkung und Produktionszielen

Grundprinzip KI-generierter Stimmen: Text-to-Speech

Anstatt Sprechertext selbst einzusprechen, kann KI genutzt werden, um eine synthetische Stimme zu erzeugen. Dies geschieht mithilfe sogenannter Text-to-Speech-Modelle (TTS), die auf Natural Language Processing (NLP, Natürliche Sprachverarbeitung) basieren. Dabei wird der eingegebene Text analysiert, interpretiert und anschließend durch einen Sprachsynthesizer in eine menschenähnliche, natürlich klingende Stimme umgewandelt.

Mittlerweile verfügt ChatGPT über ein eigenes Text-to-Speech-Modell. Dieses ist derzeit jedoch nur über die (kostenpflichtige) professionelle Playground-Umgebung von Open AI oder über ein eigenes Hosting nutzbar. Es existieren zudem freie Open-Source-Modelle, wie z. B. Mozilla TTS. Diese erfordern jedoch Programmierkenntnisse und individuelle Anpassungen, sollen aber der Vollständigkeit halber kurz erwähnt werden.

Voice Generierung in der Praxis: Funktionsweisen und Tools

Es git inzwischen verschiedene Plattformen und Tools, die Voice-Generatorenintegriert haben oder diese als eigenständige Funktion anbieten. Auf Grundlage eines Skripts – entweder selbst erstellt und hochgeladen oder durch KI erzeugt – generiert die KI eine künstliche Sprecheraufnahme.

Dafür können oft verschiedene Stimmtypen aus einer Bibliothek ausgewählt und getestet werden. Die Qualität hinsichtlich Aussprache, Natürlichkeit und Sprachduktus variiert je nach Anbieter. Oft ist zudem nicht ersichtlich, welches KI-Modell im Hintergrund arbeitet. Je nach Tool können über Einstellungsoptionen Parameter wie Tempo, Pausen, Betonung oder Tonlage angepasst werden.

Arten der KI-Voice-Erstellung

Voice Generation: Textvorlagen oder Prompts werden als Text per TTS in eine Sprachaufnahme umgewandelt.
Voice Changer: Eine bestehende Sprachaufnahme wird als Vorlage hochgeladen. Die Intonation und Tonalität der Aufnahme bleiben erhalten, die Stimme selbst wird durch KI verändert.
Voice Cloning: Die eigene Stimme wird aufgenommen, um sie als individuelle KI-Stimme zu nutzen.
KI-gestütztes Dubbing: Automatische Synchronisation mit KI-Stimmen auf Basis von Speech-to-Text

Beispiel: ElevenLabs

Ein bekanntes Tool ist ElevenLabs. Bei diesem Tool kannst du deinen Sprechertext selbst einsprechen und damit die KI-Stimme "anleiten" (Voice Changer). Die KI analysiert deine Intonation und überträgt sie auf eine synthetische Stimme, sodass eine besonders natürliche Sprachwiedergabe entstehen kann.

Natürlich ist eine Sprecherstimme hier von Vorteil, aber ansonsten kann mit ein paar Atemübungen im Vorfeld auch die eigene Stimme trainiert und verbessert werden. Wer keine eigene Stimme verwenden möchte, kann darauf verzichten und stattdessen die integrierten Parameter anpassen – oder diese direkt im Prompt beschreiben (z. B. durch Beschreibungen in rechteckigen Klammern, wie [angry] oder [friendly]). Die Qualität der erzeugten KI-Stimmen ist mittlerweile so hoch, dass sie von echten Stimmen kaum noch unterscheidbar sind.

Das Modell von ElevenLabs wird auch bei anderen Tools (wie Synthesia und Heygen) eingesetzt, beispielsweise zur Avatar-Erstellung. Viele Videotools integrieren Text-to-Speech-Funktionen zunehmend als festen Bestandteil, um den kompletten Videoproduktionsablauf abzudecken, z. B. Filmora und Camtasia (mit dem Tool Audiate).

Möchtest du wissen wie du ElevenLabs nutzen kannst? Dann schaue dir das Video an:

Vor- und Nachteile der KI-Voice

KI-generierte Stimmen sind reproduzierbar und sorgen so für gleichbleibende Qualität – unabhängig von der Verfügbarkeit einer Sprecherin oder eines Sprechers. Darüber hinaus bieten sie Anonymität, wenn keine eigene Stimme genutzt wird (bei Verzicht auf Voice Changer und Voice Cloning).

Allerdings kann eine persönliche Stimme Nähe und Identifikation fördern und somit im Kontext von Lehr-/Lernvideos einen positiven Einfluss auf die Motivation der Lernenden haben, insbesondere im schulischen Kontext. Für kurze Lernclips oder standardisierte Inhalte (Grundlagenvermittlung), z. B. in der Hochschule oder Weiterbildung, eignet sich die Nutzung von KI-Stimmen jedoch hervorragend.

Sound und Musik

Neben Sprachaufnahmen können auch Soundeffekte oder Musik mithilfe von KI erzeugt werden.

Soundeffekte

Bei ElevenLabs gibt es die Funktion "Text-to-Soundeffects", mit der sich Geräusche auf Basis on Text erzeugen lassen. Um die Funktion zu testen, wird ein Account benötigt. Auch Adobe Firefly bietet in einer Beta-Version einen Soundgenerator an, der – ähnlich wie bei der Methode des Voice Changer – Soundeffekte durch die "Anleitung" einer vorherigen Sprachaufnahme generiert. Die Adobe-Dokumentation für das Voice-to-Soundeffects-Tool ist hier zu finden: https://helpx.adobe.com/firefly/work-with-audio-and-video/work-with-audio/voice-to-sound-effects.html.

Musik

Ein paar beispielhafte Tools für die Erstellung von KI-generierter Musik:

InVideo.ai: Erstellt automatisch passende Sounds und Musik für das ausgewählte Videomaterial
Suno: Professionelle KI-Musikplattform
Canva (in Kooperation mit Sounddraw.ai): Musikgenerator mit integrierten Anpassungsoptionen
Adobe Premiere: Passt Musikstücke mithilfe von KI automatisch an die Länge eines Videos an

Alternativ können natürlich weiterhin bestehende, lizenzfreie Musikstücke genutzt oder angepasst werden.