Überblick

Untertitel und Übersetzungen fördern die Barrierefreiheit und erweitern die Reichweite von Inhalten. KI-gestützte Tools ermöglichen es, automatisch Transkripte und Übersetzungen zu erstellen, die bearbeitet werden können. Wir zeigen, wie diese Technologie funktioniert und stellen verschiedene Tools vor, mit denen Untertitel schnell generiert und angepasst werden können.

Grafik

Kompetenzen

  • Grundlagen der Anwendung von Speech-to-Text-Tools verstehen
  • Geeignete KI-Tools zur Erstellung von Untertiteln und Übersetzungen auswählen und anwenden
Untertitel mit KI
Untertitel sind ein wichtiges Werkzeug zur Förderung der Barrierefreiheit.  Durch mehrsprachige Untertitel können Videos zudem einer größeren Zielgruppe zugänglich gemacht werden. Hierfür generieren KI-Systeme automatisch Transkriptionen und Übersetzungen, die anschließend weiter editiert werden können. Mittlerweile nutzen auch viele Content-Creator Untertitel als generelles Stilmittel für ihre Social Media-Inhalte. Ein weiterer Vorteil: Videos können ohne Ton konsumiert werden - und somit ohne, dass andere Personen im direkten Umfeld gestört werden.

Automatische Untertitel: Erstellung, Bearbeitung und Übersetzung

Wie lässt sich ein Untertitel automatisch erzeugen, anpassen und übersetzen? Im Folgenden werden die grundlegenden Möglichkeiten dieser Methode sowie beispielhaft einige Tools vorgestellt. Darüber hinaus zeigen wir, wie Videos auch nachträglich mit KI transkribiert und mit Untertiteln oder Übersetzungen versehen werden können.
Auf Basis einer automatisch generierten Transkription können Untertitel im jeweiligen Bearbeitungstool angepasst werden: Fehlerhafte Wörter oder Sätze lassen sich manuell korrigieren und ergänzen. 

Stolperfalle

Achte bei automatisch generierten Untertiteln auf KI-Halluzinationen, also auf automatisch hinzugefügte Textstellen (z. B. Abschiedsworte am Ende). Diese Wörter sollten entfernt werden, wenn es sich um künstlich erzeugte Passagen handelt.


Beispiele: Untertitel mit Premiere und Shotcut
Die automatische Untertitelerstellung ist inzwischen integraler Bestandteil vieler Videotools und Plattformen (z. B. Canva, Descript), genau wie die Transkription (Speech-to-Text). Im Folgenden zeigen wir anhand von zwei Videoschnitt-Tools (Adobe Premiere und das Open Source-Tool Shotcut) beispielhaft, wie Untertitel generiert und übersetzt werden.

Bei Adobe Premiere wird das Video zuerst transkribiert (siehe Abschnitt Textbasierte Videobearbeitung). Auf Basis des Transkripts lässt sich im Fenster "Transkript" (CC-Icon) ein Untertitel erstellen, der automatisch auf die obere Spur der Videosequenz gelegt wird. Die Untertitelspur und Untertitelgrafiken können anschließend im Eigenschaften-Fenster bearbeitet werden. Soll der Untertitel übersetzt werden, lässt sich über das Aktionsmenü im Fenster (drei Punkte) eine Übersetzung in verschiedene Sprachen durchführen. Für jede Sprache wird eine separate Untertitelspur erzeugt, die bei Bedarf aktiviert oder deaktiviert werden kann. Das Video kann mit Untertiteln exportiert werden.

Beispiel: Adobe Premiere - Untertitel aus Transkript erzeugen und bearbeiten


Bei dem Open Source-Tool Shotcut muss (im Gegensatz zu den kommerziellen Tools wie Adobe Premiere, DaVinci Resolve oder Camtasia) zunächst ein Sprachmodell heruntergeladen und importiert werden. In unserem Beispiel wird das Sprachmodell von OpenAI Whisper: von Tiny bis Large verwendet.

Über den Reiter in der Hauptleiste "Untertitel" (Sprechblasen-Icon) wird das gewünschte Modell (Sprache-zu-Text) ausgewählt und der Transkriptionsprozess gestartet. Je nach verwendetem Modell und der Rechnerleistung kann der Prozess einige Zeit dauern. Wir empfehlen zum Einstieg ein kleineres Modell (z. B. Tiny), um die Qualität der Transkription und des Untertitels zu prüfen.
Die Transkription erscheint im Untertitelfenster. Zwar kann im Transkript durch das Video und die Timeline (Zeitachse unten) gesprungen werden, eine direkte Bearbeitung ist jedoch nur eingeschränkt möglich. Daher eignet sich Shotcut aktuell nicht für einen textbasierten Videoschnitt, sondern nur zur Erzeugung von Untertiteln.

Beispiel: Shotcut, Untertitelfunktion

Untertitel nachträglich erzeugen oder bearbeiten 

Untertitel können auch nachträglich erzeugt und integriert werden, zudem können bestehende Untertiteldateien (.srt oder .vtt) bearbeitet werden. Hierfür eignen sich kostenlose Tools wie Subtitle Edit oder auch Voice AI (verfügbar über die AcademicCloud). Voice AI kann jedoch nur Audio-Dateien verarbeiten. Es ist auch möglich, auf die Produktion eines separaten Untertitels zu verzichten. 

Verlinkung

Im wissenschaftlichen TIB AV-Portal werden die Videos nach dem Upload automatisch transkribiert. Die TIB greift auf Sprachmodelle von OpenAI Whisper zurück. Im Modul "Veröffentlichung" zeigen wir dir, wie du im AV-Portal vorgehst.

Wie beim Tool Shotcut müssen die benötigten Speech-to-Text-Sprachmodelle (z. B. Whisper) auch bei SubtitleEdit zunächst heruntergeladen und lokal für die Transkription importiert werden. Da hierbei die Rechenleistung des eigenen Computers genutzt wird, kann die Analyse je nach Hardware etwas dauern. Dennoch lohnt sich der Einsatz: Vorhandene Untertiteldateien (z. B. .srt, .vtt) können importiert und weiter bearbeitet werden.

Bei SubtitleEdit sind zwar eine Übersetzungsfunktion und eine Text-to-Speech-Option integriert, jedoch sind diese nur eingeschränkt nutzbar. Sie erfordern Accounts bei externen Anbietern (z. B. ChatGPT oder ElevenLabs) und setzen API-Schlüssel voraus, weswegen wir nicht weiter darauf eingehen. Alternativ kann das Transkript exportiert werden und mit einem Chatbot oder einem Übersetzungstool wieDeepl übersetzt werden. Anschließend kann die Datei wieder in das Videotool importiert werden, um daraus eine neue Untertitelspur zu generieren.

Beispiel: SubtitleEdit