KIViPro: 📼 Videos und Animationen

Überblick

Aktuelle KI-Videomodelle können bereits kurze Sequenzen in unterschiedlichen Stilen generieren. Ähnlich wie bei der bildbasierten Generierung lassen sich diese Clips zur visuellen Unterstützung von Lerninhalten einsetzen. Problematisch bleibt jedoch die inhaltliche und visuelle Kohärenz, insbesondere bei der Kombination mehrerer Clips. Hinzu kommt die fortbestehende Gefahr sogenannter Halluzinationen, also der Erzeugung fehlerhafter oder nicht existierender Inhalte.

Kompetenzen

geeignete KI-Tools auswählen, um die Animationen/Videos zu generieren
Vor und Nachteile von KI generierten Inhalten
Grundlagen Video Modellen wie Image-to-Video und Text-to-Video
Grundlagen Prompting

Anbieter und Modelle zur KI-Videogenerierung

Neben OpenAI und Google hat auch ByteDance (Firma hinter TikTok) mittlerweile ein eigenes KI-Videomodell entwickelt: Seedance 1.0. Eines der ersten bekannten Tools stammt von Runway (Gen 4). Mittlerweile gibt es zahlreiche Modelle, die entweder über die eigene Plattform der Entwickler oder über Fremdanbieter (z. B. die KI Suite von Freepik) genutzt werden können. Hier einige Beispiele populärer KI-Video-Modelle (offene Modelle 🔓):

Runway Gen 4 (Runway AI, USA)
Midjourney (Midjourney AI, USA)
Sora 2 (Open AI mit Anbindung an ChatGPT, USA)
Veo 3 (Google mit Anbindung an Gemini, USA)
Pika 2.1 (Pika Labs, USA)
Luma Ray 3 (Luma AI, USA)
Firefly Video (Adobe, USA)
Kling AI 2.5 (Kuaishou, China)
Seedance 1.0 (ByteDance, China)
Wan 2.2-2.(Alibaba, China) 🔓
LTX 2 (Israelischen Firma Lightricks) 🔓
Stable Diffusion Video (London, UK) 🔓
Hailou AI 1 (MiniMax, China)

Wusstest du schon?

Veo3 von Google kann auch bei Canva (Pro Lizenz) genutzt werden. Hierfür musst du aber vorher deine Systemsprache und Region auf Englisch umstellen, damit du es verwenden kannst.

Einfluss von Input und Trainingsdaten

Wie bei allen KI-generierten Inhalten hängt das Ergebnis stark vom menschlichen Input, den Vorlagen und den Anweisungen ab. Ebenso spielt das Trainingsmaterial des Modells eine zentrale Rolle. Durch die jeweiligen zugrundeliegenden Trainings treten Probleme wie stereotypische Darstellungen oder Bias auf.

Ein Beispiel hierfür ist das nachfolgende Bild. Für die Generierung mit Seedance 1.0 wurde ein einfacher Prompt verwendet:

„Wide shot: A man is in a big forest and looks around. Zoom to his face. Cinematic shot, mystery.“

Da Seedance ein chinesisches Modell ist und nur wenige beschreibende Attribute angegeben wurden, zeigt das Ergebnis eine chinesisch anmutende Person – bei einem chinesischen Modell ein erwartbares Ergebnis.

Beispielvideo mit Runcomfy Plattform und Modell Seedance 1.0

Stolperfallen bei der Nutzung

Ein direkter Vergleich der Vor- und Nachteile einzelner Modelle ist schwierig, da sich die KI-Technologien stetig weiterentwickeln. Für Multimodalität und Verknüpfungen empfiehlt es sich, bestehende Systeme und Anbindungen zu nutzen, z. B. Sora + ChatGPT oder Veo3 + Gemini. Wenn du dich intensiver mit der Videogenerierung auseinandersetzen möchtest, sind Portale empfehlenswert, die mehrere Modelle anbieten. So kannst du anhand vergleichbarer Prompts Unterschiede erkennen und ein Gefühl für die Ergebnisse entwickeln. Die entstehenden Videoclips können heruntergeladen werden und in Videoschnitttools weiter verwendet werden.

Stolperfalle

Viele Plattformen werben mit kostenloser Nutzung (sogenannte Freemium), bieten aber meist nur Testversionen an oder stark eingeschränkte Free Accounts. In der Regel können nur kurze Clips generiert werden, zusätzlich ist eine Registrierung erforderlich. Für die volle Nutzung ist ein kostenpflichtiger Zugang nötig. Auch dann gibt es jedoch oft begrenzte Monatskontingente für generierte Videos.

Videogenerierung - Vor- und Nachteile

Je nach Anbieter erzeugen KI-Modelle Clips durchschnittlich mit einer Länge von 4–10 Sekunden. Bestehende Elemente können ausgetauscht oder neu generiert werden. Im Vorfeld muss klar werden, warum und für welchen Zweck Videos generiert werden - ähnlich wie bei der Bildgenerierung. Im besten Fall hast du bereits ein Konzept vorliegen. Mit generierten Videoclips hast du die Möglichkeit eine Geschichte zu erzählen und szenische Elementen (Charakter - Reale Anmutung, 2D oder 3D). Die Handlung - und damit Vermittlung - wird zentral durch einen Charakter bzw. Protagonisten getragen. Hier ist der Aufwand und die Planung wesentlich höher als bei der Verwendung statischer Bildern und Grafiken. Daneben lassen sich Videoclips üblicherweise als B-Roll verwenden, die dazu dient, die audiovisuelle Wissensvermittlung zu unterstützen oder zu ergänzen. Z.B. um abstrakte Sachverhalte verständlicher darzustellen. Auch bei KI-Videos muss beachtet werden, dass keine Evidenz erbracht werden kann. Da die KI bekanntermaßen zur Halluzinationen neigt und Wahrscheinlichkeiten abbildet, müssen Visualisierungen - und damit Handlungen als künstlich erzeugte Inhalte erkennbar sein und behandelt werden. Alles andere wäre nicht zu vertreten im Rahmen einer glaubwürdigen Wissensvermittlung.

Prompting und Struktur

Ein guter Prompt ist entscheidend, um die Visualisierung wie gewünscht zu gestalten.

Wichtige Elemente eines Prompts:

Motiv – Figuren – Objekte: Wer oder was ist im Video zu sehen? Welche Details und Eigenschaften sind relevant?
Kontext und Setting: Wo befindet sich die Szene? Landschaft, Stadt, Innenraum?
Aktion und Handlung: Was passiert in der Szene? Was passiert am Anfang, was am Ende?
Stil: Realistisch, cartoonartig, 2D, cinematic, Filmstile wie Film Noir usw.
Atmosphäre und Stimmung: Lichtgestaltung, "Look and Feel", z. B. düster, lebendig, Winterabend, Sonnenuntergang
Komposition: Weitere Angaben zur Gestaltung, z. B. Kameraperspektive, Einstellung (Nah, Totale, Froschperspektive)
Kameraaktion: Handelt es sich um eine statische Einstellung oder bewegt sich die Kamera (z. B. Schwenk, Zoom, Fahrt)?
Optionale Hinweise: Technische Parameter (Seitenverhältnis, Länge, Auflösung, z. B. 16:9, 8 Sekunden, 4K), spezieller Look oder Kameramodell (z. B. Objektiv 35 mm)

Verlinkung

Hier findest du Prompting-Hinweise für die Nutzung von Google Veo3, Runway, Midjourney, Adobe Firefly und Sora 2, die sich auch auf andere Tools übertragen lassen. Dabei werden filmgestalterische Grundlagen und Begriffe kurz und knapp vermittelt und veranschaulicht (z. B. Einstellungsgrößen und Perspektive).

Prompt-Pyramide und weitere Möglichkeiten berücksichtigen

Die Komplexität eines Prompts hängt von den eigenen Anforderungen ab. Beschreibe zuerst in einfachen und klaren Worten die Szene und teste den Prompt. So kann bereits die Anordnung des Prompts eine Auswirkungen auf das Video und die Animation haben, da Angaben im Prompt - je nach Reihenfolge - höher gewichtet werden als nachfolgende Informationen. Schaue dir bitte die Hinweise in den Prompting Guides an. Die KI zerlegt einen Prompt in einzelne Tokens und gewichtet. Die Angaben, die früher genannt werden, werden priorisiert. Überlege daher, was dir beim Video am wichtigsten ist. Oft liegt der Fokus auf Motiv und dem Setting. Bitte beachte auch , dass die besten Ergebnisse mit englischen Prompts erreicht werden. Auch gibt es Einschränkungen bei einigen Tools. Bei Canva beispielsweise sollte ein Prompt im Chatmode von Canva AI (Bei Canva AI handelt es sich um einen integrierten Agenten mit speziellen Designschwerpunkt - siehe Screenshot unten) nicht 400 Zeichen überschreiten. Im Reiter "Magic Media" (Toolmode - Video) lag die Grenze bei ca. 280 Zeichen. Diese Angaben sind nicht immer direkt zu finden. Hier wurden ausprobiert und der Chatbot in Canva direkt gefragt. Auf entsprechende optionale Hinweise und ausführliche Beschreibungen im Prompt muss daher verzichtet werden.

Neben der "reinen" Textanweisung gibt es weitere Einstellungen und Parameter, die ergänzend zum Prompt verwendbar sind. Bei Canva könnt ihr aber auch darauf verzichten und alle entsprechenden gestalterischen Parameter in einem Prompt einfügen, wenn der Prompt nicht zu lang ist:

Bei Adobe Firefly hast du auf der linken Seite die weiteren Parameter bzw. die Ergänzungen für den Prompt.

Falls du gerade ein Tool mit einem Modell testen möchtest, schaue in der Texteingabe, ob es die Möglichkeit gibt, die Eingabe anzupassen (z.B. Enhance Prompt oder Prompt verbessern). Es wird dann ein detailliter Prompt vorgeschlagen, den du ändern oder verfeinern kannst. Am Anfang fällt es schwer die eigenen Gedanken und Ideen in eine adäquaten Text und visuelle Beschreibung zu übersetzen. Im ersten Kapitel ging es um die Entwicklung eines Konzeptes und Storyboards. Dabei hast du dich bereits mit der visuellen Gestaltung deines Videos beschäftigt. Wie bereits im vorherigen Kapitel erwähnt, bietet es sich an Portale mit KI Videos zu durchsuchen und sich von Prompts inspirieren zu lassen.

Wusstest du schon?

Recherchiere und Suche nach Bilder und Vorlagen, die dem Look deines Videos entsprechend könnten und sammele diese. Du kannst bei verschiedenen Chatbots Bilder hochladen und analysieren lassen. Bei einigen (aktuell: Claude, ChatGPT 4.o und Qwen 3 Max von Alibaba) ist es sogar möglich kurze Videos hochladen und analysieren. Die KI kann dir dann Rückmeldung geben zur Stimmung, wie Gestaltung und Stil. Frage die KI, wie Sie die Bilder und Videos beschreiben würde und lass dir einen passenden Prompt vorschlagen. Dadurch bekommst du einen guten Eindruck, was benötigt wird, um Prompts zu erstellen.

Die Art des Prompting - im Zuge der Bild- und Videogenerierung - ist gleichzusetzen mit dem klassischen Beschreiben von Szenen bei Drehbüchern und in der Filmgestaltung. Je mehr du dich also ausprobierst, testest und deine Prompts verfeinerst, desto mehr verbesserst du deine gestalterischen Skills und dein visuelles Gespür. Ein weiterer Vorteil ist, dass du schneller zu besseren Ergebnissen kommst und damit auch kostbare Credits sparst, die sonst schnell verbraucht sind. Auch wenn du einen kostenpflichtigen Account hast, ist die Anzahl und Menge der Videos - je nach Modell - stark beschränkt.

Besonders wichtig ist aber auch, dass dir bewusst wird, was "nicht" im Video erscheinen soll. Da die KI bei der Generierung von Videos ebenfalls halluziniert, solltest du zusätzliche Angaben (negative Prompt) machen (z.B. keine Untertitel, keine Objekte im Hintergrund usw.), damit unerwünschte Effekte vermieden werden. Diese Angaben kannst du aber meist erst nach den ersten Videogenerierungen machen, da sich solche "Artefakte" erst dann bemerkbar machen. Solltest du das gleiche Modell und das gleiche Tool über eine gewisse Zeit nutzen, hast du dann eine gewissen Erfahrungswert und ergänzt dein Prompt automatisch mit diesen Parametern. Wie bereits im vorherigen Kapitel erwähnt, bietet es sich an Portale mit KI Videos zu durchsuchen und sich von Prompts inspirieren zu lassen. Einige Anbieter bieten auch integrierte Bibliotheken mit Infos zu den verwendeten Prompts (z.B. Runway) an.

Kohärenz in Videos und Szenen

Insgesamt existieren mehrere Methoden zur Generierung von Videos, die auch kombiniert werden können:

Text-to-Video
Image-to-Video
- Frame-to-Video
  mit Start und Endbild
- Elements-to-Video oder Ingredients-to-Video
  wie Bilder/Grafiken
Video-to-Video
als Vorlage für Charactererstellung und Animationen - Stil und Referenz für Bewegung oder zur
Bearbeitung/Anpassung von Elementen in "realen" Videos

Einige Entwickler bieten mit Ihren Modellen die Möglichkeit Videos zu "bearbeiten" - analog Bildgenerierung wie bei Nano Banana oder Flux. Wie beispielsweise Runway Aleph, um neue Szenen oder Einstellungen zu erstellen. Grundsätzlich ist festzuhalten, dass die KI bei jeder weiteren Generierung ein neues Video erzeugt, dass von der vorherigen Version abweicht. Das kann auch passieren, wenn du den Prompt relativ gleich lässt. Ein erster Schritt ist es, den Prompt in der Struktur und Beschreibung bei einer neuen Szene möglichst gleich zu lassen und nur einzelnen Wörter ergänzt oder weitere Gestaltungsparameter am Ende einfügst. Um eine bessere Konsistenz in den einzelnen Szenen herzustellen, solltest du auf zusätzliche Referenzen zurückgreifen, um entweder einen durchgehenden Charakter, eine wiederkehrende Figur oder Objekte zu verwenden oder einen gleichbleibenden Stil (Farben und Look) aufrechtzuhalten. Auch wenn du unterschiedliche Szenen bzw. Clips generieren möchtest, und diese mit bestehendem Material kombiniert werden sollen, kann ein Wechsel beim Stil stören und sich negativ auf den Gesamteindruck und damit Wissensvermittlung auswirken. Wie bereits erwähnt, sparst du Credits und auch Zeit, wenn du zuerst Bilder generierst, die deiner Szene entsprechend. Dabei kannst du auch mehrere Bilder generieren und kombinieren:

Schritte

Erstelle mit der KI bzw. einem Chatbot deiner Wahl ein (oder mehrere Bilder), die du herunterlädst.
Im Tool nutzt du dann die Option "Image-to-Video" und lädst dann das entsprechende Bild hoch.
Das Bild gibt den Charakter, den Stil, die Stimmung und Komposition vor. Nutze die Texteingabe und beschreibe auschließlich die Handlung und Aktion und Kamerabewegungen, die passieren soll.
Nutze das Bild - die Vorlage - für alle weiteren Videogenerierungen
Weitere Szenen mit fließendem Übergang herstellen:

Entweder du erstellst mehrere Bilder im Vorfeld, die - wie beim Storyboard - die Handlung darstellen und verwendest die Option im Tool "Startbild oder Start Frame" und Endbild oder End Frame". Du lädst dann jeweils die passenden Bilder hoch. Die KI erzeugt dann die Bewegung zwischen den Videos und interpoliert. Alternativ kannst du auch bei den Videos am Ende ein Frame (Bild) erzeugen. Dieses Bild ist dann wieder das Anfangsbild für die neue Szene und deinen weiteren Prompt. Die Erstellung eines Frames geht bei einige Tools (Flow von Google im Veo3 oder Adobe Firefly - siehe Screenshot oben ) direkt intern. Ansonsten kannst du jedes andere Schnitttool verwenden. Du nutzt bepielsweise das Open Source Tool Shotcut. Dort lädst und das Video rein und exportierst einen Frame, den du dann wieder in das KI Tool lädst (Datei >Exportieren)

Mit der Option "Elements-to-Video" oder "Ingredients-to-Video" können mehrere Bilder in einem Video intergriert werden. Z.B. 1. Bild für den Charakter, 2. Bild für das Setting/Location, 3. Bild für Komposition. Weitere Angaben sind dann wieder über die Texteingabe vorzunehmen. Bei "Video-to-Video" können entweder Objekte und andere Bestandteile im Video durch die KI ersetzt werden und damit neue Videos entstehen mit zusätzlichen Effekte (siehe Runway Aleph). Z.B. durch entsprechendes Prompting ("Ändere das Wetter..", "Tausche die Lampe im Hintergrund gegen eine Vase aus").
Hier bewegen wir uns aber bereits im Bereich der Filmproduktionen. Auch kann das Video als Bewegungsreferenz dienen (siehe Adobe Firefly). Wer auf realistische und szenisch-filmische Videoclips setzen möchte und eine hohe Konsistenz bei Charaktergestaltung, Bewegung und Übergänge der Szenen benötigt, sollte sich direkt mit Runway beschäftigen. Es bietet die besten Ergebnisse. Bei Runway gibt es eine speziellen Consistency Mode . Es können mehrere Referenzbilder generiert werden (z.B. jeweils für verschiedene Szenen und Einstellungen), sodass eine komplette Handlung abgebildet ist. Im selben Tool lassen sich diese Bilder dann - per Prompt - animieren. Andere Modelle und Tools mit einer ähnlichen Ausrichtung wie Sora (Funktion: Storyboard für komplexere Szene ) oder Veo (Z.B. mit dem eigenen Tool Flow) nutzen andere Techniken, um Kontinuität herzustellen, z.B. in Bewegung, Ablauf und Übergang. Diese bieten auch eine gute bis sehr Konsistenz durch Referenzbilder (und den eigene integrierten Modellen), um fließenden Szeneübergänge zu realisieren. Darüber hinaus können Videos auch direkt über die angebundenen Chatbots (ChatGPT und Gemini) erstellt werden, jedoch sind die Möglichkeiten etwas eingeschränkter.

Wer sich intensiver mit diesen Möglichkeiten beschäftigen möchte, hier Videotutorials (von Digitale Profis) zu den bekanntesten Tools:

Hinweis

Mit etwas Übung kannst du mit Image-to Video eine kontinuierliche Handlung bzw. eine Video mit einem durchgehenden Stil erzeugen. Aktuell lassen sich entsprechende qualitative Clips ressourcenschonend nur mit kommerziellen Tools umsetzen. Es existieren einige wenige Open Source Modelle (wie Stable Video Diffusion oder Open-Sora - siehe in den jeweiligen Repositorien Hugging Space und Github ) , die jedoch nicht ohne entsprechende Informatikkenntnisse und technische Ressourcen genutzt werden können. Seit diesem Jahr hat die chinesische Firma Alibaba eines ihrer Videomodell Wan 2.2 als Open Source veröffentlicht. Dieses Modell kann auch lokal mit einer entsprechenden GPU- Grafikarte genutzt werden. Darüber hinaus existiert ComfyUI - ein Open-Source-Benutzeroberfläche (UI) zur visuellen Erstellung und Ausführung von KI-Bildgenerierungs-Pipelines, insbesondere für Stable Diffusion und verwandte Modelle. Dadurch ist es möglich, lokal verschiedene frei verfügbare Bild und auch Videogeneratoren lokal zu nutzen. Letztlich wird entsprechendes Know-How benötigt, da es sich nicht um eine Out-of-the-Box Lösung handelt.

Im Nächsten Kapitel widmen wir uns dann der Postproduktion und Finalisierung deines (Lehr-)Videos.

Zuletzt geändert: Donnerstag, 22. Januar 2026, 16:15