Durch die Einführung von Google Veo 3 ist es mittlerweile möglich komplexere Videoclips mit einer Länge von 8 Sekunden zu generieren. Diese können Sounds und einen Dialog enthalten. Dadurch können einzelne Szenen mit einem Prompt generiert werden. Veo 3 kann im Rahmen der Google AI Studio verwendet werden wofür ein Pro Account notwendig ist. Neben der Nutzung von Gemini bietet Google mit Flow ein professionelles Videogenerierungstool. Dort können einzelne Szenen (Scenebuilder) generiert und zu einer Sequenz zusammengefügt werden. Auch andere Anbieter haben die Modell von Veo in ihrem Tool integriert bzw. machen eine Nutzung möglich (z.B. Canva - Text-to-Video).

Alex Olteanu hat sich intensiv mit Veo 3 und den Funktionen beschäftigt:https://www.datacamp.com/de/tutorial/veo-3

Nach mehrere Iterationsschritten wurde eine Prompt für eine Werbeclip erstellt

A very crowded office elevator during morning rush hour. The doors are closed at the start of the video, and as they begin to slowly open, we hear soft elevator music from the ceiling speakers and a gentle mechanical hum. The camera holds a single, continuous, eye-level shot, focused tightly on two well-dressed colleagues standing face-to-face — uncomfortably close due to the packed space. Just as the elevator doors are halfway open, the man calmly and confidently says: “I once sneezed in the all-hands and clicked ‘share screen’ at the same time. No survivors.” The woman reacts with genuine laughter — amused but never exaggerated — and she never speaks, recoils, touches her face, or steps back. Around them, the other elevator passengers remain relaxed and detached: one scrolls on their phone, another stares forward in thought, someone else shifts their bag — but no one looks at or reacts to the main characters. The doors continue to open fully, and at the end of the shot, the two colleagues step out of the elevator while the camera stays fixed in place. The characters never look into the camera. Do not include any captions, subtitles, or on-screen text.

Die Herausforderung bestand auch darin eines geeigneten negativen Promptings, um eine reale anmutenden Szene zu generieren. das Beispiel ist im oberen Link zu sehen. Das Logo am Ende wurde mit einem andere Tool erstellt. In Deutschland werden die Clips mit eine Art Wasserzeichen ("Veo") im unteren Bereich versehen. 

Wie bei anderen Text-To-Video Modellen bestehen die Prompts aus den Elemente und Beschreibungen:

  • Motiv: Objekte/Figuren/Charakter
  • Kontext: Setting und Hintergrundbeschreibung
  • Handlung und Aktion(en)
  • Perspektive und Kameraktionen (Einstellungen und Aktion/Bewegung)
  • Stil
  • Atmosphäre und Stimmung (z.B. Farben und Licht)
  • Negative Prompts: Was soll nicht zu sehen sein?

Zusätzlich kommen bei Veo 3 hinzu

  • Beschreibung Sound und Musik 
    ("...we hear soft elevator music from the ceiling speakers and a gentle mechanical hum")
  • Dialog und Aussagen ("...Just as the elevator doors are halfway open, the man calmly and confidently says: “I once sneezed in the all-hands and clicked ‘share screen’ at the same time. No survivors.”)
  • ggf. weitere beschreibende Angaben zum Stil und zur Stimmung

Hinweis

Weitere Informationen zum Prompting mit dem Veo Modell findest du auf dem Google Seiten: https://cloud.google.com/vertex-ai/generative-ai/docs/video/video-gen-prompt-guide?hl=de


Beispiel Google Flow: Oberfläche und Beispielclips

Mit Veo können ganze Handlungen generiert werden. Jedoch gibt es immer noch Schwierigkeiten mehrere Szenen zu einem Video zusammenzufügen und eine Kontinuität zu gewährleisten. Mittlerweile ist Open AI mit Sora 2 nachgezogen und Google hat ein Update von Veo 3 veröffentlicht  - Veo 3.1. Der Zugang ist in Deutschland jedoch noch eingeschränkt und muss noch evaluiert werden. 

Bei anderen Anbietern und Tools, sind Dritttools wie Elevenlabs integriert, um Sprache in szenischen Clips zu erzeugen. 



Zuletzt geändert: Freitag, 24. Oktober 2025, 14:22