StoryMem: Schlüsselbilder sichern Konsistenz in KI-Video-Storys

Kurz und knapp:

KI‑Videos, die mehrere Szenen zu einer Geschichte verbinden, leiden oft unter inkonsistenten Figuren, wandernden Details und veränderten Umgebungen. Forscher:innen von ByteDance und der Nanyang Technological University haben deshalb StoryMem entwickelt — ein System, das gezielt Schlüsselbilder speichert und so Konsistenz über mehrere Szenen herstellt.

Was genau das Problem ist

Viele aktuelle Videomodelle liefern hübsche Kurzclips, kippen aber bei längeren Storys: Haare, Kleidung oder Requisiten können plötzlich anders aussehen, Hintergründe springen, und Details „wandern“ zwischen den Szenen. Bisherige Ansätze stehen vor einem Dilemma: Alle Frames zusammen zu generieren ist extrem rechenintensiv; Szenen einzeln zu erzeugen bricht dagegen die visuelle Kontinuität.

Die Idee hinter StoryMem

Statt jeden Frame zu speichern oder jede Szene isoliert zu erzeugen, speichert StoryMem nur ausgewählte, visuell bedeutsame Frames in einer Memory‑Bank.

Ein Algorithmus wählt jene Frames aus, die sich semantisch unterscheiden;

ein Qualitätsfilter sortiert unscharfe oder verrauschte Bilder aus;

ältere Schlüsselbilder bleiben langfristig erhalten, neuere rotieren in einem gleitenden Fenster — so bleibt die Bank begrenzt, wichtige Anfangsinformationen gehen aber nicht verloren.

Bei der Generierung werden die gespeicherten Referenzbilder zusammen mit den gerade entstehenden Frames ins Modell eingespeist. Mit einer Positionskodierung namens RoPE (sie signalisiert dem Modell die zeitliche Reihenfolge) werden die gespeicherten Bilder als Vergangenheit markiert — die Forscher geben ihnen negative Zeitindizes.

Kurz zum Training und zur Modellgröße

StoryMem ist keine komplette Neuentwicklung von Grund auf. Die Teams nutzten eine LoRA-Anpassung (Low‑Rank Adaptation) des offenen Modells Wan2.2‑I2V von Alibaba. Trainiert wurde auf rund 400.000 kurzen Clips à fünf Sekunden, die nach visueller Ähnlichkeit gruppiert wurden, damit das System aus verwandten Bildern konsistente Fortsetzungen lernt. Die Erweiterung ergänzt das 14‑Milliarden‑Parameter‑Modell um etwa 0,7 Milliarden zusätzliche Parameter.

Wie gut funktioniert das?

Die Forscher:innen legten ST‑Bench an, einen Benchmark mit 30 Geschichten und 300 Szenenanweisungen (von realistisch bis märchenhaft).

Laut Studie erzielt StoryMem eine Verbesserung von 28,7 % gegenüber dem unveränderten Basismodell und 9,4 % gegenüber HoloCine, dem bisherigen Stand der Technik.

Zudem erreichte es den höchsten Ästhetik‑Score unter den getesteten Konsistenz‑Methoden; eine Nutzertest‑Studie bestätigte bessere Bewertungen in den meisten Kategorien.

Was Nutzer:innen konkret machen können

Du kannst eigene Referenzbilder in die Memory‑Bank einspeisen — etwa Fotos von Personen oder Orten — und das System erzeugt eine Geschichte, in der diese Elemente durchgehend auftauchen.

Für sanftere Schnitte bietet StoryMem die Option, den letzten Frame einer Szene als ersten Frame der nächsten zu verwenden.

Bekannte Grenzen

Die Memory‑Bank speichert Bilder ohne explizite Zuordnung zu einzelnen Figuren. Bei vielen verschiedenen Charakteren kann das Modell deshalb visuelle Eigenschaften falsch zuordnen; als Gegenmaßnahme empfehlen die Autor:innen, Figuren im Prompt ausdrücklich zu beschreiben.

Übergänge zwischen Szenen mit sehr unterschiedlichen Bewegungs‑Geschwindigkeiten können unnatürlich wirken, weil die gespeicherten Frames keine direkte Information über Geschwindigkeit tragen.

Mann gesteht: KI und Bots brachten über 8 Mio. US$ an Tantiemen

März 25, 2026 | Allgemein, KI

Michael Smith nutzte KI und Bots, um Millionen an Streaming-Tantiemen zu erschleichen.In KürzeHunderttausende KI-generierte SongsFake-Konten und Bots erzeugten Milliarden StreamsMehr als 8 Mio. US$ an Tantiemen; Verurteilung durch SDNY Michael Smith aus North Carolina...

OpenAI verlangt: ChatGPT soll in Android‑Choice‑Screens neben Google auftauchen

März 25, 2026 | Allgemein, KI

OpenAI fordert, ChatGPT in Android- und Chrome-Choice-Screens als Suchoption neben Google anzuzeigen.In KürzeChoice Screens sind Auswahl-Pop-ups für Suchdienste und Browser.OpenAI: ChatGPT mit Websuche wird wie eine Suchmaschine genutzt (ca. 900 Mio. wöchentliche...

ChatGPT wird zum Shopfenster: Produkte, Preise und Vergleiche im Chat

März 25, 2026 | Allgemein, KI

ChatGPT zeigt ab dieser Woche Produkte direkt im Chat — mit Bildern, Preisen und Vergleichstabellen.In KürzeProdukte, Bilder, Preise, Bewertungen und Vergleichstabellen im ChatHändler liefern Kataloge per ACP; Shopify-Anbindung schon integriertBezahlung läuft über...

StoryMem: Schlüsselbilder sichern Konsistenz in KI-Video-Storys

In Kürze

Kurz und knapp:

Was genau das Problem ist

Die Idee hinter StoryMem

Kurz zum Training und zur Modellgröße

Wie gut funktioniert das?

Was Nutzer:innen konkret machen können

Bekannte Grenzen

Verfügbarkeit

Quellen

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Mann gesteht: KI und Bots brachten über 8 Mio. US$ an Tantiemen

OpenAI verlangt: ChatGPT soll in Android‑Choice‑Screens neben Google auftauchen

ChatGPT wird zum Shopfenster: Produkte, Preise und Vergleiche im Chat

Über uns

Dein Thema?

Pickert GmbH