StoryMem speichert gezielt Schlüsselbilder, damit KI-Videos über mehrere Szenen Figuren und Details konsistent halten.
In Kürze
- Speichert visuell wichtige Frames in einer begrenzten Memory‑Bank
- Nutzt RoPE-Zeitkodierung und LoRA-Anpassung auf Wan2.2‑I2V
- Verbessert Konsistenz deutlich (+28,7 % vs Basis) und ist auf Hugging Face verfügbar
Kurz und knapp:
KI‑Videos, die mehrere Szenen zu einer Geschichte verbinden, leiden oft unter inkonsistenten Figuren, wandernden Details und veränderten Umgebungen. Forscher:innen von ByteDance und der Nanyang Technological University haben deshalb StoryMem entwickelt — ein System, das gezielt Schlüsselbilder speichert und so Konsistenz über mehrere Szenen herstellt.
Was genau das Problem ist
Viele aktuelle Videomodelle liefern hübsche Kurzclips, kippen aber bei längeren Storys: Haare, Kleidung oder Requisiten können plötzlich anders aussehen, Hintergründe springen, und Details „wandern“ zwischen den Szenen. Bisherige Ansätze stehen vor einem Dilemma: Alle Frames zusammen zu generieren ist extrem rechenintensiv; Szenen einzeln zu erzeugen bricht dagegen die visuelle Kontinuität.
Die Idee hinter StoryMem
Statt jeden Frame zu speichern oder jede Szene isoliert zu erzeugen, speichert StoryMem nur ausgewählte, visuell bedeutsame Frames in einer Memory‑Bank.
- Ein Algorithmus wählt jene Frames aus, die sich semantisch unterscheiden;
- ein Qualitätsfilter sortiert unscharfe oder verrauschte Bilder aus;
- ältere Schlüsselbilder bleiben langfristig erhalten, neuere rotieren in einem gleitenden Fenster — so bleibt die Bank begrenzt, wichtige Anfangsinformationen gehen aber nicht verloren.
Bei der Generierung werden die gespeicherten Referenzbilder zusammen mit den gerade entstehenden Frames ins Modell eingespeist. Mit einer Positionskodierung namens RoPE (sie signalisiert dem Modell die zeitliche Reihenfolge) werden die gespeicherten Bilder als Vergangenheit markiert — die Forscher geben ihnen negative Zeitindizes.
Kurz zum Training und zur Modellgröße
StoryMem ist keine komplette Neuentwicklung von Grund auf. Die Teams nutzten eine LoRA-Anpassung (Low‑Rank Adaptation) des offenen Modells Wan2.2‑I2V von Alibaba. Trainiert wurde auf rund 400.000 kurzen Clips à fünf Sekunden, die nach visueller Ähnlichkeit gruppiert wurden, damit das System aus verwandten Bildern konsistente Fortsetzungen lernt. Die Erweiterung ergänzt das 14‑Milliarden‑Parameter‑Modell um etwa 0,7 Milliarden zusätzliche Parameter.
Wie gut funktioniert das?
- Die Forscher:innen legten ST‑Bench an, einen Benchmark mit 30 Geschichten und 300 Szenenanweisungen (von realistisch bis märchenhaft).
- Laut Studie erzielt StoryMem eine Verbesserung von 28,7 % gegenüber dem unveränderten Basismodell und 9,4 % gegenüber HoloCine, dem bisherigen Stand der Technik.
- Zudem erreichte es den höchsten Ästhetik‑Score unter den getesteten Konsistenz‑Methoden; eine Nutzertest‑Studie bestätigte bessere Bewertungen in den meisten Kategorien.
Was Nutzer:innen konkret machen können
- Du kannst eigene Referenzbilder in die Memory‑Bank einspeisen — etwa Fotos von Personen oder Orten — und das System erzeugt eine Geschichte, in der diese Elemente durchgehend auftauchen.
- Für sanftere Schnitte bietet StoryMem die Option, den letzten Frame einer Szene als ersten Frame der nächsten zu verwenden.
Bekannte Grenzen
- Die Memory‑Bank speichert Bilder ohne explizite Zuordnung zu einzelnen Figuren. Bei vielen verschiedenen Charakteren kann das Modell deshalb visuelle Eigenschaften falsch zuordnen; als Gegenmaßnahme empfehlen die Autor:innen, Figuren im Prompt ausdrücklich zu beschreiben.
- Übergänge zwischen Szenen mit sehr unterschiedlichen Bewegungs‑Geschwindigkeiten können unnatürlich wirken, weil die gespeicherten Frames keine direkte Information über Geschwindigkeit tragen.
Verfügbarkeit
Die Projektseite mit Beispielen ist online, ST‑Bench soll als Benchmark veröffentlicht werden, und die Modellgewichte sind auf Hugging Face verfügbar.
Quellen
Quellen
- Quelle: ByteDance / Nanyang Technological University
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




