Snap bringt Diffusion‑Transformer aufs Smartphone — 1024×1024 in ~2 Sekunden

Snap bringt Diffusion‑Transformer auf’s Smartphone: SnapGen++ erzeugt 1024×1024‑Bilder in rund 2 Sekunden

Snap hat ein neues On‑Device‑Bildgenerierungsmodell vorgestellt: SnapGen++. Laut dem Forschungsbericht auf ArXiv kann das kompakte Modell hochauflösende Bilder (1024 × 1024 Pixel) in knapp 2 Sekunden direkt auf einem iPhone erzeugen — etwa 1,8 Sekunden auf einem iPhone 16 Pro Max. Entscheidend ist, dass SnapGen++ erstmals die leistungsfähige Diffusion‑Transformer‑Architektur praktikabel auf Mobilgeräten nutzbar macht, eine Architektur, die bisher hauptsächlich auf kräftigen Servern lief.

Was das Modell anders macht

Diffusion Transformer kombiniert die Stärken von Transformer‑Netzen (gutes Verstehen komplexer Texteingaben) mit dem Diffusionsprinzip (stufenweiser Bildaufbau). Im Vergleich zu älteren, U‑Net‑basierten Mobilmodellen erzeugt das Ergebnis oft detailliertere und kohärentere Bilder. SnapGen++ zeigt zudem, dass ein vergleichsweise kleines Modell qualitativ größere Modelle schlagen kann — Größe (Parameterzahl) ist also kein alleiniger Qualitätsindikator.

Technische Kniffe hinter der Geschwindigkeit

Zwei zentrale Ideen sorgen für die Tempo‑ und Qualitätsgewinne:

Neue Attention‑Methode: Statt alle Bildbereiche gleichzeitig zu berechnen, arbeitet das Modell mit einer groben Gesamtübersicht kombiniert mit feinen lokalen Details. Dadurch sinkt der Rechenaufwand pro Schritt deutlich — die Latenz pro Schritt fällt von rund 2000 ms auf unter 300 ms.

Spezielle Destillation: Ein Verfahren reduziert die nötigen Generierungs‑Schritte von 28 auf 4, ohne merklichen Qualitätsverlust. Das senkt die Gesamtzeit stark.

Elastic Training und Varianten

SnapGen++ wird in drei Varianten aus einem gemeinsamen Trainingslauf abgeleitet — ein Ansatz namens „Elastic Training“:

Tiny: ca. 0,3 Milliarden Parameter (für günstige Android‑Geräte)

Small: ca. 0,4 Milliarden Parameter (für High‑End‑Smartphones)

Full: ca. 1,6 Milliarden Parameter (für Server oder quantisierte On‑Device‑Nutzung)

Leistung im Vergleich

In Benchmarks übertrifft die Small‑Variante (0,4 Mrd. Parameter) laut Bericht sowohl die Bildqualität als auch die Übereinstimmung zwischen Text und Bild im Vergleich zu deutlich größeren Modellen wie Flux.1‑dev (12 Mrd. Parameter) und Stable Diffusion 3.5 Large (8,1 Mrd. Parameter). Auf dem iPhone 16 Pro Max erreicht die Small‑Variante bei vier Inferenzschritten rund 1,8 Sekunden für ein 1024×1024‑Bild.

Einordnung

Snap hatte zuvor mit SnapGen bereits einen U‑Net‑basierten Ansatz für On‑Device‑Bildgenerierung, SnapGen++ soll die Qualität deutlich näher an Servermodelle bringen. Auch andere Firmen, etwa Google, arbeiten an effizienten Diffusionsmodellen für Mobilgeräte; Snap bezeichnet sein Projekt als erstes, das einen effizienten Diffusion Transformer für hochauflösende On‑Device‑Generierung demonstriert.

Wozu das bei Snapchat passt

Snap investiert weiter in KI‑Funktionen für seine Apps: Dazu gehören der Chatbot „My AI“ und eine angekündigte Partnerschaft über 400 Millionen US‑Dollar mit Perplexity AI zur Integration deren Suchfunktion. SnapGen++ ist Teil dieser größeren KI‑Strategie, weil es rechenintensive Generierung direkt ins Gerät verlagern kann.

Quelle

Quellen

Quelle: Snap Inc.

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Chrome lädt mehrere GB: Was hinter der Datei weights.bin steckt

Mai 7, 2026 | Allgemein, KI

weights.bin ist das lokale Gemini‑Nano‑Modell in Chrome und kann mehrere GB belegen.In KürzeEnthält ModellparameterRund 4 GB, lädt bei AktivierungAusschalten in Einstellungen stoppt Nachladen Chrome belegt plötzlich mehrere Gigabyte? Schuld ist meist eine Datei namens...

STACKIT und neuland.ai: KI‑Hub komplett in Deutschland für datensichere Nutzung

Mai 7, 2026 | Allgemein, KI

STACKIT und neuland.ai bauen eine in Deutschland betriebene KI‑Architektur mit Fokus auf Datenschutz und Compliance.In KürzeCloud in deutschen Rechenzentrenneuland.ai HUB orchestriert Open‑Source‑ModelleEnde‑zu‑Ende‑Verschlüsselung, kein Anbieterzugriff STACKIT, die...

OpenAI startet Ads Manager‑Beta: ChatGPT wird zur Werbeplattform

Mai 7, 2026 | Allgemein, KI

OpenAI erlaubt Werbekunden in den USA, Kampagnen direkt in ChatGPT zu buchen.In KürzeKeine MindestausgabeCPC ergänzt CPMTracking & Datenschutzfragen OpenAI hat in den USA eine Beta seines neuen „Ads Manager“ gestartet — werbetreibende können ihre Kampagnen künftig...

Snap bringt Diffusion‑Transformer aufs Smartphone — 1024×1024 in ~2 Sekunden

In Kürze

Snap bringt Diffusion‑Transformer auf’s Smartphone: SnapGen++ erzeugt 1024×1024‑Bilder in rund 2 Sekunden

Was das Modell anders macht

Technische Kniffe hinter der Geschwindigkeit

Elastic Training und Varianten

Leistung im Vergleich

Einordnung

Wozu das bei Snapchat passt

Quelle

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Chrome lädt mehrere GB: Was hinter der Datei weights.bin steckt

STACKIT und neuland.ai: KI‑Hub komplett in Deutschland für datensichere Nutzung

OpenAI startet Ads Manager‑Beta: ChatGPT wird zur Werbeplattform

Über uns

Dein Thema?

Pickert GmbH