Snap bringt Diffusion‑Transformer aufs Smartphone — 1024×1024 in ~2 Sekunden

19.01.2026 | Allgemein, KI

Snap stellt SnapGen++ vor: Ein Diffusion‑Transformer erzeugt 1024×1024‑Bilder in knapp 2 Sekunden direkt auf dem iPhone.

In Kürze

  • SnapGen++ erzeugt 1024×1024‑Bilder in ~1,8–2s auf iPhone 16 Pro Max
  • Neue Attention‑Methode + Destillation reduziert Schritte von 28 auf 4
  • Elastic Training liefert Tiny/Small/Full‑Varianten; kleine Modelle schlagen teils große

Snap bringt Diffusion‑Transformer auf’s Smartphone: SnapGen++ erzeugt 1024×1024‑Bilder in rund 2 Sekunden

Snap hat ein neues On‑Device‑Bildgenerierungsmodell vorgestellt: SnapGen++. Laut dem Forschungsbericht auf ArXiv kann das kompakte Modell hochauflösende Bilder (1024 × 1024 Pixel) in knapp 2 Sekunden direkt auf einem iPhone erzeugen — etwa 1,8 Sekunden auf einem iPhone 16 Pro Max. Entscheidend ist, dass SnapGen++ erstmals die leistungsfähige Diffusion‑Transformer‑Architektur praktikabel auf Mobilgeräten nutzbar macht, eine Architektur, die bisher hauptsächlich auf kräftigen Servern lief.

Was das Modell anders macht

Diffusion Transformer kombiniert die Stärken von Transformer‑Netzen (gutes Verstehen komplexer Texteingaben) mit dem Diffusionsprinzip (stufenweiser Bildaufbau). Im Vergleich zu älteren, U‑Net‑basierten Mobilmodellen erzeugt das Ergebnis oft detailliertere und kohärentere Bilder. SnapGen++ zeigt zudem, dass ein vergleichsweise kleines Modell qualitativ größere Modelle schlagen kann — Größe (Parameterzahl) ist also kein alleiniger Qualitätsindikator.

Technische Kniffe hinter der Geschwindigkeit

Zwei zentrale Ideen sorgen für die Tempo‑ und Qualitätsgewinne:

  • Neue Attention‑Methode: Statt alle Bildbereiche gleichzeitig zu berechnen, arbeitet das Modell mit einer groben Gesamtübersicht kombiniert mit feinen lokalen Details. Dadurch sinkt der Rechenaufwand pro Schritt deutlich — die Latenz pro Schritt fällt von rund 2000 ms auf unter 300 ms.
  • Spezielle Destillation: Ein Verfahren reduziert die nötigen Generierungs‑Schritte von 28 auf 4, ohne merklichen Qualitätsverlust. Das senkt die Gesamtzeit stark.

Elastic Training und Varianten

SnapGen++ wird in drei Varianten aus einem gemeinsamen Trainingslauf abgeleitet — ein Ansatz namens „Elastic Training“:

  • Tiny: ca. 0,3 Milliarden Parameter (für günstige Android‑Geräte)
  • Small: ca. 0,4 Milliarden Parameter (für High‑End‑Smartphones)
  • Full: ca. 1,6 Milliarden Parameter (für Server oder quantisierte On‑Device‑Nutzung)

Leistung im Vergleich

In Benchmarks übertrifft die Small‑Variante (0,4 Mrd. Parameter) laut Bericht sowohl die Bildqualität als auch die Übereinstimmung zwischen Text und Bild im Vergleich zu deutlich größeren Modellen wie Flux.1‑dev (12 Mrd. Parameter) und Stable Diffusion 3.5 Large (8,1 Mrd. Parameter). Auf dem iPhone 16 Pro Max erreicht die Small‑Variante bei vier Inferenzschritten rund 1,8 Sekunden für ein 1024×1024‑Bild.

Einordnung

Snap hatte zuvor mit SnapGen bereits einen U‑Net‑basierten Ansatz für On‑Device‑Bildgenerierung, SnapGen++ soll die Qualität deutlich näher an Servermodelle bringen. Auch andere Firmen, etwa Google, arbeiten an effizienten Diffusionsmodellen für Mobilgeräte; Snap bezeichnet sein Projekt als erstes, das einen effizienten Diffusion Transformer für hochauflösende On‑Device‑Generierung demonstriert.

Wozu das bei Snapchat passt

Snap investiert weiter in KI‑Funktionen für seine Apps: Dazu gehören der Chatbot „My AI“ und eine angekündigte Partnerschaft über 400 Millionen US‑Dollar mit Perplexity AI zur Integration deren Suchfunktion. SnapGen++ ist Teil dieser größeren KI‑Strategie, weil es rechenintensive Generierung direkt ins Gerät verlagern kann.

Quelle

Quellen

  • Quelle: Snap Inc.
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…