Der ultimative Bilder-KI-Guide:
Alles zu Generierung, Prompts & Stilen
Midjourney, Flux, Nano Banana Pro oder doch DALL-E? Wir erklären die wichtigsten Bilder-KIs, zeigen die besten Prompt-Strategien für jeden Generator und verraten elf Profi-Tipps, mit denen eure Ergebnisse sofort besser werden. Hier unser großer Überblick.
Wer das berücksichtigt, kann spannende und auch informative Bilder erstellen. Wie solche KIs überhaupt funktionieren, welche es gibt und wie die besten Bilder gelingen, verraten wir in dieser FAQ.
Moderne Bildgeneratoren funktionieren fast wie so etwas wie Magie, denn mittlerweile muss man oft nur einige kurze Sätze oder Stichworte eingeben, um beeindruckende Ergebnisse zu bekommen. Doch wie arbeitet so eine künstliche Intelligenz (KI) eigentlich? Die nächsten Punkte klären das genauer.
Was ist KI-Bildgenerierung überhaupt?
KI-Bildgenerierung bezeichnet den Vorgang, bei dem eine Software aus einer Texteingabe - dem sogenannten Prompt - ein Bild erzeugt. Der Nutzer beschreibt in Worten, was er erschaffen möchte, und die KI erstellt daraus eine visuelle Darstellung.
Dabei kann das Ergebnis fotorealistisch, illustrativ, malerisch oder in nahezu jedem erdenklichen Stil ausfallen. Im Kern handelt es sich um eine Form des maschinellen Lernens: Die zugrundeliegenden Modelle wurden mit Millionen von Bild-Text-Paaren trainiert und haben dabei gelernt, welche visuellen Elemente zu welchen Beschreibungen passen.
Wie funktioniert der sogenannte Diffusionsprozess?
Die meisten modernen Bildgeneratoren basieren auf dem Prinzip der Diffusion. Man kann sich das so vorstellen: Die KI beginnt mit einem Bild, das aus reinem visuellem Rauschen besteht - vergleichbar mit dem Schnee auf einem alten, nicht eingestellten Fernseher. Anschließend entfernt sie dieses Rauschen in vielen kleinen Schritten, wobei der Prompt als Leitfaden dient. Infografik: Wie funktioniert Diffusion in Bild-KIs?
Mit jedem Schritt wird das Bild klarer und kohärenter, bis am Ende ein fertiges Ergebnis steht. Es ist ein wenig so, als würde man in Wolkenformationen Gesichter erkennen - nur dass die KI die Wolken gezielt in die gewünschte Form bringt.
Was passiert technisch im Hintergrund?
Der Prozess lässt sich in drei Kernkomponenten aufteilen:
Der Text-Encoder analysiert den eingegebenen Prompt und wandelt ihn in eine mathematische Repräsentation um, die das Modell verarbeiten kann. Hier werden die Bedeutung der Wörter und ihr Zusammenhang erfasst. Verschiedene Modelle nutzen unterschiedliche Encoder - Flux-Modelle setzen beispielsweise auf Googles T5-Encoder, während ältere Stable-Diffusion-Modelle CLIP verwenden.
Das eigentliche Diffusionsmodell (auch U-Net oder Transformer genannt) ist das Herzstück. Es nimmt das zufällige Rauschen und die Textinformationen entgegen und berechnet in einer definierten Anzahl von Schritten (Steps), wie das Rauschen zu entfernen ist, damit ein zum Prompt passendes Bild entsteht.
Der VAE (Variational Autoencoder) ist für den letzten Schritt zuständig: Er dekodiert das Ergebnis des Diffusionsprozesses und wandelt es in ein sichtbares Bild um. Wenn ein generiertes Bild ungewöhnlich grau, entsättigt oder verrauscht wirkt, kann ein fehlender oder fehlerhafter VAE die Ursache sein.
Was bedeuten Begriffe wie "Steps", "CFG" und "Sampler"?
Wer sich intensiver mit Bildgenerierung beschäftigt, stößt schnell auf technische Parameter, die das Ergebnis maßgeblich beeinflussen:
Steps bezeichnen die Anzahl der Berechnungsschritte, die die künstliche Intelligenz (KI) durchführt, um aus dem Rauschen ein Bild zu formen. Ein Wert zwischen 25 und 30 ist für die meisten Modelle ein guter Ausgangspunkt. Mehr Schritte können die Qualität leicht verbessern, führen aber zu abnehmenden Erträgen und längerer Rechenzeit. Einige neuere Modelle wie Flux [schnell] kommen bereits mit nur 2-4 Steps zu brauchbaren Ergebnissen.
CFG (Classifier-Free Guidance) steuert, wie streng sich die KI an den Prompt hält. Ein niedriger Wert gibt der KI mehr kreative Freiheit, kann aber dazu führen, dass das Ergebnis wenig mit der Beschreibung zu tun hat. Ein zu hoher Wert erzeugt oft überbelichtete, "verbrannt" wirkende Bilder voller Artefakte. Ein Wert zwischen 5 und 8 ist für die meisten Modelle ein sicherer Bereich. Infografik Bildgenerierung: Wichtige Parameter
Sampler sind die mathematischen Funktionen, die bestimmen, auf welche Weise das Rauschen in ein Bild umgewandelt wird. Gängige und zuverlässige Sampler sind Euler A, DPM++ 2M und DPM++ SDE. Jeder Sampler hat eigene Stärken - manche erzeugen schärfere Details, andere arbeiten schneller.
Scheduler bestimmen, wie viel Rauschen pro Schritt entfernt wird. Ist der Fortschritt linear, oder beginnt er schnell und wird gegen Ende präziser? "Karras" ist in den meisten Fällen eine sichere Wahl. Manche Benutzeroberflächen kombinieren Sampler und Scheduler zu einer einzigen Einstellung.
Stable Diffusion 1.5 (SD1.5) ist eines der älteren, aber nach wie vor weitverbreiteten Modelle. Es arbeitet mit einer nativen Auflösung von 512 × 512 Pixeln und stellt vergleichsweise geringe Hardwareanforderungen (ab 4 GB VRAM). Für scharfe, saubere Bilder ist in der Regel ein sogenannter "Hires Fix" oder "ADetailer" nötig. Die Community-Unterstützung ist ausgezeichnet - es gibt eine riesige Auswahl an LoRAs, ControlNets und anderen Erweiterungen.
Stable Diffusion XL (SDXL) ist der Nachfolger von SD1.5 und arbeitet mit einer nativen Auflösung von 1024 × 1024 Pixeln. Es versteht Prompts besser, erzeugt detailliertere Bilder und benötigt mindestens 6 GB VRAM. SDXL gilt aktuell als optimaler Einstiegspunkt für die meisten Nutzer, da es breit unterstützt wird und keine besonderen Installationsschritte erfordert. Infografik Bildgenerierung: Grundlegende Modellarchitekturen
Flux ist eines der neuesten und fortschrittlichsten Modelle. Es versteht Prompts hervorragend und bevorzugt - anders als SD1.5 und SDXL - vollständige Sätze statt Stichwortlisten. Flux stellt die höchsten Hardwareanforderungen (mindestens 8 GB VRAM für quantisierte Versionen). Es gibt mehrere Hauptvarianten: Flux Pro oder Dev für maximale Qualität und Flux schnell für deutlich schnellere Generierung bei etwas geringerer Qualität.
Stable Diffusion 3.5 ist der offizielle SDXL-Nachfolger, hatte jedoch einen holprigen Start und konnte die Erwartungen bisher nicht vollständig erfüllen. Die Community-Aufmerksamkeit liegt derzeit stärker auf Flux.
GPT Image 1.5 ist OpenAIs neuestes Bildmodell und hat ältere Systeme wie DALL-E 3 abgelöst. Es unterscheidet sich grundlegend von den Diffusionsmodellen der Konkurrenz, da es auf einem autoregressiven Ansatz basiert. GPT Image 1.5 versteht lange, detaillierte Prompts, kann mehrstufige Anweisungen befolgen und bewahrt wichtige visuelle Elemente wie Logos, Gesichter und Layouts über Bearbeitungsschritte hinweg. In unabhängigen Vergleichstests erreicht es regelmäßig Spitzenwerte. Es ist über ChatGPT und die OpenAI-API zugänglich.
Googles Nano Banana Pro (offiziell Gemini 3 Pro Image) ist Googles Flaggschiff-Bildmodell. Es bietet native 4K-Auflösung (4096 × 4096), Textrendering in mehreren Sprachen, die Möglichkeit bis zu 14 Referenzbilder in eine Komposition einzubeziehen und nutzt das Weltwissen von Gemini 3 für faktisch korrekte Darstellungen. Besonders stark bei fotorealistischen Inhalten, Infografiken und datengestützten Visualisierungen.
Reve Image ist ein Modell des Palo-Alto-Startups Reve AI, das im März 2025 veröffentlicht wurde und sofort an die Spitze unabhängiger Vergleichsranglisten sprang. Reve Image zeichnet sich durch herausragende Prompt-Treue aus - das heißt, es setzt auch komplexe Beschreibungen mit vielen Details präzise um, ohne Elemente zu vertauschen oder zu ignorieren. Zusätzlich ermöglicht es zuverlässiges Textrendering und bestehende Bilder per natürlichsprachlicher Anweisung zu bearbeiten.
Ideogram wurde von ehemaligen Google-Brain-Forschern speziell für die Herausforderung entwickelt, lesbaren Text in KI-generierten Bildern darzustellen. Während die meisten Generatoren bei der Textwiedergabe scheitern, erreicht Ideogram 3.0 (veröffentlicht im März 2025) eine Genauigkeit von rund 90-95 Prozent. Es eignet sich damit besonders für Poster, Logos, Marketing-Grafiken und Branding-Materialien.
Daneben gibt es spezialisierte Ableger wie Pony, Illustrious und NoobAI, die technisch auf SDXL basieren, sich aber so weit entwickelt haben, dass sie als eigenständige Basismodelle gelten. Sie eignen sich besonders gut für Anime-Stil und bekannte Charaktere, sind aber eigenwilliger in der Handhabung und daher für Anfänger weniger empfehlenswert.
Midjourney ist bekannt für künstlerisch ansprechende, oft lebensecht wirkende Bilder. Der Zugang erfolgt über Discord sowie die Webseite. Midjourney gilt vielen als einer der besten Generatoren für ästhetisch hochwertige Ergebnisse.
Google Nano Banana Pro/2 (basierend auf Gemini 3) ist Googles jüngstes Bildmodell und u. a. über Gemini selbst erreichbar. Es bietet unter anderem Textwiedergabe in mehreren Sprachen, die Möglichkeit bis zu 14 Bilder in eine Komposition einzubeziehen, und Auflösungen bis 4K.
DALL-E 3 von OpenAI verarbeitet auch komplexe Prompts zuverlässig und erzeugt qualitativ hochwertige, oft surreal anmutende Bilder. Es ist über ChatGPT und die OpenAI-API zugänglich und profitiert von OpenAIs Expertise im Bereich großer Sprachmodelle.
Adobe Firefly ist in Adobes Creative Cloud integriert und daher besonders für Kreativprofis interessant, die bereits im Adobe-Ökosystem arbeiten. Da Firefly auf lizenziertem Adobe-Stock-Material trainiert wurde, ist die rechtliche Situation bei kommerzieller Nutzung vergleichsweise klar.
Recraft zeichnet sich durch präzise Stil- und Positionierungskontrolle aus und bietet mit Inpainting, Outpainting und Vektorgrafik-Generierung ein umfangreiches Werkzeugset. Die Plattform bietet auch einen kostenlosen Einstieg.
Leonardo AI bietet einen großzügigen kostenlosen Plan mit ausreichend Generierungsguthaben und schneller Verarbeitung.
Canva richtet sich mit seiner benutzerfreundlichen Oberfläche an Einsteiger und Gelegenheitsnutzer, die KI-Bildgenerierung unkompliziert ausprobieren möchten.
Microsoft Designer nutzt DALL-E 3 als Grundlage und ist kostenlos verfügbar. Für Nutzer im Microsoft-Ökosystem bietet es eine nahtlose Integration.
CivitAI ist weniger ein einzelner Generator als vielmehr eine riesige Community-Plattform, auf der tausende Modelle, LoRAs und Ressourcen geteilt werden. Gleichzeitig bietet die Plattform auch einen eigenen Online-Generierungsdienst.
Dafür haben wir acht Szenarien vorgegeben, die sich auf bestimmte Eigenheiten von Bild-KIs konzentrieren, und den (englischen) Prompt unverändert durch acht Modelle gejagt. Anmerkung: Die Galerien mit den acht Ergebnissen sind auf den gesamten Artikel verstreut.
Motiv: Ein Close-up Porträt einer älteren Person in einem verregneten Neon-Setting.
Warum dieses Motiv? Falten, Regentropfen auf der Haut und die Spiegelung von Neonlicht in den Augen sind extrem schwer zu faken, ohne dass es "künstlich" wirkt.
Prompt:
Motiv: Ein modernes Flat-Design-Poster für ein fiktives Event.
Warum dieses Motiv? Es demonstriert die grafische Sauberkeit und die Fähigkeit, Text leserlich in ein Design zu integrieren - perfekt, um die Fortschritte von DALL-E 3 oder neuen Stable Diffusion Modellen zu zeigen.
Prompt:
Motiv: Eine surreale Verschmelzung von Natur und Mechanik.
Warum dieses Motiv? Es zeigt, wie die KI Konzepte mixt, die in der echten Welt nicht existieren, und die ästhetische Komposition abseits von Stockfotos prüft.
Prompt:
Motiv: Ein futuristisches Uhrwerk im Inneren einer gläsernen Kugel, die in dunklem Honig versinkt.
Warum dieses Motiv? Es kombiniert drei extrem unterschiedliche Materialeigenschaften: die harte, kalte Präzision von Metallzahnrädern, die Lichtbrechung durch Glas und die viskose, organische Textur von Honig. Das zeigt dem Leser, ob die KI "versteht", wie Licht durch verschiedene Medien wandert.
Prompt:
Motiv: Eine Hand, die vorsichtig ein Kartenhaus aus Spielkarten baut.
Warum dieses Motiv? Es erfordert filigrane Fingerhaltungen und das physikalische Verständnis von Balance und Kanten.
Prompt:
Motiv: Die Innenansicht einer futuristischen, streng symmetrischen Kathedrale aus Glas und weißem Beton.
Warum dieses Motiv? Symmetrie verzeiht keine Fehler. Wenn ein Bogen links anders aussieht als rechts, erkennt das menschliche Auge das sofort als "KI-Fehler".
Prompt:
Motiv: Eine Straßenszene in Berlin der 1920er Jahre bei Nacht.
Warum dieses Motiv? Kleidung, Autotypen und die Beschaffenheit von Kopfsteinpflaster müssen historisch stimmig sein, kombiniert mit der Körnung alter Filmaufnahmen.
Prompt:
Motiv: Ein isometrisches 3D-Diorama eines "Cyberpunk-Arbeitsplatzes" auf einer schwebenden Plattform.
Warum dieses Motiv? Es testet die Einhaltung des 3D-Winkels (Isometrie) und die Fähigkeit, viele kleine Details (Kabel, Monitore, Pflanzen) sauber voneinander zu trennen.
Prompt:
Mindestanforderungen am PC: 16 GB RAM und eine NVIDIA-Grafikkarte (z. B. RTX 3060) mit mindestens 4 GB VRAM (für SD1.5), 6 GB (SDXL) oder 8 GB (Flux in quantisierter Form). Für AMD- oder Intel-Grafikkarten gibt es Workarounds, diese sind aber deutlich komplizierter.
Für Mac-Nutzer: Ein M1-Chip oder neuer ist erforderlich, dazu 16 GB RAM (SD1.5, SDXL) oder 32 GB RAM (Flux).
Ein vager Prompt wie "eine Landschaft" liefert ein generisches, oft enttäuschendes Ergebnis. Ein präziser Prompt wie "eine ruhige Almwiese mit Wildblumen und einem entfernten Berggipfel unter klarem blauem Himmel im Stil eines Aquarells" gibt der KI die nötigen Anhaltspunkte, um etwas Spezifisches und Stimmungsvolles zu erzeugen. Infografik: Wie schreibe ich einen guten Prompt?
Aus welchen Bausteinen besteht ein guter Prompt?
Ein effektiver Prompt setzt sich aus mehreren Schlüsselelementen zusammen, die man sich als eine Art Checkliste vorstellen kann:
Subjekt (Was?): Wer oder was ist das zentrale Motiv? Je spezifischer, desto besser. Statt "ein Roboter" besser "ein stoischer Roboter-Kellner mit leuchtend blauen Augen".
Komposition (Wie gerahmt?): Wie ist die Bildaufteilung? Nahaufnahme, Totale, Froschperspektive, Porträtformat? Diese Angaben lenken den Blick des Betrachters.
Aktion (Was passiert?): Steht das Motiv still oder ist es in Bewegung? "... brüht eine Tasse Kaffee" oder "... rennt durch ein Weizenfeld" erzeugen völlig unterschiedliche Dynamiken.
Ort (Wo?): Wo spielt die Szene? "Ein futuristisches Café auf dem Mars" erzeugt eine andere Atmosphäre als "ein Supermarkt voller Waren".
Stil (Welche Ästhetik?): Welchen visuellen Stil soll das Bild haben? 3D-Animation, Film Noir, Aquarell, fotorealistisch, Produktfotografie der 1990er Jahre? Die Stilangabe hat enormen Einfluss auf das Ergebnis.
Stimmung und Atmosphäre: Angaben wie "bei Sonnenaufgang", "in einem Sturm" oder "mit mystischer Aura" verleihen dem Bild emotionale Tiefe und verändern die gesamte Farbpalette und Lichtstimmung.
SD1.5 und SDXL priorisieren die früher im Prompt genannten Begriffe stark gegenüber den späteren. Das Wichtigste gehört also an den Anfang. Prompts sollten möglichst unter 75 Token bleiben (in Forge wird die aktuelle Token-Zahl oben rechts im Prompt-Feld angezeigt). Wird diese Grenze überschritten, beginnt ein neuer Verarbeitungsblock, was zu unerwarteten Ergebnissen führen kann. Mit dem Schlüsselwort BREAK lassen sich Prompts in Forge in Blöcke aufteilen.
Anime-Modelle auf SD1.5/SDXL-Basis sind häufig auf sogenannte "Booru-Tags" trainiert - kurze, standardisierte Schlagwörter wie "medium shot", "from side", "golden hour". Ein typischer Prompt für ein Anime-Modell könnte so aussehen: "anime screencap, wallpaper, golden retriever, running, ball, park, medium shot, from side, playground".
Flux-Modelle funktionieren grundlegend anders. Sie bevorzugen vollständige, natürlichsprachliche Sätze und sind wesentlich flexibler bei der Reihenfolge der Beschreibung. Sie akzeptieren auch deutlich längere Prompts, ohne dass BREAK-Anweisungen nötig wären. Ein Flux-Prompt könnte lauten: "Foto eines Parks. Im Hintergrund links steht ein Schaukelgerüst. Im Hintergrund rechts befindet sich ein Spielplatz. Kinder spielen auf den Schaukeln. Links im Bild liegt ein Tennisball. Rechts ist ein Golden Retriever im Profil zu sehen, der dem Ball nachjagt."
Ebene 1 - Die Vision: Hier definiert man Subjekt, Komposition, Aktion, Ort und Stil als Grundgerüst. Beispiel: "Ein stoischer Roboter-Barista mit leuchtend blauen Augen brüht in einem futuristischen Café auf dem Mars eine Tasse Kaffee - im Stil einer 3D-Animation, Nahaufnahme."
Ebene 2 - Die professionellen Details: Für hochwertigere Ergebnisse ergänzt man Kamera- und Lichtangaben wie ein Kameramann. Dazu gehören Seitenverhältnisse ("Ein vertikales 9:16-Poster"), Kameraeinstellungen ("Froschperspektive mit geringer Schärfentiefe bei f/1.8"), Lichtführung ("Gegenlicht zur goldenen Stunde mit langen Schatten") und Farbgebung ("Cinematic Color Grading mit gedeckten Teal-Tönen").
Grundsätzlich sind Nano Banana Pro und 2 jene Modelle, die in der Lage sind, bereits aus kurzen Prompts erstaunliche Ergebnisse zu liefern. Man kann sich auch "Herantasten" und das vor allem mit natürlicher Sprache - vor allem auch dann, wenn man Texte generieren will (die Infografiken in diesem Artikel sind großteils mit Nano Banana 2 entstanden).
Wichtig: Negativprompts sollten sparsam und gezielt eingesetzt werden. Überlange Negativprompts mit generischen Einträgen wie "schlechte Qualität, zusätzliche Finger, schlechte Anatomie" helfen nur dann, wenn das Modell tatsächlich darauf trainiert wurde, diese Begriffe zu erkennen.
Bei übermäßigem Gebrauch kann der Negativprompt sogar zu unnatürlichen Ergebnissen führen oder die künstliche Intelligenz (KI) verwirren, sodass sie die unerwünschten Elemente erst recht einbaut. Als Anfänger empfiehlt es sich, zunächst nur mit dem positiven Prompt zu arbeiten und den Negativprompt erst dann einzusetzen, wenn man wiederkehrende Probleme bemerkt.
Viele Online-Dienste wie Artlist oder Google bieten eine "Enhance"-Funktion, die einen einfachen Prompt automatisch um Details ergänzt. Das kann ein hilfreicher Ausgangspunkt sein, ersetzt aber nicht das manuelle Feintuning.
1. Fotorealismus
Prompt-Elemente: "photorealistic" (fotorealistisch), "DSLR photo" (Spiegelreflexkamera-Foto), "shallow depth of field" (geringe Schärfentiefe), "85mm lens" (85-mm-Objektiv), "natural lighting" (natürliche Beleuchtung)
Fotorealismus ist der am häufigsten angestrebte Stil. Die KI erzeugt Bilder, die wie echte Fotos wirken. Entscheidend ist, der KI möglichst konkrete "Kamera-Anweisungen" zu geben, statt nur "realistisch" zu schreiben. Der Unterschied zwischen einem flachen und einem atmosphärischen Bild liegt oft in wenigen Begriffen.
Beispiel: "shallow depth of field (f/1.8)" (geringe Schärfentiefe bei Blende 1.8) erzeugt einen unscharfen Hintergrund mit freigestelltem Motiv, "golden hour backlighting" (Gegenlicht zur goldenen Stunde) sorgt für warmes Gegenlicht mit langen Schatten.
Wer ein konkretes Kameramodell angibt (z. B. "shot on Canon EOS R5" / aufgenommen mit Canon EOS R5, oder "captured on Arri Alexa Mini" / eingefangen mit Arri Alexa Mini), erhält häufig einen spezifischeren Look, weil die künstliche Intelligenz (KI) den typischen Bildeindruck dieser Kameras aus den Trainingsdaten kennt. Für Porträts eignen sich Brennweiten-Angaben wie "85mm" oder "135mm", für Landschaften "24mm wide-angle" (24-mm-Weitwinkel).
Auch der Hinweis auf Nachbearbeitung kann helfen: "color graded, film emulation" (farbkorrigiert, Filmemulation) verleiht dem Bild einen professionelleren Filmlook.
2. Digitale Illustration / Concept Art
Prompt-Elemente: "digital illustration" (digitale Illustration), "concept art" (Konzeptkunst), "vibrant colors" (leuchtende Farben), "detailed" (detailreich), "artstation"
Dieser Stil ist beliebt für Fantasy- und Science-Fiction-Motive und erinnert an professionelle Buchcover oder Spielgrafiken. Die Bilder wirken detailliert und ausgefeilt, ohne fotorealistisch zu sein. Ein praktischer Trick: Begriffe wie "artstation" oder "trending on artstation" (beliebt auf Artstation) können die Qualität spürbar anheben, da viele Modelle hochwertige Illustrationen von dieser Plattform in ihren Trainingsdaten haben.
Für mehr Tiefe empfiehlt es sich, die Lichtquelle explizit zu benennen - etwa "rim lighting from behind" (Gegenlicht-Kontur von hinten) oder "dramatic side lighting" (dramatisches Seitenlicht). Wer zwischen verschiedenen Illustrations-Unterstilen wechseln möchte, kann Begriffe wie "matte painting" (digitale Hintergrundmalerei für epische Landschaften), "character design sheet" Figurenentwurff mit Vorder- und Rückansicht) oder "environment concept" (Umgebungsdesign) ergänzen.
3. Aquarell
Prompt-Elemente: "watercolor painting" (Aquarellmalerei), "soft washes" (weiche Farbverläufe), "wet-on-wet technique" (Nass-in-Nass-Technik), "paper texture" (Papierstruktur), "gentle blending" (sanftes Überblenden)enden
Aquarell erzeugt zarte, fließende Bilder mit weichen Farbübergängen und sichtbarer Papierstruktur. Ideal für Landschaften, Blumenmotive und stimmungsvolle Szenen.
Die beiden wichtigsten Stellschrauben sind die Technik und das Trägermaterial: "wet-on-wet" (Nass-in-Nass) sorgt für besonders weiche, ineinander verlaufende Farbflächen, während "dry brush details" (Trockenpinsel-Details) gezielt Schärfe und Textur an bestimmten Stellen einbringt - besonders nützlich für Vordergrund-Elemente. Die Angabe "on rough watercolor paper" (auf rauem Aquarellpapier) oder "on cold-pressed paper" (auf kalt gepresstem Papier) verstärkt die typische Papierstruktur.
Ein häufiger Fehler: Zu viele Details im Prompt fordern - Aquarell lebt von der Reduktion. Prompts wie "loose brushwork, areas of white paper showing through" (lockere Pinselführung, Stellen, an denen das weiße Papier durchscheint) erzeugen authentischere Ergebnisse als eine überladene Beschreibung. Auch die Farbpalette sollte eingeschränkt werden, z. B. "limited palette of indigo, burnt sienna and ochre" (begrenzte Palette aus Indigo, Siena gebrannt und Ocker).
4. Anime und Manga
Prompt-Elemente: "anime style" (Anime-Stil), "cel shading" (Cel-Shading / flächige Kolorierung), "vibrant colors" (leuchtende Farben), "detailed eyes" (detaillierte Augen), "manga aesthetic" (Manga-Ästhetik)
Ein enorm populärer Stil mit eigener Ästhetik: große ausdrucksstarke Augen, flächige Kolorierung und stilisierte Proportionen. Für diesen Stil lohnt es sich, mit sogenannten Booru-Tags zu arbeiten - das sind standardisierte, kurze Schlagwörter wie "1girl", "medium shot", "from side", "looking at viewer", die aus Anime-Bilddatenbanken stammen und von vielen Modellen besonders gut erkannt werden (dementsprechend muss man zumeist auch in Englisch arbeiten).
Ein typischer Anime-Prompt folgt eher einer Stichwortliste als einem ganzen Satz: "anime screencap, wallpaper, cherry blossom, school uniform, wind, medium shot, soft lighting" (Anime Screencap, Wallpaper, Kirschblüte, Schuluniform, Wind, mittlere Aufnahme, weiche Beleuchtung).
Für unterschiedliche Unterstile kann man präzisieren: "90s anime aesthetic" (90er Jahre Anime-Ästhetik) für den nostalgischen Look älterer Serien, "modern anime, sharp lines" (Moderner Anime, scharfe Linien) für aktuelle Produktionen, "manga panel, black and white, screen tones" (Manga-Panel, schwarz-weiß, Bildschirmtöne) für den klassischen Manga-Stil. Der Zusatz "cel shading" erzeugt die typischen harten Schattenkanten, während "soft shading" für weichere Übergänge sorgt.
5. Ölgemälde
Prompt-Elemente: "oil painting" (Ölgemälde), "thick brushstrokes" (dicke Pinselstriche), "impasto technique" (Impasto-Technik / pastose Malweise), "rich colors" (satte Farben), "canvas texture" (Leinwandstruktur)
Ölgemälde-Stile erzeugen Bilder mit sichtbarer Pinselführung, satten Farben und einer fast greifbaren Textur. Der Zusatz "impasto" (aufgetragene, dicke Farbschichten) verleiht dem Ergebnis besondere Plastizität - man meint fast, die Farbe greifen zu können. Gut geeignet für Porträts, Landschaften und Stillleben mit klassischem Anspruch. Ein wirkungsvoller Kniff ist die Angabe einer Kunstepoche: "Baroque oil painting" (barockes Ölgemälde) erzeugt dramatische Lichtführung à la Rembrandt, "Impressionist oil painting" (impressionistisches Ölgemälde) lockere, lichtdurchflutete Pinselstriche wie bei Monet.
Die Leinwandstruktur lässt sich über "visible canvas weave" (sichtbares Leinwandgewebe) oder "textured canvas surface" (strukturierte Leinwandoberfläche) verstärken. Für besonders lebendige Ergebnisse hilft die Kombination verschiedener Pinselstil-Angaben: "palette knife texture in the foreground, fine detailed brushwork in the face" (Spachtel-Textur im Vordergrund, feine detaillierte Pinselarbeit im Gesicht) weist die KI an, verschiedene Techniken in unterschiedlichen Bildbereichen einzusetzen.
Wer ein unfertiges, skizzenhaftes Erscheinungsbild möchte, kann "alla prima, single session painting, visible underpainting" (Alla-prima-Malerei, in einer Sitzung gemalt, sichtbare Untermalung) hinzufügen.
6. Film Noir / Kinematografisch
Prompt-Elemente: "film noir", "dramatic shadows" (dramatische Schatten), "high contrast" (hoher Kontrast), "black and white" (Schwarz-Weiß), "cinematic lighting" (kinematografische Beleuchtung), "moody atmosphere" (stimmungsvolle Atmosphäre)
Dieser Stil lebt von starken Hell-Dunkel-Kontrasten, dramatischen Schatten und einer spannungsgeladenen Atmosphäre. Das Schlüsselwort ist Beleuchtung - hier sollte man besonders präzise sein: "single hard light source from above" (einzelne harte Lichtquelle von oben), "venetian blind shadows across the face" (Jalousie-Schatten über dem Gesicht) oder "silhouette against a foggy street" (Silhouette vor einer nebligen Straße) erzeugen jeweils völlig unterschiedliche Stimmungen innerhalb des Noir-Genres.
Der Stil funktioniert auch hervorragend als Farbvariante: "neo-noir, cinematic color grading with muted teal and orange tones" (Neo-Noir, kinematografische Farbkorrektur mit gedeckten Blaugrün- und Orangetönen) erzeugt den typischen Look moderner Thriller. Begriffe aus der Kinematografie verstärken den Effekt erheblich: "low-angle shot" (Froschperspektive) vermittelt Bedrohung, "dutch angle" (Schrägaufnahme) Instabilität, "anamorphic lens flare" (anamorpher Blendenfleck) den Look von Kinofilmen.
Für maximale Wirkung sollte man auch die Umgebung beschreiben: "rain-slicked streets reflecting neon signs" (regennasse Straßen, die Neonreklamen spiegeln), "smoke-filled room" (verrauchter Raum) oder "dimly lit alley" (schwach beleuchtete Gasse) transportieren die Noir-Atmosphäre mindestens ebenso stark wie die Lichtangaben selbst.
7. 3D-Render / Isometrisch
Prompt-Elemente: "3D render" (3D-Darstellung), "isometric view" (isometrische Ansicht), "soft lighting" (weiches Licht), "clean design" (klares Design), "smooth surfaces" (glatte Oberflächen)
Dieser Stil erzeugt dreidimensional wirkende Szenen mit weichen Oberflächen und kontrollierter Beleuchtung. Besonders beliebt für niedliche Charaktere, Miniaturwelten und Produktvisualisierungen. Die Angabe "isometric view" (isometrische Ansicht) erzeugt eine gleichmäßige, diagrammartige Perspektive ohne Fluchtpunkt - ideal für Spielwelten, Raumdarstellungen und technische Visualisierungen.
Für den typischen Look animierter Filme hilft der Zusatz "3D animated style, exaggerated proportions, soft textures, expressive characters" (3D-Animationsstil, übertriebene Proportionen, weiche Texturen, ausdrucksstarke Figuren). Materialangaben machen einen großen Unterschied: "glossy plastic surface" (glänzende Kunststoffoberfläche), "matte clay render" (matte Ton-Darstellung) oder "translucent glass material" (durchscheinendes Glasmaterial) erzeugen jeweils völlig verschiedene Anmutungen.
Wer den beliebten "Miniaturwelt"-Effekt erzielen möchte, kombiniert "tilt-shift effect, miniature diorama, tiny detailed world" (Tilt-Shift-Effekt, Miniatur-Diorama, winzige detaillierte Welt). Für Produktvisualisierungen empfiehlt sich "studio lighting, product photography, white background, ambient occlusion" (Studiobeleuchtung, Produktfotografie, weißer Hintergrund, Umgebungsverdeckung) - die KI erzeugt dann saubere, professionell beleuchtete Objektdarstellungen.
8. Vintage-Fotografie / Retro
Prompt-Elemente: "vintage photograph" (Vintage-Foto), "1970s aesthetic" (1970er-Jahre-Ästhetik), "film grain" (Filmkorn), "faded colors" (verblasste Farben), "Kodachrome", "light leaks" (Lichteinbrüche)
Bilder in diesem Stil wirken wie alte Aufnahmen mit Filmkorn, verblassten Farben und gelegentlichen Lichteinbrüchen. Der wirkungsvollste Ansatz ist die Angabe konkreter Filmtypen: "Kodachrome" erzeugt gesättigte Rot- und Gelbtöne, "Polaroid" den typischen weißen Rahmen mit leicht entsättigten Farben, "Fujifilm Superia" einen grünlich-kühlen Farbton.
Die Kombination mit einem Jahrzehnt schärft das Ergebnis weiter: "1960s fashion photography" (Modefotografie der 1960er) sieht grundlegend anders aus als "1990s product photography" (Produktfotografie der 1990er) oder "early 2000s digital camera aesthetic" (Digitalkamera-Ästhetik der frühen 2000er). Physische Alterungsspuren wie "light leaks" (Lichteinbrüche), "dust and scratches" (Staub und Kratzer), "slightly overexposed" (leicht überbelichtet) oder "vignetting" (Vignettierung / Randabschattung) erhöhen die Authentizität.
Ein praktischer Tipp: Wer den Retro-Effekt subtil halten möchte, verwendet nur ein oder zwei dieser Alterungsmerkmale - zu viele gleichzeitig wirken schnell übertrieben und unnatürlich. Auch die Angabe der Aufnahmetechnik hilft: "shot on 35mm film" (aufgenommen auf 35-mm-Film) erzeugt eine andere Kornstruktur als "medium format Hasselblad" (Mittelformat-Hasselblad).
9. Minimalismus / Flat Design
Prompt-Elemente: "minimalist design" (minimalistisches Design), "flat colors" (flächige Farben), "simple shapes" (einfache Formen), "clean lines" (klare Linien), "geometric" (geometrisch), "limited color palette" (begrenzte Farbpalette)
Reduziert auf das Wesentliche: klare Linien, wenige Farben und geometrische Formen. Dieser Stil eignet sich besonders für Icons, Poster, Infografiken und Branding-Materialien. Die größte Herausforderung besteht darin, die künstliche Intelligenz (KI) davon abzuhalten, zu viele Details hinzuzufügen.
Hilfreich ist es, die Reduktion explizit einzufordern: "no unnecessary details, large areas of negative space, maximum three colors" (keine unnötigen Details, große Freiflächen, maximal drei Farben). Die Angabe einer konkreten Farbpalette schärft das Ergebnis zusätzlich - etwa "monochrome blue tones" (monochrome Blautöne), "pastel palette with soft pink and mint" (Pastellpalette mit zartem Rosa und Mint) oder "bold primary colors only" (nur kräftige Primärfarben).
Für verschiedene Unterstile kann man präzisieren: "Swiss design, Helvetica typography" (Schweizer Grafikdesign, Helvetica-Typografie) für den klassisch-europäischen Grafikdesign-Stil, "Japanese minimalism, wabi-sabi" (japanischer Minimalismus, Wabi-Sabi) für eine organischere, unperfekte Ästhetik, "Bauhaus inspired, geometric abstraction" (Bauhaus-inspiriert, geometrische Abstraktion) für streng konstruierte Kompositionen.
Im Negativprompt können Begriffe wie "realistic, detailed, complex, ornate" (realistisch, detailliert, komplex, verschnörkelt) helfen, die Einfachheit zu bewahren. Für Vektorgrafik-Anwendungen sollte man "vector style, scalable, sharp edges" (Vektor-Stil, skalierbar, scharfe Kanten) ergänzen.
10. Surrealismus / Traumlandschaft
Prompt-Elemente: "surrealist art" (surrealistische Kunst), "dreamlike" (traumartig), "impossible architecture" (unmögliche Architektur), "melting shapes" (schmelzende Formen), "ethereal atmosphere" (ätherische Atmosphäre) Im Surrealismus darf die KI ihre Stärke in der Kombination ungewöhnlicher Elemente voll ausspielen.
Schwebende Objekte, unmögliche Architektur und traumartige Lichtstimmungen erzeugen Bilder, die faszinieren und zum Nachdenken anregen. Der Schlüssel zu überzeugenden surrealistischen Bildern liegt darin, Gegensätze bewusst zu kombinieren: "an ocean inside a library" (ein Ozean in einer Bibliothek), "a clock growing like a tree" (eine Uhr, die wie ein Baum wächst) oder "stairs leading into the sky" (Treppen, die in den Himmel führen) geben der KI kreative Ankerpunkte, die sie in unerwartete Richtungen weiterentwickelt.
Dabei sollte man die Szene trotz ihrer Unmöglichkeit mit realistischen Details anreichern: "photorealistic rendering of an impossible scene" (fotorealistische Darstellung einer unmöglichen Szene) erzeugt einen faszinierenderen Kontrast als ein komplett abstraktes Ergebnis. Für die Lichtstimmung eignen sich Angaben wie "ethereal glow" (ätherisches Leuchten), "bioluminescent lighting" (biolumineszentes Licht) oder "light filtering through translucent objects" (Licht, das durch durchscheinende Objekte fällt).
Ein fortgeschrittener Trick: Man beschreibt eine alltägliche Szene und fügt dann eine einzelne surreale Abweichung hinzu - etwa "a perfectly normal kitchen, except the floor is an ocean surface reflecting the ceiling" (eine völlig normale Küche, nur dass der Boden eine Wasseroberfläche ist, die die Decke spiegelt). Diese Technik erzeugt oft eindrucksvollere Ergebnisse als eine Aneinanderreihung fantastischer Elemente, weil der Kontrast zum Alltäglichen die Wirkung verstärkt.
Tipp 1: Nano Banana einfach machen lassen
Wer mit Googles Nano Banana Pro oder Nano Banana 2 arbeitet, muss sich nicht zwingend mit aufwendiger Prompt-Architektur beschäftigen. Dank der zugrundeliegenden Gemini-Modelle verstehen diese Generatoren auch lange, unstrukturierte Texteingaben und machen sich selbstständig ans Werk.
In der Praxis bedeutet das: Man kann einen ganzen Absatz, eine Projektbeschreibung, eine Artikelzusammenfassung oder sogar Stichpunkte aus einem Briefing direkt in das Eingabefeld kopieren und dazu einen kurzen Hinweis ergänzen, was man sich vorstellt - etwa "Erstelle daraus eine Infografik im modernen Flat-Design" oder "Mach ein Titelbild für einen Blogartikel zu diesem Thema".
Gemini analysiert den Text eigenständig, erkennt die zentralen Aussagen und Themen und trifft kreative Entscheidungen zu Komposition, Farbgebung und Bildaufbau, ohne dass man jedes Detail selbst vorgeben muss.
Das Modell bringt sein Weltwissen ein - es weiß, wie ein Barista aussieht, wie ein Schaltkreis funktioniert oder welche Pflanzen in einem tropischen Regenwald wachsen - und setzt dieses Wissen in visuell stimmige Darstellungen um. Gerade für Infografiken, datengestützte Visualisierungen und erklärende Schaubilder ist das ein enormer Vorteil, weil das Modell die inhaltliche Logik des Textes versteht und nicht nur Schlüsselwörter aneinanderreiht.
Tipp 2: Image-to-Image (img2img) nutzen lernen
Statt immer bei null anzufangen, kann man der KI ein bestehendes Bild als Ausgangspunkt geben. Über den sogenannten "Denoise"-Wert steuert man, wie stark das Ergebnis vom Original abweichen darf. Ein Wert unter 0,4 hält das Ergebnis eng am Original, ein Wert über 0,8 gibt der KI fast völlige Freiheit. Diese Technik eignet sich hervorragend, um Skizzen in ausgearbeitete Bilder zu verwandeln oder den Stil eines Bildes zu ändern.
Tipp 3: Inpainting für gezielte Korrekturen
Man erhält selten beim ersten Versuch ein perfektes Bild - aber oft eines, das zu 90 % stimmt. Inpainting ist die Lösung: Man markiert den Bereich, der geändert werden soll, beschreibt im Prompt die gewünschte Änderung, und die KI zeichnet nur diesen Bereich neu. So lassen sich Gesichter korrigieren, Kleidung ändern, Objekte hinzufügen oder entfernen, ohne das restliche Bild zu beeinflussen. Inpainting zählt zu den nützlichsten Fähigkeiten, die man erlernen kann.
Tipp 4: LoRAs für spezifische Stile und Figuren einsetzen
LoRAs (Low-Rank Adaptations) sind kleine Zusatzmodelle, die auf einem Basismodell aufsetzen und spezialisiertes Wissen einbringen - etwa einen bestimmten Kunststil, einen konkreten Charakter oder ein visuelles Konzept, das das Hauptmodell nicht kennt.
Wichtig: LoRAs müssen zum verwendeten Basismodell passen (SDXL-LoRAs funktionieren nur mit SDXL-Modellen). Manche LoRAs benötigen ein Trigger-Wort im Prompt, das auf der jeweiligen Download-Seite angegeben ist. Über den Gewichtungswert (Weight) kann gesteuert werden, wie stark der LoRA-Einfluss ausfällt.
Tipp 5: ControlNet für präzise Komposition Wenn img2img ein Vorschlaghammer ist, dann ist ControlNet ein Skalpell. Statt das gesamte Bild als Vorlage zu nutzen, extrahiert ControlNet einen bestimmten Aspekt daraus: Canny erkennt Kanten und übernimmt die Gesamtkomposition.
OpenPose erkennt die Körperhaltung einer Person, sodass man einen völlig anderen Charakter in derselben Pose zeichnen kann. Depth Map überträgt die räumliche Tiefe eines Bildes. Dies gibt dem Nutzer eine feinkörnige Kontrolle über das Endergebnis, die mit reinem Prompting kaum erreichbar ist.
Tipp 6: IP-Adapter für Stil- und Gesichtsübertragung
IP-Adapter arbeiten ähnlich wie ControlNet, ist aber weniger starr. Er kann den Stil, die grobe Komposition oder sogar ein bestimmtes Gesicht aus einem Referenzbild übernehmen und in einen neuen Kontext übertragen. Das macht ihn besonders wertvoll für konsistente Charakterdarstellungen über mehrere Bilder hinweg.
Tipp 7: Die Sprache des Films verwenden
KI-Bildgeneratoren reagieren hervorragend auf Begriffe aus Fotografie und Film. Wer diese Sprache nutzt, erhält wesentlich kontrollierbare Ergebnisse.
Einstellungsgrößen: Nahaufnahme (Close-up), Halbtotale (Medium Shot), Totale (Wide Shot), Über-die-Schulter-Aufnahme
Beleuchtung: Weiches Licht (Soft Lighting), Gegenlicht-Silhouette (Backlit Silhouette), Dramatische Schatten, Goldene Stunde (Golden Hour)
Perspektiven: Vogelperspektive (Bird's-Eye View), Froschperspektive (Low Angle), Ego-Perspektive (First Person)
Kameradetails: "Shot with 85mm lens at f/1.4" oder "Captured on Arri Alexa Mini" erzeugen einen spezifischen fotografischen Look
Tipp 8: Keine Prompts blind kopieren
Auf Plattformen wie CivitAI finden sich unter vielen beeindruckenden Bildern die zugehörigen Prompts. Es ist verlockend, diese einfach zu übernehmen - doch das führt schnell zu schlechten Gewohnheiten. Ohne zu verstehen, warum ein Prompt funktioniert hat (welches Modell, welche Einstellungen, welche LoRAs), wird das Kopieren oft enttäuschende Ergebnisse liefern. Besser: Den Prompt analysieren, die Struktur verstehen und daraus Prinzipien für eigene Prompts ableiten.
Tipp 9: Prompt-Builder und KI-Hilfe nutzen
Wem das Formulieren von Prompts schwerfällt, der kann auf die mittlerweile zahlreichen Prompt-Builder (am besten googeln und ausprobieren) zurückgreifen - interaktive Werkzeuge, bei denen man Felder zu Motiv, Stil, Beleuchtung und Komposition ausfüllt und einen fertigen Prompt erhält.
Auch Sprachmodelle können helfen: Man beschreibt die gewünschte Szene in Alltagssprache und lässt den Prompt von der künstlichen Intelligenz (KI) in ein optimiertes Format umschreiben. Besonders für Flux-Modelle, die natürliche Sprache bevorzugen, ist das ein effektiver Workflow.
Tipp 10: ADetailer gegen unscharfe Gesichter
Ein häufiges Problem: Gesichter, die etwas weiter von der Kamera entfernt sind, wirken verzerrt oder "zerquetscht". Das Werkzeug ADetailer (verfügbar in Forge und einigen anderen UIs) erkennt automatisch Gesichter und Hände im Bild und zeichnet sie in höherer Auflösung neu.
Wer keine ADetailer-Funktion hat, kann alternativ das Bild hochskalieren und anschließend das Gesicht per Inpainting korrigieren.
Tipp 11: Regional Prompting für komplexe Szenen
Bei Szenen mit mehreren Elementen, die unterschiedlich beschrieben werden sollen, stößt ein einzelner Prompt schnell an Grenzen. "Ein blaues Auto und ein rotes Auto" erzeugt häufig ein oder zwei mehrfarbige Autos statt zweier korrekt gefärbter Fahrzeuge.
Regional Prompting löst dieses Problem: Man weist verschiedenen Bildbereichen unterschiedliche Prompts zu, die dann automatisch zusammengeführt werden. So erhält jedes Element genau die Beschreibung, die es braucht.
Tipp 12: Sinnvoller Umgang mit Seitenverhältnissen
Das Seitenverhältnis beeinflusst die gesamte Komposition. Ein 16:9-Format eignet sich für kinematische Landschaften, 9:16 für Poster oder Smartphone-Hintergründe, 1:1 für Porträts und Social-Media-Inhalte, und 21:9 für ultrabreite Panoramaszenen.
Die Angabe des gewünschten Formats direkt im Prompt (z. B. "A cinematic 21:9 wide shot") kann bei einigen Modellen die Komposition zusätzlich steuern. Aktuelle Modelle wie Googles Nano Banana Pro unterstützen Auflösungen bis 4K in verschiedenen Seitenverhältnissen.
Jetzt seid ihr dran! Habt ihr Tipps zur Generierung oder Stile, die euch besonders gut gefallen? Findet ihr solche KIs ethisch überhaupt in Ordnung? Ist das ein legitimes technisches Tool oder wurde hier das Tor zur Massen-Desinformation geöffnet?
KI-Bilder generieren: Alles was ihr wissen müsst
Bildgenerierung ist eines der Themen der Stunde, das steht außer Frage. Das betrifft nicht nur die Popularität bei Nutzern, die Geburtstagseinladungen und harmlose Bilder für soziale Medien erstellen, sondern natürlich auch Themen wie Desinformation und Fakes. Denn wie alle Technologien kann man Bild-KIs zum Guten, aber auch Schlechten und gar Bösen einsetzen. Deshalb kann man anfangs nur aufrufen, verantwortungsvoll mit dieser Technik umzugehen.Wer das berücksichtigt, kann spannende und auch informative Bilder erstellen. Wie solche KIs überhaupt funktionieren, welche es gibt und wie die besten Bilder gelingen, verraten wir in dieser FAQ.
- Wie funktionieren Bild-KIs?
- Welche Modellarchitekturen gibt es?
- Welche Online-Dienste gibt es für Einsteiger?
- Wie zeigen sich die Unterschiede der Modelle?
- Kann ich Bilder auch lokal auf meinem PC erzeugen?
- Wie schreibe ich einen guten Prompt?
- Wie unterscheidet sich das Prompting je nach Modell?
- Was ist bei Googles Nano Banana Pro/2 zu beachten?
- Was ist ein Negativprompt und wann setze ich ihn ein?
- Wie verfeinere ich meine Prompts schrittweise?
- Was sind die zehn interessantesten Stile für KI-Bilder?
- Praktische Tipps: Wie gelingen die besten Bilder?
1. Wie funktionieren Bild-KIs?
Moderne Bildgeneratoren funktionieren fast wie so etwas wie Magie, denn mittlerweile muss man oft nur einige kurze Sätze oder Stichworte eingeben, um beeindruckende Ergebnisse zu bekommen. Doch wie arbeitet so eine künstliche Intelligenz (KI) eigentlich? Die nächsten Punkte klären das genauer.
Was ist KI-Bildgenerierung überhaupt?
KI-Bildgenerierung bezeichnet den Vorgang, bei dem eine Software aus einer Texteingabe - dem sogenannten Prompt - ein Bild erzeugt. Der Nutzer beschreibt in Worten, was er erschaffen möchte, und die KI erstellt daraus eine visuelle Darstellung.
Dabei kann das Ergebnis fotorealistisch, illustrativ, malerisch oder in nahezu jedem erdenklichen Stil ausfallen. Im Kern handelt es sich um eine Form des maschinellen Lernens: Die zugrundeliegenden Modelle wurden mit Millionen von Bild-Text-Paaren trainiert und haben dabei gelernt, welche visuellen Elemente zu welchen Beschreibungen passen.
Wie funktioniert der sogenannte Diffusionsprozess?
Die meisten modernen Bildgeneratoren basieren auf dem Prinzip der Diffusion. Man kann sich das so vorstellen: Die KI beginnt mit einem Bild, das aus reinem visuellem Rauschen besteht - vergleichbar mit dem Schnee auf einem alten, nicht eingestellten Fernseher. Anschließend entfernt sie dieses Rauschen in vielen kleinen Schritten, wobei der Prompt als Leitfaden dient. Infografik: Wie funktioniert Diffusion in Bild-KIs?
Mit jedem Schritt wird das Bild klarer und kohärenter, bis am Ende ein fertiges Ergebnis steht. Es ist ein wenig so, als würde man in Wolkenformationen Gesichter erkennen - nur dass die KI die Wolken gezielt in die gewünschte Form bringt.
Was passiert technisch im Hintergrund?
Der Prozess lässt sich in drei Kernkomponenten aufteilen:
Der Text-Encoder analysiert den eingegebenen Prompt und wandelt ihn in eine mathematische Repräsentation um, die das Modell verarbeiten kann. Hier werden die Bedeutung der Wörter und ihr Zusammenhang erfasst. Verschiedene Modelle nutzen unterschiedliche Encoder - Flux-Modelle setzen beispielsweise auf Googles T5-Encoder, während ältere Stable-Diffusion-Modelle CLIP verwenden.
Das eigentliche Diffusionsmodell (auch U-Net oder Transformer genannt) ist das Herzstück. Es nimmt das zufällige Rauschen und die Textinformationen entgegen und berechnet in einer definierten Anzahl von Schritten (Steps), wie das Rauschen zu entfernen ist, damit ein zum Prompt passendes Bild entsteht.
Der VAE (Variational Autoencoder) ist für den letzten Schritt zuständig: Er dekodiert das Ergebnis des Diffusionsprozesses und wandelt es in ein sichtbares Bild um. Wenn ein generiertes Bild ungewöhnlich grau, entsättigt oder verrauscht wirkt, kann ein fehlender oder fehlerhafter VAE die Ursache sein.
Was bedeuten Begriffe wie "Steps", "CFG" und "Sampler"?
Wer sich intensiver mit Bildgenerierung beschäftigt, stößt schnell auf technische Parameter, die das Ergebnis maßgeblich beeinflussen:
Steps bezeichnen die Anzahl der Berechnungsschritte, die die künstliche Intelligenz (KI) durchführt, um aus dem Rauschen ein Bild zu formen. Ein Wert zwischen 25 und 30 ist für die meisten Modelle ein guter Ausgangspunkt. Mehr Schritte können die Qualität leicht verbessern, führen aber zu abnehmenden Erträgen und längerer Rechenzeit. Einige neuere Modelle wie Flux [schnell] kommen bereits mit nur 2-4 Steps zu brauchbaren Ergebnissen.
CFG (Classifier-Free Guidance) steuert, wie streng sich die KI an den Prompt hält. Ein niedriger Wert gibt der KI mehr kreative Freiheit, kann aber dazu führen, dass das Ergebnis wenig mit der Beschreibung zu tun hat. Ein zu hoher Wert erzeugt oft überbelichtete, "verbrannt" wirkende Bilder voller Artefakte. Ein Wert zwischen 5 und 8 ist für die meisten Modelle ein sicherer Bereich. Infografik Bildgenerierung: Wichtige Parameter
Sampler sind die mathematischen Funktionen, die bestimmen, auf welche Weise das Rauschen in ein Bild umgewandelt wird. Gängige und zuverlässige Sampler sind Euler A, DPM++ 2M und DPM++ SDE. Jeder Sampler hat eigene Stärken - manche erzeugen schärfere Details, andere arbeiten schneller.
Scheduler bestimmen, wie viel Rauschen pro Schritt entfernt wird. Ist der Fortschritt linear, oder beginnt er schnell und wird gegen Ende präziser? "Karras" ist in den meisten Fällen eine sichere Wahl. Manche Benutzeroberflächen kombinieren Sampler und Scheduler zu einer einzigen Einstellung.
2. Welche Modellarchitekturen gibt es?
Die Welt der KI-Bildgenerierung wird von einigen wenigen Basismodellen dominiert, die jeweils eigene Stärken, Schwächen und Hardwareanforderungen mitbringen:Stable Diffusion 1.5 (SD1.5) ist eines der älteren, aber nach wie vor weitverbreiteten Modelle. Es arbeitet mit einer nativen Auflösung von 512 × 512 Pixeln und stellt vergleichsweise geringe Hardwareanforderungen (ab 4 GB VRAM). Für scharfe, saubere Bilder ist in der Regel ein sogenannter "Hires Fix" oder "ADetailer" nötig. Die Community-Unterstützung ist ausgezeichnet - es gibt eine riesige Auswahl an LoRAs, ControlNets und anderen Erweiterungen.
Stable Diffusion XL (SDXL) ist der Nachfolger von SD1.5 und arbeitet mit einer nativen Auflösung von 1024 × 1024 Pixeln. Es versteht Prompts besser, erzeugt detailliertere Bilder und benötigt mindestens 6 GB VRAM. SDXL gilt aktuell als optimaler Einstiegspunkt für die meisten Nutzer, da es breit unterstützt wird und keine besonderen Installationsschritte erfordert. Infografik Bildgenerierung: Grundlegende Modellarchitekturen
Flux ist eines der neuesten und fortschrittlichsten Modelle. Es versteht Prompts hervorragend und bevorzugt - anders als SD1.5 und SDXL - vollständige Sätze statt Stichwortlisten. Flux stellt die höchsten Hardwareanforderungen (mindestens 8 GB VRAM für quantisierte Versionen). Es gibt mehrere Hauptvarianten: Flux Pro oder Dev für maximale Qualität und Flux schnell für deutlich schnellere Generierung bei etwas geringerer Qualität.
Stable Diffusion 3.5 ist der offizielle SDXL-Nachfolger, hatte jedoch einen holprigen Start und konnte die Erwartungen bisher nicht vollständig erfüllen. Die Community-Aufmerksamkeit liegt derzeit stärker auf Flux.
GPT Image 1.5 ist OpenAIs neuestes Bildmodell und hat ältere Systeme wie DALL-E 3 abgelöst. Es unterscheidet sich grundlegend von den Diffusionsmodellen der Konkurrenz, da es auf einem autoregressiven Ansatz basiert. GPT Image 1.5 versteht lange, detaillierte Prompts, kann mehrstufige Anweisungen befolgen und bewahrt wichtige visuelle Elemente wie Logos, Gesichter und Layouts über Bearbeitungsschritte hinweg. In unabhängigen Vergleichstests erreicht es regelmäßig Spitzenwerte. Es ist über ChatGPT und die OpenAI-API zugänglich.
Googles Nano Banana Pro (offiziell Gemini 3 Pro Image) ist Googles Flaggschiff-Bildmodell. Es bietet native 4K-Auflösung (4096 × 4096), Textrendering in mehreren Sprachen, die Möglichkeit bis zu 14 Referenzbilder in eine Komposition einzubeziehen und nutzt das Weltwissen von Gemini 3 für faktisch korrekte Darstellungen. Besonders stark bei fotorealistischen Inhalten, Infografiken und datengestützten Visualisierungen.
Reve Image ist ein Modell des Palo-Alto-Startups Reve AI, das im März 2025 veröffentlicht wurde und sofort an die Spitze unabhängiger Vergleichsranglisten sprang. Reve Image zeichnet sich durch herausragende Prompt-Treue aus - das heißt, es setzt auch komplexe Beschreibungen mit vielen Details präzise um, ohne Elemente zu vertauschen oder zu ignorieren. Zusätzlich ermöglicht es zuverlässiges Textrendering und bestehende Bilder per natürlichsprachlicher Anweisung zu bearbeiten.
Ideogram wurde von ehemaligen Google-Brain-Forschern speziell für die Herausforderung entwickelt, lesbaren Text in KI-generierten Bildern darzustellen. Während die meisten Generatoren bei der Textwiedergabe scheitern, erreicht Ideogram 3.0 (veröffentlicht im März 2025) eine Genauigkeit von rund 90-95 Prozent. Es eignet sich damit besonders für Poster, Logos, Marketing-Grafiken und Branding-Materialien.
Daneben gibt es spezialisierte Ableger wie Pony, Illustrious und NoobAI, die technisch auf SDXL basieren, sich aber so weit entwickelt haben, dass sie als eigenständige Basismodelle gelten. Sie eignen sich besonders gut für Anime-Stil und bekannte Charaktere, sind aber eigenwilliger in der Handhabung und daher für Anfänger weniger empfehlenswert.
3. Welche Online-Dienste gibt es für Einsteiger?
Wer keine Software installieren und sich nicht mit technischen Details beschäftigen möchte, kann auf webbasierte Dienste zurückgreifen:Midjourney ist bekannt für künstlerisch ansprechende, oft lebensecht wirkende Bilder. Der Zugang erfolgt über Discord sowie die Webseite. Midjourney gilt vielen als einer der besten Generatoren für ästhetisch hochwertige Ergebnisse.
Google Nano Banana Pro/2 (basierend auf Gemini 3) ist Googles jüngstes Bildmodell und u. a. über Gemini selbst erreichbar. Es bietet unter anderem Textwiedergabe in mehreren Sprachen, die Möglichkeit bis zu 14 Bilder in eine Komposition einzubeziehen, und Auflösungen bis 4K.
DALL-E 3 von OpenAI verarbeitet auch komplexe Prompts zuverlässig und erzeugt qualitativ hochwertige, oft surreal anmutende Bilder. Es ist über ChatGPT und die OpenAI-API zugänglich und profitiert von OpenAIs Expertise im Bereich großer Sprachmodelle.
Adobe Firefly ist in Adobes Creative Cloud integriert und daher besonders für Kreativprofis interessant, die bereits im Adobe-Ökosystem arbeiten. Da Firefly auf lizenziertem Adobe-Stock-Material trainiert wurde, ist die rechtliche Situation bei kommerzieller Nutzung vergleichsweise klar.
Recraft zeichnet sich durch präzise Stil- und Positionierungskontrolle aus und bietet mit Inpainting, Outpainting und Vektorgrafik-Generierung ein umfangreiches Werkzeugset. Die Plattform bietet auch einen kostenlosen Einstieg.
Leonardo AI bietet einen großzügigen kostenlosen Plan mit ausreichend Generierungsguthaben und schneller Verarbeitung.
Canva richtet sich mit seiner benutzerfreundlichen Oberfläche an Einsteiger und Gelegenheitsnutzer, die KI-Bildgenerierung unkompliziert ausprobieren möchten.
Microsoft Designer nutzt DALL-E 3 als Grundlage und ist kostenlos verfügbar. Für Nutzer im Microsoft-Ökosystem bietet es eine nahtlose Integration.
CivitAI ist weniger ein einzelner Generator als vielmehr eine riesige Community-Plattform, auf der tausende Modelle, LoRAs und Ressourcen geteilt werden. Gleichzeitig bietet die Plattform auch einen eigenen Online-Generierungsdienst.
4. Wie zeigen sich die Unterschiede der Modelle?
Alle Modelle bzw. Dienste haben Stärken und Schwächen, das sollte mittlerweile klar sein. Manches Modell beherrscht Menschen besser, ein anderes Schrift oder Architektur. An dieser Stelle wird sich der Leser fragen: Kann ich das bitte sehen? Ja, wir zeigen es, auch wenn das eine Momentaufnahme ist.Dafür haben wir acht Szenarien vorgegeben, die sich auf bestimmte Eigenheiten von Bild-KIs konzentrieren, und den (englischen) Prompt unverändert durch acht Modelle gejagt. Anmerkung: Die Galerien mit den acht Ergebnissen sind auf den gesamten Artikel verstreut.
Der Härtetest für Photorealismus
Dieses Motiv prüft, wie die KI mit Texturen (Haut, Stoff), natürlichem Licht und physikalischer Korrektheit umgeht.Motiv: Ein Close-up Porträt einer älteren Person in einem verregneten Neon-Setting.
Warum dieses Motiv? Falten, Regentropfen auf der Haut und die Spiegelung von Neonlicht in den Augen sind extrem schwer zu faken, ohne dass es "künstlich" wirkt.
Prompt:
Extrem detailreiches Close-up Porträt eines 80-jährigen Fischers mit tiefen Falten, trägt eine gelbe Regenjacke, steht nachts im strömenden Regen unter einer blauen Neonreklame. Wassertropfen perlen auf der Haut ab, hyperrealistisch, 8k, flache Tiefenschärfe, kinoreife Beleuchtung, Fokus auf die Augen.
Der Test für Logik & Typografie
Lange Zeit war Text in Bildern die Achillesferse der künstliche Intelligenz (KI). Dieses Motiv zeigt, ob das Modell Anweisungen exakt befolgt und Buchstaben korrekt setzt.Motiv: Ein modernes Flat-Design-Poster für ein fiktives Event.
Warum dieses Motiv? Es demonstriert die grafische Sauberkeit und die Fähigkeit, Text leserlich in ein Design zu integrieren - perfekt, um die Fortschritte von DALL-E 3 oder neuen Stable Diffusion Modellen zu zeigen.
Prompt:
Ein minimalistisches Grafikdesign-Poster im Bauhaus-Stil für eine Konferenz. In der Mitte steht groß und deutlich der Text 'AI FUTURE 2026'. Geometrische Formen in Primärfarben (Rot, Blau, Gelb) auf beigefarbenem Papierhintergrund, klare Linien, Vektor-Stil, professionelles Layout.
Der Test für Kreativität & Abstraktion
Hier geht es weniger um die Realität als vielmehr um die "Phantasie" und den künstlerischen Stil der KI.Motiv: Eine surreale Verschmelzung von Natur und Mechanik.
Warum dieses Motiv? Es zeigt, wie die KI Konzepte mixt, die in der echten Welt nicht existieren, und die ästhetische Komposition abseits von Stockfotos prüft.
Prompt:
Eine surreale Skulptur eines majestätischen Hirsches, dessen Geweih aus blühenden Kirschblütenzweigen und filigranen goldenen Uhrwerken besteht. Der Hirsch steht auf einem schwebenden Kristallfelsen über einem Wolkenmeer. Stil: Eine Mischung aus Salvador Dalà und digitaler Konzeptkunst, traumhaft, pastellfarbene Ästhetik, weiches Licht.
Der Material- & Makro-Test
Dieses Motiv zeigt, wie die KI physikalische Eigenschaften wie Transparenz, Lichtbrechung (Refraktion) und metallischen Glanz gleichzeitig verarbeitet.Motiv: Ein futuristisches Uhrwerk im Inneren einer gläsernen Kugel, die in dunklem Honig versinkt.
Warum dieses Motiv? Es kombiniert drei extrem unterschiedliche Materialeigenschaften: die harte, kalte Präzision von Metallzahnrädern, die Lichtbrechung durch Glas und die viskose, organische Textur von Honig. Das zeigt dem Leser, ob die KI "versteht", wie Licht durch verschiedene Medien wandert.
Prompt:
Extreme Makroaufnahme eines komplexen, goldenen Uhrwerks, das im Inneren einer transparenten Glaskugel eingeschlossen ist. Die Kugel liegt halb eingetaucht in zähflüssigem, goldenem Honig. Überall sind kleine Luftblasen im Honig zu sehen. Fokus auf die scharfen Kanten der Zahnräder, während das Glas das Licht bricht. Warme, goldene Beleuchtung, schwarzer Hintergrund, extrem hoher Detailgrad, 8k Auflösung, Raytracing-Effekte.
Der Anatomie- & Interaktions-Test (Hände & Objekte)
Hände waren lange das größte Problem von Bild-KIs. Dieser Test prüft, ob die künstliche Intelligenz (KI) versteht, wie Finger ein Objekt greifen, ohne damit zu verschmelzen.Motiv: Eine Hand, die vorsichtig ein Kartenhaus aus Spielkarten baut.
Warum dieses Motiv? Es erfordert filigrane Fingerhaltungen und das physikalische Verständnis von Balance und Kanten.
Prompt:
Extreme Nahaufnahme einer menschlichen Hand, die die letzte Karte auf ein komplexes, fünfstöckiges Kartenhaus legt. Fokus auf die Fingerspitzen, die die Karte halten. Realistische Hauttextur, natürliches Tageslicht von der Seite, weicher Schattenwurf. Die Karten müssen perfekt ausbalanciert wirken, 8k, photorealistisch.
Der Architektur- & Symmetrie-Test
KIs neigen dazu, Linien zu krümmen oder Fenster ungleichmäßig zu platzieren. Dieser Test erzwingt mathematische Strenge.Motiv: Die Innenansicht einer futuristischen, streng symmetrischen Kathedrale aus Glas und weißem Beton.
Warum dieses Motiv? Symmetrie verzeiht keine Fehler. Wenn ein Bogen links anders aussieht als rechts, erkennt das menschliche Auge das sofort als "KI-Fehler".
Prompt:
Zentralperspektive des Innenraums einer modernen Kathedrale. Futuristisches Design mit hohen weißen Betonpfeilern und einer Decke aus geometrischen Glassegmenten. Strenge Symmetrie, weiches diffuses Licht, das von oben einfällt. Keine Menschen, minimalistisch, ultraweitwinkel, architektonische Fotografie.
Der Test für historische Authentizität & Texturen
Hier prüfen wir, ob die KI Epochen mischt oder einen konsistenten "Film-Look" vergangener Jahrzehnte erzeugen kann.Motiv: Eine Straßenszene in Berlin der 1920er Jahre bei Nacht.
Warum dieses Motiv? Kleidung, Autotypen und die Beschaffenheit von Kopfsteinpflaster müssen historisch stimmig sein, kombiniert mit der Körnung alter Filmaufnahmen.
Prompt:
Authentische Straßenszene in Berlin, Jahr 1925, Nachtaufnahme. Historische Automobile, Menschen in zeitgenössischer Kleidung (Mantel, Hut), nasse Kopfsteinpflasterstraßen, die das Licht der Gaslaternen reflektieren. Stil einer alten Leica-Fotografie, Schwarz-Weiß mit leichtem Filmkorn, hoher Kontrast, atmosphärisch.
Der isometrische Design-Test (Asset-Generierung)
Viele Nutzer verwenden KI für Spieledesign oder Illustrationen. Dieser Test prüft die Fähigkeit, Objekte isoliert und in einem spezifischen Winkel darzustellen.Motiv: Ein isometrisches 3D-Diorama eines "Cyberpunk-Arbeitsplatzes" auf einer schwebenden Plattform.
Warum dieses Motiv? Es testet die Einhaltung des 3D-Winkels (Isometrie) und die Fähigkeit, viele kleine Details (Kabel, Monitore, Pflanzen) sauber voneinander zu trennen.
Prompt:
Isometrisches 3D-Diorama eines Cyberpunk-Hacker-Space auf einer quadratischen Plattform. Viele leuchtende Monitore, Kabelsalat, eine Neon-Pflanze in der Ecke, ein futuristischer Stuhl. Transparenter Hintergrund, weiches Ambient Occlusion Lighting, 3D-Render-Stil (Octane Render), lebendige Farben, hohe Details.
5. Kann ich Bilder auch lokal auf meinem PC erzeugen?
Ja, und für viele Nutzer ist genau das der große Reiz: volle Kontrolle, keine Abhängigkeit von einem Dienst und keine laufenden Kosten. Dafür braucht man zwei Dinge - eine Benutzeroberfläche (UI) und ein Modell. Die UI ist vergleichbar mit dem Auto, das man fährt; das Modell ist der Motor, der es antreibt.Mindestanforderungen am PC: 16 GB RAM und eine NVIDIA-Grafikkarte (z. B. RTX 3060) mit mindestens 4 GB VRAM (für SD1.5), 6 GB (SDXL) oder 8 GB (Flux in quantisierter Form). Für AMD- oder Intel-Grafikkarten gibt es Workarounds, diese sind aber deutlich komplizierter.
Für Mac-Nutzer: Ein M1-Chip oder neuer ist erforderlich, dazu 16 GB RAM (SD1.5, SDXL) oder 32 GB RAM (Flux).
6. Wie schreibe ich einen guten Prompt?
Ein Prompt ist die Textbeschreibung, die der künstlichen Intelligenz (KI) mitteilt, welches Bild sie erzeugen soll. Er ist der wichtigste Hebel, den der Nutzer hat - denn die KI kann nicht Gedanken lesen. Je klarer, spezifischer und durchdachter der Prompt formuliert ist, desto näher kommt das Ergebnis an die eigene Vorstellung heran.Ein vager Prompt wie "eine Landschaft" liefert ein generisches, oft enttäuschendes Ergebnis. Ein präziser Prompt wie "eine ruhige Almwiese mit Wildblumen und einem entfernten Berggipfel unter klarem blauem Himmel im Stil eines Aquarells" gibt der KI die nötigen Anhaltspunkte, um etwas Spezifisches und Stimmungsvolles zu erzeugen. Infografik: Wie schreibe ich einen guten Prompt?
Aus welchen Bausteinen besteht ein guter Prompt?
Ein effektiver Prompt setzt sich aus mehreren Schlüsselelementen zusammen, die man sich als eine Art Checkliste vorstellen kann:
Subjekt (Was?): Wer oder was ist das zentrale Motiv? Je spezifischer, desto besser. Statt "ein Roboter" besser "ein stoischer Roboter-Kellner mit leuchtend blauen Augen".
Komposition (Wie gerahmt?): Wie ist die Bildaufteilung? Nahaufnahme, Totale, Froschperspektive, Porträtformat? Diese Angaben lenken den Blick des Betrachters.
Aktion (Was passiert?): Steht das Motiv still oder ist es in Bewegung? "... brüht eine Tasse Kaffee" oder "... rennt durch ein Weizenfeld" erzeugen völlig unterschiedliche Dynamiken.
Ort (Wo?): Wo spielt die Szene? "Ein futuristisches Café auf dem Mars" erzeugt eine andere Atmosphäre als "ein Supermarkt voller Waren".
Stil (Welche Ästhetik?): Welchen visuellen Stil soll das Bild haben? 3D-Animation, Film Noir, Aquarell, fotorealistisch, Produktfotografie der 1990er Jahre? Die Stilangabe hat enormen Einfluss auf das Ergebnis.
Stimmung und Atmosphäre: Angaben wie "bei Sonnenaufgang", "in einem Sturm" oder "mit mystischer Aura" verleihen dem Bild emotionale Tiefe und verändern die gesamte Farbpalette und Lichtstimmung.
7. Wie unterscheidet sich das Prompting je nach Modell?
Dieser Punkt ist entscheidend und wird von vielen Einsteigern übersehen: Jedes Modell erfordert eine bestimmte Ausrichtung beim Verfassen der Prompts. Das sind einige der wichtigsten Tipps:SD1.5 und SDXL priorisieren die früher im Prompt genannten Begriffe stark gegenüber den späteren. Das Wichtigste gehört also an den Anfang. Prompts sollten möglichst unter 75 Token bleiben (in Forge wird die aktuelle Token-Zahl oben rechts im Prompt-Feld angezeigt). Wird diese Grenze überschritten, beginnt ein neuer Verarbeitungsblock, was zu unerwarteten Ergebnissen führen kann. Mit dem Schlüsselwort BREAK lassen sich Prompts in Forge in Blöcke aufteilen.
Anime-Modelle auf SD1.5/SDXL-Basis sind häufig auf sogenannte "Booru-Tags" trainiert - kurze, standardisierte Schlagwörter wie "medium shot", "from side", "golden hour". Ein typischer Prompt für ein Anime-Modell könnte so aussehen: "anime screencap, wallpaper, golden retriever, running, ball, park, medium shot, from side, playground".
Flux-Modelle funktionieren grundlegend anders. Sie bevorzugen vollständige, natürlichsprachliche Sätze und sind wesentlich flexibler bei der Reihenfolge der Beschreibung. Sie akzeptieren auch deutlich längere Prompts, ohne dass BREAK-Anweisungen nötig wären. Ein Flux-Prompt könnte lauten: "Foto eines Parks. Im Hintergrund links steht ein Schaukelgerüst. Im Hintergrund rechts befindet sich ein Spielplatz. Kinder spielen auf den Schaukeln. Links im Bild liegt ein Tennisball. Rechts ist ein Golden Retriever im Profil zu sehen, der dem Ball nachjagt."
8. Was ist bei Googles Nano Banana Pro/2 zu beachten?
Die beiden auf Gemini 3 basierenden Modelle von Google werden immer populärer, deshalb sei ihnen ein eigener Punkt gewidmet: Nano Banana Pro und das neueste Nano Banana 2 verfolgen einen besonders strukturierten Prompting-Ansatz, der sich an professioneller Bild- und Filmproduktion orientiert. Google empfiehlt, den Prompt gedanklich in zwei Ebenen aufzubauen:Ebene 1 - Die Vision: Hier definiert man Subjekt, Komposition, Aktion, Ort und Stil als Grundgerüst. Beispiel: "Ein stoischer Roboter-Barista mit leuchtend blauen Augen brüht in einem futuristischen Café auf dem Mars eine Tasse Kaffee - im Stil einer 3D-Animation, Nahaufnahme."
Ebene 2 - Die professionellen Details: Für hochwertigere Ergebnisse ergänzt man Kamera- und Lichtangaben wie ein Kameramann. Dazu gehören Seitenverhältnisse ("Ein vertikales 9:16-Poster"), Kameraeinstellungen ("Froschperspektive mit geringer Schärfentiefe bei f/1.8"), Lichtführung ("Gegenlicht zur goldenen Stunde mit langen Schatten") und Farbgebung ("Cinematic Color Grading mit gedeckten Teal-Tönen").
Grundsätzlich sind Nano Banana Pro und 2 jene Modelle, die in der Lage sind, bereits aus kurzen Prompts erstaunliche Ergebnisse zu liefern. Man kann sich auch "Herantasten" und das vor allem mit natürlicher Sprache - vor allem auch dann, wenn man Texte generieren will (die Infografiken in diesem Artikel sind großteils mit Nano Banana 2 entstanden).
9. Was ist ein Negativprompt und wann setze ich ihn ein?
Ein Negativprompt teilt der KI mit, was im Bild nicht vorkommen soll. Technisch betrachtet "schiebt" er das Ergebnis von bestimmten Elementen weg, während der positive Prompt es in eine Richtung "zieht". Beispiel: Wenn der Prompt "Tennisball" häufig dazu führt, dass im Hintergrund ein Tennisplatz erscheint, kann man "Tennisplatz" in den Negativprompt aufnehmen.Wichtig: Negativprompts sollten sparsam und gezielt eingesetzt werden. Überlange Negativprompts mit generischen Einträgen wie "schlechte Qualität, zusätzliche Finger, schlechte Anatomie" helfen nur dann, wenn das Modell tatsächlich darauf trainiert wurde, diese Begriffe zu erkennen.
Bei übermäßigem Gebrauch kann der Negativprompt sogar zu unnatürlichen Ergebnissen führen oder die künstliche Intelligenz (KI) verwirren, sodass sie die unerwünschten Elemente erst recht einbaut. Als Anfänger empfiehlt es sich, zunächst nur mit dem positiven Prompt zu arbeiten und den Negativprompt erst dann einzusetzen, wenn man wiederkehrende Probleme bemerkt.
10. Wie verfeinere ich meine Prompts schrittweise?
Gute Prompts entstehen selten beim ersten Versuch. Ein bewährter Arbeitsablauf sieht so aus:- Man beginnt mit einem einfachen, gut strukturierten Prompt, der die Kernelemente enthält.
- Man analysiert das Ergebnis: Was stimmt bereits? Was fehlt oder stört?
- Man passt den Prompt in kleinen Schritten an - etwa durch zusätzliche Details zu Beleuchtung, Perspektive oder Stil.
- Man wiederholt den Vorgang, bis das Ergebnis den Vorstellungen entspricht.
Viele Online-Dienste wie Artlist oder Google bieten eine "Enhance"-Funktion, die einen einfachen Prompt automatisch um Details ergänzt. Das kann ein hilfreicher Ausgangspunkt sein, ersetzt aber nicht das manuelle Feintuning.
11. Was sind die 10 interessantesten Stile für KI-Bilder?
Die Wahl des Stils ist einer der wirkungsvollsten Hebel beim Prompting. Die folgende Auswahl zeigt zehn besonders vielseitige und ästhetisch reizvolle Stile, die sich für unterschiedlichste Projekte eignen.1. Fotorealismus
Prompt-Elemente: "photorealistic" (fotorealistisch), "DSLR photo" (Spiegelreflexkamera-Foto), "shallow depth of field" (geringe Schärfentiefe), "85mm lens" (85-mm-Objektiv), "natural lighting" (natürliche Beleuchtung)
Fotorealismus ist der am häufigsten angestrebte Stil. Die KI erzeugt Bilder, die wie echte Fotos wirken. Entscheidend ist, der KI möglichst konkrete "Kamera-Anweisungen" zu geben, statt nur "realistisch" zu schreiben. Der Unterschied zwischen einem flachen und einem atmosphärischen Bild liegt oft in wenigen Begriffen.
Beispiel: "shallow depth of field (f/1.8)" (geringe Schärfentiefe bei Blende 1.8) erzeugt einen unscharfen Hintergrund mit freigestelltem Motiv, "golden hour backlighting" (Gegenlicht zur goldenen Stunde) sorgt für warmes Gegenlicht mit langen Schatten.
Wer ein konkretes Kameramodell angibt (z. B. "shot on Canon EOS R5" / aufgenommen mit Canon EOS R5, oder "captured on Arri Alexa Mini" / eingefangen mit Arri Alexa Mini), erhält häufig einen spezifischeren Look, weil die künstliche Intelligenz (KI) den typischen Bildeindruck dieser Kameras aus den Trainingsdaten kennt. Für Porträts eignen sich Brennweiten-Angaben wie "85mm" oder "135mm", für Landschaften "24mm wide-angle" (24-mm-Weitwinkel).
Auch der Hinweis auf Nachbearbeitung kann helfen: "color graded, film emulation" (farbkorrigiert, Filmemulation) verleiht dem Bild einen professionelleren Filmlook.
2. Digitale Illustration / Concept Art
Prompt-Elemente: "digital illustration" (digitale Illustration), "concept art" (Konzeptkunst), "vibrant colors" (leuchtende Farben), "detailed" (detailreich), "artstation"
Dieser Stil ist beliebt für Fantasy- und Science-Fiction-Motive und erinnert an professionelle Buchcover oder Spielgrafiken. Die Bilder wirken detailliert und ausgefeilt, ohne fotorealistisch zu sein. Ein praktischer Trick: Begriffe wie "artstation" oder "trending on artstation" (beliebt auf Artstation) können die Qualität spürbar anheben, da viele Modelle hochwertige Illustrationen von dieser Plattform in ihren Trainingsdaten haben.
Für mehr Tiefe empfiehlt es sich, die Lichtquelle explizit zu benennen - etwa "rim lighting from behind" (Gegenlicht-Kontur von hinten) oder "dramatic side lighting" (dramatisches Seitenlicht). Wer zwischen verschiedenen Illustrations-Unterstilen wechseln möchte, kann Begriffe wie "matte painting" (digitale Hintergrundmalerei für epische Landschaften), "character design sheet" Figurenentwurff mit Vorder- und Rückansicht) oder "environment concept" (Umgebungsdesign) ergänzen.
3. Aquarell
Prompt-Elemente: "watercolor painting" (Aquarellmalerei), "soft washes" (weiche Farbverläufe), "wet-on-wet technique" (Nass-in-Nass-Technik), "paper texture" (Papierstruktur), "gentle blending" (sanftes Überblenden)enden
Aquarell erzeugt zarte, fließende Bilder mit weichen Farbübergängen und sichtbarer Papierstruktur. Ideal für Landschaften, Blumenmotive und stimmungsvolle Szenen.
Die beiden wichtigsten Stellschrauben sind die Technik und das Trägermaterial: "wet-on-wet" (Nass-in-Nass) sorgt für besonders weiche, ineinander verlaufende Farbflächen, während "dry brush details" (Trockenpinsel-Details) gezielt Schärfe und Textur an bestimmten Stellen einbringt - besonders nützlich für Vordergrund-Elemente. Die Angabe "on rough watercolor paper" (auf rauem Aquarellpapier) oder "on cold-pressed paper" (auf kalt gepresstem Papier) verstärkt die typische Papierstruktur.
Ein häufiger Fehler: Zu viele Details im Prompt fordern - Aquarell lebt von der Reduktion. Prompts wie "loose brushwork, areas of white paper showing through" (lockere Pinselführung, Stellen, an denen das weiße Papier durchscheint) erzeugen authentischere Ergebnisse als eine überladene Beschreibung. Auch die Farbpalette sollte eingeschränkt werden, z. B. "limited palette of indigo, burnt sienna and ochre" (begrenzte Palette aus Indigo, Siena gebrannt und Ocker).
4. Anime und Manga
Prompt-Elemente: "anime style" (Anime-Stil), "cel shading" (Cel-Shading / flächige Kolorierung), "vibrant colors" (leuchtende Farben), "detailed eyes" (detaillierte Augen), "manga aesthetic" (Manga-Ästhetik)
Ein enorm populärer Stil mit eigener Ästhetik: große ausdrucksstarke Augen, flächige Kolorierung und stilisierte Proportionen. Für diesen Stil lohnt es sich, mit sogenannten Booru-Tags zu arbeiten - das sind standardisierte, kurze Schlagwörter wie "1girl", "medium shot", "from side", "looking at viewer", die aus Anime-Bilddatenbanken stammen und von vielen Modellen besonders gut erkannt werden (dementsprechend muss man zumeist auch in Englisch arbeiten).
Ein typischer Anime-Prompt folgt eher einer Stichwortliste als einem ganzen Satz: "anime screencap, wallpaper, cherry blossom, school uniform, wind, medium shot, soft lighting" (Anime Screencap, Wallpaper, Kirschblüte, Schuluniform, Wind, mittlere Aufnahme, weiche Beleuchtung).
Für unterschiedliche Unterstile kann man präzisieren: "90s anime aesthetic" (90er Jahre Anime-Ästhetik) für den nostalgischen Look älterer Serien, "modern anime, sharp lines" (Moderner Anime, scharfe Linien) für aktuelle Produktionen, "manga panel, black and white, screen tones" (Manga-Panel, schwarz-weiß, Bildschirmtöne) für den klassischen Manga-Stil. Der Zusatz "cel shading" erzeugt die typischen harten Schattenkanten, während "soft shading" für weichere Übergänge sorgt.
5. Ölgemälde
Prompt-Elemente: "oil painting" (Ölgemälde), "thick brushstrokes" (dicke Pinselstriche), "impasto technique" (Impasto-Technik / pastose Malweise), "rich colors" (satte Farben), "canvas texture" (Leinwandstruktur)
Ölgemälde-Stile erzeugen Bilder mit sichtbarer Pinselführung, satten Farben und einer fast greifbaren Textur. Der Zusatz "impasto" (aufgetragene, dicke Farbschichten) verleiht dem Ergebnis besondere Plastizität - man meint fast, die Farbe greifen zu können. Gut geeignet für Porträts, Landschaften und Stillleben mit klassischem Anspruch. Ein wirkungsvoller Kniff ist die Angabe einer Kunstepoche: "Baroque oil painting" (barockes Ölgemälde) erzeugt dramatische Lichtführung à la Rembrandt, "Impressionist oil painting" (impressionistisches Ölgemälde) lockere, lichtdurchflutete Pinselstriche wie bei Monet.
Die Leinwandstruktur lässt sich über "visible canvas weave" (sichtbares Leinwandgewebe) oder "textured canvas surface" (strukturierte Leinwandoberfläche) verstärken. Für besonders lebendige Ergebnisse hilft die Kombination verschiedener Pinselstil-Angaben: "palette knife texture in the foreground, fine detailed brushwork in the face" (Spachtel-Textur im Vordergrund, feine detaillierte Pinselarbeit im Gesicht) weist die KI an, verschiedene Techniken in unterschiedlichen Bildbereichen einzusetzen.
Wer ein unfertiges, skizzenhaftes Erscheinungsbild möchte, kann "alla prima, single session painting, visible underpainting" (Alla-prima-Malerei, in einer Sitzung gemalt, sichtbare Untermalung) hinzufügen.
6. Film Noir / Kinematografisch
Prompt-Elemente: "film noir", "dramatic shadows" (dramatische Schatten), "high contrast" (hoher Kontrast), "black and white" (Schwarz-Weiß), "cinematic lighting" (kinematografische Beleuchtung), "moody atmosphere" (stimmungsvolle Atmosphäre)
Dieser Stil lebt von starken Hell-Dunkel-Kontrasten, dramatischen Schatten und einer spannungsgeladenen Atmosphäre. Das Schlüsselwort ist Beleuchtung - hier sollte man besonders präzise sein: "single hard light source from above" (einzelne harte Lichtquelle von oben), "venetian blind shadows across the face" (Jalousie-Schatten über dem Gesicht) oder "silhouette against a foggy street" (Silhouette vor einer nebligen Straße) erzeugen jeweils völlig unterschiedliche Stimmungen innerhalb des Noir-Genres.
Der Stil funktioniert auch hervorragend als Farbvariante: "neo-noir, cinematic color grading with muted teal and orange tones" (Neo-Noir, kinematografische Farbkorrektur mit gedeckten Blaugrün- und Orangetönen) erzeugt den typischen Look moderner Thriller. Begriffe aus der Kinematografie verstärken den Effekt erheblich: "low-angle shot" (Froschperspektive) vermittelt Bedrohung, "dutch angle" (Schrägaufnahme) Instabilität, "anamorphic lens flare" (anamorpher Blendenfleck) den Look von Kinofilmen.
Für maximale Wirkung sollte man auch die Umgebung beschreiben: "rain-slicked streets reflecting neon signs" (regennasse Straßen, die Neonreklamen spiegeln), "smoke-filled room" (verrauchter Raum) oder "dimly lit alley" (schwach beleuchtete Gasse) transportieren die Noir-Atmosphäre mindestens ebenso stark wie die Lichtangaben selbst.
7. 3D-Render / Isometrisch
Prompt-Elemente: "3D render" (3D-Darstellung), "isometric view" (isometrische Ansicht), "soft lighting" (weiches Licht), "clean design" (klares Design), "smooth surfaces" (glatte Oberflächen)
Dieser Stil erzeugt dreidimensional wirkende Szenen mit weichen Oberflächen und kontrollierter Beleuchtung. Besonders beliebt für niedliche Charaktere, Miniaturwelten und Produktvisualisierungen. Die Angabe "isometric view" (isometrische Ansicht) erzeugt eine gleichmäßige, diagrammartige Perspektive ohne Fluchtpunkt - ideal für Spielwelten, Raumdarstellungen und technische Visualisierungen.
Für den typischen Look animierter Filme hilft der Zusatz "3D animated style, exaggerated proportions, soft textures, expressive characters" (3D-Animationsstil, übertriebene Proportionen, weiche Texturen, ausdrucksstarke Figuren). Materialangaben machen einen großen Unterschied: "glossy plastic surface" (glänzende Kunststoffoberfläche), "matte clay render" (matte Ton-Darstellung) oder "translucent glass material" (durchscheinendes Glasmaterial) erzeugen jeweils völlig verschiedene Anmutungen.
Wer den beliebten "Miniaturwelt"-Effekt erzielen möchte, kombiniert "tilt-shift effect, miniature diorama, tiny detailed world" (Tilt-Shift-Effekt, Miniatur-Diorama, winzige detaillierte Welt). Für Produktvisualisierungen empfiehlt sich "studio lighting, product photography, white background, ambient occlusion" (Studiobeleuchtung, Produktfotografie, weißer Hintergrund, Umgebungsverdeckung) - die KI erzeugt dann saubere, professionell beleuchtete Objektdarstellungen.
8. Vintage-Fotografie / Retro
Prompt-Elemente: "vintage photograph" (Vintage-Foto), "1970s aesthetic" (1970er-Jahre-Ästhetik), "film grain" (Filmkorn), "faded colors" (verblasste Farben), "Kodachrome", "light leaks" (Lichteinbrüche)
Bilder in diesem Stil wirken wie alte Aufnahmen mit Filmkorn, verblassten Farben und gelegentlichen Lichteinbrüchen. Der wirkungsvollste Ansatz ist die Angabe konkreter Filmtypen: "Kodachrome" erzeugt gesättigte Rot- und Gelbtöne, "Polaroid" den typischen weißen Rahmen mit leicht entsättigten Farben, "Fujifilm Superia" einen grünlich-kühlen Farbton.
Die Kombination mit einem Jahrzehnt schärft das Ergebnis weiter: "1960s fashion photography" (Modefotografie der 1960er) sieht grundlegend anders aus als "1990s product photography" (Produktfotografie der 1990er) oder "early 2000s digital camera aesthetic" (Digitalkamera-Ästhetik der frühen 2000er). Physische Alterungsspuren wie "light leaks" (Lichteinbrüche), "dust and scratches" (Staub und Kratzer), "slightly overexposed" (leicht überbelichtet) oder "vignetting" (Vignettierung / Randabschattung) erhöhen die Authentizität.
Ein praktischer Tipp: Wer den Retro-Effekt subtil halten möchte, verwendet nur ein oder zwei dieser Alterungsmerkmale - zu viele gleichzeitig wirken schnell übertrieben und unnatürlich. Auch die Angabe der Aufnahmetechnik hilft: "shot on 35mm film" (aufgenommen auf 35-mm-Film) erzeugt eine andere Kornstruktur als "medium format Hasselblad" (Mittelformat-Hasselblad).
9. Minimalismus / Flat Design
Prompt-Elemente: "minimalist design" (minimalistisches Design), "flat colors" (flächige Farben), "simple shapes" (einfache Formen), "clean lines" (klare Linien), "geometric" (geometrisch), "limited color palette" (begrenzte Farbpalette)
Reduziert auf das Wesentliche: klare Linien, wenige Farben und geometrische Formen. Dieser Stil eignet sich besonders für Icons, Poster, Infografiken und Branding-Materialien. Die größte Herausforderung besteht darin, die künstliche Intelligenz (KI) davon abzuhalten, zu viele Details hinzuzufügen.
Hilfreich ist es, die Reduktion explizit einzufordern: "no unnecessary details, large areas of negative space, maximum three colors" (keine unnötigen Details, große Freiflächen, maximal drei Farben). Die Angabe einer konkreten Farbpalette schärft das Ergebnis zusätzlich - etwa "monochrome blue tones" (monochrome Blautöne), "pastel palette with soft pink and mint" (Pastellpalette mit zartem Rosa und Mint) oder "bold primary colors only" (nur kräftige Primärfarben).
Für verschiedene Unterstile kann man präzisieren: "Swiss design, Helvetica typography" (Schweizer Grafikdesign, Helvetica-Typografie) für den klassisch-europäischen Grafikdesign-Stil, "Japanese minimalism, wabi-sabi" (japanischer Minimalismus, Wabi-Sabi) für eine organischere, unperfekte Ästhetik, "Bauhaus inspired, geometric abstraction" (Bauhaus-inspiriert, geometrische Abstraktion) für streng konstruierte Kompositionen.
Im Negativprompt können Begriffe wie "realistic, detailed, complex, ornate" (realistisch, detailliert, komplex, verschnörkelt) helfen, die Einfachheit zu bewahren. Für Vektorgrafik-Anwendungen sollte man "vector style, scalable, sharp edges" (Vektor-Stil, skalierbar, scharfe Kanten) ergänzen.
10. Surrealismus / Traumlandschaft
Prompt-Elemente: "surrealist art" (surrealistische Kunst), "dreamlike" (traumartig), "impossible architecture" (unmögliche Architektur), "melting shapes" (schmelzende Formen), "ethereal atmosphere" (ätherische Atmosphäre) Im Surrealismus darf die KI ihre Stärke in der Kombination ungewöhnlicher Elemente voll ausspielen.
Schwebende Objekte, unmögliche Architektur und traumartige Lichtstimmungen erzeugen Bilder, die faszinieren und zum Nachdenken anregen. Der Schlüssel zu überzeugenden surrealistischen Bildern liegt darin, Gegensätze bewusst zu kombinieren: "an ocean inside a library" (ein Ozean in einer Bibliothek), "a clock growing like a tree" (eine Uhr, die wie ein Baum wächst) oder "stairs leading into the sky" (Treppen, die in den Himmel führen) geben der KI kreative Ankerpunkte, die sie in unerwartete Richtungen weiterentwickelt.
Dabei sollte man die Szene trotz ihrer Unmöglichkeit mit realistischen Details anreichern: "photorealistic rendering of an impossible scene" (fotorealistische Darstellung einer unmöglichen Szene) erzeugt einen faszinierenderen Kontrast als ein komplett abstraktes Ergebnis. Für die Lichtstimmung eignen sich Angaben wie "ethereal glow" (ätherisches Leuchten), "bioluminescent lighting" (biolumineszentes Licht) oder "light filtering through translucent objects" (Licht, das durch durchscheinende Objekte fällt).
Ein fortgeschrittener Trick: Man beschreibt eine alltägliche Szene und fügt dann eine einzelne surreale Abweichung hinzu - etwa "a perfectly normal kitchen, except the floor is an ocean surface reflecting the ceiling" (eine völlig normale Küche, nur dass der Boden eine Wasseroberfläche ist, die die Decke spiegelt). Diese Technik erzeugt oft eindrucksvollere Ergebnisse als eine Aneinanderreihung fantastischer Elemente, weil der Kontrast zum Alltäglichen die Wirkung verstärkt.
12. Praktische Tipps: Wie gelingen die besten KI-Bilder?
Tipp 1: Nano Banana einfach machen lassen
Wer mit Googles Nano Banana Pro oder Nano Banana 2 arbeitet, muss sich nicht zwingend mit aufwendiger Prompt-Architektur beschäftigen. Dank der zugrundeliegenden Gemini-Modelle verstehen diese Generatoren auch lange, unstrukturierte Texteingaben und machen sich selbstständig ans Werk.
In der Praxis bedeutet das: Man kann einen ganzen Absatz, eine Projektbeschreibung, eine Artikelzusammenfassung oder sogar Stichpunkte aus einem Briefing direkt in das Eingabefeld kopieren und dazu einen kurzen Hinweis ergänzen, was man sich vorstellt - etwa "Erstelle daraus eine Infografik im modernen Flat-Design" oder "Mach ein Titelbild für einen Blogartikel zu diesem Thema".
Gemini analysiert den Text eigenständig, erkennt die zentralen Aussagen und Themen und trifft kreative Entscheidungen zu Komposition, Farbgebung und Bildaufbau, ohne dass man jedes Detail selbst vorgeben muss.
Das Modell bringt sein Weltwissen ein - es weiß, wie ein Barista aussieht, wie ein Schaltkreis funktioniert oder welche Pflanzen in einem tropischen Regenwald wachsen - und setzt dieses Wissen in visuell stimmige Darstellungen um. Gerade für Infografiken, datengestützte Visualisierungen und erklärende Schaubilder ist das ein enormer Vorteil, weil das Modell die inhaltliche Logik des Textes versteht und nicht nur Schlüsselwörter aneinanderreiht.
Tipp 2: Image-to-Image (img2img) nutzen lernen
Statt immer bei null anzufangen, kann man der KI ein bestehendes Bild als Ausgangspunkt geben. Über den sogenannten "Denoise"-Wert steuert man, wie stark das Ergebnis vom Original abweichen darf. Ein Wert unter 0,4 hält das Ergebnis eng am Original, ein Wert über 0,8 gibt der KI fast völlige Freiheit. Diese Technik eignet sich hervorragend, um Skizzen in ausgearbeitete Bilder zu verwandeln oder den Stil eines Bildes zu ändern.
Tipp 3: Inpainting für gezielte Korrekturen
Man erhält selten beim ersten Versuch ein perfektes Bild - aber oft eines, das zu 90 % stimmt. Inpainting ist die Lösung: Man markiert den Bereich, der geändert werden soll, beschreibt im Prompt die gewünschte Änderung, und die KI zeichnet nur diesen Bereich neu. So lassen sich Gesichter korrigieren, Kleidung ändern, Objekte hinzufügen oder entfernen, ohne das restliche Bild zu beeinflussen. Inpainting zählt zu den nützlichsten Fähigkeiten, die man erlernen kann.
Tipp 4: LoRAs für spezifische Stile und Figuren einsetzen
LoRAs (Low-Rank Adaptations) sind kleine Zusatzmodelle, die auf einem Basismodell aufsetzen und spezialisiertes Wissen einbringen - etwa einen bestimmten Kunststil, einen konkreten Charakter oder ein visuelles Konzept, das das Hauptmodell nicht kennt.
Wichtig: LoRAs müssen zum verwendeten Basismodell passen (SDXL-LoRAs funktionieren nur mit SDXL-Modellen). Manche LoRAs benötigen ein Trigger-Wort im Prompt, das auf der jeweiligen Download-Seite angegeben ist. Über den Gewichtungswert (Weight) kann gesteuert werden, wie stark der LoRA-Einfluss ausfällt.
Tipp 5: ControlNet für präzise Komposition Wenn img2img ein Vorschlaghammer ist, dann ist ControlNet ein Skalpell. Statt das gesamte Bild als Vorlage zu nutzen, extrahiert ControlNet einen bestimmten Aspekt daraus: Canny erkennt Kanten und übernimmt die Gesamtkomposition.
OpenPose erkennt die Körperhaltung einer Person, sodass man einen völlig anderen Charakter in derselben Pose zeichnen kann. Depth Map überträgt die räumliche Tiefe eines Bildes. Dies gibt dem Nutzer eine feinkörnige Kontrolle über das Endergebnis, die mit reinem Prompting kaum erreichbar ist.
Tipp 6: IP-Adapter für Stil- und Gesichtsübertragung
IP-Adapter arbeiten ähnlich wie ControlNet, ist aber weniger starr. Er kann den Stil, die grobe Komposition oder sogar ein bestimmtes Gesicht aus einem Referenzbild übernehmen und in einen neuen Kontext übertragen. Das macht ihn besonders wertvoll für konsistente Charakterdarstellungen über mehrere Bilder hinweg.
Tipp 7: Die Sprache des Films verwenden
KI-Bildgeneratoren reagieren hervorragend auf Begriffe aus Fotografie und Film. Wer diese Sprache nutzt, erhält wesentlich kontrollierbare Ergebnisse.
Einstellungsgrößen: Nahaufnahme (Close-up), Halbtotale (Medium Shot), Totale (Wide Shot), Über-die-Schulter-Aufnahme
Beleuchtung: Weiches Licht (Soft Lighting), Gegenlicht-Silhouette (Backlit Silhouette), Dramatische Schatten, Goldene Stunde (Golden Hour)
Perspektiven: Vogelperspektive (Bird's-Eye View), Froschperspektive (Low Angle), Ego-Perspektive (First Person)
Kameradetails: "Shot with 85mm lens at f/1.4" oder "Captured on Arri Alexa Mini" erzeugen einen spezifischen fotografischen Look
Tipp 8: Keine Prompts blind kopieren
Auf Plattformen wie CivitAI finden sich unter vielen beeindruckenden Bildern die zugehörigen Prompts. Es ist verlockend, diese einfach zu übernehmen - doch das führt schnell zu schlechten Gewohnheiten. Ohne zu verstehen, warum ein Prompt funktioniert hat (welches Modell, welche Einstellungen, welche LoRAs), wird das Kopieren oft enttäuschende Ergebnisse liefern. Besser: Den Prompt analysieren, die Struktur verstehen und daraus Prinzipien für eigene Prompts ableiten.
Tipp 9: Prompt-Builder und KI-Hilfe nutzen
Wem das Formulieren von Prompts schwerfällt, der kann auf die mittlerweile zahlreichen Prompt-Builder (am besten googeln und ausprobieren) zurückgreifen - interaktive Werkzeuge, bei denen man Felder zu Motiv, Stil, Beleuchtung und Komposition ausfüllt und einen fertigen Prompt erhält.
Auch Sprachmodelle können helfen: Man beschreibt die gewünschte Szene in Alltagssprache und lässt den Prompt von der künstlichen Intelligenz (KI) in ein optimiertes Format umschreiben. Besonders für Flux-Modelle, die natürliche Sprache bevorzugen, ist das ein effektiver Workflow.
Tipp 10: ADetailer gegen unscharfe Gesichter
Ein häufiges Problem: Gesichter, die etwas weiter von der Kamera entfernt sind, wirken verzerrt oder "zerquetscht". Das Werkzeug ADetailer (verfügbar in Forge und einigen anderen UIs) erkennt automatisch Gesichter und Hände im Bild und zeichnet sie in höherer Auflösung neu.
Wer keine ADetailer-Funktion hat, kann alternativ das Bild hochskalieren und anschließend das Gesicht per Inpainting korrigieren.
Tipp 11: Regional Prompting für komplexe Szenen
Bei Szenen mit mehreren Elementen, die unterschiedlich beschrieben werden sollen, stößt ein einzelner Prompt schnell an Grenzen. "Ein blaues Auto und ein rotes Auto" erzeugt häufig ein oder zwei mehrfarbige Autos statt zweier korrekt gefärbter Fahrzeuge.
Regional Prompting löst dieses Problem: Man weist verschiedenen Bildbereichen unterschiedliche Prompts zu, die dann automatisch zusammengeführt werden. So erhält jedes Element genau die Beschreibung, die es braucht.
Tipp 12: Sinnvoller Umgang mit Seitenverhältnissen
Das Seitenverhältnis beeinflusst die gesamte Komposition. Ein 16:9-Format eignet sich für kinematische Landschaften, 9:16 für Poster oder Smartphone-Hintergründe, 1:1 für Porträts und Social-Media-Inhalte, und 21:9 für ultrabreite Panoramaszenen.
Die Angabe des gewünschten Formats direkt im Prompt (z. B. "A cinematic 21:9 wide shot") kann bei einigen Modellen die Komposition zusätzlich steuern. Aktuelle Modelle wie Googles Nano Banana Pro unterstützen Auflösungen bis 4K in verschiedenen Seitenverhältnissen.
Jetzt seid ihr dran! Habt ihr Tipps zur Generierung oder Stile, die euch besonders gut gefallen? Findet ihr solche KIs ethisch überhaupt in Ordnung? Ist das ein legitimes technisches Tool oder wurde hier das Tor zur Massen-Desinformation geöffnet?
Thema:
Weitere Fragen:
- Ausgesperrt? Verlorene Passwörter einfach auslesen!
- Passwort vergessen? So setzen Sie Ihr Windows-Passwort zurück!
- So deaktivieren Sie das Flash-Plugin in Ihrem Browser
- 32- oder 64-Bit-Windows? So erkennen Sie den Unterschied!
- Windows XP auf Windows 7 oder Windows 8 aktualisieren und alle Daten übernehmen
- Zurück zur Übersicht
Beliebte Nachrichten
Videos
Neueste Downloads
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!































































