Der ultimative Bilder-KI-Guide:
Alles zu Generierung, Prompts & Stilen

Midjourney, Flux, Nano Banana Pro oder doch DALL-E? Wir erklären die wichtigsten Bilder-KIs, zeigen die besten Prompt-Strategien für jeden Generator und verraten elf Profi-Tipps, mit denen eure Er­geb­nis­se sofort besser werden. Hier unser großer Überblick.
Künstliche Intelligenz, Stylus, Bildbearbeitung, Rendering, Generative KI, Virtuelle Realität, Binärcode, Datenvisualisierung, Digitale Illustration, Datenstrom, KI-Bildgenerierung, Text-to-Image, Digitaler Stift, Bildsynthese
WinFuture/KI-generiert

KI-Bilder generieren: Alles was ihr wissen müsst

Bildgenerierung ist eines der Themen der Stunde, das steht außer Frage. Das betrifft nicht nur die Popularität bei Nutzern, die Geburtstagseinladungen und harmlose Bilder für soziale Medien erstellen, sondern natürlich auch Themen wie Desinformation und Fakes. Denn wie alle Technologien kann man Bild-KIs zum Guten, aber auch Schlechten und gar Bösen einsetzen. Deshalb kann man anfangs nur aufrufen, verantwortungsvoll mit dieser Technik umzugehen.

Wer das berücksichtigt, kann spannende und auch informative Bilder erstellen. Wie solche KIs überhaupt funktionieren, welche es gibt und wie die besten Bilder gelingen, verraten wir in dieser FAQ.


1. Wie funktionieren Bild-KIs?


Moderne Bildgeneratoren funktionieren fast wie so etwas wie Magie, denn mittlerweile muss man oft nur einige kurze Sätze oder Stichworte eingeben, um beeindruckende Ergebnisse zu bekommen. Doch wie arbeitet so eine künstliche Intelligenz (KI) eigentlich? Die nächsten Punkte klären das genauer.

Was ist KI-Bildgenerierung überhaupt?

KI-Bildgenerierung bezeichnet den Vorgang, bei dem eine Software aus einer Texteingabe - dem sogenannten Prompt - ein Bild erzeugt. Der Nutzer beschreibt in Worten, was er erschaffen möchte, und die KI erstellt daraus eine visuelle Darstellung.

Dabei kann das Ergebnis fotorealistisch, illustrativ, malerisch oder in nahezu jedem erdenklichen Stil ausfallen. Im Kern handelt es sich um eine Form des maschinellen Lernens: Die zugrundeliegenden Modelle wurden mit Millionen von Bild-Text-Paaren trainiert und haben dabei gelernt, welche visuellen Elemente zu welchen Beschreibungen passen.

Wie funktioniert der sogenannte Diffusionsprozess?

Die meisten modernen Bildgeneratoren basieren auf dem Prinzip der Diffusion. Man kann sich das so vorstellen: Die KI beginnt mit einem Bild, das aus reinem visuellem Rauschen besteht - vergleichbar mit dem Schnee auf einem alten, nicht eingestellten Fernseher. Anschließend entfernt sie dieses Rauschen in vielen kleinen Schritten, wobei der Prompt als Leitfaden dient. Infografik: Wie funktioniert Diffusion in Bild-KIs?Wie funktioniert Diffussion in Bild-KIs? Mit jedem Schritt wird das Bild klarer und kohärenter, bis am Ende ein fertiges Ergebnis steht. Es ist ein wenig so, als würde man in Wolkenformationen Ge­sich­ter erkennen - nur dass die KI die Wolken gezielt in die gewünschte Form bringt.

Was passiert technisch im Hintergrund?

Der Prozess lässt sich in drei Kernkomponenten aufteilen:

Der Text-Encoder analysiert den eingegebenen Prompt und wandelt ihn in eine mathematische Repräsentation um, die das Modell verarbeiten kann. Hier werden die Bedeutung der Wörter und ihr Zusammenhang erfasst. Verschiedene Modelle nutzen unterschiedliche Encoder - Flux-Modelle setzen beispielsweise auf Googles T5-Encoder, während ältere Stable-Diffusion-Modelle CLIP verwenden.

Das eigentliche Diffusionsmodell (auch U-Net oder Transformer genannt) ist das Herzstück. Es nimmt das zufällige Rauschen und die Textinformationen entgegen und berechnet in einer definierten Anzahl von Schritten (Steps), wie das Rauschen zu entfernen ist, damit ein zum Prompt passendes Bild entsteht.

Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2
Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2Vergleichsbilder Nano Banana 2

Der VAE (Variational Autoencoder) ist für den letzten Schritt zuständig: Er dekodiert das Ergebnis des Diffusionsprozesses und wandelt es in ein sichtbares Bild um. Wenn ein generiertes Bild ungewöhnlich grau, entsättigt oder verrauscht wirkt, kann ein fehlender oder fehlerhafter VAE die Ursache sein.

Was bedeuten Begriffe wie "Steps", "CFG" und "Sampler"?

Wer sich intensiver mit Bildgenerierung beschäftigt, stößt schnell auf technische Parameter, die das Ergebnis maßgeblich beeinflussen:

Steps bezeichnen die Anzahl der Berechnungsschritte, die die künstliche Intelligenz (KI) durchführt, um aus dem Rauschen ein Bild zu formen. Ein Wert zwischen 25 und 30 ist für die meisten Modelle ein guter Ausgangspunkt. Mehr Schritte können die Qualität leicht verbessern, führen aber zu abnehmenden Erträgen und längerer Re­chen­zeit. Einige neuere Modelle wie Flux [schnell] kommen bereits mit nur 2-4 Steps zu brauchbaren Ergebnissen.

CFG (Classifier-Free Guidance) steuert, wie streng sich die KI an den Prompt hält. Ein niedriger Wert gibt der KI mehr kreative Freiheit, kann aber dazu führen, dass das Ergebnis wenig mit der Beschreibung zu tun hat. Ein zu hoher Wert erzeugt oft überbelichtete, "verbrannt" wirkende Bilder voller Artefakte. Ein Wert zwischen 5 und 8 ist für die meisten Modelle ein sicherer Bereich. Infografik Bildgenerierung: Wichtige ParameterBildgenerierung: Wichtige Parameter Sampler sind die mathematischen Funktionen, die bestimmen, auf welche Weise das Rauschen in ein Bild umgewandelt wird. Gängige und zuverlässige Sampler sind Euler A, DPM++ 2M und DPM++ SDE. Jeder Sampler hat eigene Stärken - manche erzeugen schärfere Details, andere arbeiten schneller.

Scheduler bestimmen, wie viel Rauschen pro Schritt entfernt wird. Ist der Fortschritt linear, oder beginnt er schnell und wird gegen Ende präziser? "Karras" ist in den meisten Fällen eine sichere Wahl. Manche Benutzeroberflächen kombinieren Sampler und Scheduler zu einer einzigen Einstellung.

2. Welche Modellarchitekturen gibt es?

Die Welt der KI-Bildgenerierung wird von einigen wenigen Basismodellen dominiert, die jeweils eigene Stärken, Schwächen und Hardwareanforderungen mitbringen:

Stable Diffusion 1.5 (SD1.5) ist eines der älteren, aber nach wie vor weitverbreiteten Modelle. Es arbeitet mit einer nativen Auflösung von 512 × 512 Pixeln und stellt vergleichsweise geringe Hardwareanforderungen (ab 4 GB VRAM). Für scharfe, saubere Bilder ist in der Regel ein sogenannter "Hires Fix" oder "ADetailer" nötig. Die Community-Unterstützung ist ausgezeichnet - es gibt eine riesige Auswahl an LoRAs, ControlNets und anderen Erweiterungen.

Stable Diffusion XL (SDXL) ist der Nachfolger von SD1.5 und arbeitet mit einer nativen Auflösung von 1024 × 1024 Pixeln. Es versteht Prompts besser, erzeugt detailliertere Bilder und benötigt mindestens 6 GB VRAM. SDXL gilt aktuell als optimaler Einstiegspunkt für die meisten Nutzer, da es breit unterstützt wird und keine besonderen Installationsschritte erfordert. Infografik Bildgenerierung: Grundlegende ModellarchitekturenBildgenerierung: Grundlegende Modellarchitekturen Flux ist eines der neuesten und fortschrittlichsten Modelle. Es versteht Prompts hervorragend und bevorzugt - anders als SD1.5 und SDXL - vollständige Sätze statt Stichwortlisten. Flux stellt die höchsten Hardwareanforderungen (mindestens 8 GB VRAM für quantisierte Versionen). Es gibt mehrere Hauptvarianten: Flux Pro oder Dev für maximale Qualität und Flux schnell für deutlich schnellere Generierung bei etwas geringerer Qualität.

Stable Diffusion 3.5 ist der offizielle SDXL-Nachfolger, hatte jedoch einen holprigen Start und konnte die Erwartungen bisher nicht vollständig erfüllen. Die Community-Aufmerksamkeit liegt derzeit stärker auf Flux.

GPT Image 1.5 ist OpenAIs neuestes Bildmodell und hat ältere Systeme wie DALL-E 3 abgelöst. Es unterscheidet sich grundlegend von den Dif­fu­sions­mo­del­len der Konkurrenz, da es auf einem autoregressiven Ansatz basiert. GPT Image 1.5 versteht lange, detaillierte Prompts, kann mehrstufige Anweisungen befolgen und bewahrt wichtige visuelle Elemente wie Logos, Gesichter und Layouts über Bearbeitungsschritte hinweg. In unabhängigen Vergleichstests erreicht es regelmäßig Spitzenwerte. Es ist über ChatGPT und die OpenAI-API zugänglich.

Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5
Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5Vergleichsbilder GPT Image 1.5

Googles Nano Banana Pro (offiziell Gemini 3 Pro Image) ist Googles Flaggschiff-Bildmodell. Es bietet native 4K-Auflösung (4096 × 4096), Textrendering in mehreren Sprachen, die Möglichkeit bis zu 14 Referenzbilder in eine Komposition einzubeziehen und nutzt das Weltwissen von Gemini 3 für faktisch korrekte Darstellungen. Besonders stark bei fotorealistischen Inhalten, Infografiken und datengestützten Visualisierungen.

Reve Image ist ein Modell des Palo-Alto-Startups Reve AI, das im März 2025 veröffentlicht wurde und sofort an die Spitze unabhängiger Vergleichsranglisten sprang. Reve Image zeichnet sich durch herausragende Prompt-Treue aus - das heißt, es setzt auch komplexe Beschreibungen mit vielen Details präzise um, ohne Elemente zu vertauschen oder zu ignorieren. Zusätzlich ermöglicht es zuverlässiges Textrendering und bestehende Bilder per natürlichsprachlicher Anweisung zu bearbeiten.

Ideogram wurde von ehemaligen Google-Brain-Forschern speziell für die Herausforderung entwickelt, lesbaren Text in KI-generierten Bildern darzustellen. Während die meisten Generatoren bei der Textwiedergabe scheitern, erreicht Ideogram 3.0 (veröffentlicht im März 2025) eine Genauigkeit von rund 90-95 Prozent. Es eignet sich damit besonders für Poster, Logos, Marketing-Grafiken und Branding-Materialien.

Daneben gibt es spezialisierte Ableger wie Pony, Illustrious und NoobAI, die technisch auf SDXL basieren, sich aber so weit entwickelt haben, dass sie als eigenständige Basismodelle gelten. Sie eignen sich besonders gut für Anime-Stil und bekannte Charaktere, sind aber eigenwilliger in der Handhabung und daher für Anfänger weniger empfehlenswert. FAQ: Bildgenerierung

3. Welche Online-Dienste gibt es für Einsteiger?

Wer keine Software installieren und sich nicht mit technischen Details beschäftigen möchte, kann auf webbasierte Dienste zurückgreifen:

Midjourney ist bekannt für künstlerisch ansprechende, oft lebensecht wirkende Bilder. Der Zugang erfolgt über Discord sowie die Webseite. Midjourney gilt vielen als einer der besten Generatoren für ästhetisch hochwertige Ergebnisse.

Google Nano Banana Pro/2 (basierend auf Gemini 3) ist Googles jüngstes Bildmodell und u. a. über Gemini selbst erreichbar. Es bietet unter anderem Textwiedergabe in mehreren Sprachen, die Möglichkeit bis zu 14 Bilder in eine Komposition einzubeziehen, und Auflösungen bis 4K.


DALL-E 3 von OpenAI verarbeitet auch komplexe Prompts zuverlässig und erzeugt qualitativ hochwertige, oft surreal anmutende Bilder. Es ist über ChatGPT und die OpenAI-API zugänglich und profitiert von OpenAIs Expertise im Bereich großer Sprachmodelle.

Adobe Firefly ist in Adobes Creative Cloud integriert und daher besonders für Kreativprofis interessant, die bereits im Adobe-Ökosystem arbeiten. Da Firefly auf lizenziertem Adobe-Stock-Material trainiert wurde, ist die rechtliche Situation bei kommerzieller Nutzung vergleichsweise klar.

Recraft zeichnet sich durch präzise Stil- und Positionierungskontrolle aus und bietet mit Inpainting, Outpainting und Vektorgrafik-Generierung ein um­fang­rei­ches Werkzeugset. Die Plattform bietet auch einen kostenlosen Einstieg.

Vergleichsbilder GrokVergleichsbilder GrokVergleichsbilder GrokVergleichsbilder Grok
Vergleichsbilder GrokVergleichsbilder GrokVergleichsbilder GrokVergleichsbilder Grok

Leonardo AI bietet einen großzügigen kostenlosen Plan mit ausreichend Generierungsguthaben und schneller Verarbeitung.

Canva richtet sich mit seiner benutzerfreundlichen Oberfläche an Einsteiger und Gelegenheitsnutzer, die KI-Bildgenerierung unkompliziert ausprobieren möchten.

Microsoft Designer nutzt DALL-E 3 als Grundlage und ist kostenlos verfügbar. Für Nutzer im Microsoft-Ökosystem bietet es eine nahtlose Integration.

CivitAI ist weniger ein einzelner Generator als vielmehr eine riesige Community-Plattform, auf der tausende Modelle, LoRAs und Ressourcen geteilt werden. Gleichzeitig bietet die Plattform auch einen eigenen Online-Generierungsdienst.

4. Wie zeigen sich die Unterschiede der Modelle?

Alle Modelle bzw. Dienste haben Stärken und Schwächen, das sollte mittlerweile klar sein. Manches Modell beherrscht Menschen besser, ein anderes Schrift oder Architektur. An dieser Stelle wird sich der Leser fragen: Kann ich das bitte sehen? Ja, wir zeigen es, auch wenn das eine Momentaufnahme ist.

Dafür haben wir acht Szenarien vorgegeben, die sich auf bestimmte Eigenheiten von Bild-KIs konzentrieren, und den (englischen) Prompt unverändert durch acht Modelle gejagt. Anmerkung: Die Galerien mit den acht Ergebnissen sind auf den gesamten Artikel verstreut.

Der Härtetest für Photorealismus

Dieses Motiv prüft, wie die KI mit Texturen (Haut, Stoff), natürlichem Licht und physikalischer Korrektheit umgeht.

Motiv: Ein Close-up Porträt einer älteren Person in einem verregneten Neon-Setting.

Warum dieses Motiv? Falten, Regentropfen auf der Haut und die Spiegelung von Neonlicht in den Augen sind extrem schwer zu faken, ohne dass es "künstlich" wirkt.

Prompt:
Extrem detailreiches Close-up Porträt eines 80-jährigen Fischers mit tiefen Falten, trägt eine gelbe Regenjacke, steht nachts im strömenden Regen unter einer blauen Neonreklame. Wassertropfen perlen auf der Haut ab, hyperrealistisch, 8k, flache Tiefenschärfe, kinoreife Beleuchtung, Fokus auf die Augen.


Der Test für Logik & Typografie

Lange Zeit war Text in Bildern die Achillesferse der künstliche Intelligenz (KI). Dieses Motiv zeigt, ob das Modell Anweisungen exakt befolgt und Buchstaben korrekt setzt.

Motiv: Ein modernes Flat-Design-Poster für ein fiktives Event.

Warum dieses Motiv? Es demonstriert die grafische Sauberkeit und die Fähigkeit, Text leserlich in ein Design zu integrieren - perfekt, um die Fortschritte von DALL-E 3 oder neuen Stable Diffusion Modellen zu zeigen.

Prompt:
Ein minimalistisches Grafikdesign-Poster im Bauhaus-Stil für eine Konferenz. In der Mitte steht groß und deutlich der Text 'AI FUTURE 2026'. Geometrische Formen in Primärfarben (Rot, Blau, Gelb) auf beigefarbenem Papierhintergrund, klare Linien, Vektor-Stil, professionelles Layout.

Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5
Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5Vergleichsbilder Stable Diffusion 3.5

Der Test für Kreativität & Abstraktion

Hier geht es weniger um die Realität als vielmehr um die "Phantasie" und den künstlerischen Stil der KI.

Motiv: Eine surreale Verschmelzung von Natur und Mechanik.

Warum dieses Motiv? Es zeigt, wie die KI Konzepte mixt, die in der echten Welt nicht existieren, und die ästhetische Komposition abseits von Stockfotos prüft.

Prompt:
Eine surreale Skulptur eines majestätischen Hirsches, dessen Geweih aus blühenden Kirschblütenzweigen und filigranen goldenen Uhrwerken besteht. Der Hirsch steht auf einem schwebenden Kristallfelsen über einem Wolkenmeer. Stil: Eine Mischung aus Salvador Dalí und digitaler Konzeptkunst, traumhaft, pastellfarbene Ästhetik, weiches Licht.


Der Material- & Makro-Test

Dieses Motiv zeigt, wie die KI physikalische Eigenschaften wie Transparenz, Lichtbrechung (Refraktion) und metallischen Glanz gleichzeitig verarbeitet.

Motiv: Ein futuristisches Uhrwerk im Inneren einer gläsernen Kugel, die in dunklem Honig versinkt.

Warum dieses Motiv? Es kombiniert drei extrem unterschiedliche Materialeigenschaften: die harte, kalte Präzision von Metallzahnrädern, die Lichtbrechung durch Glas und die viskose, organische Textur von Honig. Das zeigt dem Leser, ob die KI "versteht", wie Licht durch verschiedene Medien wandert.

Prompt:
Extreme Makroaufnahme eines komplexen, goldenen Uhrwerks, das im Inneren einer transparenten Glaskugel eingeschlossen ist. Die Kugel liegt halb eingetaucht in zähflüssigem, goldenem Honig. Überall sind kleine Luftblasen im Honig zu sehen. Fokus auf die scharfen Kanten der Zahnräder, während das Glas das Licht bricht. Warme, goldene Beleuchtung, schwarzer Hintergrund, extrem hoher Detailgrad, 8k Auflösung, Raytracing-Effekte.


Der Anatomie- & Interaktions-Test (Hände & Objekte)

Hände waren lange das größte Problem von Bild-KIs. Dieser Test prüft, ob die künstliche Intelligenz (KI) versteht, wie Finger ein Objekt greifen, ohne damit zu verschmelzen.

Motiv: Eine Hand, die vorsichtig ein Kartenhaus aus Spielkarten baut.

Warum dieses Motiv? Es erfordert filigrane Fingerhaltungen und das physikalische Verständnis von Balance und Kanten.

Prompt:
Extreme Nahaufnahme einer menschlichen Hand, die die letzte Karte auf ein komplexes, fünfstöckiges Kartenhaus legt. Fokus auf die Fingerspitzen, die die Karte halten. Realistische Hauttextur, natürliches Tageslicht von der Seite, weicher Schattenwurf. Die Karten müssen perfekt ausbalanciert wirken, 8k, photorealistisch.

Vergleichsbilder Flux 2 ProVergleichsbilder Flux 2 ProVergleichsbilder Flux 2 ProVergleichsbilder Flux 2 Pro
Vergleichsbilder Flux 2 ProVergleichsbilder Flux 2 ProVergleichsbilder Flux 2 ProVergleichsbilder Flux 2 Pro

Der Architektur- & Symmetrie-Test

KIs neigen dazu, Linien zu krümmen oder Fenster ungleichmäßig zu platzieren. Dieser Test erzwingt mathematische Strenge.

Motiv: Die Innenansicht einer futuristischen, streng symmetrischen Kathedrale aus Glas und weißem Beton.

Warum dieses Motiv? Symmetrie verzeiht keine Fehler. Wenn ein Bogen links anders aussieht als rechts, erkennt das menschliche Auge das sofort als "KI-Fehler".

Prompt:
Zentralperspektive des Innenraums einer modernen Kathedrale. Futuristisches Design mit hohen weißen Betonpfeilern und einer Decke aus geometrischen Glassegmenten. Strenge Symmetrie, weiches diffuses Licht, das von oben einfällt. Keine Menschen, minimalistisch, ultraweitwinkel, architektonische Fotografie.

Der Test für historische Authentizität & Texturen

Hier prüfen wir, ob die KI Epochen mischt oder einen konsistenten "Film-Look" vergangener Jahrzehnte erzeugen kann.

Motiv: Eine Straßenszene in Berlin der 1920er Jahre bei Nacht.

Warum dieses Motiv? Kleidung, Autotypen und die Beschaffenheit von Kopfsteinpflaster müssen historisch stimmig sein, kombiniert mit der Körnung alter Filmaufnahmen.

Prompt:
Authentische Straßenszene in Berlin, Jahr 1925, Nachtaufnahme. Historische Automobile, Menschen in zeitgenössischer Kleidung (Mantel, Hut), nasse Kopfsteinpflasterstraßen, die das Licht der Gaslaternen reflektieren. Stil einer alten Leica-Fotografie, Schwarz-Weiß mit leichtem Filmkorn, hoher Kontrast, atmosphärisch.


Der isometrische Design-Test (Asset-Generierung)

Viele Nutzer verwenden KI für Spieledesign oder Illustrationen. Dieser Test prüft die Fähigkeit, Objekte isoliert und in einem spezifischen Winkel darzustellen.

Motiv: Ein isometrisches 3D-Diorama eines "Cyberpunk-Arbeitsplatzes" auf einer schwebenden Plattform.

Warum dieses Motiv? Es testet die Einhaltung des 3D-Winkels (Isometrie) und die Fähigkeit, viele kleine Details (Kabel, Monitore, Pflanzen) sauber voneinander zu trennen.

Prompt:
Isometrisches 3D-Diorama eines Cyberpunk-Hacker-Space auf einer quadratischen Plattform. Viele leuchtende Monitore, Kabelsalat, eine Neon-Pflanze in der Ecke, ein futuristischer Stuhl. Transparenter Hintergrund, weiches Ambient Occlusion Lighting, 3D-Render-Stil (Octane Render), lebendige Farben, hohe Details.

Vergleichsbilder IdeogramVergleichsbilder IdeogramVergleichsbilder IdeogramVergleichsbilder Ideogram
Vergleichsbilder IdeogramVergleichsbilder IdeogramVergleichsbilder IdeogramVergleichsbilder Ideogram

5. Kann ich Bilder auch lokal auf meinem PC erzeugen?

Ja, und für viele Nutzer ist genau das der große Reiz: volle Kontrolle, keine Abhängigkeit von einem Dienst und keine laufenden Kosten. Dafür braucht man zwei Dinge - eine Benutzeroberfläche (UI) und ein Modell. Die UI ist vergleichbar mit dem Auto, das man fährt; das Modell ist der Motor, der es antreibt.

Mindestanforderungen am PC: 16 GB RAM und eine NVIDIA-Grafikkarte (z. B. RTX 3060) mit mindestens 4 GB VRAM (für SD1.5), 6 GB (SDXL) oder 8 GB (Flux in quantisierter Form). Für AMD- oder Intel-Grafikkarten gibt es Workarounds, diese sind aber deutlich komplizierter.

Für Mac-Nutzer: Ein M1-Chip oder neuer ist erforderlich, dazu 16 GB RAM (SD1.5, SDXL) oder 32 GB RAM (Flux).

6. Wie schreibe ich einen guten Prompt?

Ein Prompt ist die Textbeschreibung, die der künstlichen Intelligenz (KI) mitteilt, welches Bild sie erzeugen soll. Er ist der wichtigste Hebel, den der Nutzer hat - denn die KI kann nicht Gedanken lesen. Je klarer, spezifischer und durchdachter der Prompt formuliert ist, desto näher kommt das Ergebnis an die eigene Vorstellung heran.

Ein vager Prompt wie "eine Landschaft" liefert ein generisches, oft enttäuschendes Ergebnis. Ein präziser Prompt wie "eine ruhige Almwiese mit Wildblumen und einem entfernten Berggipfel unter klarem blauem Himmel im Stil eines Aquarells" gibt der KI die nötigen Anhaltspunkte, um etwas Spezifisches und Stimmungsvolles zu erzeugen. Infografik: Wie schreibe ich einen guten Prompt?Wie schreibe ich einen guten Prompt? Aus welchen Bausteinen besteht ein guter Prompt?

Ein effektiver Prompt setzt sich aus mehreren Schlüsselelementen zusammen, die man sich als eine Art Checkliste vorstellen kann:

Subjekt (Was?): Wer oder was ist das zentrale Motiv? Je spezifischer, desto besser. Statt "ein Roboter" besser "ein stoischer Roboter-Kellner mit leuchtend blauen Augen".

Komposition (Wie gerahmt?): Wie ist die Bildaufteilung? Nahaufnahme, Totale, Froschperspektive, Porträtformat? Diese Angaben lenken den Blick des Betrachters.

Aktion (Was passiert?): Steht das Motiv still oder ist es in Bewegung? "... brüht eine Tasse Kaffee" oder "... rennt durch ein Weizenfeld" erzeugen völlig unterschiedliche Dynamiken.

Ort (Wo?): Wo spielt die Szene? "Ein futuristisches Café auf dem Mars" erzeugt eine andere Atmosphäre als "ein Supermarkt voller Waren".

Stil (Welche Ästhetik?): Welchen visuellen Stil soll das Bild haben? 3D-Animation, Film Noir, Aquarell, fotorealistisch, Produktfotografie der 1990er Jahre? Die Stilangabe hat enormen Einfluss auf das Ergebnis.

Stimmung und Atmosphäre: Angaben wie "bei Sonnenaufgang", "in einem Sturm" oder "mit mystischer Aura" verleihen dem Bild emotionale Tiefe und verändern die gesamte Farbpalette und Lichtstimmung.

7. Wie unterscheidet sich das Prompting je nach Modell?

Dieser Punkt ist entscheidend und wird von vielen Einsteigern übersehen: Jedes Modell erfordert eine bestimmte Ausrichtung beim Verfassen der Prompts. Das sind einige der wichtigsten Tipps:

SD1.5 und SDXL priorisieren die früher im Prompt genannten Begriffe stark gegenüber den späteren. Das Wichtigste gehört also an den Anfang. Prompts sollten möglichst unter 75 Token bleiben (in Forge wird die aktuelle Token-Zahl oben rechts im Prompt-Feld angezeigt). Wird diese Grenze überschritten, beginnt ein neuer Verarbeitungsblock, was zu unerwarteten Ergebnissen führen kann. Mit dem Schlüsselwort BREAK lassen sich Prompts in Forge in Blöcke aufteilen.

Vergleichsbilder ReveVergleichsbilder ReveVergleichsbilder ReveVergleichsbilder Reve
Vergleichsbilder ReveVergleichsbilder ReveVergleichsbilder ReveVergleichsbilder Reve

Anime-Modelle auf SD1.5/SDXL-Basis sind häufig auf sogenannte "Booru-Tags" trainiert - kurze, standardisierte Schlagwörter wie "medium shot", "from side", "golden hour". Ein typischer Prompt für ein Anime-Modell könnte so aussehen: "anime screencap, wallpaper, golden retriever, running, ball, park, medium shot, from side, playground".

Flux-Modelle funktionieren grundlegend anders. Sie bevorzugen vollständige, natürlichsprachliche Sätze und sind wesentlich flexibler bei der Reihenfolge der Beschreibung. Sie akzeptieren auch deutlich längere Prompts, ohne dass BREAK-Anweisungen nötig wären. Ein Flux-Prompt könnte lauten: "Foto eines Parks. Im Hintergrund links steht ein Schaukelgerüst. Im Hintergrund rechts befindet sich ein Spielplatz. Kinder spielen auf den Schaukeln. Links im Bild liegt ein Ten­nis­ball. Rechts ist ein Golden Retriever im Profil zu sehen, der dem Ball nachjagt."

8. Was ist bei Googles Nano Banana Pro/2 zu beachten?

Die beiden auf Gemini 3 basierenden Modelle von Google werden immer populärer, deshalb sei ihnen ein eigener Punkt gewidmet: Nano Banana Pro und das neueste Nano Banana 2 verfolgen einen besonders strukturierten Prompting-Ansatz, der sich an professioneller Bild- und Filmproduktion orientiert. Google empfiehlt, den Prompt gedanklich in zwei Ebenen aufzubauen:

Ebene 1 - Die Vision: Hier definiert man Subjekt, Komposition, Aktion, Ort und Stil als Grundgerüst. Beispiel: "Ein stoischer Roboter-Barista mit leuchtend blauen Augen brüht in einem futuristischen Café auf dem Mars eine Tasse Kaffee - im Stil einer 3D-Animation, Nahaufnahme."

Ebene 2 - Die professionellen Details: Für hochwertigere Ergebnisse ergänzt man Kamera- und Lichtangaben wie ein Kameramann. Dazu gehören Seitenverhältnisse ("Ein vertikales 9:16-Poster"), Kameraeinstellungen ("Froschperspektive mit geringer Schärfentiefe bei f/1.8"), Lichtführung ("Gegenlicht zur goldenen Stunde mit langen Schatten") und Farbgebung ("Cinematic Color Grading mit gedeckten Teal-Tönen").

Grundsätzlich sind Nano Banana Pro und 2 jene Modelle, die in der Lage sind, bereits aus kurzen Prompts erstaunliche Ergebnisse zu liefern. Man kann sich auch "Herantasten" und das vor allem mit natürlicher Sprache - vor allem auch dann, wenn man Texte generieren will (die Infografiken in diesem Artikel sind großteils mit Nano Banana 2 entstanden).

9. Was ist ein Negativprompt und wann setze ich ihn ein?

Ein Negativprompt teilt der KI mit, was im Bild nicht vorkommen soll. Technisch betrachtet "schiebt" er das Ergebnis von bestimmten Elementen weg, während der positive Prompt es in eine Richtung "zieht". Beispiel: Wenn der Prompt "Tennisball" häufig dazu führt, dass im Hintergrund ein Tennisplatz erscheint, kann man "Tennisplatz" in den Negativprompt aufnehmen.

Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3
Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3Vergleichsbilder Recraft v3

Wichtig: Negativprompts sollten sparsam und gezielt eingesetzt werden. Überlange Negativprompts mit generischen Einträgen wie "schlechte Qualität, zusätzliche Finger, schlechte Anatomie" helfen nur dann, wenn das Modell tatsächlich darauf trainiert wurde, diese Begriffe zu erkennen.

Bei übermäßigem Gebrauch kann der Negativprompt sogar zu unnatürlichen Ergebnissen führen oder die künstliche Intelligenz (KI) verwirren, sodass sie die unerwünschten Elemente erst recht einbaut. Als Anfänger empfiehlt es sich, zunächst nur mit dem positiven Prompt zu arbeiten und den Negativprompt erst dann einzusetzen, wenn man wiederkehrende Probleme bemerkt.

10. Wie verfeinere ich meine Prompts schrittweise?

Gute Prompts entstehen selten beim ersten Versuch. Ein bewährter Arbeitsablauf sieht so aus:

  1. Man beginnt mit einem einfachen, gut strukturierten Prompt, der die Kernelemente enthält.
  2. Man analysiert das Ergebnis: Was stimmt bereits? Was fehlt oder stört?
  3. Man passt den Prompt in kleinen Schritten an - etwa durch zusätzliche Details zu Beleuchtung, Perspektive oder Stil.
  4. Man wiederholt den Vorgang, bis das Ergebnis den Vorstellungen entspricht.

Viele Online-Dienste wie Artlist oder Google bieten eine "Enhance"-Funktion, die einen einfachen Prompt automatisch um Details ergänzt. Das kann ein hilfreicher Ausgangspunkt sein, ersetzt aber nicht das manuelle Feintuning.

11. Was sind die 10 interessantesten Stile für KI-Bilder?

Die Wahl des Stils ist einer der wirkungsvollsten Hebel beim Prompting. Die folgende Auswahl zeigt zehn besonders vielseitige und ästhetisch reizvolle Stile, die sich für unterschiedlichste Projekte eignen.

1. Fotorealismus

Prompt-Elemente: "photorealistic" (fotorealistisch), "DSLR photo" (Spiegelreflexkamera-Foto), "shallow depth of field" (geringe Schärfentiefe), "85mm lens" (85-mm-Objektiv), "natural lighting" (natürliche Beleuchtung) FAQ: Bildgenerierung Fotorealismus ist der am häufigsten angestrebte Stil. Die KI erzeugt Bilder, die wie echte Fotos wirken. Entscheidend ist, der KI möglichst konkrete "Kamera-Anweisungen" zu geben, statt nur "realistisch" zu schreiben. Der Unterschied zwischen einem flachen und einem atmosphärischen Bild liegt oft in wenigen Begriffen.

Beispiel: "shallow depth of field (f/1.8)" (geringe Schärfentiefe bei Blende 1.8) erzeugt einen unscharfen Hintergrund mit freigestelltem Motiv, "golden hour backlighting" (Gegenlicht zur goldenen Stunde) sorgt für warmes Gegenlicht mit langen Schatten.

Wer ein konkretes Kameramodell angibt (z. B. "shot on Canon EOS R5" / aufgenommen mit Canon EOS R5, oder "captured on Arri Alexa Mini" / eingefangen mit Arri Alexa Mini), erhält häufig einen spezifischeren Look, weil die künstliche Intelligenz (KI) den typischen Bildeindruck dieser Kameras aus den Trainingsdaten kennt. Für Porträts eignen sich Brennweiten-Angaben wie "85mm" oder "135mm", für Landschaften "24mm wide-angle" (24-mm-Weitwinkel).

Auch der Hinweis auf Nachbearbeitung kann helfen: "color graded, film emulation" (farbkorrigiert, Filmemulation) verleiht dem Bild einen professionelleren Filmlook.

2. Digitale Illustration / Concept Art

Prompt-Elemente: "digital illustration" (digitale Illustration), "concept art" (Konzeptkunst), "vibrant colors" (leuchtende Farben), "detailed" (detailreich), "artstation" FAQ: Bildgenerierung Dieser Stil ist beliebt für Fantasy- und Science-Fiction-Motive und erinnert an professionelle Buchcover oder Spielgrafiken. Die Bilder wirken detailliert und ausgefeilt, ohne fotorealistisch zu sein. Ein praktischer Trick: Begriffe wie "artstation" oder "trending on artstation" (beliebt auf Artstation) können die Qualität spürbar anheben, da viele Modelle hochwertige Illustrationen von dieser Plattform in ihren Trainingsdaten haben.

Für mehr Tiefe empfiehlt es sich, die Lichtquelle explizit zu benennen - etwa "rim lighting from behind" (Gegenlicht-Kontur von hinten) oder "dramatic side lighting" (dramatisches Seitenlicht). Wer zwischen verschiedenen Illustrations-Unterstilen wechseln möchte, kann Begriffe wie "matte painting" (digitale Hintergrundmalerei für epische Landschaften), "character design sheet" Figurenentwurff mit Vorder- und Rückansicht) oder "environment concept" (Umgebungsdesign) ergänzen.

3. Aquarell

Prompt-Elemente: "watercolor painting" (Aquarellmalerei), "soft washes" (weiche Farbverläufe), "wet-on-wet technique" (Nass-in-Nass-Technik), "paper texture" (Papierstruktur), "gentle blending" (sanftes Überblenden)enden FAQ: Bildgenerierung Aquarell erzeugt zarte, fließende Bilder mit weichen Farbübergängen und sichtbarer Papierstruktur. Ideal für Landschaften, Blumenmotive und stimmungsvolle Szenen.

Die beiden wichtigsten Stellschrauben sind die Technik und das Trägermaterial: "wet-on-wet" (Nass-in-Nass) sorgt für besonders weiche, ineinander verlaufende Farbflächen, während "dry brush details" (Trockenpinsel-Details) gezielt Schärfe und Textur an bestimmten Stellen einbringt - besonders nützlich für Vordergrund-Elemente. Die Angabe "on rough watercolor paper" (auf rauem Aquarellpapier) oder "on cold-pressed paper" (auf kalt gepresstem Papier) verstärkt die typische Papierstruktur.

Ein häufiger Fehler: Zu viele Details im Prompt fordern - Aquarell lebt von der Reduktion. Prompts wie "loose brushwork, areas of white paper showing through" (lockere Pinselführung, Stellen, an denen das weiße Papier durchscheint) erzeugen authentischere Ergebnisse als eine überladene Beschreibung. Auch die Farbpalette sollte eingeschränkt werden, z. B. "limited palette of indigo, burnt sienna and ochre" (begrenzte Palette aus Indigo, Siena gebrannt und Ocker).

4. Anime und Manga

Prompt-Elemente: "anime style" (Anime-Stil), "cel shading" (Cel-Shading / flächige Kolorierung), "vibrant colors" (leuchtende Farben), "detailed eyes" (detaillierte Augen), "manga aesthetic" (Manga-Ästhetik) FAQ: Bildgenerierung Ein enorm populärer Stil mit eigener Ästhetik: große ausdrucksstarke Augen, flächige Kolorierung und stilisierte Proportionen. Für diesen Stil lohnt es sich, mit sogenannten Booru-Tags zu arbeiten - das sind standardisierte, kurze Schlag­wör­ter wie "1girl", "medium shot", "from side", "looking at viewer", die aus Anime-Bild­da­ten­ban­ken stammen und von vielen Modellen besonders gut erkannt werden (dementsprechend muss man zumeist auch in Englisch arbeiten).

Ein typischer Anime-Prompt folgt eher einer Stichwortliste als einem ganzen Satz: "anime screencap, wallpaper, cherry blossom, school uniform, wind, medium shot, soft lighting" (Anime Screencap, Wallpaper, Kirschblüte, Schuluniform, Wind, mittlere Aufnahme, weiche Beleuchtung).

Für unterschiedliche Unterstile kann man präzisieren: "90s anime aesthetic" (90er Jahre Anime-Ästhetik) für den nostalgischen Look älterer Serien, "modern anime, sharp lines" (Moderner Anime, scharfe Linien) für aktuelle Produktionen, "manga panel, black and white, screen tones" (Manga-Panel, schwarz-weiß, Bildschirmtöne) für den klassischen Manga-Stil. Der Zusatz "cel shading" erzeugt die typischen harten Schattenkanten, während "soft shading" für weichere Übergänge sorgt.

5. Ölgemälde

Prompt-Elemente: "oil painting" (Ölgemälde), "thick brushstrokes" (dicke Pinselstriche), "impasto technique" (Impasto-Technik / pastose Malweise), "rich colors" (satte Farben), "canvas texture" (Leinwandstruktur) FAQ: Bildgenerierung Ölgemälde-Stile erzeugen Bilder mit sichtbarer Pinselführung, satten Farben und einer fast greifbaren Textur. Der Zusatz "impasto" (aufgetragene, dicke Farb­schich­ten) verleiht dem Ergebnis besondere Plastizität - man meint fast, die Farbe greifen zu können. Gut geeignet für Porträts, Landschaften und Stillleben mit klassischem Anspruch. Ein wirkungsvoller Kniff ist die Angabe einer Kunst­epo­che: "Baroque oil painting" (barockes Ölgemälde) erzeugt dramatische Lichtführung à la Rembrandt, "Impressionist oil painting" (impressionistisches Ölgemälde) lockere, lichtdurchflutete Pinselstriche wie bei Monet.

Die Leinwandstruktur lässt sich über "visible canvas weave" (sichtbares Leinwandgewebe) oder "textured canvas surface" (strukturierte Leinwandoberfläche) verstärken. Für besonders lebendige Ergebnisse hilft die Kombination verschiedener Pinselstil-Angaben: "palette knife texture in the foreground, fine detailed brushwork in the face" (Spachtel-Textur im Vordergrund, feine detaillierte Pinselarbeit im Gesicht) weist die KI an, verschiedene Techniken in unterschiedlichen Bildbereichen einzusetzen.

Wer ein unfertiges, skizzenhaftes Erscheinungsbild möchte, kann "alla prima, single session painting, visible underpainting" (Alla-prima-Malerei, in einer Sitzung gemalt, sichtbare Untermalung) hinzufügen.

6. Film Noir / Kinematografisch

Prompt-Elemente: "film noir", "dramatic shadows" (dramatische Schatten), "high contrast" (hoher Kontrast), "black and white" (Schwarz-Weiß), "cinematic lighting" (kinematografische Beleuchtung), "moody atmosphere" (stimmungsvolle Atmosphäre) FAQ: Bildgenerierung Dieser Stil lebt von starken Hell-Dunkel-Kontrasten, dramatischen Schatten und einer spannungsgeladenen Atmosphäre. Das Schlüsselwort ist Beleuchtung - hier sollte man besonders präzise sein: "single hard light source from above" (einzelne harte Lichtquelle von oben), "venetian blind shadows across the face" (Jalousie-Schatten über dem Gesicht) oder "silhouette against a foggy street" (Silhouette vor einer nebligen Straße) erzeugen jeweils völlig unterschiedliche Stimmungen innerhalb des Noir-Genres.

Der Stil funktioniert auch hervorragend als Farbvariante: "neo-noir, cinematic color grading with muted teal and orange tones" (Neo-Noir, kinematografische Farbkorrektur mit gedeckten Blaugrün- und Orangetönen) erzeugt den typischen Look moderner Thriller. Begriffe aus der Kinematografie verstärken den Effekt erheblich: "low-angle shot" (Froschperspektive) vermittelt Bedrohung, "dutch angle" (Schrägaufnahme) Instabilität, "anamorphic lens flare" (anamorpher Blendenfleck) den Look von Kinofilmen.

Für maximale Wirkung sollte man auch die Umgebung beschreiben: "rain-slicked streets reflecting neon signs" (regennasse Straßen, die Neonreklamen spiegeln), "smoke-filled room" (verrauchter Raum) oder "dimly lit alley" (schwach beleuchtete Gasse) transportieren die Noir-Atmosphäre mindestens ebenso stark wie die Lichtangaben selbst.

7. 3D-Render / Isometrisch

Prompt-Elemente: "3D render" (3D-Darstellung), "isometric view" (isometrische Ansicht), "soft lighting" (weiches Licht), "clean design" (klares Design), "smooth surfaces" (glatte Oberflächen) FAQ: Bildgenerierung Dieser Stil erzeugt dreidimensional wirkende Szenen mit weichen Oberflächen und kontrollierter Beleuchtung. Besonders beliebt für niedliche Charaktere, Miniaturwelten und Produktvisualisierungen. Die Angabe "isometric view" (isometrische Ansicht) erzeugt eine gleichmäßige, diagrammartige Perspektive ohne Fluchtpunkt - ideal für Spielwelten, Raumdarstellungen und technische Visualisierungen.

Für den typischen Look animierter Filme hilft der Zusatz "3D animated style, exaggerated proportions, soft textures, expressive characters" (3D-Animationsstil, übertriebene Proportionen, weiche Texturen, ausdrucksstarke Figuren). Materialangaben machen einen großen Unterschied: "glossy plastic surface" (glänzende Kunststoffoberfläche), "matte clay render" (matte Ton-Darstellung) oder "translucent glass material" (durchscheinendes Glasmaterial) erzeugen jeweils völlig verschiedene Anmutungen.

Wer den beliebten "Miniaturwelt"-Effekt erzielen möchte, kombiniert "tilt-shift effect, miniature diorama, tiny detailed world" (Tilt-Shift-Effekt, Miniatur-Diorama, winzige detaillierte Welt). Für Produktvisualisierungen empfiehlt sich "studio lighting, product photography, white background, ambient occlusion" (Studiobeleuchtung, Produktfotografie, weißer Hintergrund, Um­ge­bungs­ver­deck­ung) - die KI erzeugt dann saubere, professionell beleuchtete Objektdarstellungen.

8. Vintage-Fotografie / Retro

Prompt-Elemente: "vintage photograph" (Vintage-Foto), "1970s aesthetic" (1970er-Jahre-Ästhetik), "film grain" (Filmkorn), "faded colors" (verblasste Farben), "Kodachrome", "light leaks" (Lichteinbrüche) FAQ: Bildgenerierung Bilder in diesem Stil wirken wie alte Aufnahmen mit Filmkorn, verblassten Farben und gelegentlichen Lichteinbrüchen. Der wirkungsvollste Ansatz ist die Angabe konkreter Filmtypen: "Kodachrome" erzeugt gesättigte Rot- und Gelbtöne, "Polaroid" den typischen weißen Rahmen mit leicht entsättigten Farben, "Fujifilm Superia" einen grünlich-kühlen Farbton.

Die Kombination mit einem Jahrzehnt schärft das Ergebnis weiter: "1960s fashion photography" (Modefotografie der 1960er) sieht grundlegend anders aus als "1990s product photography" (Produktfotografie der 1990er) oder "early 2000s digital camera aesthetic" (Digitalkamera-Ästhetik der frühen 2000er). Physische Alterungsspuren wie "light leaks" (Lichteinbrüche), "dust and scratches" (Staub und Kratzer), "slightly overexposed" (leicht überbelichtet) oder "vignetting" (Vignettierung / Randabschattung) erhöhen die Authentizität.

Ein praktischer Tipp: Wer den Retro-Effekt subtil halten möchte, verwendet nur ein oder zwei dieser Alterungsmerkmale - zu viele gleichzeitig wirken schnell übertrieben und unnatürlich. Auch die Angabe der Aufnahmetechnik hilft: "shot on 35mm film" (aufgenommen auf 35-mm-Film) erzeugt eine andere Kornstruktur als "medium format Hasselblad" (Mittelformat-Hasselblad).

9. Minimalismus / Flat Design

Prompt-Elemente: "minimalist design" (minimalistisches Design), "flat colors" (flächige Farben), "simple shapes" (einfache Formen), "clean lines" (klare Linien), "geometric" (geometrisch), "limited color palette" (begrenzte Farbpalette) FAQ: Bildgenerierung Reduziert auf das Wesentliche: klare Linien, wenige Farben und geometrische Formen. Dieser Stil eignet sich besonders für Icons, Poster, Infografiken und Branding-Materialien. Die größte Herausforderung besteht darin, die künstliche Intelligenz (KI) davon abzuhalten, zu viele Details hinzuzufügen.

Hilfreich ist es, die Reduktion explizit einzufordern: "no unnecessary details, large areas of negative space, maximum three colors" (keine unnötigen Details, große Freiflächen, maximal drei Farben). Die Angabe einer konkreten Farbpalette schärft das Ergebnis zusätzlich - etwa "monochrome blue tones" (monochrome Blautöne), "pastel palette with soft pink and mint" (Pastellpalette mit zartem Rosa und Mint) oder "bold primary colors only" (nur kräftige Primärfarben).

Für verschiedene Unterstile kann man präzisieren: "Swiss design, Helvetica typography" (Schweizer Grafikdesign, Helvetica-Typografie) für den klassisch-europäischen Grafikdesign-Stil, "Japanese minimalism, wabi-sabi" (japanischer Minimalismus, Wabi-Sabi) für eine organischere, unperfekte Ästhetik, "Bauhaus inspired, geometric abstraction" (Bauhaus-inspiriert, geometrische Abstraktion) für streng konstruierte Kompositionen.

Im Negativprompt können Begriffe wie "realistic, detailed, complex, ornate" (realistisch, detailliert, komplex, verschnörkelt) helfen, die Einfachheit zu bewahren. Für Vektorgrafik-Anwendungen sollte man "vector style, scalable, sharp edges" (Vektor-Stil, skalierbar, scharfe Kanten) ergänzen.

10. Surrealismus / Traumlandschaft

Prompt-Elemente: "surrealist art" (surrealistische Kunst), "dreamlike" (traumartig), "impossible architecture" (unmögliche Architektur), "melting shapes" (schmelzende Formen), "ethereal atmosphere" (ätherische Atmosphäre) Im Surrealismus darf die KI ihre Stärke in der Kombination ungewöhnlicher Elemente voll ausspielen. FAQ: Bildgenerierung Schwebende Objekte, unmögliche Architektur und traumartige Lichtstimmungen erzeugen Bilder, die faszinieren und zum Nachdenken anregen. Der Schlüssel zu überzeugenden surrealistischen Bildern liegt darin, Gegensätze bewusst zu kombinieren: "an ocean inside a library" (ein Ozean in einer Bibliothek), "a clock growing like a tree" (eine Uhr, die wie ein Baum wächst) oder "stairs leading into the sky" (Treppen, die in den Himmel führen) geben der KI kreative Ankerpunkte, die sie in unerwartete Richtungen weiterentwickelt.

Dabei sollte man die Szene trotz ihrer Unmöglichkeit mit realistischen Details anreichern: "photorealistic rendering of an impossible scene" (fotorealistische Darstellung einer unmöglichen Szene) erzeugt einen faszinierenderen Kontrast als ein komplett abstraktes Ergebnis. Für die Lichtstimmung eignen sich Angaben wie "ethereal glow" (ätherisches Leuchten), "bioluminescent lighting" (biolumineszentes Licht) oder "light filtering through translucent objects" (Licht, das durch durchscheinende Objekte fällt).

Ein fortgeschrittener Trick: Man beschreibt eine alltägliche Szene und fügt dann eine einzelne surreale Abweichung hinzu - etwa "a perfectly normal kitchen, except the floor is an ocean surface reflecting the ceiling" (eine völlig normale Küche, nur dass der Boden eine Wasseroberfläche ist, die die Decke spiegelt). Diese Technik erzeugt oft eindrucksvollere Ergebnisse als eine Aneinanderreihung fantastischer Elemente, weil der Kontrast zum Alltäglichen die Wirkung verstärkt.

12. Praktische Tipps: Wie gelingen die besten KI-Bilder?


Tipp 1: Nano Banana einfach machen lassen

Wer mit Googles Nano Banana Pro oder Nano Banana 2 arbeitet, muss sich nicht zwingend mit aufwendiger Prompt-Architektur beschäftigen. Dank der zugrundeliegenden Gemini-Modelle verstehen diese Generatoren auch lange, unstrukturierte Texteingaben und machen sich selbstständig ans Werk.

In der Praxis bedeutet das: Man kann einen ganzen Absatz, eine Projektbeschreibung, eine Artikelzusammenfassung oder sogar Stichpunkte aus einem Briefing direkt in das Eingabefeld kopieren und dazu einen kurzen Hinweis ergänzen, was man sich vorstellt - etwa "Erstelle daraus eine Infografik im modernen Flat-Design" oder "Mach ein Titelbild für einen Blogartikel zu diesem Thema". FAQ: Bildgenerierung Gemini analysiert den Text eigenständig, erkennt die zentralen Aussagen und Themen und trifft kreative Entscheidungen zu Komposition, Farbgebung und Bildaufbau, ohne dass man jedes Detail selbst vorgeben muss.

Das Modell bringt sein Weltwissen ein - es weiß, wie ein Barista aussieht, wie ein Schaltkreis funktioniert oder welche Pflanzen in einem tropischen Regenwald wachsen - und setzt dieses Wissen in visuell stimmige Darstellungen um. Gerade für Infografiken, datengestützte Visualisierungen und erklärende Schaubilder ist das ein enormer Vorteil, weil das Modell die inhaltliche Logik des Textes versteht und nicht nur Schlüsselwörter aneinanderreiht.

Tipp 2: Image-to-Image (img2img) nutzen lernen

Statt immer bei null anzufangen, kann man der KI ein bestehendes Bild als Ausgangspunkt geben. Über den sogenannten "Denoise"-Wert steuert man, wie stark das Ergebnis vom Original abweichen darf. Ein Wert unter 0,4 hält das Ergebnis eng am Original, ein Wert über 0,8 gibt der KI fast völlige Freiheit. Diese Technik eignet sich hervorragend, um Skizzen in ausgearbeitete Bilder zu verwandeln oder den Stil eines Bildes zu ändern. FAQ: Bildgenerierung
Tipp 3: Inpainting für gezielte Korrekturen

Man erhält selten beim ersten Versuch ein perfektes Bild - aber oft eines, das zu 90 % stimmt. Inpainting ist die Lösung: Man markiert den Bereich, der geändert werden soll, beschreibt im Prompt die gewünschte Änderung, und die KI zeichnet nur diesen Bereich neu. So lassen sich Gesichter korrigieren, Kleidung ändern, Objekte hinzufügen oder entfernen, ohne das restliche Bild zu beeinflussen. Inpainting zählt zu den nützlichsten Fähigkeiten, die man erlernen kann.

Tipp 4: LoRAs für spezifische Stile und Figuren einsetzen

LoRAs (Low-Rank Adaptations) sind kleine Zusatzmodelle, die auf einem Basismodell aufsetzen und spezialisiertes Wissen einbringen - etwa einen bestimmten Kunststil, einen konkreten Charakter oder ein visuelles Konzept, das das Hauptmodell nicht kennt.

Wichtig: LoRAs müssen zum verwendeten Basismodell passen (SDXL-LoRAs funktionieren nur mit SDXL-Modellen). Manche LoRAs benötigen ein Trigger-Wort im Prompt, das auf der jeweiligen Download-Seite angegeben ist. Über den Gewichtungswert (Weight) kann gesteuert werden, wie stark der LoRA-Einfluss ausfällt. FAQ: Bildgenerierung
Tipp 5: ControlNet für präzise Komposition Wenn img2img ein Vorschlaghammer ist, dann ist ControlNet ein Skalpell. Statt das gesamte Bild als Vorlage zu nutzen, extrahiert ControlNet einen bestimmten Aspekt daraus: Canny erkennt Kanten und übernimmt die Gesamtkomposition.

OpenPose erkennt die Körperhaltung einer Person, sodass man einen völlig anderen Charakter in derselben Pose zeichnen kann. Depth Map überträgt die räumliche Tiefe eines Bildes. Dies gibt dem Nutzer eine feinkörnige Kontrolle über das Endergebnis, die mit reinem Prompting kaum erreichbar ist. FAQ: Bildgenerierung
Tipp 6: IP-Adapter für Stil- und Gesichtsübertragung

IP-Adapter arbeiten ähnlich wie ControlNet, ist aber weniger starr. Er kann den Stil, die grobe Komposition oder sogar ein bestimmtes Gesicht aus einem Re­fe­renz­bild übernehmen und in einen neuen Kontext übertragen. Das macht ihn be­son­ders wert­voll für konsistente Charakter­darstellungen über mehrere Bilder hinweg.

Tipp 7: Die Sprache des Films verwenden

KI-Bildgeneratoren reagieren hervorragend auf Begriffe aus Fotografie und Film. Wer diese Sprache nutzt, erhält wesentlich kontrollierbare Ergebnisse.

Einstellungsgrößen: Nahaufnahme (Close-up), Halbtotale (Medium Shot), Totale (Wide Shot), Über-die-Schulter-Aufnahme

Beleuchtung: Weiches Licht (Soft Lighting), Gegenlicht-Silhouette (Backlit Silhouette), Dramatische Schatten, Goldene Stunde (Golden Hour)

Perspektiven: Vogelperspektive (Bird's-Eye View), Froschperspektive (Low Angle), Ego-Perspektive (First Person)

Kameradetails: "Shot with 85mm lens at f/1.4" oder "Captured on Arri Alexa Mini" erzeugen einen spezifischen fotografischen Look FAQ: Bildgenerierung
Tipp 8: Keine Prompts blind kopieren

Auf Plattformen wie CivitAI finden sich unter vielen beeindruckenden Bildern die zugehörigen Prompts. Es ist verlockend, diese einfach zu übernehmen - doch das führt schnell zu schlechten Gewohnheiten. Ohne zu verstehen, warum ein Prompt funktioniert hat (welches Modell, welche Einstellungen, welche LoRAs), wird das Kopieren oft enttäuschende Ergebnisse liefern. Besser: Den Prompt analysieren, die Struktur verstehen und daraus Prinzipien für eigene Prompts ableiten.

Tipp 9: Prompt-Builder und KI-Hilfe nutzen

Wem das Formulieren von Prompts schwerfällt, der kann auf die mittlerweile zahlreichen Prompt-Builder (am besten googeln und ausprobieren) zurückgreifen - interaktive Werkzeuge, bei denen man Felder zu Motiv, Stil, Beleuchtung und Komposition ausfüllt und einen fertigen Prompt erhält.

Auch Sprachmodelle können helfen: Man beschreibt die gewünschte Szene in Alltagssprache und lässt den Prompt von der künstlichen Intelligenz (KI) in ein optimiertes Format umschreiben. Besonders für Flux-Modelle, die natürliche Sprache bevorzugen, ist das ein effektiver Workflow. FAQ: Bildgenerierung
Tipp 10: ADetailer gegen unscharfe Gesichter

Ein häufiges Problem: Gesichter, die etwas weiter von der Kamera entfernt sind, wirken verzerrt oder "zerquetscht". Das Werkzeug ADetailer (verfügbar in Forge und einigen anderen UIs) erkennt automatisch Gesichter und Hände im Bild und zeichnet sie in höherer Auflösung neu.

Wer keine ADetailer-Funktion hat, kann alternativ das Bild hochskalieren und anschließend das Gesicht per Inpainting korrigieren. FAQ: Bildgenerierung
Tipp 11: Regional Prompting für komplexe Szenen

Bei Szenen mit mehreren Elementen, die unterschiedlich beschrieben werden sollen, stößt ein einzelner Prompt schnell an Grenzen. "Ein blaues Auto und ein rotes Auto" erzeugt häufig ein oder zwei mehrfarbige Autos statt zweier korrekt gefärbter Fahrzeuge.

Regional Prompting löst dieses Problem: Man weist verschiedenen Bildbereichen unterschiedliche Prompts zu, die dann automatisch zusammengeführt werden. So erhält jedes Element genau die Beschreibung, die es braucht. FAQ: Bildgenerierung
Tipp 12: Sinnvoller Umgang mit Seitenverhältnissen

Das Seitenverhältnis beeinflusst die gesamte Komposition. Ein 16:9-Format eignet sich für kinematische Landschaften, 9:16 für Poster oder Smartphone-Hintergründe, 1:1 für Porträts und Social-Media-Inhalte, und 21:9 für ultrabreite Panoramaszenen.

Die Angabe des gewünschten Formats direkt im Prompt (z. B. "A cinematic 21:9 wide shot") kann bei einigen Modellen die Komposition zusätzlich steuern. Aktuelle Modelle wie Googles Nano Banana Pro unterstützen Auflösungen bis 4K in verschiedenen Seitenverhältnissen. FAQ: Bildgenerierung
Jetzt seid ihr dran! Habt ihr Tipps zur Generierung oder Stile, die euch besonders gut gefallen? Findet ihr solche KIs ethisch überhaupt in Ord­nung? Ist das ein legitimes technisches Tool oder wurde hier das Tor zur Massen-Desinformation geöffnet?
Weitere Fragen:


Jetzt einen Kommentar schreiben


Interessante Artikel & Testberichte
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!