Stable Diffusion ist ja nicht gut darin, wenn mehrere Objekte in einem Bild beschrieben werden - 1 Hauptobjekt und der Hintergrund, mehr funktioniert eigentlich nicht.
Opernhaus:
Die Vorlage für das Projekt Opernhaus ist ein Panorama der leeren Staatsoper mit eingesetztem 3D-Publikum und 3D-Orchester. Daraus hat SD per leres++ eine Depth Map generiert. Gescheitert ist dann, in einem Prompt zu beschreiben, was Publikum ist, was Orchester und was Bühne - und in welche Richtungen die Leute jeweils schauen. Keine Chance.
Regional Prompter
Ich habe dann versucht, mit einer Automatic1111-Erweiterung das Problem zu lösen: sd-webui-regional-prompter
https://github.com/hako-mikan/sd-webui-regional-prompter
Diese txt2img-Erweiterung hat mehrere Modi, ich habe mit der Maskenfunktion gearbeitet. Man malt Bereiche in eine Vorlage, für die jeweils ein unabhängiger Prompt gilt.
Im Text-Feld werden die Prompts durch das Wort "BREAK" getrennt.
Im Prinzip hat das funktioniert - mit 3 Regionen - auch wenn das (etwas unbefriedigende) Endresultat auf anderem Weg zustande gekommen ist - Durchgänge mit 180° Verschiebung und Montage von vielen Durchgängen.
Der "Regional Prompter" bleibt jedenfalls im KI-Werkzeugkasten als Problemlöser.
audience area of a sold-out opera house full of visitors, all seats are occupied by visitors, mixed gender audience in elegant black clothing, red seats, audience faces are directed towards the camera, highly detailed, 360 degrees realistic equirectangular panoramic photo, 8k, high resolution, photo realistic, rich colors BREAK.
orchestra pit of a baroque opera house, orchestra pit with black seats and dimmed light, large symphony orchestra in a orchestra pit with black seats and dimmed lights, conductor, violinist, cellists, Wind players, double bass players, highly detailed, 360 degrees realistic equirectangular panoramic photo, 8k, high resolution, photo realistic, rich colors BREAK.
stage of a baroque opera house, singers and actors on the stage, highly detailed, 360 degrees realistic equirectangular panoramic photo, 8k, high resolution, photo realistic, rich colors.
Steps: 15, Sampler: DPM++ 2M Karras, CFG scale: 3, Seed: 4161892144, Size: 2048x1024, Model hash: 440a7f226b, Model: protovisionXLHighFidelity3D_releaseV660Bakedvae, Tile X: True, Tile Y: False, Start Tiling From Step: 0, Stop Tiling After Step: -1, ControlNet 0: "Module: none, Model: controlnetxlCNXL_saiDepth [9fe0fd3b], Weight: 1, Resize Mode: Just Resize, Low Vram: False, Guidance Start: 0, Guidance End: 1, Pixel Perfect: True, Control Mode: Balanced, Hr Option: Both, Save Detected Map: True", RP Active: True, RP Divide mode: Matrix, RP Matrix submode: Columns, RP Mask submode: Mask, RP Prompt submode: Prompt, RP Calc Mode: Attention, RP Ratios: "538,970,540", RP Base Ratios: 0.5, RP Use Base: False, RP Use Common: False, RP Use Ncommon: False, RP Options: ["[", "\"", "[", "\""], RP LoRA Neg Te Ratios: 0, RP LoRA Neg U Ratios: 0, RP threshold: 1, RP LoRA Stop Step: 0, RP LoRA Hires Stop Step: 0, RP Flip: False, Version: v1.7.0
Vorlage und Regional Prompter Screenshot:
Resultat Opernhaus, letztlich ohne Regional Prompter aus vielen Versionen zusammenmontiert: