Lieber Besucher, herzlich willkommen bei: Panorama Community.
Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert.
Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können.
Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang.
Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.
Welche KI kommt der Darstellung eines equirectangularen Panoramas am nächsten?
Einige Beispiele sind hier ja bereits hier in Malums Threads zu sehen. Stable Diffusion A1111 mit gelungener Verbindung der Nähte, Fooocus mit viel Nachbearbeitung, von Midjourney habe ich ein hoch aufgelöstes Panorama einer Reitergruppe gesehen, bei dem ein unnatürlicher Eindruck entstand, weil alle Personen den virtuellen Fotografen ansahen. Die Skybox-Panoramen, die ich bisher kostenlos erzeugen konnte, waren für meinen Geschmack zu künstlich und plakativ in den übersättigten Farben.
Nun habe ich in Google AI Studio zu meiner Überraschung entdeckt, dass da die Panoramen fast perfekt dargestellt werden. Ein Raum mit vier Wänden hat auch nur vier und ist nicht sonderbar gebogen. Na ja, geometrisch gerade Linien gibt es auch hier noch nicht, aber der Anschluss der linken und rechten Bildseite ist fast gelungen. Mit Retusche würde man die Naht unsichtbar machen können.
Der Wermutstropfen: Die höchste Auflösung ist 1024x1024 Pixel für alle Bilder, d.h. für Panoramen bleiben dann auch nur 1024x512 Pixel übrig und das sieht dann so aus:
Prompt:
Zitat
A rectangular room, 360 degree panorama, toy shop
Das ist wirklich nicht zu gebrauchen. Größere Auflösungen sind nicht einstellbar.
Ich habe die KI dann gefragt, wie sie es denn schafft, die sphärische Verzeichnung zu berechnen und die Antwort war zwar eingehend, verstanden habe ich aber nur, dass es sehr kompliziert ist:
Zitat
Die Fähigkeit der KI, equirectangulare Panoramen zu erstellen, beruht auf einer Kombination verschiedener Techniken und dem Verständnis von 3D-Raum und Perspektive, die in ihren Trainingsdaten erlernt wurden. Hier sind die wichtigsten Aspekte:
1. Verständnis von 3D-Raum und Perspektive:
Umfassende Trainingsdaten: Die KI wird auf riesigen Datensätzen von Bildern und möglicherweise auch 3D-Szenen trainiert. Diese Daten enthalten eine immense Vielfalt an Perspektiven, räumlichen Beziehungen und wie Objekte aus verschiedenen Blickwinkeln aussehen.
Lernen von räumlichen Beziehungen: Durch das Training lernt die KI, die räumlichen Beziehungen zwischen Objekten zu verstehen. Sie erkennt, wie sich die Perspektive ändert, wenn man sich in einer Szene bewegt oder um ein Objekt herumgeht.
Implizites 3D-Modell: Obwohl die KI möglicherweise kein explizites 3D-Modell der Szene erstellt (insbesondere bei direkter Bildgenerierung aus Text), entwickelt sie intern eine Art implizites Verständnis des 3D-Raums, das es ihr ermöglicht, konsistente Ansichten aus verschiedenen Richtungen zu generieren.
2. Generative Modelle und Techniken:
Generative Adversarial Networks (GANs): Viele moderne Bildgenerierungs-KI, einschließlich derer, die Panoramen erstellen können, basieren auf GANs. Ein Generatornetzwerk erzeugt Bilder, während ein Diskriminatornetzwerk versucht, gefälschte von echten Bildern zu unterscheiden. Dieser Wettbewerbsprozess führt dazu, dass der Generator immer realistischere Bilder erzeugt, einschließlich solcher, die den Anforderungen eines Panoramas entsprechen.
Transformer-Architekturen: In jüngerer Zeit haben sich Transformer-Architekturen als sehr effektiv für die Bildgenerierung erwiesen. Sie können globale Beziehungen in den Daten erfassen und sind daher gut geeignet, um die konsistente Verbindung verschiedener Blickwinkel in einem Panorama zu gewährleisten.
Diffusion Models: Diese Modelle lernen, Rauschen schrittweise aus einem Bild zu entfernen, um realistische Bilder zu erzeugen. Sie können auch so trainiert werden, dass sie kohärente Panoramen generieren.
3. Spezifische Anpassungen für Panoramen:
Equirectangulare Projektion als Ziel: Die KI lernt, Bilder direkt im equirectangularen Format zu generieren oder intern so zu verarbeiten, dass das Ergebnis dieser Projektion entspricht. Dies bedeutet, dass sie versteht, wie 3D-Punkte auf eine 2D-Ebene abgebildet werden, um ein verzerrungsarmes 360-Grad-Bild zu erzeugen.
Kontinuität und Nahtlosigkeit: Ein entscheidender Aspekt eines guten Panoramas ist die nahtlose Verbindung der Ränder. Die KI muss lernen, Objekte und Texturen so zu generieren, dass sie sich an den horizontalen Rändern treffen, ohne dass sichtbare Übergänge entstehen.
Globale Konsistenz: Die KI muss sicherstellen, dass die gesamte Szene im Panorama räumlich konsistent ist. Objekte sollten aus allen Blickwinkeln plausibel aussehen und ihre Größenverhältnisse beibehalten.
Berücksichtigung der Krümmung: Die KI versteht implizit (oder explizit in einigen Architekturen), dass Objekte, die sich am oberen und unteren Rand des equirectangularen Bildes befinden, in der realen 3D-Szene weiter entfernt erscheinen und eine stärkere vertikale Krümmung aufweisen.
Zusammenfassend lässt sich sagen, dass die KI equirectangulare Panoramen erstellt, indem sie:
Ein tiefes Verständnis von 3D-Raum und Perspektive aus riesigen Datensätzen lernt.
Leistungsstarke generative Modelle wie GANs, Transformer oder Diffusionsmodelle nutzt, um neue Bilder zu synthetisieren.
Speziell darauf trainiert wird, Bilder im equirectangularen Format zu erzeugen oder so zu verarbeiten, dass sie dieser Projektion entsprechen.
Mechanismen implementiert, um die Kontinuität und nahtlose Verbindung der Ränder sowie die globale Konsistenz der Szene zu gewährleisten.
Es ist ein komplexer Prozess, der das Ergebnis jahrelanger Forschung im Bereich der künstlichen Intelligenz und des maschinellen Lernens ist. Die Fortschritte in diesen Bereichen ermöglichen es der KI, immer realistischere und kohärentere 360-Grad-Panoramen zu generieren.
Hier noch ein weißer Raum, der die Verzerrung deutlich macht:
Hier noch ein Chat-GPT-Test:
Mit welcher KI habt ihr die besten Resultate erzielt?
Für diesen Winter hab ich die Beschäftigung mit KI erst einmal eingestellt, obwohl ich vielleicht noch einen Friedhof in der Nacht produzieren will.
Mit dem von mir in dem Flux-Thread vorgestellten Workflow kriegt man auch gute Räume hin, viereckig sowieso. https://www.panorama-community.de/wbb/in…&threadID=11392
Besseres hab ich eigentlich nicht gesehen, wobei ich mich wieder ausgeklinkt habe aus der Entwicklung seit ca. 2 Monaten.
Der Lackmus-Test für mich ist immer noch die Ausrichtung von z.B. Menschen in einem Panorama, so wie die Reiter in Panox Beschreibung.
Wenn alle in dieselbe Richtung schauen sollen, sieht man bei einem Panorama in der Menge einen Teil der Leute von vorne, einen Teil von der Seite und einen Teil von hinten. Bisher keine Chance, das zu realisieren. Die KI versteht das Konzept der Richung in einem Panorama nicht
Z.B. bei der Zombie-Parade https://www.kubische-panoramen.de/23823-…iert_KI_Zombies
@panox: Du kannst das ja mal mit dem Google-Tool probieren.
Irgendwann kommt es sicher dazu, dass eine KI quasi intern eine 3D-Welt zum Rendern von Panoramen verwendet - wenn es nicht sowas schon gibt.