Sie sind nicht angemeldet.

1

Dienstag, 27. Februar 2024, 09:35

Stable Diffusion und Panoramen

Antwort von Le Chat Mistral auf meine Frage, welches Stable Diffusion Model equirectangulare Panoramen am besten erzeugen kann:

Zitat

Stable Diffusion Models werden typischerweise nicht speziell für die Erzeugung von equirektangularen Panoramen entwickelt. Sie sind eher allgemeine generative Modelle, die verschiedene Arten von Bilddaten synthetisieren können. Um equirektangulare Panoramen zu erzeugen, benötigt man normalerweise spezialisierte Algorithmen oder Techniken, die auf die spezifischen Eigenschaften dieser Art von Bildern zugeschnitten sind.

Ein möglicher Ansatz zur Erzeugung von equirektangularen Panoramen mit generativen Modellen besteht darin, ein generatives adversariales Netzwerk (GAN) oder ein Variational Autoencoder (VAE) zu verwenden, das speziell für diese Aufgabe trainiert wurde. Diese Modelle können lernen, die komplexen Muster und Strukturen in Panoramabildern zu erfassen und realistische Synthesen zu erzeugen.

Ein Beispiel für ein solches Modell ist das Panoramic Annular GAN (Panogan), das in diesem Forschungspapier vorgestellt wird: "Panoramic Image Synthesis with Annular Generative Adversarial Networks" (Chang et al., 2019). Panogan ist ein speziell entwickeltes GAN, das equirektangulare Panoramen generieren kann, indem es die zylindrische Natur der Bilder berücksichtigt.

Ein anderes Beispiel ist das SpherePHD-Modell, das in dem Paper "SpherePHD: Spherical Panorama Hallucination from a Single Image" (Zhang et al., 2018 ) vorgestellt wird. SpherePHD verwendet eine Kombination aus einer Sphärischen Convolutional Neural Network (SCNN) und einem cube padding-basierten Ansatz, um equirektangulare Panoramen aus einer einzelnen Eingabebild zu synthetisieren.

Es ist wichtig zu beachten, dass die Qualität der erzeugten Panoramen stark von der Qualität und Vielfalt der Trainingsdaten abhängt. Je besser die Trainingsdaten, desto besser werden die generierten Panoramen sein.

Insgesamt gibt es kein spezifisches Stable Diffusion Model, das am besten für die Erzeugung von equirektangularen Panoramen geeignet ist. Stattdessen sollten Sie nach spezialisierten generativen Modellen suchen, die für diese Aufgabe entwickelt wurden, wie z.B. Panogan oder SpherePHD.

2

Dienstag, 27. Februar 2024, 17:50

Über diese Geschichten bin ich auch schon gestolpert - kann ich nichts mit anfangen. Das scheitert schon an der Installation.
Von Linux-Programmierern für Linux-Programmierer programmiert. Als Fotograf staunt man nur.

Es hilft auch nichts, perfekte equirectangulare Bilder zu bekommen, wenn die langweilig sind, siehe 360° Loras.
Vom selber trainieren ganz zu schweigen. Das ist ein Fulltime-Job, wofür man heftige Hardware braucht.

Es ist schon sinnvoll, eine gängige Software zu verwenden, die auch bedienbar ist - und umfangreich und schnell weiterentwickelt wird. Auch wenn es da Einschränkungen gibt. Wir haben doch schon gute Resultate hier vorgestellt. Ich hab nicht das Gefühl, irgendwas nicht realisieren zu können.

Stable Diffusion 3 ist schon in der Pipeline. Bis man damit arbeiten kann bzw. vor allem Modelle damit trainiert sind dauert es noch. Das soll endlich mehrer Items im Prompt parallel verarbeiten können. Braucht aber auch wieder mehr Power.

Ansonsten Skybox online verwenden. Da kriegt man ziemlich perfekte Resultate gegen Geld. Ist mir aber zu langweilig. Der Weg ist das Ziel.