138

Ist es in Bayern normal, dass zwei Frauen an der Schulter zusammen gewachsen sind, sechs Finger an einer Hand haben und trotzdem ein Bierglas nicht so festhalten können, dass es eigentlich runterfallen müsste?

you are viewing a single comment's thread
view the rest of the comments
[-] aaaaaaaaargh@feddit.de 4 points 1 year ago* (last edited 1 year ago)

Sehr gute Antwort, ich möchte noch drei Dinge hinzufügen:

Mit 4GB VRAM kommt man nicht mehr sehr weit. Das absolute Minimum sind 8GB, wobei man selbst damit schon schnell an die Grenzen des Möglichen stößt. Ideal sind 12 oder noch besser 24 (ergo 4090 oder mehr).

Desweiteren gab es jüngst ein neues Stable Diffusion release (SD XL), was die Messlatte auch nochmal deutlich nach oben geschoben hat. In Vergleichen operiert SD XL qualitativ etwa auf der Höhe von Midjourney, einer kommerziellen Alternative, die bis dato als absoluter Goldstandard galt.

Ich empfehle unbedingt ComfyUI, da es wesentlich flexibler ist als Automatic1111 und durch den Node-basierten Ansatz vielleicht auch etwas intuitiver.

[-] barsoap@lemm.ee 2 points 1 year ago

Mit 4GB VRAM kommt man nicht mehr sehr weit.

Ja doch schon. Darfst halt nicht A1111 benutzen das Ding leckt Speicher wie die Sau. Comfy kann auch SDXL mit Standardauflösung mit 4G.

Kaufen sollte man 4G-Karten heutzutage nicht aber ich werd' mir hier jetzt zum rumspielen keine neue kaufen zu den Pandemiepreisen.

[-] aaaaaaaaargh@feddit.de 1 points 1 year ago* (last edited 1 year ago)

Was genau ist denn eine Standardauflösung bei dir? Also ich hab eine 2080 mit 8 Gigs und wenn ich das SD XL base model mit kleinem LoRA und Prompts nutze, komme ich nicht wesentlich über 1200x1200 Bildpunkte. Sobald dann sowas wie ControlNet dabei ist, sind eher 800x800 das Maximum.

Ich schließe daher daraus: wenn man sowas ernsthaft einsetzen möchte, wird man unter 12+ Gigs nicht weit kommen.

[-] barsoap@lemm.ee 3 points 1 year ago* (last edited 1 year ago)

https://stablediffusionxl.com/sdxl-resolutions-and-aspect-ratios/

LoRAs sind kein Problem, die werden in's Modell reingerechnet bevor die Inferenz startet. ControlNet kommt drauf an das kann schon kritisch werden, wirst aber t2i-Adapter finden. Die werden auch vorher reingerechnet und sind daher auch schneller -- auch nicht so genau aber wer benutzt schon Controlnet mit hohem Gewicht.

Wenn VRAM gerade fragmentiert ist kann es sein dass du zwingend die tiled VAE decode node nutzen musst, mit sehr niedriger Auflösung.

Was bei mir mit SDXL im Moment nicht geht sind sehr hohe Auflösungen dazu fehlt noch ControlNet tile.

Ich schließe daher daraus: wenn man sowas ernsthaft einsetzen möchte, wird man unter 12+ Gigs nicht weit kommen.

Da ist schon was dran denn mit 4G kann man definitiv nicht trainieren.

this post was submitted on 01 Oct 2023
138 points (88.3% liked)

Frag Feddit

3704 readers
1 users here now

Wolltest du Der Leere™ schon immer einmal Fragen stellen? Tue dies hier.

founded 3 years ago
MODERATORS