La guida più completa ai parametri di diffusione stabili

Ti sei mai sentito confuso sul significato di parametri come scala CFG, seed o prompt negativo? Sei arrivato nel posto giusto. In questa guida, ti forniremo la spiegazione più completa di ogni parametro con esempi chiari. Potresti pensare di sapere già tutto, ma ti garantiamo che imparerai qualcosa di nuovo. Cominciamo e sblocchiamo tutto il potenziale di Stable Diffusion combinando questi parametri.

Richiesta negativa

Un prompt negativo è esattamente quello che sembra: è l'opposto di un prompt. Il tuo input è ciò che NON vuoi che Stable Diffusion generi. Questa è una funzionalità molto potente ma sottoutilizzata di Stable Diffusion e può aiutarti a ottenere risultati che richiederebbero molto più tempo per essere raggiunti semplicemente modificando il prompt positivo.

Sappiamo che può essere difficile trovare suggerimenti negativi, quindi abbiamo precurato i prompt negativi su https://openart.ai/create per consentirti di scegliere facilmente, ecco alcuni esempi per dimostrarne gli effetti.

Richieste negative generali: Generale: bassa risoluzione, errore, ritagliato, qualità peggiore, bassa qualità, artefatti jpeg, fuori cornice, filigrana, firma

Suggerimenti negativi per ritratti di persone: deforme, brutto, mutilato, sfigurato, testo, arti extra, viso tagliato, testa tagliata, dita extra, braccia extra, viso mal disegnato, mutazione, cattive proporzioni, testa tagliata, arti malformati, mani mutate, dita fuse, collo lungo

Suggerimenti negativi per immagini fotorealistiche: Fotorealistico: illustrazione, pittura, disegno, arte, schizzo

Gradini

Stable Diffusion crea un'immagine partendo da una tela piena di rumore e riducendola gradualmente per raggiungere l'output finale. Questo parametro controlla il numero di questi passaggi di riduzione del rumore. Di solito, più alto è meglio, ma in una certa misura. L'impostazione predefinita che utilizziamo è di 25 passaggi, che dovrebbero essere sufficienti per generare qualsiasi tipo di immagine.

Ecco una guida generale su quale numero di fase utilizzare per i diversi casi:

  • Se stai testando un nuovo prompt e desideri ottenere risultati rapidi per modificare i tuoi input, usa 10-15 passaggi
  • Quando trovi il prompt che ti piace, aumenta i passaggi a 25.
  • Se stai creando un viso o un animale con pelo o qualsiasi soggetto con una trama dettagliata e ritieni che nelle immagini generate manchino alcuni di questi dettagli, prova a aumentarlo fino a 40!
Lo stesso prompt con un numero diverso di passaggi

Alcune persone sono abituate a creare immagini con 100 o 150 passaggi, questo è stato utile per campionatori come LMS, ma ora in genere non è più necessario con i campionatori veloci migliorati come DDIM e DPM Solver++, utilizzando un numero elevato di passaggi con questi campionatori probabilmente sprecherai tempo e potenza della GPU, senza alcun aumento della qualità dell'immagine.

campionatori

Come accennato in precedenza, i modelli Diffusion funzionano riducendo il rumore di una tela di rumore iniziale. È qui che entrano in gioco i campionatori Diffusion. In parole povere, questi campionatori sono algoritmi che prendono l'immagine generata dopo ogni passaggio e la confrontano con quanto richiesto dal prompt di testo, quindi aggiungono alcune modifiche al rumore fino a raggiungere gradualmente un'immagine che corrisponde alla descrizione del testo.

Su OpenArt abbiamo implementato i tre campionatori più utilizzati dagli utenti, Euler A, DDIM e DPM Solver++. Puoi provare i tre e vedere cosa si adatta meglio al tuo prompt poiché non esiste una regola su quale campionatore usare, ma questi tre sono molto veloci e in grado di produrre risultati coerenti in 15-25 passaggi.

C'è solo una differenza evidente tra Eulero a sampler e gli altri due che vale la pena menzionare, in questo confronto puoi vedere come Eulero a risultati — rispetto a Risolutore DPM ++— hanno colori più uniformi con bordi meno definiti, conferendogli un aspetto più «da sogno», quindi usa Eulero a se questo è un effetto che preferisci nelle immagini generate.

Scala indicativa CFG

Questo parametro può essere visto come la scala «Creatività vs. Prompt». I numeri più bassi danno all'IA più libertà di essere creativa, mentre numeri più alti la costringono a attenersi maggiormente al prompt.

Il CFG predefinito utilizzato su OpenArt è 7, che offre il miglior equilibrio tra creatività e generazione di ciò che desideri. In genere non è consigliabile scendere al di sotto di 5 in quanto le immagini potrebbero iniziare ad assomigliare più ad allucinazioni AI e andare oltre 16 potrebbe iniziare a dare immagini con brutti artefatti

Quindi, quando usare valori di scala CFG diversi? La scala CFG può essere suddivisa in diversi intervalli, ciascuno adatto a un tipo di prompt e a un obiettivo diversi

  • CFG 2 — 6: Creativo, ma potrebbe essere troppo distorto e non seguire le istruzioni. Può essere divertente e utile per istruzioni brevi
  • CFG 7-10: consigliato per la maggior parte dei prompt. Buon equilibrio tra creatività e generazione guidata
  • CFR. DA 10 A 15: Quando sei sicuro che il tuo prompt sia dettagliato e molto chiaro su come vuoi che appaia l'immagine
  • CFR. DA 16 A 20: In genere non consigliato a meno che il prompt non sia ben dettagliato. Potrebbe influire sulla coerenza e sulla qualità
  • CFG >20: quasi mai utilizzabile

Seme

Il seme è un numero che determina il rumore casuale iniziale di cui abbiamo parlato in precedenza, e poiché il rumore casuale è ciò che determina l'immagine finale, è il motivo per cui si ottiene un'immagine diversa ogni volta che si esegue esattamente lo stesso prompt su sistemi StableDiffusion come OpenArt e perché si ottiene la stessa immagine generata se si esegue lo stesso seme con lo stesso prompt più volte.

Poiché la stessa combinazione seed e prompt fornisce ogni volta la stessa immagine, possiamo usare questa proprietà a nostro vantaggio in diversi modi:

  • Controlla le caratteristiche specifiche di un personaggio: in questo esempio, abbiamo cambiato l'emozione, ma questo può funzionare anche per altre caratteristiche fisiche come il colore dei capelli o il colore della pelle, ma più piccolo è il cambiamento più è probabile che funzioni
  • Testare l'effetto di parole specifiche: se ti chiedi cosa sta cambiando una parola specifica nel prompt, puoi usare lo stesso seme con un prompt modificato per testarlo, è buona norma testare i prompt in questo modo cambiando una singola parola o frase ogni volta
  • Cambia stile: Se ti piace la composizione di un'immagine, ma ti chiedi come apparirebbe in uno stile diverso, questa può essere usata per ritratti, paesaggi o qualsiasi scena che crei.

Parametri IMG2img

La funzione Img2Img funziona esattamente allo stesso modo di txt2img, l'unica differenza è che si fornisce un'immagine da utilizzare come punto di partenza invece del rumore generato dal numero iniziale.

Il rumore viene aggiunto all'immagine utilizzata come immagine iniziale per img2img, quindi il processo di diffusione continua in base al prompt. La quantità di rumore aggiunta dipende dal parametro «Intensità di img2img», che varia da 0 a 1, dove 0 non aggiunge alcun rumore e otterrai l'immagine esatta che hai aggiunto, e 1 sostituisce completamente l'immagine con rumore e si comporta quasi come se avessi usato il normale txt2img invece di img2img.

Quindi come decidere quale forza usare? Ecco una semplice guida con esempi:

  • Per creare variazioni di un'immagine, la forza suggerita da usare sarebbe 0,5-0,75 e con lo stesso prompt. Questo può essere utile quando ti piace la composizione di un'immagine creata ma alcuni dettagli non sono abbastanza buoni, oppure vuoi creare immagini dall'aspetto simile alle immagini che hai creato con altri software come Blender o Photoshop (in questo caso il prompt sarebbe una descrizione dell'immagine).
  • Per cambiare lo stile di un'immagine mantenendola simile all'originale, puoi usare più volte un img2img a bassa intensità e ottenere una fedeltà dell'immagine molto migliore rispetto a un singolo img2img con maggiore potenza. Per questo esempio abbiamo usato una forza di 0,25 per 4 volte, quindi ogni volta che generiamo l'immagine reinseriamo l'immagine generata in img2img e la rieseguiamo con lo stesso prompt e intensità fino a ottenere lo stile di cui abbiamo bisogno. Se la stessa immagine fosse usata in img2img con maggiore intensità, perderesti rapidamente la somiglianza dell'immagine

Congratulazioni per essere arrivati così lontano! Ora hai una comprensione completa di tutti i parametri di diffusione stabile. Se desideri saperne di più su come scrivere prompt migliori, puoi consultare il nostro Libro rapido. Sicuramente provalo a creare alcune immagini AI su https://openart.ai/create.

Questo post è stato contribuito dal nostro membro della community Prompt pubblico, che è anche il creatore di http://publicprompts.art/.

Inizia a creare su OpenArt!

In conclusione, la padronanza di parametri di diffusione stabili è fondamentale per gli artisti che desiderano superare i confini della creatività potenziata dall'intelligenza artificiale. Questa guida mira a fornirti le conoscenze necessarie per regolare con precisione questi parametri, fondendo la tua visione artistica con le capacità dell'intelligenza artificiale. Ricorda che la sperimentazione è il tuo strumento migliore. Ogni regolazione dei parametri è un passo avanti verso il perfezionamento della tua arte. Mentre continui a esplorare e creare, mantieni questa guida come riferimento e non dimenticare di iscriversi a Open Art per ulteriori approfondimenti, strumenti e una community di creativi che la pensano allo stesso modo. Che tu stia appena iniziando o stia cercando di affinare le tue abilità, il viaggio di scoperta e creazione è infinito.

Crea gratis
Inizia oggi il tuo viaggio creativo