Najbardziej kompletny przewodnik po stabilnych parametrach dyfuzji

Czy kiedykolwiek czułeś się zdezorientowany co do znaczenia parametrów, takich jak skala CFG, nasiona lub negatywny podpowiedź? Trafiłeś we właściwe miejsce. W tym przewodniku podamy najbardziej kompletne wyjaśnienie każdego parametru z jasnymi przykładami. Możesz myśleć, że już wiesz wszystko, ale gwarantujemy, że nauczysz się czegoś nowego. Zacznijmy i odblokujmy pełny potencjał stabilnej dyfuzji dzięki tym parametrom razem.

Negatywny monit

Negatywny podpowiedź jest dokładnie tym, jak brzmi - jest przeciwieństwem monitu. Wprowadzane jest to, czego NIE chcesz, aby generowała stabilna dyfuzja. Jest to bardzo potężna, ale niedostatecznie używana funkcja stabilnej dyfuzji i może pomóc w osiągnięciu wyników, których osiągnięcie zajęłoby znacznie więcej czasu, po prostu dostosowując pozytywny podpowiedź.

Wiemy, że wymyślenie negatywnych podpowiedzi może być trudne, więc mamy wstępnie wyselekcjonowane negatywne podpowiedzi https://openart.ai/create abyś mógł łatwo wybierać, oto kilka przykładów, aby zademonstrować ich efekty.

Ogólne negatywne podpowiedzi: Ogólne: lowres, błąd, przycięte, najgorsza jakość, niska jakość, artefakty jpeg, poza ramką, znak wodny, podpis

Negatywne podpowiedzi do portretów ludzi: zdeformowany, brzydki, okaleczony, oszpecony, tekst, dodatkowe kończyny, przecięcie twarzy, obcięcie głowy, dodatkowe palce, dodatkowe ramiona, słabo narysowana twarz, mutacja, złe proporcje, przycięta głowa, zniekształcone kończyny, zmutowane dłonie, stopione palce, długa szyja

Negatywne podpowiedzi do fotorealistycznych obrazów: Fotorealistyczne: ilustracja, malarstwo, rysunek, sztuka, szkic'

Kroki

Stabilna dyfuzja tworzy obraz, zaczynając od płótna pełnego szumu i stopniowo go usuwając, aby osiągnąć końcowy wynik. Ten parametr steruje liczbą tych etapów usuwania. Zazwyczaj wyższa jest lepsza, ale do pewnego stopnia. Domyślnie używamy 25 kroków, które powinny wystarczyć do wygenerowania dowolnego rodzaju obrazu.

Oto ogólny przewodnik dotyczący tego, jakiego numeru kroku użyć w różnych przypadkach:

  • Jeśli testujesz nowy monit i chcesz uzyskać szybkie wyniki, aby dostosować dane wejściowe, użyj 10-15 kroków
  • Po znalezieniu monitu, który Ci się podoba, zwiększ kroki do 25.
  • Jeśli tworzysz twarz lub zwierzę z futerkiem lub jakimkolwiek przedmiotem o szczegółowej fakturze i uważasz, że w wygenerowanych obrazach brakuje niektórych z tych szczegółów, spróbuj zwiększyć go do 40!
Ten sam monit z różną liczbą kroków

Niektórzy ludzie są przyzwyczajeni do tworzenia obrazów w 100 lub 150 krokach, było to przydatne w przypadku samplerów, takich jak LMS, ale teraz generalnie nie jest już potrzebny dzięki ulepszonym szybkim samplerom, takim jak DDIM i DPM Solver ++, stosując dużą liczbę kroków z tymi samplerami, prawdopodobnie marnujesz czas i moc GPU, bez żadnego wzrostu jakości obrazu.

Próbniki

Jak wspomnieliśmy wcześniej, modele dyfuzyjne działają poprzez usuwanie płótna szumu początkowego. W tym miejscu działają próbniki dyfuzji. Mówiąc prościej, te samplery to algorytmy, które pobierają wygenerowany obraz po każdym kroku i porównują go z żądaniem monitu tekstowego, a następnie dodają kilka zmian do szumu, aż stopniowo dotrze do obrazu pasującego do opisu tekstu.

Na OpenArt zaimplementowaliśmy trzy najczęściej używane samplery przez użytkowników: Euler A, DDIM i DPM Solver++. Możesz wypróbować te trzy i zobaczyć, co lepiej pasuje do Twojego monitu, ponieważ nie ma reguły, jakiego samplera użyć, ale te trzy są bardzo szybkie i zdolne do uzyskania spójnych wyników w 15-25 krokach.

Jest tylko jedna zauważalna różnica między Euler a sampler i pozostałe dwa, o których warto wspomnieć, w tym porównaniu można zobaczyć, jak Euler a wyniki — w porównaniu z Rozpuszczalnik DPM++— mają gładsze kolory z mniej wyraźnymi krawędziami, nadając mu bardziej „marzycielski” wygląd, więc użyj Euler a jeśli jest to efekt, który preferujesz w wygenerowanych obrazach.

Skala prowadzenia CFG

Ten parametr można postrzegać jako skalę „Kreatywność vs Prompt”. Niższe liczby dają sztucznej inteligencji większą swobodę kreatywności, podczas gdy wyższe liczby zmuszają ją do bardziej trzymania się monitu.

Domyślny CFG używany w OpenArt to 7, co zapewnia najlepszą równowagę między kreatywnością a generowaniem tego, czego chcesz. Schodzenie poniżej 5 na ogół nie jest zalecane, ponieważ obrazy mogą zacząć wyglądać bardziej jak halucynacje AI, a przekroczenie 16 może zacząć dawać obrazy z brzydkimi artefaktami

Kiedy więc używać różnych wartości skali CFG? Skala CFG może być podzielona na różne zakresy, z których każdy nadaje się do innego typu monitu i celu

  • CFG 2 — 6: Kreatywny, ale może być zbyt zniekształcony i nie postępuj zgodnie z instrukcjami. Może być zabawny i przydatny w przypadku krótkich podpowiedzi
  • CFG 7 — 10: Zalecane dla większości podpowiedzi. Dobra równowaga między kreatywnością a kierowanym pokoleniem
  • CFG 10 — 15: Gdy masz pewność, że monit jest szczegółowy i bardzo jasny co do tego, jak chcesz, aby obraz wyglądał
  • CFG 16 — 20: Ogólnie nie zalecane, chyba że monit jest dobrze szczegółowy. Może wpływać na spójność i jakość
  • CFG > 20: prawie nigdy nie nadaje się

Nasiona

Ziarno to liczba, która decydowała o początkowym losowym szumie, o którym mówiliśmy wcześniej, a ponieważ losowy szum decyduje o ostatecznym obrazie, jest to powód, dla którego otrzymujesz inny obraz za każdym razem, gdy uruchamiasz dokładnie ten sam monit w systemach StableDiffusion, takich jak OpenArt, i dlaczego otrzymujesz ten sam wygenerowany obraz, jeśli wielokrotnie uruchomisz to samo źródło z tym samym monitem.

Ponieważ ta sama kombinacja nasion i poleceń daje za każdym razem ten sam obraz, możemy wykorzystać tę właściwość na naszą korzyść na wiele sposobów:

  • Kontroluj specyficzne cechy postaci: w tym przykładzie zmieniliśmy emocje, ale może to również działać w przypadku innych cech fizycznych, takich jak kolor włosów lub kolor skóry, ale im mniejsza zmiana, tym większe prawdopodobieństwo, że będzie
  • Testowanie wpływu określonych słów: Jeśli zastanawiasz się, co konkretne słowo zmienia się w monitu, możesz użyć tego samego ziarna ze zmodyfikowanym monitem, aby je przetestować. Dobrą praktyką jest testowanie podpowiedzi w ten sposób, zmieniając za każdym razem pojedyncze słowo lub frazę
  • Zmień styl: Jeśli podoba Ci się kompozycja obrazu, ale zastanawiasz się, jak wyglądałby w innym stylu. może być używany do portretów, krajobrazów lub dowolnej sceny, którą tworzysz.

Parametry IMG2img

Funkcja Img2img działa dokładnie tak samo jak txt2img, jedyną różnicą jest to, że podajesz obraz, który ma być używany jako punkt początkowy zamiast szumu generowanego przez numer nasienia.

Szum jest dodawany do obrazu używanego jako obrazu init dla img2img, a następnie proces dyfuzji jest kontynuowany zgodnie z monitem. Ilość dodanego szumu zależy od parametru „Siła img2img”, który waha się od 0 do 1, gdzie 0 nie dodaje żadnego szumu i otrzymasz dokładny dodany obraz, a 1 całkowicie zastępuje obraz szumem i prawie działa tak, jakbyś użył normalnego txt2img zamiast img2img.

Jak więc zdecydować, jakiej siły użyć? Oto prosty przewodnik z przykładami:

  • Aby utworzyć odmiany obrazu, sugerowana siła do użycia wynosiłaby 0,5-0,75 i z tym samym monitem. Może to być przydatne, gdy podoba Ci się kompozycja utworzonego obrazu, ale niektóre szczegóły nie wyglądają wystarczająco dobrze lub chcesz utworzyć obrazy podobne do obrazów utworzonych w innym oprogramowaniu, takim jak blender lub photoshop (w tym przypadku monit będzie opisem obrazu).
  • Aby zmienić styl obrazu, zachowując go podobny do oryginału, możesz wielokrotnie użyć img2img o niższej wytrzymałości i uzyskać znacznie lepszą wierność obrazu w porównaniu do pojedynczego img2img o większej wytrzymałości. W tym przykładzie użyliśmy siły 0,25 przez 4 razy, więc za każdym razem, gdy generujemy obraz, ponownie wstawiamy wygenerowany obraz do img2img i uruchamiamy go ponownie z tym samym monitem i siłą, aż uzyskamy potrzebny styl. Gdyby ten sam obraz był używany w img2img z większą siłą, szybko stracisz podobieństwo obrazu

Gratulacje za dotarcie tak daleko! Masz teraz zrozumiałe zrozumienie wszystkich parametrów stabilnej dyfuzji. Jeśli chcesz dowiedzieć się więcej o tym, jak pisać lepsze podpowiedzi, możesz sprawdzić nasze Szybka książka. Zdecydowanie spróbuj stworzyć obrazy AI https://openart.ai/create.

Ten post został wniesiony przez członka naszej społeczności Publiczny komunikat, który jest także twórcą http://publicprompts.art/.

Zacznij tworzyć na OpenArt!

Podsumowując, opanowanie stabilnych parametrów dyfuzji jest kluczem dla artystów, którzy chcą przekroczyć granice kreatywności ulepszonej sztucznej inteligencji. Ten przewodnik ma na celu wyposażenie Cię w wiedzę, aby precyzyjnie dostroić te parametry, łącząc Twoją artystyczną wizję z możliwościami sztucznej inteligencji. Pamiętaj, że eksperymentowanie jest najlepszym narzędziem. Każde dostosowanie do parametrów jest o krok bliżej doskonalenia twojej sztuki. Kontynuując eksplorację i tworzenie, zachowaj ten przewodnik jako punkt odniesienia i nie zapomnij zarejestruj się w Open Art, aby uzyskać więcej spostrzeżeń, narzędzi i społeczności podobnie myślących twórców. Niezależnie od tego, czy dopiero zaczynasz, czy chcesz udoskonalić swoje umiejętności, podróż odkrywania i tworzenia jest nieskończona.

Utwórz za darmo
Rozpocznij swoją twórczą podróż już dziś