स्टेबल डिफ्यूजन पैरामीटर्स के लिए सबसे पूर्ण गाइड

क्या आपने कभी CFG स्केल, सीड या नेगेटिव प्रॉम्प्ट जैसे मापदंडों के अर्थ के बारे में उलझन महसूस की है? आप सही जगह पर आए हैं। इस गाइड में, हम आपको स्पष्ट उदाहरणों के साथ प्रत्येक पैरामीटर का सबसे संपूर्ण विवरण देंगे। आपको लग सकता है कि आप पहले से ही सब कुछ जानते हैं, लेकिन हम गारंटी देते हैं कि आप कुछ नया सीखेंगे। आइए शुरू करें और इन मापदंडों के साथ मिलकर स्टेबल डिफ्यूजन की पूरी क्षमता को अनलॉक करें।

नेगेटिव प्रॉम्प्ट

एक नकारात्मक संकेत ठीक वैसा ही होता है जैसा वह लगता है — यह एक संकेत के विपरीत है। आपका इनपुट वह है जो आप नहीं चाहते कि स्टेबल डिफ्यूजन जनरेट करे। यह स्टेबल डिफ्यूजन की एक बहुत शक्तिशाली लेकिन अप्रयुक्त विशेषता है, और यह ऐसे परिणाम प्राप्त करने में आपकी सहायता कर सकती है, जिन तक पहुंचने में केवल सकारात्मक संकेत को बदलकर अधिक समय लगेगा।

हम जानते हैं कि नकारात्मक संकेतों का सामना करना मुश्किल हो सकता है, इसलिए हमने पहले से नकारात्मक संकेतों को क्यूरेट किया है https://openart.ai/create आपके लिए आसानी से चुनने के लिए, उनके प्रभावों को प्रदर्शित करने के लिए यहां कुछ उदाहरण दिए गए हैं।

सामान्य नकारात्मक संकेत: सामान्य: लोरेस, एरर, क्रॉप्ड, सबसे खराब क्वालिटी, लो क्वालिटी, जेपीईजी आर्टिफैक्ट्स, आउट ऑफ फ्रेम, वॉटरमार्क, सिग्नेचर

लोगों के पोर्ट्रेट के लिए नकारात्मक संकेत: विकृत, बदसूरत, कटे-फटे, विकृत, पाठ, अतिरिक्त अंग, चेहरा कटा हुआ, सिर कटा हुआ, अतिरिक्त उंगलियां, अतिरिक्त हाथ, खराब खींचा हुआ चेहरा, उत्परिवर्तन, खराब अनुपात, फसली सिर, विकृत अंग, उत्परिवर्तित हाथ, उलझी हुई उंगलियां, लंबी गर्दन

फोटोरिअलिस्टिक छवियों के लिए नकारात्मक संकेत: फोटोरिअलिस्टिक: चित्रण, पेंटिंग, ड्राइंग, आर्ट, स्केच

स्टेप्स

स्टेबल डिफ्यूजन शोर से भरे कैनवास से शुरू करके एक इमेज बनाता है और अंतिम आउटपुट तक पहुंचने के लिए इसे धीरे-धीरे डीनॉइज़ करता है। यह पैरामीटर इन डेनोइज़िंग चरणों की संख्या को नियंत्रित करता है। आमतौर पर, उच्चतर बेहतर होता है लेकिन कुछ हद तक। हम जिस डिफ़ॉल्ट का उपयोग करते हैं वह 25 चरणों का होता है, जो किसी भी तरह की छवि बनाने के लिए पर्याप्त होना चाहिए।

अलग-अलग मामलों के लिए किस चरण संख्या का उपयोग करना है, इस बारे में एक सामान्य मार्गदर्शिका यहां दी गई है:

  • यदि आप एक नए प्रॉम्प्ट का परीक्षण कर रहे हैं और अपने इनपुट में बदलाव करने के लिए तेज़ परिणाम चाहते हैं, तो 10-15 चरणों का उपयोग करें
  • जब आपको अपनी पसंद का संकेत मिल जाए, तो चरणों को बढ़ाकर 25 करें।
  • यदि आप फर वाला चेहरा या जानवर बना रहे हैं या कोई ऐसा विषय जिसकी बनावट विस्तृत है, और आपको लगता है कि जेनरेट की गई छवियों में इनमें से कुछ विवरण गायब हैं, तो इसे 40 तक बढ़ाने का प्रयास करें!
अलग-अलग चरणों के साथ एक ही प्रॉम्प्ट

कुछ लोगों को 100 या 150 चरणों के साथ चित्र बनाने की आदत होती है, यह एलएमएस जैसे नमूनों के लिए उपयोगी था, लेकिन अब आम तौर पर डीडीआईएम और डीपीएम सॉल्वर++ जैसे बेहतर फास्ट सैंपलर्स के साथ इसकी जरूरत नहीं है, इन सैंपलर के साथ अधिक संख्या में चरणों का उपयोग करके आप छवि गुणवत्ता में किसी भी वृद्धि के बिना, शायद अपना समय और GPU पावर बर्बाद कर रहे होंगे।

सैंपलर्स

जैसा कि हमने पहले बताया, डिफ्यूजन मॉडल एक शुरुआती नॉइज़ कैनवास को डीनोइज़ करके काम करते हैं। यह वह जगह है जहाँ डिफ्यूजन सैंपलर काम पर आते हैं। सरल शब्दों में, ये सैंपलर एल्गोरिदम हैं जो प्रत्येक चरण के बाद जेनरेट की गई छवि को लेते हैं और इसकी तुलना टेक्स्ट प्रॉम्प्ट द्वारा अनुरोधित छवि से करते हैं, और फिर शोर में कुछ बदलाव जोड़ते हैं जब तक कि यह धीरे-धीरे टेक्स्ट विवरण से मेल खाने वाली छवि तक नहीं पहुंच जाती।

OpenArt पर हमने उपयोगकर्ताओं द्वारा सबसे अधिक उपयोग किए जाने वाले तीन सैंपलर, Euler A, DDIM, और DPM Solver++ लागू किए हैं। आप तीनों को आजमा सकते हैं और देख सकते हैं कि आपके प्रॉम्प्ट में क्या बेहतर है क्योंकि इस बात का कोई नियम नहीं है कि किस सैंपलर का उपयोग करना है, लेकिन ये तीनों बहुत तेज़ हैं और 15-25 चरणों में सुसंगत परिणाम देने में सक्षम हैं।

दोनों के बीच केवल एक ही ध्यान देने योग्य अंतर है यूलर ए सैंपलर और अन्य दो जो ध्यान देने योग्य हैं, इस तुलना में आप देख सकते हैं कि कैसे यूलर ए परिणाम — की तुलना में डीपीएम सॉल्वर++— कम परिभाषित किनारों के साथ स्मूद रंग रखें, जो इसे “काल्पनिक” लुक देते हैं, इसलिए इसका उपयोग करें यूलर ए यदि यह एक ऐसा प्रभाव है जिसे आप अपनी जेनरेट की गई छवियों में पसंद करते हैं।

CFG गाइडेंस स्केल

इस पैरामीटर को “क्रिएटिविटी बनाम प्रॉम्प्ट” स्केल के रूप में देखा जा सकता है। कम संख्याएं AI को रचनात्मक होने की अधिक स्वतंत्रता देती हैं, जबकि उच्च संख्याएं इसे प्रॉम्प्ट पर अधिक टिके रहने के लिए मजबूर करती हैं।

OpenArt पर उपयोग किया जाने वाला डिफ़ॉल्ट CFG 7 है, जो रचनात्मकता और जो आप चाहते हैं उसे उत्पन्न करने के बीच सबसे अच्छा संतुलन देता है। आम तौर पर 5 से कम जाने की अनुशंसा नहीं की जाती है क्योंकि छवियां एआई मतिभ्रम की तरह दिखने लग सकती हैं, और 16 से ऊपर जाने से बदसूरत कलाकृतियों के साथ चित्र देना शुरू हो सकता है

तो विभिन्न CFG स्केल मानों का उपयोग कब करें? CFG स्केल को अलग-अलग श्रेणियों में विभाजित किया जा सकता है, प्रत्येक एक अलग प्रॉम्प्ट प्रकार और लक्ष्य के लिए उपयुक्त है।

  • सीएफजी 2 — 6: क्रिएटिव, लेकिन बहुत विकृत हो सकता है और प्रॉम्प्ट का पालन नहीं कर सकता है। छोटे संकेतों के लिए यह मज़ेदार और उपयोगी हो सकता है
  • सीएफजी 7-10: ज़्यादातर संकेतों के लिए सुझाया गया। रचनात्मकता और निर्देशित पीढ़ी के बीच अच्छा संतुलन
  • सीएफजी 10 — 15: जब आप सुनिश्चित हों कि आपका प्रॉम्प्ट विस्तृत है और इस बारे में बहुत स्पष्ट है कि आप छवि को कैसा दिखाना चाहते हैं
  • सीएफजी 16 — 20: आमतौर पर तब तक अनुशंसित नहीं किया जाता है जब तक कि प्रॉम्प्ट अच्छी तरह से विस्तृत न हो। सुसंगतता और गुणवत्ता को प्रभावित कर सकता है
  • सीएफजी>20: लगभग कभी भी उपयोग करने योग्य नहीं

सीड

बीज एक संख्या है जिसने प्रारंभिक यादृच्छिक शोर को तय किया था जिसके बारे में हमने पहले बात की थी, और चूंकि यादृच्छिक शोर वह है जो अंतिम छवि को निर्धारित करता है, यही कारण है कि हर बार जब आप OpenArt जैसे StableDiffusion सिस्टम पर एक ही प्रॉम्प्ट चलाते हैं, तो आपको एक अलग छवि मिलती है, और यदि आप एक ही प्रॉम्प्ट के साथ एक ही बीज को कई बार चलाते हैं तो आपको एक ही जेनरेट की गई छवि क्यों मिलती है।

चूंकि एक ही सीड और प्रॉम्प्ट कॉम्बो हर बार एक ही इमेज देता है, इसलिए हम इस प्रॉपर्टी का उपयोग अपने लाभ के लिए कई तरीकों से कर सकते हैं:

  • किसी पात्र की विशिष्ट विशेषताओं को नियंत्रित करें: इस उदाहरण में, हमने भावनाओं को बदल दिया है, लेकिन यह बालों के रंग या त्वचा के रंग जैसी अन्य भौतिक विशेषताओं के लिए भी काम कर सकता है, लेकिन बदलाव जितना छोटा होगा, इसके काम करने की संभावना उतनी ही अधिक होगी
  • विशिष्ट शब्दों के प्रभाव का परीक्षण करना: यदि आपको आश्चर्य है कि प्रॉम्प्ट में एक विशिष्ट शब्द क्या बदल रहा है, तो आप इसका परीक्षण करने के लिए संशोधित प्रॉम्प्ट के साथ उसी बीज का उपयोग कर सकते हैं, हर बार एक शब्द या वाक्यांश को बदलकर इस तरह से संकेतों का परीक्षण करना अच्छा अभ्यास है
  • स्टाइल बदलें: यदि आपको किसी छवि की रचना पसंद है, लेकिन आपको आश्चर्य है कि यह एक अलग शैली में कैसी दिखेगी। इसका उपयोग पोर्ट्रेट, लैंडस्केप या आपके द्वारा बनाए गए किसी भी दृश्य के लिए किया जा सकता है।

IMG2IMG पैरामीटर्स

IMG2IMG सुविधा ठीक उसी तरह काम करती है जैसे txt2img, फर्क सिर्फ इतना है कि आप बीज संख्या द्वारा उत्पन्न शोर के बजाय एक प्रारंभिक बिंदु के रूप में उपयोग की जाने वाली छवि प्रदान करते हैं।

उस छवि में शोर जोड़ा जाता है जिसे आप img2img के लिए एक इनिट इमेज के रूप में उपयोग करते हैं, और फिर प्रॉम्प्ट के अनुसार प्रसार प्रक्रिया जारी रहती है। जोड़े गए शोर की मात्रा “img2img की ताकत” पैरामीटर पर निर्भर करती है, जो 0 से 1 तक होती है, जहां 0 बिल्कुल भी शोर नहीं जोड़ता है और आपको आपके द्वारा जोड़ी गई सटीक छवि मिलेगी, और 1 पूरी तरह से छवि को शोर से बदल देता है और लगभग ऐसा कार्य करता है जैसे आपने img2img के बजाय सामान्य txt2img का उपयोग किया हो।

तो कैसे तय किया जाए कि किस ताकत का उपयोग करना है? उदाहरणों के साथ यहां एक सरल मार्गदर्शिका दी गई है:

  • एक छवि की विविधताएं बनाने के लिए, उपयोग करने के लिए सुझाई गई ताकत 0.5-0.75 होगी और उसी संकेत के साथ होगी। यह तब उपयोगी हो सकता है जब आप किसी बनाई गई छवि की संरचना पसंद करते हैं, लेकिन कुछ विवरण पर्याप्त रूप से अच्छे नहीं लगते हैं, या आप ब्लेंडर या फ़ोटोशॉप जैसे अन्य सॉफ़्टवेयर में बनाई गई छवियों के समान दिखने वाली छवियां बनाना चाहते हैं (इस स्थिति में प्रॉम्प्ट छवि का विवरण होगा)।
  • छवि शैली को मूल के समान रखते हुए बदलने के लिए, आप कम-शक्ति वाले img2img का कई बार उपयोग कर सकते हैं, और उच्च शक्ति वाले एकल img2img की तुलना में बेहतर छवि निष्ठा प्राप्त कर सकते हैं। इस उदाहरण के लिए हमने 4 बार 0.25 की ताकत का उपयोग किया है, इसलिए हर बार जब हम छवि बनाते हैं तो हम उत्पन्न छवि को img2img में फिर से सम्मिलित करते हैं और इसे उसी संकेत और शक्ति के साथ फिर से चलाते हैं जब तक हमें वह शैली नहीं मिल जाती जिसकी हमें आवश्यकता होती है। यदि उसी छवि का उपयोग img2img में उच्च शक्ति के साथ किया गया था, तो आप जल्दी ही छवि समानता खो देंगे

यहां तक पहुंचने के लिए बधाई! अब आपको सभी स्टेबल डिफ्यूजन पैरामीटर्स की व्यापक समझ है। यदि आप बेहतर प्रॉम्प्ट लिखने के तरीके के बारे में अधिक जानना चाहते हैं, तो आप हमारी जाँच कर सकते हैं प्रॉम्प्ट बुक। निश्चित रूप से इस पर कुछ AI चित्र बनाने का प्रयास करें https://openart.ai/create

इस पोस्ट में हमारे समुदाय के सदस्य का योगदान है पब्लिक प्रॉम्प्ट, के निर्माता भी कौन हैं http://publicprompts.art/

OpenArt पर बनाना शुरू करें!

अंत में, स्थिर प्रसार मापदंडों में महारत हासिल करना उन कलाकारों के लिए महत्वपूर्ण है जो एआई-वर्धित रचनात्मकता की सीमाओं को आगे बढ़ाना चाहते हैं। इस गाइड का उद्देश्य आपको AI की क्षमताओं के साथ अपनी कलात्मक दृष्टि को मिलाते हुए, इन मापदंडों को बारीकी से ट्यून करने के लिए ज्ञान से लैस करना है। याद रखें, प्रयोग करना आपका सबसे अच्छा साधन है। मापदंडों में प्रत्येक समायोजन आपकी कला को निपुण बनाने की दिशा में एक कदम और करीब है। जैसे-जैसे आप खोज करना और बनाना जारी रखते हैं, इस गाइड को अपने संदर्भ के रूप में रखें और इसे न भूलें साइन अप करें अधिक जानकारी, टूल और समान विचारधारा वाले रचनाकारों के समुदाय के लिए Open Art में। चाहे आप अभी शुरुआत कर रहे हैं या अपने कौशल को निखारना चाहते हैं, खोज और सृजन की यात्रा अंतहीन है।

Create for free
आज ही अपनी रचनात्मक यात्रा शुरू करें