विज्ञान

जेनरेटिव एआई का उपयोग करके यथार्थवादी 3डी आकार बनाने का एक नया तरीका

नई तकनीक अधिक स्पष्ट, अधिक सजीव 3डी आकृतियाँ बनाने में सक्षम बनाती है - एल
नई तकनीक इन रोबोटिक मधुमक्खियों की तरह तेज, अधिक सजीव 3डी आकृतियाँ बनाने में सक्षम बनाती है – बिना जेनरेटर एआई मॉडल को फिर से प्रशिक्षित करने या परिष्कृत करने की आवश्यकता के।

शोधकर्ताओं ने मौजूदा तकनीक में एक सरल सुधार का प्रस्ताव दिया है जो कलाकारों, डिजाइनरों और इंजीनियरों को बेहतर 3डी मॉडल बनाने में मदद कर सकता है।

आभासी वास्तविकता, फिल्म निर्माण और इंजीनियरिंग डिजाइन जैसे अनुप्रयोगों के लिए यथार्थवादी 3डी मॉडल बनाना एक बोझिल प्रक्रिया हो सकती है जिसके लिए बहुत सारे मैन्युअल परीक्षण और त्रुटि की आवश्यकता होती है।

जबकि छवियों के लिए जेनरेटिव आर्टिफिशियल इंटेलिजेंस मॉडल रचनाकारों को टेक्स्ट प्रॉम्प्ट से जीवंत 2डी छवियां बनाने में सक्षम बनाकर कलात्मक प्रक्रियाओं को सुव्यवस्थित कर सकते हैं, ये मॉडल 3डी आकार उत्पन्न करने के लिए डिज़ाइन नहीं किए गए हैं। अंतर को पाटने के लिए, हाल ही में विकसित स्कोर डिस्टिलेशन नामक तकनीक 3डी आकार बनाने के लिए 2डी इमेज जेनरेशन मॉडल का लाभ उठाती है, लेकिन इसका आउटपुट अक्सर धुंधला या कार्टून जैसा हो जाता है।

एमआईटी शोधकर्ताओं ने 2डी छवियों और 3डी आकृतियों को उत्पन्न करने के लिए उपयोग किए जाने वाले एल्गोरिदम के बीच संबंधों और अंतरों का पता लगाया, और निम्न-गुणवत्ता वाले 3डी मॉडल के मूल कारण की पहचान की। वहां से, उन्होंने स्कोर डिस्टिलेशन के लिए एक सरल समाधान तैयार किया, जो तेज, उच्च गुणवत्ता वाली 3डी आकृतियों को तैयार करने में सक्षम बनाता है जो गुणवत्ता में सर्वोत्तम मॉडल-जनरेटेड 2डी छवियों के करीब हैं।

कुछ अन्य विधियाँ जेनेरिक एआई मॉडल को पुनः प्रशिक्षित या फाइन-ट्यूनिंग करके इस समस्या को ठीक करने का प्रयास करती हैं, जो महंगा और समय लेने वाला हो सकता है।

इसके विपरीत, एमआईटी शोधकर्ताओं की तकनीक अतिरिक्त प्रशिक्षण या जटिल पोस्टप्रोसेसिंग के बिना इन दृष्टिकोणों के बराबर या उनसे बेहतर 3डी आकार की गुणवत्ता प्राप्त करती है।

इसके अलावा, समस्या के कारण की पहचान करके, शोधकर्ताओं ने स्कोर डिस्टिलेशन और संबंधित तकनीकों की गणितीय समझ में सुधार किया है, जिससे भविष्य में काम करने से प्रदर्शन में और सुधार हो सकेगा।

“अब हम जानते हैं कि हमें कहाँ जाना चाहिए, जो हमें अधिक कुशल समाधान खोजने की अनुमति देता है जो तेज़ और उच्च गुणवत्ता वाले हैं,” इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान (ईईसीएस) स्नातक छात्र आर्टेम लुकोइआनोव कहते हैं, जो एक पेपर के प्रमुख लेखक हैं। यह तकनीक. “लंबे समय में, हमारा काम डिजाइनरों के लिए सह-पायलट बनने की प्रक्रिया को सुविधाजनक बनाने में मदद कर सकता है, जिससे अधिक यथार्थवादी 3डी आकार बनाना आसान हो जाएगा।”

लुकोइआनोव के सह-लेखक ऑक्सफ़ोर्ड विश्वविद्यालय के स्नातक छात्र हैट्ज़ साज़ डी ओकारिज़ बोर्डे हैं; क्रिस्टजन ग्रीनवाल्ड, एमआईटी-आईबीएम वॉटसन एआई लैब में एक शोध वैज्ञानिक; टोयोटा रिसर्च इंस्टीट्यूट के वैज्ञानिक विटोर कैंपगनोलो गुइज़िलिनी; मेटा के एक शोध वैज्ञानिक, तिमुर बगौतदीनोव; और वरिष्ठ लेखक विंसेंट सिट्ज़मैन, एमआईटी में ईईसीएस के सहायक प्रोफेसर, जो कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (सीएसएआईएल) में दृश्य प्रतिनिधित्व समूह का नेतृत्व करते हैं और जस्टिन सोलोमन, ईईसीएस के एसोसिएट प्रोफेसर और सीएसएआईएल जियोमेट्रिक डेटा प्रोसेसिंग ग्रुप के नेता हैं। यह शोध तंत्रिका सूचना प्रसंस्करण प्रणालियों पर सम्मेलन में प्रस्तुत किया जाएगा।

2डी छवियों से लेकर 3डी आकृतियों तक

डिफ्यूजन मॉडल, जैसे कि DALL-E, एक प्रकार का जेनरेटिव AI मॉडल है जो यादृच्छिक शोर से जीवंत छवियां उत्पन्न कर सकता है। इन मॉडलों को प्रशिक्षित करने के लिए, शोधकर्ता छवियों में शोर जोड़ते हैं और फिर मॉडल को प्रक्रिया को उलटना और शोर को दूर करना सिखाते हैं। मॉडल उपयोगकर्ता के टेक्स्ट संकेतों के आधार पर छवियां बनाने के लिए इस सीखी गई “डीनोइज़िंग” प्रक्रिया का उपयोग करते हैं।

लेकिन प्रसार मॉडल सीधे यथार्थवादी 3डी आकृतियाँ उत्पन्न करने में ख़राब प्रदर्शन करते हैं क्योंकि उन्हें प्रशिक्षित करने के लिए पर्याप्त 3डी डेटा नहीं है। इस समस्या से निपटने के लिए, शोधकर्ताओं ने 2022 में स्कोर डिस्टिलेशन सैंपलिंग (एसडीएस) नामक एक तकनीक विकसित की, जो 2डी छवियों को 3डी प्रतिनिधित्व में संयोजित करने के लिए एक पूर्व-प्रशिक्षित प्रसार मॉडल का उपयोग करती है।

तकनीक में एक यादृच्छिक 3डी प्रतिनिधित्व के साथ शुरुआत करना, एक यादृच्छिक कैमरा कोण से वांछित वस्तु का 2डी दृश्य प्रस्तुत करना, उस छवि में शोर जोड़ना, इसे एक प्रसार मॉडल के साथ निरूपित करना, फिर यादृच्छिक 3डी प्रतिनिधित्व को अनुकूलित करना शामिल है ताकि यह निरूपित छवि से मेल खाए। वांछित 3D ऑब्जेक्ट उत्पन्न होने तक ये चरण दोहराए जाते हैं।

हालाँकि, इस तरह से निर्मित 3डी आकृतियाँ धुंधली या अतिसंतृप्त दिखती हैं।

लुकोइयानोव कहते हैं, “यह कुछ समय से एक बाधा रही है। हम जानते हैं कि अंतर्निहित मॉडल बेहतर करने में सक्षम है, लेकिन लोगों को यह नहीं पता था कि 3डी आकृतियों के साथ ऐसा क्यों हो रहा है।”

एमआईटी शोधकर्ताओं ने एसडीएस के चरणों का पता लगाया और एक सूत्र के बीच एक बेमेल की पहचान की जो प्रक्रिया का एक महत्वपूर्ण हिस्सा है और 2 डी प्रसार मॉडल में इसके समकक्ष है। सूत्र मॉडल को बताता है कि शोर को जोड़कर और हटाकर यादृच्छिक प्रतिनिधित्व को कैसे अपडेट किया जाए, एक समय में एक कदम, ताकि यह वांछित छवि की तरह दिख सके।

चूँकि इस सूत्र के भाग में एक समीकरण शामिल है जो कुशलता से हल करने के लिए बहुत जटिल है, एसडीएस इसे प्रत्येक चरण में यादृच्छिक रूप से नमूना किए गए शोर से बदल देता है। एमआईटी शोधकर्ताओं ने पाया कि यह शोर धुंधली या कार्टून जैसी 3डी आकृतियों की ओर ले जाता है।

एक अनुमानित उत्तर

इस बोझिल फॉर्मूले को सटीक रूप से हल करने की कोशिश करने के बजाय, शोधकर्ताओं ने सन्निकटन तकनीकों का परीक्षण किया जब तक कि उन्होंने सर्वश्रेष्ठ की पहचान नहीं कर ली। शोर शब्द का बेतरतीब ढंग से नमूना लेने के बजाय, उनकी सन्निकटन तकनीक वर्तमान 3डी आकार प्रतिपादन से लापता शब्द का अनुमान लगाती है।

“ऐसा करने से, जैसा कि पेपर में विश्लेषण की भविष्यवाणी की गई है, यह 3डी आकार उत्पन्न करता है जो तेज और यथार्थवादी दिखता है,” वे कहते हैं।

इसके अलावा, शोधकर्ताओं ने छवि प्रतिपादन के रिज़ॉल्यूशन को बढ़ाया और 3डी आकार की गुणवत्ता को और बढ़ावा देने के लिए कुछ मॉडल मापदंडों को समायोजित किया।

अंत में, वे महंगे पुनर्प्रशिक्षण की आवश्यकता के बिना चिकनी, यथार्थवादी दिखने वाली 3 डी आकृतियाँ बनाने के लिए एक ऑफ-द-शेल्फ, पूर्व-प्रशिक्षित छवि प्रसार मॉडल का उपयोग करने में सक्षम थे। 3डी वस्तुएं अन्य विधियों का उपयोग करके उत्पादित वस्तुओं के समान ही तेज होती हैं जो तदर्थ समाधानों पर निर्भर होती हैं।

“विभिन्न मापदंडों के साथ आँख बंद करके प्रयोग करने की कोशिश करना, कभी-कभी यह काम करता है और कभी-कभी यह नहीं करता है, लेकिन आप नहीं जानते कि क्यों। हम जानते हैं कि यह वह समीकरण है जिसे हमें हल करने की आवश्यकता है। अब, यह हमें अधिक कुशल तरीकों के बारे में सोचने की अनुमति देता है इसे हल करें,” वह कहते हैं।

क्योंकि उनकी पद्धति एक पूर्व-प्रशिक्षित प्रसार मॉडल पर निर्भर करती है, यह उस मॉडल के पूर्वाग्रहों और कमियों को विरासत में लेती है, जिससे यह मतिभ्रम और अन्य विफलताओं का खतरा बन जाता है। अंतर्निहित प्रसार मॉडल में सुधार से उनकी प्रक्रिया में वृद्धि होगी।

यह देखने के लिए कि वे इसे और अधिक प्रभावी ढंग से कैसे हल कर सकते हैं, सूत्र का अध्ययन करने के अलावा, शोधकर्ता यह पता लगाने में रुचि रखते हैं कि ये अंतर्दृष्टि छवि संपादन तकनीकों को कैसे बेहतर बना सकती हैं।

Source

Related Articles

Back to top button