शुद्ध कल्पना की एक (उत्पन्न) दुनिया


एआई सिस्टम एक तस्वीर से पूरी दुनिया की कल्पना कर सकता है
जॉन्स हॉपकिन्स कंप्यूटर वैज्ञानिकों द्वारा बनाया गया एआई मॉडल सूचित निर्णय लेने के लिए एक ही छवि के आधार पर गहन परिदृश्यों की कल्पना करता है
जॉन्स हॉपकिन्स कंप्यूटर वैज्ञानिकों ने एक कृत्रिम बुद्धिमत्ता प्रणाली बनाई है जो भौतिक रूप से अन्वेषण किए बिना अपने परिवेश की “कल्पना” करने में सक्षम है, जो एआई को मानवीय तर्क के करीब लाती है।
नई प्रणाली, जिसे जेनेरेटिव वर्ल्ड एक्सप्लोरर या जेनएक्स कहा जाता है, को पूरी दुनिया को चित्रित करने के लिए केवल एक स्थिर छवि की आवश्यकता होती है, जिससे इसे पिछली प्रणालियों की तुलना में एक महत्वपूर्ण लाभ मिलता है, जिसमें आसपास के वातावरण को मैप करने के लिए एक दृश्य के माध्यम से भौतिक रूप से स्थानांतरित होने के लिए रोबोट या एजेंट की आवश्यकता होती है, जो महंगा, असुरक्षित और समय लेने वाला हो सकता है। टीम के परिणाम ओपन-एक्सेस संग्रह पर दिखाई देते हैं arXiv.org .
चाबी छीनना
- यह नई तकनीक उपयोगकर्ताओं को एक ही छवि से 3डी दुनिया का पता लगाने की अनुमति देती है।
- सीमित दृश्य डेटा से मानसिक रूप से परिवेश का मानचित्रण करने की यह क्षमता कई वास्तविक दुनिया के अनुप्रयोगों के लिए महत्वपूर्ण है, जिसमें आपदा प्रतिक्रिया जैसे परिदृश्य भी शामिल हैं।
- उदाहरण के लिए, बचाव दल मनुष्यों या मूल्यवान उपकरणों को जोखिम के बिना दूर से खतरनाक साइटों का पता लगाने में मदद करने के लिए एकल निगरानी छवि का उपयोग कर सकते हैं।
“मान लीजिए कि आप एक ऐसे क्षेत्र में हैं जहां आप पहले कभी नहीं गए हैं – एक इंसान के रूप में, आप पर्यावरणीय संकेतों, पिछले अनुभवों और दुनिया के अपने ज्ञान का उपयोग यह कल्पना करने के लिए करते हैं कि कोने के आसपास क्या हो सकता है,” वरिष्ठ लेखक एलन युइले कहते हैं। ब्लूमबर्ग जॉन्स हॉपकिन्स में कम्प्यूटेशनल संज्ञानात्मक विज्ञान के प्रतिष्ठित प्रोफेसर। “जेनएक्स अपने पर्यावरण के बारे में उसी तरह से 'कल्पना' और तर्क करता है जैसे मनुष्य करते हैं, पहले अपने पर्यावरण की भौतिक जांच किए बिना उसे आगे क्या कदम उठाना चाहिए, इसके बारे में शिक्षित निर्णय लेता है।”
GenEx दृश्य छवि से परे क्या मौजूद हो सकता है इसकी कई संभावनाएं उत्पन्न करने के लिए परिष्कृत विश्व ज्ञान का उपयोग करता है, एक निश्चित अनुमान लगाने के बजाय प्रत्येक परिदृश्य के लिए अलग-अलग संभावनाएं निर्दिष्ट करता है। सीमित दृश्य डेटा से मानसिक रूप से परिवेश का मानचित्रण करने की यह क्षमता कई वास्तविक दुनिया के अनुप्रयोगों के लिए महत्वपूर्ण है, जिसमें आपदा प्रतिक्रिया जैसे परिदृश्य भी शामिल हैं। उदाहरण के लिए, बचाव दल मनुष्यों या मूल्यवान उपकरणों को जोखिम के बिना दूर से खतरनाक साइटों का पता लगाने में मदद करने के लिए एकल निगरानी छवि का उपयोग कर सकते हैं।
कंप्यूटर विज्ञान में पीएचडी उम्मीदवार, मुख्य लेखक जिएनेंग चेन कहते हैं, “यह तकनीक नेविगेशन ऐप्स को भी बेहतर बना सकती है, स्वायत्त रोबोटों को प्रशिक्षित करने और पावर इमर्सिव गेमिंग और वीआर अनुभवों में सहायता कर सकती है।”

एक एकल छवि से, जेनएक्स एक यथार्थवादी, सिंथेटिक आभासी दुनिया उत्पन्न करता है जहां एआई एजेंट तर्क और योजना के माध्यम से नेविगेट और निर्णय ले सकते हैं। एजेंट को केवल उसके वर्तमान दृश्य, गति की दिशा और तय की जाने वाली दूरी का दृश्य चाहिए। जैसा कि नीचे दिए गए एनीमेशन में दिखाया गया है, एजेंट आगे बढ़ सकता है, दिशा बदल सकता है और असीमित लचीलेपन के साथ अपने वातावरण का पता लगा सकता है।
और अब लोकप्रियता हासिल कर रहे सपनों जैसे एआई वर्ल्ड एक्सप्लोरेशन ऐप्स के विपरीत – जैसे कि ओएसिस, एआई-जनरेटेड माइनक्राफ्ट सिम्युलेटर-जेनएक्स का वातावरण सुसंगत है। ऐसा इसलिए है क्योंकि मॉडल को “गोलाकार स्थिरता सीखने” नामक तकनीक के साथ बड़े पैमाने पर डेटा पर प्रशिक्षित किया गया था, जो यह सुनिश्चित करता है कि नए वातावरण की इसकी भविष्यवाणियां एक पैनोरमिक क्षेत्र में फिट होती हैं।
चेन कहते हैं, “हम इसे जेनएक्स द्वारा बेतरतीब ढंग से सैंपल किए गए बंद पथ पर नेविगेट करके, एक निश्चित लूप में मूल पर लौटकर मापते हैं।” “हमारा लक्ष्य प्रारंभ और अंत के दृश्य को समान बनाना था, इस प्रकार जेनएक्स के विश्व मॉडलिंग में स्थिरता सुनिश्चित करना था।”
हालांकि यह स्थिरता जेनएक्स के लिए अद्वितीय नहीं है, शोध टीम का कहना है कि यह एआई एजेंटों को सशक्त बनाने वाला पहला और एकमात्र जेनरेटिव वर्ल्ड एक्सप्लोरर है जो दुनिया के बारे में नई टिप्पणियों के आधार पर तार्किक निर्णय लेने के लिए कंप्यूटर वैज्ञानिकों की प्रक्रिया में खोज कर रहे हैं। कल्पना-संवर्धित नीति।”
उदाहरण के लिए, मान लीजिए कि आप गाड़ी चला रहे हैं और आगे की लाइट हरी है, लेकिन आप देखते हैं कि आपके सामने वाली टैक्सी अचानक, अप्रत्याशित रूप से रुक गई है। जांच करने के लिए अपनी कार से बाहर निकलना असुरक्षित होगा, लेकिन टैक्सी चालक के दृष्टिकोण से दृश्य की कल्पना करके, आप उनके अचानक रुकने का एक संभावित कारण बता सकते हैं: हो सकता है कि कोई आपातकालीन वाहन आ रहा हो – और आपको भी रास्ता बनाना चाहिए।
“जबकि मनुष्य इस तरह की स्थिति की पहचान करने के लिए सायरन जैसे अन्य संकेतों का उपयोग कर सकते हैं, स्वायत्त ड्राइविंग और अन्य समान कार्यों के लिए विकसित वर्तमान एआई मॉडल में केवल छवि और भाषा इनपुट तक पहुंच होती है, जिससे अन्य मल्टीमॉडल जानकारी के अभाव में कल्पनाशील अन्वेषण आवश्यक हो जाता है,” चेन कहते हैं.

हॉपकिंस टीम ने मानक वीडियो जेनरेशन बेंचमार्क के मुकाबले जेनएक्स के आउटपुट की स्थिरता और गुणवत्ता का मूल्यांकन किया। शोधकर्ताओं ने यह निर्धारित करने के लिए मानव उपयोगकर्ताओं के साथ प्रयोग भी किए कि क्या और कैसे GenEx उनकी तर्क और योजना क्षमताओं को बढ़ा सकता है और पाया कि जब उपयोगकर्ताओं के पास मॉडल की अन्वेषण क्षमताओं तक पहुंच थी, तो उन्होंने अधिक सटीक और सूचित निर्णय लिए।
चेन कहते हैं, “हमारे प्रायोगिक परिणाम दर्शाते हैं कि जेनएक्स एक बड़ी आभासी भौतिक दुनिया की विस्तारित खोज के दौरान उच्च-गुणवत्ता, लगातार अवलोकन उत्पन्न कर सकता है।” “इसके अतिरिक्त, उत्पन्न टिप्पणियों के साथ अद्यतन किए गए विश्वास मौजूदा निर्णय लेने वाले मॉडल, जैसे कि एक बड़े भाषा मॉडल एजेंट और यहां तक कि मानव उपयोगकर्ताओं को बेहतर योजनाएं बनाने के लिए सूचित कर सकते हैं।”
तियानमिन शू और डैनियल खाशाबी – दोनों कंप्यूटर विज्ञान के सहायक प्रोफेसर और स्नातक छात्र ताईमिंग लू, युइले और चेन के साथ मिलकर अधिक यथार्थवादी, गहन योजना परिदृश्यों के लिए वास्तविक दुनिया सेंसर डेटा और गतिशील दृश्यों को शामिल करेंगे। ब्लूमबर्ग के कंप्यूटर विज़न और आर्टिफिशियल इंटेलिजेंस के प्रतिष्ठित प्रोफेसर राम चेलप्पा और गणितीय इंस्टीट्यूट फॉर डेटा साइंस में सहायक शोध प्रोफेसर चेंग पेंग वास्तविक दुनिया सेंसर डेटा को क्यूरेट करने में मदद करेंगे।
युइले का कहना है कि क्रॉस-डिसिप्लिनरी प्रोजेक्ट, जिसमें कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और संज्ञानात्मक विज्ञान शामिल है, सन्निहित एआई में मानवीय बुद्धिमत्ता प्राप्त करने की दिशा में एक महत्वपूर्ण उपलब्धि है।
उनके काम के बारे में और जानें और यहां एक इंटरैक्टिव डेमो देखें।