विज्ञान

नए डेटासेट एआई मॉडल को वैज्ञानिकों की तरह सोचने के लिए प्रशिक्षित करेंगे

डेटासेट के वेल संग्रह में शामिल सिमुलेशन का मोज़ेक क्रेडिट: एलेक्स
डेटासेट के वेल संग्रह में शामिल सिमुलेशन का मोज़ेक

विस्फोटित तारे हमें क्या सिखा सकते हैं कि धमनी के माध्यम से रक्त कैसे बहता है' या समुद्र की परतें कैसे मिश्रित होती हैं इसके बारे में तैरते बैक्टीरिया' कैम्ब्रिज विश्वविद्यालय सहित शोधकर्ताओं का एक सहयोग, हस्तांतरणीय खोजने और उपयोग करने के लिए कृत्रिम बुद्धिमत्ता मॉडल को प्रशिक्षित करने की दिशा में एक मील का पत्थर तक पहुंच गया है वैज्ञानिक खोज को आगे बढ़ाने के लिए क्षेत्रों के बीच ज्ञान।

पॉलीमैथिक एआई नामक पहल, ओपनएआई के चैटजीपीटी या गूगल के जेमिनी जैसे बड़े भाषा मॉडल को सशक्त बनाने वाली तकनीक का उपयोग करती है। लेकिन पाठ को ग्रहण करने के बजाय, परियोजना के मॉडल खगोल भौतिकी, जीवविज्ञान, ध्वनिकी, रसायन विज्ञान, द्रव गतिशीलता और अधिक से वैज्ञानिक डेटासेट का उपयोग करना सीखते हैं, जो अनिवार्य रूप से मॉडल को अंतर-विषयक वैज्ञानिक ज्ञान देते हैं।

न्यूयॉर्क शहर के फ़्लैटिरॉन इंस्टीट्यूट के टीम सदस्य माइकल मैककेबे ने कहा, “ये डेटासेट अब तक इन क्षेत्रों के लिए इकट्ठे किए गए मशीन लर्निंग प्रशिक्षण के लिए उच्च गुणवत्ता वाले डेटा के सबसे विविध बड़े पैमाने पर संग्रह हैं।” “इन डेटासेट को क्यूरेट करना बहु-विषयक एआई मॉडल बनाने में एक महत्वपूर्ण कदम है जो हमारे ब्रह्मांड के बारे में नई खोजों को सक्षम करेगा।”

आज (2 दिसंबर), पॉलीमैथिक एआई टीम ने अपने दो ओपन-सोर्स प्रशिक्षण डेटासेट संग्रह जनता के लिए जारी किए हैं – दर्जनों स्रोतों से एक विशाल 115 टेराबाइट्स – वैज्ञानिक समुदाय के लिए एआई मॉडल को प्रशिक्षित करने और नई वैज्ञानिक खोजों को सक्षम करने के लिए उपयोग करने के लिए . तुलना के लिए, GPT-3 ने प्रशिक्षण के लिए 45 टेराबाइट्स असम्पीडित, बिना स्वरूपित पाठ का उपयोग किया, जो फ़िल्टर करने के बाद लगभग 0.5 टेराबाइट्स हो गया।

पूरा डेटासेट एआई मॉडल और डेटासेट होस्ट करने वाले प्लेटफॉर्म हगिंगफेस पर मुफ्त में डाउनलोड करने के लिए उपलब्ध है। पॉलीमैथिक एआई टीम इस महीने के अंत में वैंकूवर, कनाडा में आयोजित होने वाले न्यूरिप्स मशीन लर्निंग कॉन्फ्रेंस में प्रस्तुति के लिए स्वीकार किए गए कागजात में डेटासेट के बारे में अधिक जानकारी प्रदान करती है।

कैम्ब्रिज इंस्टीट्यूट ऑफ एस्ट्रोनॉमी के कैम्ब्रिज टीम के प्रमुख डॉ. माइल्स क्रैनमर ने कहा, “जिस तरह चैटजीपीटी जैसे एलएलएम सभी भाषाओं में सामान्य व्याकरणिक संरचना का उपयोग करना सीखते हैं, ये नए वैज्ञानिक आधार मॉडल उन विषयों में गहरे संबंध प्रकट कर सकते हैं जिन पर हमने पहले कभी ध्यान नहीं दिया है।” “हम उन पैटर्न को उजागर कर सकते हैं जिन्हें कोई भी इंसान नहीं देख सकता है, सिर्फ इसलिए कि किसी के पास वैज्ञानिक ज्ञान की इतनी व्यापकता और इसे एक ही ढांचे में संपीड़ित करने की क्षमता नहीं है।”

मशीन लर्निंग जैसे एआई उपकरण वैज्ञानिक अनुसंधान में तेजी से आम हो रहे हैं, और इस साल के दो नोबेल पुरस्कारों में इन्हें मान्यता दी गई थी। फिर भी, ऐसे उपकरण आमतौर पर किसी विशिष्ट एप्लिकेशन के लिए बनाए जाते हैं और उस क्षेत्र के डेटा का उपयोग करके प्रशिक्षित किए जाते हैं। पॉलीमैथिक एआई परियोजना की टीम भौतिकविदों, खगोल भौतिकीविदों, गणितज्ञों, कंप्यूटर वैज्ञानिकों और तंत्रिका वैज्ञानिकों के साथ बौद्धिक विविधता को दर्शाती है।

दो नए प्रशिक्षण डेटासेट संग्रहों में से पहला खगोल भौतिकी पर केंद्रित है। मल्टीमॉडल यूनिवर्स नामक इस डेटासेट में करोड़ों खगोलीय अवलोकन और माप शामिल हैं, जैसे नासा के जेम्स वेब स्पेस टेलीस्कोप द्वारा लिए गए आकाशगंगाओं के चित्र और यूरोपीय अंतरिक्ष एजेंसी के गैया अंतरिक्ष यान द्वारा लिए गए हमारी आकाशगंगा के सितारों के माप।

दूसरे संग्रह – जिसे वेल कहा जाता है – में 16 विविध डेटासेट से 15 टेराबाइट से अधिक डेटा शामिल है। इन डेटासेट में जैविक प्रणालियों, द्रव गतिशीलता, ध्वनिक बिखरने, सुपरनोवा विस्फोट और अन्य जटिल प्रक्रियाओं के संख्यात्मक सिमुलेशन शामिल हैं। कैम्ब्रिज के शोधकर्ताओं ने पॉलीमैथिकएआई और अन्य अंतरराष्ट्रीय सहयोगियों के साथ काम करते हुए दोनों डेटासेट संग्रह विकसित करने में प्रमुख भूमिका निभाई।

हालाँकि ये विविध डेटासेट पहली बार में अलग-अलग लग सकते हैं, लेकिन इन सभी को गणितीय समीकरणों के मॉडलिंग की आवश्यकता होती है जिन्हें आंशिक अंतर समीकरण कहा जाता है। ऐसे समीकरण क्वांटम यांत्रिकी से लेकर भ्रूण के विकास तक हर चीज से संबंधित समस्याओं में सामने आते हैं और इन्हें हल करना अविश्वसनीय रूप से कठिन हो सकता है, यहां तक ​​कि सुपर कंप्यूटर के लिए भी। वेल का एक लक्ष्य एआई मॉडल को इन समीकरणों के लिए त्वरित और सटीक रूप से अनुमानित समाधान निकालने में सक्षम बनाना है।

इंस्टीट्यूट ऑफ एस्ट्रोनॉमी में पीएचडी उम्मीदवार बेन बॉयड ने कहा, “इन समृद्ध डेटासेट को एकजुट करके, हम न केवल वैज्ञानिक खोज के लिए, बल्कि रोजमर्रा की जिंदगी में समान समस्याओं के समाधान के लिए कृत्रिम बुद्धिमत्ता में प्रगति कर सकते हैं।”

फ़्लैटिरॉन इंस्टीट्यूट के टीम सदस्य रूबेन ओहाना ने कहा, उन डेटासेट के लिए डेटा इकट्ठा करना एक चुनौती थी। टीम ने परियोजना के लिए डेटा इकट्ठा करने और बनाने के लिए वैज्ञानिकों के साथ सहयोग किया। उन्होंने कहा, “संख्यात्मक सिमुलेशन के निर्माता कभी-कभी सभी प्रचार के कारण मशीन लर्निंग पर संदेह करते हैं, लेकिन वे इसके बारे में उत्सुक हैं और यह उनके शोध को कैसे लाभ पहुंचा सकता है और वैज्ञानिक खोज में तेजी ला सकता है।”

पॉलीमैथिक एआई टीम अब एआई मॉडल को प्रशिक्षित करने के लिए डेटासेट का उपयोग कर रही है। आने वाले महीनों में, वे इन मॉडलों को विभिन्न कार्यों पर तैनात करेंगे, यह देखने के लिए कि जटिल वैज्ञानिक समस्याओं से निपटने में ये अच्छी तरह से प्रशिक्षित एआई कितने सफल हैं।

इंस्टीट्यूट ऑफ एस्ट्रोनॉमी के डॉ पायल मुखोपाध्याय ने कहा, “यह देखना रोमांचक होगा कि क्या इन डेटासेट की जटिलता एआई मॉडल को केवल पैटर्न को पहचानने से आगे बढ़ने, उन्हें वैज्ञानिक डोमेन में तर्क करने और सामान्यीकरण करने के लिए प्रोत्साहित कर सकती है।” “अगर हम कभी एआई मॉडल बनाना चाहते हैं तो ऐसा सामान्यीकरण आवश्यक है जो वास्तव में सार्थक विज्ञान के संचालन में सहायता कर सके।”

क्रैनमर, जो कैम्ब्रिज के अनुप्रयुक्त गणित और सैद्धांतिक भौतिकी विभाग के सदस्य भी हैं, ने कहा, “अब तक, इतने विविध क्षेत्रों को कवर करने वाला क्यूरेटेड वैज्ञानिक-गुणवत्ता वाला डेटासेट नहीं था।” “ये डेटासेट पहली बार सच्चे सामान्य वैज्ञानिक आधार मॉडल के द्वार खोल रहे हैं। हम कौन से नए वैज्ञानिक सिद्धांतों की खोज कर सकते हैं' हम इसका पता लगाने वाले हैं, और यह अविश्वसनीय रूप से रोमांचक है।”

पॉलीमैथिक एआई प्रोजेक्ट सिमंस फाउंडेशन और उसके फ्लैटिरॉन इंस्टीट्यूट, न्यूयॉर्क यूनिवर्सिटी, कैम्ब्रिज यूनिवर्सिटी, प्रिंसटन यूनिवर्सिटी, फ्रेंच सेंटर नेशनल डे ला रेचेर्चे साइंटिफिक और लॉरेंस बर्कले नेशनल लेबोरेटरी के शोधकर्ताओं द्वारा चलाया जाता है।

कैम्ब्रिज विश्वविद्यालय की पॉलीमैथिक एआई टीम के सदस्यों में पीएचडी छात्र, पोस्टडॉक्टरल शोधकर्ता और चार विभागों के संकाय शामिल हैं: अनुप्रयुक्त गणित और सैद्धांतिक भौतिकी विभाग, शुद्ध गणित और गणितीय सांख्यिकी विभाग, खगोल विज्ञान संस्थान और कावली संस्थान। ब्रह्माण्ड विज्ञान।

Source

Related Articles

Back to top button