बड़े भाषा मॉडल को आपके फोन पर निचोड़ा जा सकता है – चलाने के लिए हजारों सर्वर की आवश्यकता के बजाय – सफलता के बाद

ताकतवर कृत्रिम होशियारी चैटजीपीटी जैसे (एआई) मॉडल को चलाने के लिए प्रचुर मात्रा में बिजली की आवश्यकता होती है, इसलिए उन्हें आमतौर पर विशाल डेटा केंद्रों में रखा जाता है। लेकिन एक नई सफलता इन एआई मॉडल को संपीड़ित कर सकती है ताकि वे स्मार्टफोन या लैपटॉप पर फिट हो सकें।
एक नया एल्गोरिदम, जिसे कैलिब्रेशन अवेयर लो प्रिसिजन डीकंपोजिशन विद लो रैंक एडेप्टेशन (CALDERA) कहा जाता है, कोड में अतिरेक को कम करके और सूचना की परतों की सटीकता को कम करके एक बड़े भाषा मॉडल (एलएलएम) को चलाने के लिए आवश्यक डेटा की भारी मात्रा को संपीड़ित करता है।
प्रीप्रिंट डेटाबेस में 24 मई को प्रकाशित एक अध्ययन में वैज्ञानिकों ने कहा कि यह हल्का एलएलएम असम्पीडित संस्करण की तुलना में थोड़े कम स्तर पर सटीकता और बारीकियों के साथ प्रदर्शन करता है। arXivदिसंबर में तंत्रिका सूचना प्रसंस्करण प्रणाली (न्यूरिप्स) पर सम्मेलन में एक प्रस्तुति से पहले।
अध्ययन के सह-लेखक ने कहा, “किसी भी समय आप एआई मॉडल का उपयोग करने की कम्प्यूटेशनल जटिलता, भंडारण और बैंडविड्थ आवश्यकताओं को कम कर सकते हैं, आप उन उपकरणों और प्रणालियों पर एआई को सक्षम कर सकते हैं जो अन्यथा ऐसे कंप्यूटिंग और मेमोरी-गहन कार्यों को संभाल नहीं सकते हैं।” एंड्रिया गोल्डस्मिथप्रिंसटन यूनिवर्सिटी में इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग के प्रोफेसर ने एक में कहा कथन.
अध्ययन में वैज्ञानिकों ने कहा कि जब भी कोई अपने फोन या लैपटॉप पर चैटजीपीटी (एक लोकप्रिय उदाहरण लेने के लिए) का उपयोग करता है, तो किया गया कोई भी अनुरोध विशाल, दूरस्थ सर्वर पर भेजा जाता है, जहां डेटा को बड़ी पर्यावरणीय और वित्तीय लागत पर संसाधित किया जाता है। ऐसा इसलिए है क्योंकि इस आकार के एआई मॉडल बड़ी मात्रा में प्रसंस्करण शक्ति का उपभोग करते हैं क्योंकि वे ग्राफिक्स प्रोसेसिंग यूनिट (जीपीयू) जैसे घटकों के सैकड़ों, यदि हजारों नहीं, का दोहन करते हैं। इसलिए, एक छोटे डिवाइस पर एकल जीपीयू का उपयोग करके इन अनुरोधों को निष्पादित करने के लिए, एआई मॉडल के आकार और दायरे को संपीड़ित किया जाना चाहिए।
एलएलएम को संपीड़ित करने के लिए, काल्डेरा दो तकनीकों को जोड़ती है। वैज्ञानिकों ने कहा कि पहली तकनीक “कम-परिशुद्धता” है, जो जानकारी संग्रहीत करने के लिए उपयोग किए जाने वाले बिट्स (डेटा के 1 और 0) की संख्या को कम करती है, जो ऊर्जा दक्षता में सुधार करते हुए भंडारण और प्रसंस्करण को गति देती है। दूसरा, जिसे “निम्न-रैंक” कहा जाता है, एलएलएम के प्रशिक्षण में उपयोग किए जाने वाले सीखने योग्य मापदंडों में अतिरेक को कम करने को संदर्भित करता है।
“हमने बड़े डेटा सेट या बड़े मैट्रिक्स को संपीड़ित करने के लिए एक सामान्य एल्गोरिदम का प्रस्ताव रखा। और तब हमें एहसास हुआ कि आजकल, केवल डेटा सेट ही बड़े नहीं हैं, बल्कि तैनात किए जा रहे मॉडल भी बड़े हो रहे हैं। इसलिए, हम अपने एल्गोरिदम का भी उपयोग कर सकते हैं इन मॉडलों को संपीड़ित करने के लिए,” सह-लेखक का अध्ययन करें Rajarshi Sahaस्टैनफोर्ड विश्वविद्यालय के डॉक्टरेट छात्र ने बयान में कहा। “इन दोनों गुणों का एक साथ उपयोग करके, हम इनमें से किसी भी तकनीक से व्यक्तिगत रूप से प्राप्त की जा सकने वाली तुलना में कहीं अधिक संपीड़न प्राप्त करने में सक्षम हैं।”
टीम ने मेटा के ओपन-सोर्स लामा 2 और लामा 3 मॉडल पर एल्गोरिदम का परीक्षण किया और मौजूदा संपीड़न एल्गोरिदम के मुकाबले 5% तक का सुधार दर्ज किया जो केवल दो तकनीकों में से एक का उपयोग करता है। परिणाम भविष्य में एलएलएम को स्मार्टफोन या लैपटॉप पर संग्रहीत और चलाने का मार्ग प्रशस्त कर सकते हैं, ऐसे मामलों में जहां गोपनीयता सर्वोपरि है और जब अधिकतम सटीकता आवश्यक नहीं है।
हालाँकि, वैज्ञानिकों ने आगाह किया कि एलएलएम ऐसे उपकरणों पर कुशलतापूर्वक चलने के लिए अनुकूलित नहीं हैं।
साहा ने बयान में कहा, “अगर आप एलएलएम कर रहे हैं और आपका फोन एक घंटे में चार्ज से खत्म हो जाता है तो आप खुश नहीं होंगे। लेकिन मैं यह नहीं कहूंगा कि एक ही तकनीक है जो सभी समस्याओं का समाधान करती है।” “इस पेपर में हम जो प्रस्तावित करते हैं वह एक ऐसी तकनीक है जिसका उपयोग पिछले कार्यों में प्रस्तावित तकनीकों के साथ संयोजन में किया जाता है। और मुझे लगता है कि यह संयोजन हमें मोबाइल उपकरणों पर एलएलएम का अधिक कुशलता से उपयोग करने और अधिक सटीक परिणाम प्राप्त करने में सक्षम करेगा।”