डीपसेक ने क्या किया है जो ओपनई या मेटा के लिए संभव नहीं था? IIT-M के प्रोविंड्रन बताते हैं

पिछले हफ्ते चीन के दीपसेक ने प्रौद्योगिकी फर्मों के नीचे जमीन को हिला दिया, जिसका पश्चिम में कृत्रिम बुद्धिमत्ता के साथ कुछ भी करना था। कंपनी ने एक मुफ्त एआई सहायक जारी किया कि स्टार्टअप ने कहा कि मौजूदा सेवाओं की लागत के एक अंश पर कम डेटा की आवश्यकता है।

रॉयटर्स की एक रिपोर्ट के अनुसार, 27 जनवरी को, सेमीकंडक्टर डिज़ाइन फर्म एनवीडिया ने बाजार मूल्य में लगभग 17% या 593 बिलियन डॉलर के करीब खो दिया – किसी भी कंपनी के लिए एक दिन का नुकसान, जबकि सेमीकंडक्टर, पावर और इन्फ्रास्ट्रक्चर कंपनियों में कंपनियों के शेयरों को उजागर किया गया। एआई ने सामूहिक रूप से $ 1 ट्रिलियन से अधिक शेड किया।

व्यवसाय लाइन IIT-MADRAS में वाधवानी स्कूल ऑफ डेटा साइंस और AI के प्रमुख प्रोफेसर बी रवींद्रन से बात करते हैं कि क्यों दीपसेक का काम भारत के लिए अद्भुत खबर है और वास्तव में चीनी स्टार्टअप ने क्या किया है कि इसके बहुत बड़े प्रतिद्वंद्वी नहीं कर सकते:

दीपसेक के दावों का क्या मतलब है?

इसके 2 भाग हैं – पहला लागत पथ है। मेटा ने लामा को विकसित करने में बहुत पैसा खर्च किया और फिर इसे खुला स्रोत बनाया। दीपसेक ने जो किया है, वह को मुख्य प्रौद्योगिकी में संशोधनों के साथ आना है, ताकि मॉडल के प्रशिक्षण के साथ -साथ दोनों के प्रशिक्षण के साथ -साथ सही, मेरा मतलब है कि जब आप वास्तव में मॉडल का उपयोग कर रहे हैं और आप मॉडल के साथ बातचीत कर रहे हैं , आप इसे एक प्रश्न या कुछ और पूछ रहे हैं, यह वास्तव में गणना कर रहा है और आपको एक उत्तर दे रहा है, और प्रशिक्षण तब है जब आप वास्तव में मॉडल का निर्माण कर रहे हैं जो आपके पास इंटरनेट से है और इसी तरह है। निष्कर्ष भाग।

डीप सीक ने प्रशिक्षण पक्ष दोनों के लिए क्या किया है और इस पक्ष के लिए उन्होंने लागत को काफी कम कर दिया है। लागत से हमारा मतलब है कि GPU की संख्या आपको चाहिए, जो कि GPU पर की गई गणना की मात्रा है। वे इन पर काफी कटौती करने में कामयाब रहे हैं और उन्होंने कुछ अच्छी तरह से समझी गई तकनीकों का उपयोग करके ऐसा किया है।

लेकिन चुनौती हमेशा यह रही है – भले ही लोग जानते थे कि यह मदद करेगा, आप इसे एक काम करने योग्य प्रणाली प्राप्त करने के लिए कैसे डालते हैं? दीपसेक ने उस सवाल को क्रैक करने में कामयाबी हासिल की है। इसी ने मॉडल को सस्ता बना दिया। सैद्धांतिक रूप से, यह जानकर कि आप जानते हैं कि कुछ तकनीक लागत को कम करने में मदद करेगी, एक बात है, लेकिन वास्तव में इसे सही कर रहा है और इसे करने का एक संभव तरीका है। यह आश्चर्यजनक है क्योंकि लोग अब इन मॉडलों को बहुत कम गणना (शक्ति) पर चलाने में सक्षम हैं, जो आपको चलाने की आवश्यकता होगी, उदाहरण के लिए, एक Openai समकक्ष मॉडल।

कुछ 100 GPU के बजाय, आप इसे GPU के कुछ 10s के साथ चलाने में सक्षम हैं, इसलिए यह समय के दौरान कंप्यूट पावर में वास्तव में महत्वपूर्ण बचत है। ऐसा नहीं है कि यह इतना सस्ता हो गया है कि आप इसे अपने डेस्कटॉप पर चला सकते हैं। लेकिन जीपीटी को चलाने के लिए क्या लागत की तुलना में, यह रास्ता है, सस्ता है।

उन्होंने इन एपीआई संस्करणों की भी घोषणा की है जहां आप इसे व्यावसायिक रूप से उपयोग करते हैं और आपको प्रति क्वेरी का भुगतान करने की राशि है, यह नीचे आ गया है – यही लोग बात कर रहे हैं – ओपनआईए के व्यावसायिक रूप से उपलब्ध संस्करण का उपयोग करने की लागत का एक -दसवां हिस्सा। यदि आप दीपसेक के व्यावसायिक रूप से उपलब्ध संस्करण का उपयोग करते हैं, तो यह 1/10 वीं लागत या उससे भी कम है।

महत्वपूर्ण रूप से, उन्होंने मॉडल को इंटरनेट पर पूरी तरह से स्वतंत्र रूप से उपलब्ध कराया है। आप बस उनके मॉडल को डाउनलोड कर सकते हैं – आपको अभी भी कई जीपीयू की आवश्यकता है, इसलिए यदि आपके पास गणना शक्ति है तो आप स्थानीय रूप से मॉडल को चला सकते हैं। यह ओपन-सोर्स हिस्सा है। कोई भी अपना कोड, अपना मॉडल प्राप्त कर सकता है और फिर उस मॉडल के शीर्ष पर निर्माण कर सकता है और आप इसके साथ अन्य फैंसी चीजें कर सकते हैं।

क्या आप सहमत होंगे कि यह मानवता के लिए एक महान कदम है जब यह एआई की बात आती है?

यह एक महत्वपूर्ण अंतर है। क्या लोग एक खाई को कहते हैं – अड़चन वाले एआई दिग्गजों के आसपास -रात भर गायब हो गए। ऐसा नहीं है कि प्रत्येक डेवलपर इन मॉडलों का उपयोग करना शुरू कर सकता है। लेकिन आपको शायद इस अधिकार के आधार पर एक प्रणाली स्थापित करने के लिए लगभग $ 10 मिलियन के आदेश की आवश्यकता होती है और जिन कंपनियों के पास $ 10 मिलियन हैं, वे निश्चित रूप से उन संगठनों की तुलना में बहुत अधिक हैं जिनके पास अरबों डॉलर हैं जिनके लिए ओपनआईएई अगली पीढ़ी के सिस्टम के निर्माण के बारे में बात कर रहा है। यह महत्वपूर्ण सफलता है जिसके बारे में आया है।

लेकिन जो नहीं हुआ है वह है – एआई मतिभ्रम और आउटपुट की विश्वसनीयता और इस तरह की चीजों के बारे में ये सभी चीजें थीं। वे सभी समस्याएं अभी भी बनी हुई हैं। ऐसा नहीं है कि उन्होंने उन समस्याओं को हल किया है। यह अचानक रात भर की तरह नहीं है दीपसेक ओपनई की तुलना में बहुत अधिक विश्वसनीय एलएलएम का निर्माण कर रहा है। उन्होंने जो किया है वह यह है कि उन्होंने लागत को एक ऐसे बिंदु तक कम कर दिया है जहां सैकड़ों लोग इन के साथ प्रयोग करना शुरू कर सकते हैं।

इसलिए, आप जानते हैं कि चूंकि बड़ा समुदाय इस पर मौलिक शोध करने में सक्षम होगा, इसलिए किसी को उम्मीद होगी कि अधिक सफलताएं आएंगी। यही कारण है कि बहुत उत्साह का कारण है।

वास्तव में, यह भारत के लिए बहुत अच्छी खबर है, वैसे। ऐसा नहीं है कि चीन इतनी दूर चला गया है कि हम पकड़ नहीं सकते। वास्तव में, इन लोगों ने कुछ ऐसा किया है जो वास्तव में हमारे लिए अच्छा है क्योंकि हम इस दृश्य में एक खिलाड़ी बनना भी शुरू कर सकते हैं, क्योंकि आवश्यक निवेश की आवश्यकता बहुत कम है।

यह वास्तव में हमें एक फायदा दे रहा है। हम निश्चित रूप से अरबों डॉलर के निवेश रेंज में प्रतिस्पर्धा करने में सक्षम नहीं थे, लेकिन अब इसके साथ, मुझे लगता है कि भारत में बड़ी संख्या में टीमें इन मॉडलों की खोज शुरू कर सकती हैं।

जब हम कम लागत वाले समाधानों की बात करते हैं तो हम अच्छे होते हैं। यह निश्चित रूप से हमें और अधिक करने की अनुमति देगा – वास्तव में अधिक सामान का आविष्कार।

क्या वास्तव में दीपसेक ने किया है जिसने इस सस्ता को कम किया है, इसे कम जीपीयू के साथ चलाना संभव है कि ओपनई और अन्य करने में सक्षम नहीं थे?

कुछ चीजें हैं जो उन्होंने कोशिश की है। एक यह है कि उन्होंने 'मिक्सचर-ऑफ-आउट-एक्सपेर्ट्स' दृष्टिकोण नामक कुछ लागू किया है। यही है, हर इनपुट के लिए जो आप पूछ रहे हैं, एक अलग 'विशेषज्ञ' हो सकता है जो उस प्रश्न का उत्तर दे सकता है। लेकिन इस विशेषज्ञ को बहुत कम मापदंडों की आवश्यकता हो सकती है। क्योंकि यह केवल इनपुट के कुछ हिस्सों को देखने जा रहा है, अंग्रेजी भाषा के सभी में नहीं, जैसे कि शायद आपके पास मौजूद इनपुट के एक निश्चित खंड को देख रहे हैं और इसलिए प्रत्येक 'विशेषज्ञ' बहुत छोटा हो सकता है; और एक साथ रखो, विशेषज्ञों के इन सभी चयन का यह मिश्रण जो आपके पास बहुत अच्छा कर सकते हैं।

अब चुनौती यह होगी कि आपको कैसे पता चलेगा कि इन सभी चीजों को किस और सभी चीजों पर स्विच करना है, और इसलिए कुछ प्रश्नों को गैर-तुच्छ मात्रा में काम करने की आवश्यकता है। एक चीज जो दीपसेक ने की है, वह यह है कि जब भी आप एक विशिष्ट क्वेरी पूछते हैं, तो लगभग 25% मापदंडों की संख्या वास्तव में उपयोग में कहा जाता है। पूर्ण नेटवर्क नहीं।

भले ही मैं एक बड़े नेटवर्क को प्रशिक्षित करता हूं, लेकिन मैं इसका उपयोग नहीं कर रहा हूं; केवल इसके कुछ अंश के रूप में वास्तव में उपयोग किया जाता है जब मैं अनुमान लगाने की कोशिश कर रहा हूं, इसलिए यह एक जगह है जहां चीजें काफी बढ़ जाती हैं।

दूसरी बात यह है कि उन्हें लगता है कि इस मात्रा में बहुत प्रभावी ढंग से किया गया है। क्वांटाइजेशन से हमारा क्या मतलब है? इसलिए आम तौर पर जब आपके पास कंप्यूटर में अपने प्रतिनिधित्व करने वाले नंबर होते हैं, तो आप 32 बाइनरी अंकों – शून्य और लोगों का उपयोग करते हैं – इसलिए प्रत्येक संख्या के लिए आप प्रतिनिधित्व करते हैं जो आप 32 बिट्स का उपयोग करते हैं। लेकिन लोगों ने वास्तव में शून्य और लोगों की छोटी संख्या का उपयोग करके देखा है; शायद संख्याओं का प्रतिनिधित्व करने के लिए 8 बिट्स या 16 बिट्स और लोग 4 बिट्स के लिए सभी तरह से नीचे जाने के लिए आक्रामक रहे हैं। ऐसा लगता है कि दीपसेक ने कुछ बहुत ही आक्रामक मात्रा में किया है और अभी भी अच्छे परिणाम प्राप्त करने में कामयाब रहे हैं। उन्होंने भी 4 बिट क्वांटाइजेशन भी किया है।

यह भी कंप्यूटिंग को गति देता है और मेमोरी की आवश्यकता को कम करता है, आदि।

दीपसेक के नए संस्करण के लिए जो अब सामने आया है, उन्होंने ओपनई ओ -1 किया है, जिसे कुछ ऐसा कहा जाता है जिसे समय कम्प्यूटिंग, इन्फ्रेंस टाइम लर्निंग कहा जाता है। उन्होंने जो किया था – जब आप एक प्रश्न का उत्तर दे रहे थे, तो केवल एक शॉट पर जवाब देने के बजाय, वे वास्तव में परीक्षण के समय उत्तर की कई पीढ़ियों को कर रहे थे। जब आप एक प्रश्न पूछते हैं, तो यह आंतरिक रूप से कई बार चीजों को चलाएगा, कई बार और फिर उस उत्तर को चुनें जो सबसे अच्छा है। आम तौर पर क्या होता है, जब आप एक प्रश्न पूछते हैं और यह बस बाएं से दाएं चला जाता है। यह एक बार जाता है और यह एक उत्तर उत्पन्न करेगा, इसलिए पुराने मॉडल क्या कर रहे थे। O-1 ने जो करना शुरू किया, वह आंतरिक रूप से कई बार चलाता था और फिर आपको जो कुछ भी बेहतर उत्तर देता है, वह आपको देता है। दीपसेक के नए मॉडल ने जो किया है, उसने एक ही काम किया है, लेकिन सुदृढीकरण लर्निंग कहा जाने वाले का उपयोग करने के अधिक कुशल तरीके का उपयोग किया है। यह कई रन करने के लिए। उन्होंने आंतरिक रूप से इस कई रन को करने के लिए सुदृढीकरण सीखने के अधिक कुशल रूप का उपयोग किया और यह प्रशिक्षण समय में भी महत्वपूर्ण बचत है और समय भी।

यह पता चला है कि वे कम से कम टेस्ट सूट पर सक्षम हैं कि वहाँ बाहर हैं, वे O-1 के साथ या O-1 के करीब प्रदर्शन कर रहे हैं।

दीपसेक ने कुछ संभव बनाया है जो संभव के रूप में नहीं सोचा गया था। आप कहां से उम्मीद करते हैं कि AI तकनीक यहाँ से जाएगी?

दीपसेक का नवीनतम पूरी तरह से बाएं क्षेत्र से बाहर नहीं आया है। उन्होंने कुछ ऐसा नहीं किया है जो पूरी तरह से अप्रत्याशित हो। लोग जानते थे कि सिद्धांत रूप में ऐसा कुछ काम कर सकता है, लेकिन किसी को नहीं पता था कि इसे कैसे काम करना है। यहाँ से, शायद हम अधिक कुशल तर्क प्रणालियों का निर्माण कर सकते हैं।

तेजी से अनुमान-समय गणना अधिक से अधिक जटिल तर्क मॉडल को विकसित करने में सक्षम करेगा, जो अभी हमारे पास नहीं है। जो कुछ भी एक तर्क है कि इन मॉडलों से बाहर आने के लिए लगता है अभी भी सच नहीं है। यह सिर्फ तर्क का भ्रम है। ये मॉडल केवल उन चीजों के बारे में तर्क दे सकते हैं जो उन्होंने पहले ही देखी हैं। लेकिन 'काउंटरफैक्टुअल' की अवधारणा का उपयोग करने के लिए आपको उन चीजों के बारे में भी कारण बनाने की अनुमति मिलती है जो आपने अब तक नहीं देखी हैं। इस तरह के अधिक सामान्य-उद्देश्य तर्क क्षमताएं निश्चित रूप से अब आ सकती हैं।

IIT-M में आप जो भी परियोजनाएं काम कर रहे हैं, वह इस नवीनतम विकास से कैसे लाभान्वित हो सकता है?

जिन चीजों को हम देख रहे हैं, उनमें से एक यह है – आप विभिन्न अनुप्रयोगों के लिए इन जीनई मॉडल के लिए मूल्यांकन ढांचे, मूल्यांकन मैट्रिक्स का निर्माण कैसे करेंगे, विशेष रूप से भारतीय संदर्भ में? मान लीजिए कि मैं कुछ कानूनी वर्कफ़्लो के लिए इसका उपयोग करना शुरू करता हूं, तो इन मॉडलों के लिए अंतिम उपयोगकर्ता किस तरह का प्रश्न पूछना चाहिए? वे निष्पक्षता के लिए इसका मूल्यांकन कैसे करेंगे? उन्हें मजबूती के लिए इसका मूल्यांकन कैसे करना चाहिए और आपको किस तरह के प्रश्न पूछे जाने चाहिए? हम विभिन्न क्षेत्रों के लिए ऐसा करना चाहते हैं क्योंकि पारिस्थितिकी तंत्र में इस के प्रभाव को समझना बहुत महत्वपूर्ण है। इस तरह के माप मंच के बिना, नियमों के बारे में बात करना भी बहुत कठिन है।

31 जनवरी, 2025 को प्रकाशित

Rate this post

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button