लार्ज लैंग्वेज मॉडल को लोकल लेवेल ट्रेनिंग देने के लिए Google कर रहा तैयारी, AI Singapore के साथ मिल कर करेगा काम

कंपनी की रिसर्च आर्म दक्षिण पूर्व एशिया की आबादी और सांस्कृतिक मिश्रण को पूरा करने और बेहतर ढ़ग से इसे समझने के लिए Google लार्ज लैग्वेज मॉडल (एलएलएम) में जुड़ गया है। इसके लिए कंपनी ने एआई सिंगापुर के साथ काम कर रहा है जिसमें साउथईस्ट एशियन लैंग्वेजेज इन वन नेटवर्क डेटा की शुरुआत की है। आइये इसके बारे में जानते हैं।

By Ankita Pandey Edited By: Ankita Pandey Publish:Thu, 18 Apr 2024 12:19 PM (IST) Updated:Thu, 18 Apr 2024 12:19 PM (IST)
लार्ज लैंग्वेज मॉडल को लोकल लेवेल ट्रेनिंग देने के लिए Google कर रहा तैयारी, AI Singapore के साथ मिल कर करेगा काम
लार्ज लैंग्वेज मॉडल को लोकल लेवेल ट्रेनिंग देने के लिए Google कर रहा तैयारी

टेक्नोलॉजी डेस्क, नई दिल्ली। दक्षिण पूर्व एशिया की आबादी और सांस्कृतिक मिश्रण को बेहतर ढंग से पूरा करने और समझने के लिए Google लार्ज लैग्वेज मॉडल (एलएलएम) बनाने के सहयोगी प्रयासों में शामिल हो रहा है।

कंपनी की रिसर्च आर्म विशिष्ट भाषाओं में एआई मॉडल को प्रशिक्षित करने, फाइनट्यून करने और उनका आकलन में इस्तेमाल डेटासेट को बढ़ाने के लिए एआई सिंगापुर के साथ काम करेगी। वहीं एआई सिंगापुर ने सोमवार को एक बयान में कहा कि प्रोजेक्ट साउथईस्ट एशियन लैंग्वेजेज इन वन नेटवर्क डेटा (SEALD) नामक इस पहल का उद्देश्य क्षेत्र के लिए बनाए गए LLM में कल्चर संदर्भ में सुधार करना है।

इन शहरों में पहले मिलेगा सहयोग

सरकारी एजेंसी ने कहा कि सहयोग पहले इंडोनेशियाई, थाई, तमिल, फिलिपिनो और बर्मीज पर केंद्रित होगा, जिसमें दोनों भागीदार संयुक्त रूप से ट्रांसलोकलाइजेशन और ट्रांसलेशन मॉडल विकसित करेंगे। वे बड़े पैमाने पर ट्रांसलोकलाइजेशन क्षमताओं और डेटासेट ट्यूनिंग की प्रक्रियाओं में मदद करने के लिए टूल भी विकसित करेंगे।इसके साथ ही दक्षिणपूर्व एशियाई भाषाओं के लिए पूर्व-प्रशिक्षण गाइडलाइन पेश की जाएंगी। एआई सिंगापुर ने कहा कि प्रोजेक्ट SEALD के सभी डेटासेट और आउटपुट ओपन सोर्स में जारी किए जाएंगे।

यह भी पढ़ें - Miss AI: दुनिया के पहले एआई इन्फ्लुएंसर पेजेंट का हुआ एलान, सुंदर और स्मार्ट मॉडल घर ले जाएगी लाखों का इनाम

इन शहरों में पहले मिलेगा सहयोग

सरकारी एजेंसी ने कहा कि सहयोग पहले इंडोनेशियाई, थाई, तमिल, फिलिपिनो और बर्मीज पर केंद्रित होगा, जिसमें दोनों भागीदार संयुक्त रूप से ट्रांसलोकलाइजेशन और ट्रांसलेशन मॉडल विकसित करेंगे। वे बड़े पैमाने पर ट्रांसलोकलाइजेशन क्षमताओं और डेटासेट ट्यूनिंग की प्रक्रियाओं में मदद करने के लिए टूल भी विकसित करेंगे।इसके साथ ही दक्षिणपूर्व एशियाई भाषाओं के लिए पूर्व-प्रशिक्षण गाइडलाइन पेश की जाएंगी। एआई सिंगापुर ने कहा कि प्रोजेक्ट SEALD के सभी डेटासेट और आउटपुट ओपन सोर्स में जारी किए जाएंगे। यह पहल SEA-LION (वन नेटवर्क में दक्षिणपूर्व एशियाई भाषाएं) के तहत मॉडलों के लिए प्रशिक्षण प्रयासों का सपोर्ट करेगी, जिसे सिंगापुर सरकार की एजेंसी ने पिछले साल लॉन्च किया था।

कैसे काम करेगा मॉडल?

इसकी मदद से क्षेत्र की सामाजिक बारीकियों के लिए पूर्व-प्रशिक्षित ओपन-सोर्स एलएलएम से युक्त, SEA-LION दो आधार मॉडल पर चलती है। इसमें एक तीन-बिलियन पैरामीटर मॉडल और एक सात-बिलियन पैरामीटर मॉडल शामिल है। इसके प्रशिक्षण डेटा में 981 बिलियन भाषा टोकन शामिल हैं। एआई सिंगापुर इन टोकन को टोकनाइजेशन के दौरान टेक्स्ट को तोड़ने से बनाए गए शब्दों के टुकड़े के रूप में परिभाषित करता है। इन टुकड़ों में 623 बिलियन अंग्रेजी टोकन, 128 बिलियन दक्षिण पूर्व एशिया टोकन और 91 बिलियन चीनी टोकन शामिल हैं। प्रोजेक्ट SEALD वर्तमान में सिंगापुर में प्रवासी श्रमिकों के साथ संचार को बेहतर बनाने के लिए एक उपयोग के मामले पर काम कर रहा है, जो अंग्रेजी की तुलना में विभिन्न क्षेत्रीय भाषाओं में बेहतर तरीके से बातचीत कर सकते हैं। प्रोजेक्ट SEALD के डेटासेट और आउटपुट को सामुदायिक आउटरीच का सपोर्ट करने के लिए Google क्लाउड और सिंगापुर सरकार की AI ट्रेलब्लेजर प्लान के तहत विकसित जेनरेटिव AI एप्लिकेशन के साथ इंट्रीग्रेट किया जाएगा। प्रोजेक्ट SEALD पार्टनर डेटा कलेक्शन और क्वालिटी चेक जैसे कार्यों में शिक्षा और सार्वजनिक क्षेत्र सहित उद्योग के साथ भी काम करेंगे। आपको बता दें कि एआई सिंगापुर ने वर्टेक्स एआई पर गूगल क्लाउड के मॉडल गार्डन पर एसईए-लायन एलएलएम उपलब्ध कराने की भी योजना बनाई है, जो प्री-वेरिफाइड एआई मॉडल को एक्सेस करेगा। क्षेत्रीय LLM को हगिंग फेस में जोड़ा जाएगा, जो एआई टूल और पूर्व-प्रशिक्षित मॉडल के लिए एक ओपन-सोर्स रिपॉजिटरी की तरह से काम करेगा। एआई सिंगापुर ने सोमवार को यह भी घोषणा की कि उसने LLM मॉडल के लिए डेटासेट और एप्लिकेशन विकसित करने के लिए इंडोनेशिया, मलेशिया और वियतनाम के विभिन्न संगठनों के साथ समझौता ज्ञापन और आशय पत्र पर हस्ताक्षर किए हैं। इसके अलावा वह क्षेत्रीय भाषा वाक्यविन्यास और शब्दार्थ पर संसाधन बनाने के लिए इंडोनेशिया, थाईलैंड और फिलीपींस में भागीदारों के साथ काम कर रही है। इनमें थाईलैंड का विद्यासिरीमेडी इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी और फिलीपींस का एटेनियो सोशल कंप्यूटिंग साइंस लेबोरेटरी शामिल हैं।

यह भी पढ़ें- 50MP कैमरा के साथ लॉन्च हुई Huawei Pura 70 Series, चेक करें Smartphone के फीचर्स

chat bot
आपका साथी