Google का ओरिगेमी-फोल्डिंग एआई ब्रेन ह्यूमनॉइड रोबोट की नई लहर को पावर दे सकता है

बुधवार को, Google डीपमाइंड की घोषणा की दो नए एआई मॉडल जो रोबोट को नियंत्रित करने के लिए डिज़ाइन किए गए हैं: मिथुन रोबोटिक्स और मिथुन रोबोटिक्स-एर। कंपनी का दावा है कि ये मॉडल कई आकृतियों और आकारों के रोबोटों की मदद करेंगे और भौतिक दुनिया के साथ पिछले सिस्टम की तुलना में भौतिक दुनिया के साथ अधिक प्रभावी और नाजुक रूप से बातचीत करते हैं, जो ह्यूमनॉइड रोबोट सहायकों जैसे अनुप्रयोगों के लिए मार्ग प्रशस्त करते हैं।

यह ध्यान देने योग्य है कि भले ही रोबोट प्लेटफार्मों के लिए हार्डवेयर एक स्थिर गति (अच्छी तरह से, शायद हमेशा नहीं) पर आगे बढ़ता हुआ प्रतीत होता है, एक सक्षम एआई मॉडल बनाता है जो इन रोबोटों को सुरक्षा और परिशुद्धता के साथ उपन्यास परिदृश्यों के माध्यम से स्वायत्त रूप से पायलट कर सकता है। उदाहरण के लिए, उद्योग को “सन्निहित एआई” एनवीडिया का एक चांदनी लक्ष्य कहा जाता है, और यह एक पवित्र कब्र है जो संभावित रूप से भौतिक दुनिया में सामान्य-उपयोग मजदूरों में रोबोटिक्स को बदल सकता है।

उन पंक्तियों के साथ, Google के नए मॉडल अपने मिथुन 2.0 बड़े भाषा मॉडल फाउंडेशन पर निर्माण करते हैं, जो विशेष रूप से रोबोटिक अनुप्रयोगों के लिए क्षमताओं को जोड़ते हैं। मिथुन रोबोटिक्स में शामिल हैं कि Google “विजन-लैंग्वेज-एक्शन” (VLA) क्षमताओं को कॉल करता है, जिससे यह दृश्य जानकारी को संसाधित करने, भाषा के आदेशों को समझने और भौतिक आंदोलनों को उत्पन्न करने की अनुमति देता है। इसके विपरीत, मिथुन रोबोटिक्स-एर ने बढ़ाया स्थानिक समझ के साथ “सन्निहित तर्क” पर ध्यान केंद्रित किया, जिससे रोबोटिस्ट इसे अपने मौजूदा रोबोट नियंत्रण प्रणालियों से जोड़ते हैं।

उदाहरण के लिए, मिथुन रोबोटिक्स के साथ, आप एक रोबोट से “केले को उठाने और टोकरी में डालने और इसे टोकरी में डालने के लिए कह सकते हैं,” और यह केले को पहचानने के लिए दृश्य के एक कैमरा दृश्य का उपयोग करेगा, एक रोबोट आर्म का मार्गदर्शन करना सफलतापूर्वक कार्रवाई करने के लिए। “

https://www.youtube.com/watch?v=4MVGNMMP3C0

मिथुन रोबोटिक्स: एआई को भौतिक दुनिया में लाना।

2023 में, हमने Google के RT-2 को कवर किया, जो रोबोटों को भाषा के आदेशों को समझने और नए परिदृश्यों के अनुकूल होने में मदद करने के लिए इंटरनेट डेटा का उपयोग करके अधिक सामान्यीकृत रोबोटिक क्षमताओं की ओर एक उल्लेखनीय कदम का प्रतिनिधित्व करता था, फिर अपने पूर्ववर्ती की तुलना में अनदेखी कार्यों पर प्रदर्शन को दोगुना कर देता है। दो साल बाद, मिथुन रोबोटिक्स ने एक और पर्याप्त छलांग लगाई है, न केवल यह समझने में कि क्या करना है, बल्कि जटिल भौतिक जोड़तोड़ को निष्पादित करने में जो आरटी -2 स्पष्ट रूप से संभाल नहीं सकता था।

जबकि आरटी -2 भौतिक आंदोलनों को पुन: पेश करने तक सीमित था, जो पहले से ही अभ्यास कर चुका था, मिथुन रोबोटिक्स कथित तौर पर काफी बढ़ी हुई निपुणता को प्रदर्शित करता है जो कि ओरिगेमी फोल्डिंग जैसे पहले असंभव कार्यों को सक्षम करता है और स्नैक्स को ज़िप-लोक बैग में पैक करता है। रोबोट की यह पारी जो सिर्फ रोबोटों को कमांड को समझती है, जो नाजुक शारीरिक कार्यों का प्रदर्शन कर सकते हैं, यह बताता है कि डीपमाइंड ने रोबोटिक्स की सबसे बड़ी चुनौतियों में से एक को हल करना शुरू कर दिया हो सकता है: रोबोट को अपने “ज्ञान” को वास्तविक दुनिया में सावधानी, सटीक आंदोलनों में बदलने के लिए।

बेहतर सामान्यीकृत परिणाम

दीपमाइंड के अनुसार, नई मिथुन रोबोटिक्स प्रणाली बहुत मजबूत सामान्यीकरण, या उपन्यास कार्यों को करने की क्षमता को प्रदर्शित करती है, जिसे इसके पिछले एआई मॉडल की तुलना में यह विशेष रूप से प्रशिक्षित नहीं किया गया था। अपनी घोषणा में, कंपनी का दावा है कि मिथुन रोबोटिक्स “अन्य अत्याधुनिक दृष्टि-भाषा-एक्शन मॉडल की तुलना में एक व्यापक सामान्यीकरण बेंचमार्क पर युगल प्रदर्शन से अधिक है।” सामान्यीकरण मायने रखता है क्योंकि रोबोट जो प्रत्येक स्थिति के लिए विशिष्ट प्रशिक्षण के बिना नए परिदृश्यों के अनुकूल हो सकते हैं, एक दिन अप्रत्याशित वास्तविक दुनिया के वातावरण में काम कर सकते हैं।

यह महत्वपूर्ण है क्योंकि संदेह के बारे में संदेह है कि वर्तमान में ह्यूमनॉइड रोबोट कितने उपयोगी हो सकते हैं या वे वास्तव में कितने सक्षम हैं। टेस्ला ने पिछले अक्टूबर में अपने ऑप्टिमस जनरल 3 रोबोट का अनावरण किया, जिसमें कई शारीरिक कार्यों को पूरा करने की क्षमता का दावा किया गया था, फिर भी कंपनी ने अपनी स्वायत्त एआई क्षमताओं की प्रामाणिकता पर बनी रहती है जब कंपनी ने स्वीकार किया कि इसके स्प्लैश डेमो में कई रोबोट मनुष्यों द्वारा दूरस्थ रूप से नियंत्रित किए गए थे।

यहां, Google वास्तविक चीज़ बनाने का प्रयास कर रहा है: एक सामान्यवादी रोबोट मस्तिष्क। उस लक्ष्य को ध्यान में रखते हुए, कंपनी ने ऑस्टिन, टेक्सास स्थित के साथ साझेदारी की घोषणा की ऐपट्रोनिक “मिथुन 2.0 के साथ ह्यूमनॉइड रोबोट की अगली पीढ़ी का निर्माण करें।” जबकि मुख्य रूप से एक द्विध्रुवीय रोबोट प्लेटफॉर्म पर प्रशिक्षित किया जाता है अलोहा 2Google कहता है कि मिथुन रोबोटिक्स अनुसंधान-उन्मुख से विभिन्न रोबोट प्रकारों को नियंत्रित कर सकते हैं, फ्रेंका रोबोटिक हथियार Apptronik के अपोलो रोबोट जैसे अधिक जटिल ह्यूमनॉइड सिस्टम के लिए।

https://www.youtube.com/watch?v=x-exzz-ciuw

मिथुन रोबोटिक्स: निपुण कौशल।

जबकि ह्यूमनॉइड रोबोट दृष्टिकोण Google के जेनेरिक एआई मॉडल (एलएलएमएस पर आधारित प्रौद्योगिकी के इस चक्र से) के लिए एक अपेक्षाकृत नया एप्लिकेशन है, यह ध्यान देने योग्य है कि Google ने पहले 2013-2014 (बोस्टन डायनेमिक्स सहित, जो ह्यूमनॉइड रोबोट बनाता है) के आसपास कई रोबोटिक्स कंपनियों का अधिग्रहण किया था, लेकिन बाद में उन्हें बेच दिया। Apptronik के साथ नई साझेदारी उन पहले के प्रयासों की प्रत्यक्ष निरंतरता के बजाय ह्यूमनॉइड रोबोटिक्स के लिए एक नया दृष्टिकोण प्रतीत होती है।

अन्य कंपनियों को ह्यूमनॉइड रोबोटिक्स हार्डवेयर पर काम करने में कड़ी मेहनत की गई है, जैसे कि फिगर एआई (जो मार्च 2024 में अपने ह्यूमनॉइड रोबोट के लिए महत्वपूर्ण फंडिंग प्राप्त करता है) और पूर्वोक्त पूर्व अल्फाबेट सहायक बोस्टन डायनेमिक्स (जो पिछले अप्रैल में एक लचीला नया एटलस रोबोट पेश किया था), लेकिन एक उपयोगी एआई “ड्राइवर” अभी तक उपयोगी है। उस मोर्चे पर, Google ने बोस्टन डायनेमिक्स, चपलता रोबोटिक्स और मंत्रमुग्ध उपकरण जैसी कंपनियों को “विश्वसनीय परीक्षक” कार्यक्रम के माध्यम से मिथुन रोबोटिक्स-एर तक सीमित पहुंच प्रदान की है।

सुरक्षा और सीमाएँ

सुरक्षा विचारों के लिए, Google ने एक “स्तरित, समग्र दृष्टिकोण” का उल्लेख किया है जो पारंपरिक रोबोट सुरक्षा उपायों को टक्कर से बचाव और बल सीमाओं को बनाए रखता है। कंपनी एक विकसित करने का वर्णन करती है “रोबोट संविधान“इसहाक असिमोव से प्रेरित ढांचा रोबोटिक्स के तीन कानून और एक डेटासेट जारी करना अनिश्चित रूप से कहा जाता है “असिमोव“शोधकर्ताओं को रोबोटिक कार्यों के सुरक्षा निहितार्थ का मूल्यांकन करने में मदद करने के लिए।

यह नया असिमोव डेटासेट भौतिक नुकसान की रोकथाम से परे रोबोट सुरक्षा का आकलन करने के लिए मानकीकृत तरीके बनाने के लिए Google के प्रयास का प्रतिनिधित्व करता है। डेटासेट शोधकर्ताओं को यह परीक्षण करने में मदद करने के लिए डिज़ाइन किया गया है कि एआई मॉडल कितनी अच्छी तरह से समझते हैं कि कार्यों के संभावित परिणामों को एक रोबोट विभिन्न परिदृश्यों में ले सकता है। Google की घोषणा के अनुसार, डेटासेट “शोधकर्ताओं को वास्तविक दुनिया के परिदृश्यों में रोबोटिक कार्यों के सुरक्षा निहितार्थ को सख्ती से मापने में मदद करेगा।”

कंपनी ने नए एआई मॉडल के लिए उपलब्धता की समयसीमा या विशिष्ट वाणिज्यिक अनुप्रयोगों की घोषणा नहीं की, जो एक शोध चरण में बने हुए हैं। जबकि डेमो वीडियो Google ने AI- संचालित क्षमताओं में चित्रण की प्रगति को साझा किया, नियंत्रित अनुसंधान वातावरण अभी भी खुले सवालों के बारे में छोड़ देता है कि ये सिस्टम वास्तव में अप्रत्याशित वास्तविक दुनिया सेटिंग्स में कैसे प्रदर्शन करेंगे।

Source link