अध्ययन ने एलएम एरिना को शीर्ष एआई लैब्स गेम को अपने बेंचमार्क में मदद करने का आरोप लगाया

एक नया पेपर एआई लैब कोहेरे से, स्टैनफोर्ड, एमआईटी, और एआई 2 ने एलएम एरिना पर आरोप लगाया, लोकप्रिय भीड़ के पीछे संगठन एआई बेंचमार्क चैटबॉट एरिना के पीछे, एआई कंपनियों के एक चुनिंदा समूह को प्रतिद्वंद्वियों की कीमत पर बेहतर लीडरबोर्ड स्कोर प्राप्त करने में मदद करता है।

लेखकों के अनुसार, एलएम एरिना ने कुछ उद्योग-अग्रणी एआई कंपनियों जैसी मेटा, ओपनई, गूगल और अमेज़ॅन को एआई मॉडल के कई वेरिएंट का निजी रूप से परीक्षण करने की अनुमति दी, फिर सबसे कम कलाकारों के स्कोर को प्रकाशित नहीं किया। लेखकों का कहना है कि इसने इन कंपनियों के लिए प्लेटफ़ॉर्म के लीडरबोर्ड पर एक शीर्ष स्थान हासिल करना आसान बना दिया, हालांकि अवसर हर फर्म को नहीं दिया गया था।

“केवल कुछ मुट्ठी भर (कंपनियों) को बताया गया था कि यह निजी परीक्षण उपलब्ध था, और निजी परीक्षण की मात्रा जो कुछ (कंपनियों) को प्राप्त हुई, वह दूसरों की तुलना में बहुत अधिक है,” कोहेरे के एआई रिसर्च के वीपी और स्टडी के सह-लेखक, सारा हुकर ने टेकक्रंच के साथ एक साक्षात्कार में कहा। “यह Gamification है।”

2023 में यूसी बर्कले से एक अकादमिक अनुसंधान परियोजना के रूप में बनाया गया, चैटबोट एरिना एआई कंपनियों के लिए एक गो-टू बेंचमार्क बन गया है। यह एक “लड़ाई” में दो अलग-अलग एआई मॉडल से जवाब देकर काम करता है और उपयोगकर्ताओं को सबसे अच्छा चुनने के लिए कहता है। एक छद्म नाम के तहत अखाड़े में प्रतिस्पर्धा करने वाले अप्रकाशित मॉडल को देखना असामान्य नहीं है।

समय के साथ वोट एक मॉडल के स्कोर में योगदान करते हैं – और, परिणामस्वरूप, चैटबॉट एरिना लीडरबोर्ड पर इसका प्लेसमेंट। जबकि कई वाणिज्यिक अभिनेता चैटबोट एरिना में भाग लेते हैं, एलएम एरिना ने लंबे समय से बनाए रखा है कि इसका बेंचमार्क एक निष्पक्ष और निष्पक्ष है।

हालांकि, यह नहीं है कि कागज के लेखक क्या कहते हैं कि उन्होंने उजागर किया।

एक एआई कंपनी, मेटा, जनवरी और मार्च के बीच चैटबॉट एरिना पर 27 मॉडल वेरिएंट का निजी रूप से परीक्षण करने में सक्षम थी, जो टेक दिग्गज लामा 4 रिलीज के लिए अग्रणी थी, लेखकों ने आरोप लगाया। लॉन्च के समय, मेटा ने केवल सार्वजनिक रूप से एक एकल मॉडल के स्कोर का खुलासा किया – एक मॉडल जो चैटबोट एरिना लीडरबोर्ड के शीर्ष के पास रैंक करने के लिए हुआ था।

TechCrunch घटना

बर्कले, सीए
|
5 जून

अभी बुक करें

एक चार्ट अध्ययन से खींचा गया। (क्रेडिट: सिंह एट अल।)

TechCrunch को एक ईमेल में, LM एरिना के सह-संस्थापक और यूसी बर्कले के प्रोफेसर आयन स्टोइका ने कहा कि अध्ययन “अशुद्धि” और “संदिग्ध विश्लेषण” से भरा था।

टेकक्रंच को दिए गए एक बयान में एलएम एरिना ने कहा, “हम निष्पक्ष, सामुदायिक-संचालित मूल्यांकन के लिए प्रतिबद्ध हैं, और सभी मॉडल प्रदाताओं को परीक्षण के लिए अधिक मॉडल प्रस्तुत करने और मानव वरीयता पर उनके प्रदर्शन में सुधार करने के लिए आमंत्रित करते हैं।” “यदि एक मॉडल प्रदाता किसी अन्य मॉडल प्रदाता की तुलना में अधिक परीक्षण प्रस्तुत करने का विकल्प चुनता है, तो इसका मतलब यह नहीं है कि दूसरे मॉडल प्रदाता के साथ गलत व्यवहार किया जाता है।”

Google DeepMind के एक प्रमुख शोधकर्ता आर्मंड जूलिन ने भी कहा एक्स पर पोस्ट करें अध्ययन के कुछ नंबर गलत थे, दावा करते हुए कि Google ने केवल एक जेम्मा 3 एआई मॉडल को पूर्व-रिलीज़ परीक्षण के लिए एलएम एरिना को भेजा था। हुकर ने एक्स पर जूलिन को जवाब दिया, वादा करते हुए कि लेखक एक सुधार करेंगे।

माना जाता है कि लैब्स

पेपर के लेखकों ने नवंबर 2024 में अपने शोध का संचालन करना शुरू कर दिया था, यह जानने के बाद कि कुछ एआई कंपनियों को संभवतः चैटबॉट एरिना के लिए अधिमान्य पहुंच दी जा रही थी। कुल मिलाकर, उन्होंने पांच महीने के खिंचाव में 2.8 मिलियन से अधिक चैटबॉट अखाड़ा लड़ाई को मापा।

लेखकों का कहना है कि उन्हें इस बात का सबूत मिला कि एलएम एरिना ने कुछ एआई कंपनियों को मेटा, ओपनई और गूगल सहित कुछ एआई कंपनियों को चैटबॉट एरिना से अधिक डेटा एकत्र करने की अनुमति दी, जो उनके मॉडल “लड़ाई” की एक उच्च संख्या में दिखाई देते हैं। इस बढ़ी हुई नमूने दर ने इन कंपनियों को अनुचित लाभ दिया, लेखकों ने आरोप लगाया।

एलएम एरिना के अतिरिक्त डेटा का उपयोग करने से एरिना हार्ड पर एक मॉडल के प्रदर्शन में सुधार हो सकता है, एक और बेंचमार्क एलएम एरिना में 112%की वृद्धि हुई है। हालांकि, एलएम एरिना ने कहा एक्स पर पोस्ट करें यह अखाड़ा कठिन प्रदर्शन सीधे चैटबॉट एरिना प्रदर्शन से संबंधित नहीं है।

हुकर ने कहा कि यह स्पष्ट नहीं है कि एआई कंपनियों को प्राथमिकता पहुंच कैसे मिली हो, लेकिन यह एलएम एरिना पर अपनी पारदर्शिता को बढ़ाने की परवाह किए बिना अवलंबी है।

में एक एक्स पर पोस्ट करेंएलएम एरिना ने कहा कि कागज में कई दावे वास्तविकता को प्रतिबिंबित नहीं करते हैं। संगठन ने एक की ओर इशारा किया ब्लॉग भेजा इस सप्ताह के शुरू में यह संकेत देता है कि गैर-प्रमुख प्रयोगशालाओं के मॉडल अध्ययन के बारे में अधिक चैटबॉट एरिना लड़ाइयों में दिखाई देते हैं।

अध्ययन की एक महत्वपूर्ण सीमा यह है कि यह यह निर्धारित करने के लिए “आत्म-पहचान” पर निर्भर करता था कि कौन से एआई मॉडल चैटबॉट एरिना पर निजी परीक्षण में थे। लेखकों ने एआई मॉडल को अपनी मूल कंपनी के बारे में कई बार प्रेरित किया, और उन्हें वर्गीकृत करने के लिए मॉडल के उत्तरों पर भरोसा किया – एक ऐसी विधि जो मूर्खतापूर्ण नहीं है।

हालांकि, हुकर ने कहा कि जब लेखक अपने प्रारंभिक निष्कर्षों को साझा करने के लिए एलएम एरिना में पहुंचे, तो संगठन ने उन्हें विवाद नहीं किया।

TechCrunch मेटा, Google, Openai और Amazon तक पहुंच गया – जो सभी का अध्ययन में उल्लेख किया गया था – टिप्पणी के लिए। किसी ने तुरंत जवाब नहीं दिया।

गर्म पानी में एलएम एरिना

कागज में, लेखक LM एरिना पर कॉल करते हैं, ताकि चैटबॉट एरिना को अधिक “निष्पक्ष” बनाने के उद्देश्य से कई परिवर्तनों को लागू किया जा सके। उदाहरण के लिए, लेखकों का कहना है, एलएम एरिना निजी परीक्षणों की संख्या पर एक स्पष्ट और पारदर्शी सीमा निर्धारित कर सकता है एआई लैब्स का संचालन कर सकते हैं, और सार्वजनिक रूप से इन परीक्षणों से स्कोर का खुलासा कर सकते हैं।

में एक एक्स पर पोस्ट, एलएम एरिना ने इन सुझावों को खारिज कर दिया, यह दावा करते हुए कि इसने पूर्व-रिलीज़ परीक्षण पर जानकारी प्रकाशित की है मार्च 2024 से। बेंचमार्किंग संगठन ने यह भी कहा कि यह “पूर्व-रिलीज़ मॉडल के लिए स्कोर दिखाने के लिए कोई मतलब नहीं है जो सार्वजनिक रूप से उपलब्ध नहीं हैं,” क्योंकि एआई समुदाय अपने लिए मॉडल का परीक्षण नहीं कर सकता है।

शोधकर्ताओं का यह भी कहना है कि एलएम एरिना चैटबॉट एरिना की नमूना दर को समायोजित कर सकता है ताकि यह सुनिश्चित हो सके कि अखाड़े में सभी मॉडल समान संख्या में लड़ाई में दिखाई देते हैं। LM एरिना सार्वजनिक रूप से इस सिफारिश के लिए ग्रहणशील रहा है, और संकेत दिया कि यह एक नया नमूना एल्गोरिथ्म बनाएगा।

मेटा के हफ्तों बाद में कागज आया था जब चैटबोट एरिना में अपने उपर्युक्त लामा 4 मॉडल के लॉन्च के आसपास गेमिंग बेंचमार्क पकड़े गए थे। मेटा ने “संवादी” के लिए लामा 4 मॉडल में से एक को अनुकूलित किया, जिसने इसे चैटबॉट एरिना के लीडरबोर्ड पर एक प्रभावशाली स्कोर प्राप्त करने में मदद की। लेकिन कंपनी ने कभी भी अनुकूलित मॉडल जारी नहीं किया – और वेनिला संस्करण ने चैटबॉट एरिना पर बहुत बुरा प्रदर्शन किया।

उस समय, एलएम एरिना ने कहा कि मेटा को बेंचमार्किंग के लिए अपने दृष्टिकोण में अधिक पारदर्शी होना चाहिए था।

इस महीने की शुरुआत में, एलएम एरिना ने घोषणा की कि यह था एक कंपनी लॉन्च करनानिवेशकों से पूंजी जुटाने की योजना के साथ। अध्ययन में निजी बेंचमार्क संगठन पर जांच बढ़ जाती है – और क्या उन्हें कॉर्पोरेट प्रभाव के बिना एआई मॉडल का आकलन करने के लिए भरोसा किया जा सकता है।

Source link

Archives

Categories

Meta

अध्ययन ने एलएम एरिना को शीर्ष एआई लैब्स गेम को अपने बेंचमार्क में मदद करने का आरोप लगाया

माना जाता है कि लैब्स

गर्म पानी में एलएम एरिना

स्पेन के इन क्षेत्रों में कुछ ही मिनटों में पानी की लीटर और लीटर पानी

“पार्टी के सीवर वे क्या कर रहे हैं”

मुंबई हवाई अड्डे को अस्थायी रूप से अगस्त 16 से ‘अगली नोटिस तक’ तक बंद करने के लिए ‘| भारत समाचार

फ्रांसीसी कैथोलिक हाई स्कूल छुरा घोंपने वाले 1 मृत, 3 घायल हो गए