शोधकर्ता खतरनाक एआई दोषों की रिपोर्ट करने के लिए एक बेहतर तरीका प्रस्तावित करते हैं

2023 के अंत में, तीसरे पक्ष के शोधकर्ताओं की एक टीम ने ओपनई के व्यापक रूप से इस्तेमाल किए गए कृत्रिम बुद्धिमत्ता मॉडल GPT-3.5 में एक परेशान करने वाली गड़बड़ की खोज की।

जब कुछ शब्दों को एक हजार बार दोहराने के लिए कहा जाता है, तो मॉडल ने शब्द को बार -बार दोहराना शुरू कर दिया, फिर अचानक थूकने के लिए स्विच किया गया नाम, फोन नंबर और ईमेल पते के कुछ हिस्सों सहित अपने प्रशिक्षण डेटा से खींची गई व्यक्तिगत जानकारी के असंगत पाठ और स्निपेट। समस्या की खोज करने वाली टीम ने ओपनईआई के साथ काम किया ताकि यह सुनिश्चित किया जा सके कि यह सार्वजनिक रूप से खुलासा करने से पहले दोष तय किया गया था। यह हाल के वर्षों में प्रमुख एआई मॉडल में पाई जाने वाली समस्याओं में से एक है।

में एक प्रस्ताव आज जारी किया गया30 से अधिक प्रमुख एआई शोधकर्ताओं, जिनमें से कुछ ने जीपीटी -3.5 दोष पाया, का कहना है कि लोकप्रिय मॉडल को प्रभावित करने वाली कई अन्य कमजोरियों को समस्याग्रस्त तरीके से बताया गया है। वे एआई कंपनियों द्वारा समर्थित एक नई योजना का सुझाव देते हैं जो बाहरी लोगों को अपने मॉडल की जांच करने की अनुमति देता है और सार्वजनिक रूप से दोषों का खुलासा करने का एक तरीका है।

“अभी यह वाइल्ड वेस्ट का एक छोटा सा है,” कहते हैं शायने लॉन्गप्रेएमआईटी में पीएचडी उम्मीदवार और प्रस्ताव के प्रमुख लेखक। लॉन्गप्रे का कहना है कि कुछ तथाकथित जेलब्रेकर्स ने सोशल मीडिया प्लेटफॉर्म एक्स को एआई सुरक्षा उपायों को तोड़ने के अपने तरीकों को साझा किया, जिससे मॉडल और उपयोगकर्ताओं को जोखिम में डाल दिया। अन्य जेलब्रेक को केवल एक कंपनी के साथ साझा किया जाता है, भले ही वे कई को प्रभावित कर सकते हैं। और कुछ खामियों, वे कहते हैं, उपयोग की शर्तों को तोड़ने के लिए प्रतिबंधित होने या अभियोजन पक्ष का सामना करने के डर से गुप्त रखा जाता है। “यह स्पष्ट है कि द्रुतशीतन प्रभाव और अनिश्चितता हैं,” वे कहते हैं।

एआई मॉडल की सुरक्षा और सुरक्षा बेहद महत्वपूर्ण है जो व्यापक रूप से दी गई है, अब तकनीक का उपयोग किया जा रहा है, और यह अनगिनत अनुप्रयोगों और सेवाओं में कैसे रिस सकता है। शक्तिशाली मॉडल को तनाव-परीक्षण, या लाल-टीम की आवश्यकता होती है, क्योंकि वे हानिकारक पूर्वाग्रहों को परेशान कर सकते हैं, और क्योंकि कुछ इनपुट उन्हें रेलिंग से मुक्त करने और अप्रिय या खतरनाक प्रतिक्रियाओं का उत्पादन करने का कारण बन सकते हैं। इनमें कमजोर उपयोगकर्ताओं को हानिकारक व्यवहार में संलग्न होने या साइबर, रासायनिक या जैविक हथियारों को विकसित करने में एक बुरे अभिनेता की मदद करने के लिए प्रोत्साहित करना शामिल है। कुछ विशेषज्ञों को डर है कि मॉडल साइबर अपराधियों या आतंकवादियों की सहायता कर सकते हैं, और यहां तक ​​कि वे आगे बढ़ते ही मनुष्यों को चालू कर सकते हैं।

लेखक तीसरे पक्ष के प्रकटीकरण प्रक्रिया में सुधार करने के लिए तीन मुख्य उपायों का सुझाव देते हैं: रिपोर्टिंग प्रक्रिया को सुव्यवस्थित करने के लिए मानकीकृत एआई दोष रिपोर्ट को अपनाना; बिग एआई फर्मों के लिए तीसरे पक्ष के शोधकर्ताओं को बुनियादी ढांचा प्रदान करने के लिए खामियों का खुलासा करना; और एक ऐसी प्रणाली विकसित करने के लिए जो खामियों को विभिन्न प्रदाताओं के बीच साझा करने की अनुमति देता है।

दृष्टिकोण साइबर सुरक्षा दुनिया से उधार लिया जाता है, जहां बग्स का खुलासा करने के लिए बाहरी शोधकर्ताओं के लिए कानूनी सुरक्षा और स्थापित मानदंड हैं।

“एआई के शोधकर्ताओं को हमेशा पता नहीं है कि एक दोष का खुलासा कैसे किया जाए और यह निश्चित नहीं हो सकता है कि उनके अच्छे विश्वास दोष प्रकटीकरण उन्हें कानूनी जोखिम के लिए उजागर नहीं करेंगे,” इलोना कोहेन, मुख्य कानूनी और नीति अधिकारी कहते हैं एक प्रकार काएक कंपनी जो बग बाउंटी का आयोजन करती है, और रिपोर्ट पर एक सह -लेखक।

बड़ी एआई कंपनियां वर्तमान में अपनी रिलीज से पहले एआई मॉडल पर व्यापक सुरक्षा परीक्षण करती हैं। कुछ बाहरी फर्मों के साथ आगे की जांच करने के लिए भी अनुबंध करते हैं। “क्या उन (कंपनियों) में पर्याप्त लोग हैं जो सामान्य-उद्देश्य एआई सिस्टम के साथ सभी मुद्दों को संबोधित करते हैं, जिनका उपयोग उन करोड़ों लोगों द्वारा किया जाता है जिनका उपयोग हमने कभी सपने में नहीं देखा है?” लॉन्गप्रे पूछता है। कुछ एआई कंपनियों ने एआई बग बाउंटी का आयोजन शुरू कर दिया है। हालांकि, लॉन्गप्रे का कहना है कि स्वतंत्र शोधकर्ता उपयोग की शर्तों को तोड़ने का जोखिम उठाते हैं यदि वे इसे शक्तिशाली एआई मॉडल की जांच करने के लिए खुद पर ले जाते हैं।

Source link