अर्ध-पर्यवेक्षित बनाम सुदृढीकरण सीखना: अंतर और तुलना

आजकल दुनिया भर में उत्पादित डेटा बहुत बड़ा है। यह जानकारी सिर्फ इंसानों द्वारा ही नहीं, बल्कि स्मार्टफोन, कंप्यूटर और अन्य इलेक्ट्रॉनिक उपकरणों द्वारा भी बनाई जाती है।

एक प्रोग्रामर निस्संदेह एक एल्गोरिथ्म को प्रशिक्षित करने का तरीका चुनेगा जो उपलब्ध डेटा के प्रकार और प्रोत्साहन की पेशकश के आधार पर एक विशिष्ट शिक्षण मॉडल का उपयोग करता है।

चाबी छीन लेना

अर्ध-पर्यवेक्षित शिक्षण एक प्रकार की मशीन लर्निंग है जहां एक मॉडल को लेबल किए गए और बिना लेबल वाले डेटा पर प्रशिक्षित किया जाता है। इसके विपरीत, सुदृढीकरण सीखना एक प्रकार की मशीन लर्निंग है जहां एक मॉडल पुरस्कार और दंड के आधार पर निर्णय लेना सीखता है।

अर्ध-पर्यवेक्षित शिक्षण उन कार्यों के लिए अधिक उपयुक्त है जहां लेबल किया गया डेटा दुर्लभ या महंगा है, जबकि सुदृढीकरण सीखना उन कार्यों के लिए अधिक उपयुक्त है जहां इष्टतम समाधान पहले से ज्ञात नहीं है।

अर्ध-पर्यवेक्षित शिक्षण का उपयोग प्राकृतिक भाषा प्रसंस्करण और छवि वर्गीकरण में किया जाता है, जबकि सुदृढीकरण सीखने का उपयोग रोबोटिक्स और गेम खेलने में किया जाता है।

अर्ध-पर्यवेक्षित बनाम सुदृढीकरण सीखना

अर्ध-पर्यवेक्षित शिक्षण एक है यंत्र अधिगम तरीका। इस पद्धति में, लेबल किए गए और बिना लेबल वाले डेटा को एक साथ जोड़ दिया जाता है। इस संयोजन में, लेबल किए गए डेटा की मात्रा छोटी होती है और बिना लेबल वाले डेटा की मात्रा बड़ी होती है। सुदृढीकरण सीखना एक पुरस्कार प्रणाली पर आधारित एक शिक्षण एल्गोरिदम है। सुदृढीकरण सकारात्मक या नकारात्मक हो सकता है।

अर्ध-पर्यवेक्षित शिक्षण पर्यवेक्षित और के बीच कहीं बैठता है अशिक्षित शिक्षा एल्गोरिदम. यह लेबल किए गए और बिना लेबल वाले डेटासेट का मिश्रण नियोजित करता है।

यह उस डेटा के साथ काम करता है जिसमें केवल कुछ लेबल होते हैं; यह बिना लेबल वाले डेटा के साथ काम करता है। लेबल महंगे हैं, फिर भी कॉर्पोरेट उद्देश्यों के लिए, कुछ लेबल पर्याप्त हो सकते हैं।

सुदृढीकरण सीखना सिर्फ एक मशीन सीखने का दृष्टिकोण है जो खराब व्यवहार को दंडित करते हुए सकारात्मक व्यवहार को पुरस्कृत करता है।

सामान्य तौर पर, एक सुदृढीकरण सीखने वाला एजेंट परीक्षण और त्रुटि के माध्यम से अपने पर्यावरण, अभिनय और सीखने को समझने और व्याख्या करने में सक्षम होता है।

सुदृढीकरण सीखने के डेवलपर्स वांछित व्यवहारों को पुरस्कृत करने और नकारात्मक व्यवहारों को दंडित करने का एक तरीका प्रस्तावित करते हैं।

तुलना तालिका

तुलना के पैरामीटर	अर्ध पर्यवेक्षित शिक्षण	सुदृढीकरण सीखना
परिभाषा	लेबल नहीं किए गए डेटा के एक बड़े सेट को मजबूत करने के लिए लेबल किए गए डेटा की एक छोटी मात्रा का उपयोग करता है	एक इनाम प्रणाली के साथ एक एल्गोरिथ्म
उद्देश्य	पर्यवेक्षित और अनुपयोगी शिक्षा के नुकसान का मुकाबला करने के लिए।	कार्रवाई की एक श्रृंखला सीखने के लिए
एजेंट की सहभागिता	बातचीत नहीं करता	सूचना का आदान प्रदान
व्यावहारिक आवेदन	भाषण विश्लेषण, इंटरनेट सामग्री वर्गीकरण	प्रक्षेपवक्र अनुकूलन, गति योजना
लेबल	इसके लेबल हैं।	इसमें लेबल नहीं हैं।

अर्ध-पर्यवेक्षित शिक्षण क्या है?

अर्ध-पर्यवेक्षित शिक्षण मशीन लर्निंग की एक विधि है जिसमें प्रशिक्षण के दौरान लेबल किए गए डेटा की एक छोटी मात्रा को बिना लेबल वाले सेट के साथ जोड़ा जाता है।

यह भी पढ़ें: समद्विबाहु त्रिभुज कैलकुलेटर

यह एक प्रकार की सीख है जो अप्रशिक्षित शिक्षा और पर्यवेक्षित शिक्षा के बीच मौजूद है। यह खराब पर्यवेक्षण का एक चरम मामला है।

मशीन लर्निंग इंजीनियर या डेटा साइंटिस्ट द्वारा डेटासेट को फिर से मैन्युअल रूप से एनोटेट किया जाना चाहिए, जो किसी भी पर्यवेक्षित शिक्षण तकनीक का सबसे महत्वपूर्ण नुकसान है।

यह एक बहुत ही महंगा ऑपरेशन है, खासकर जब बड़ी मात्रा में डेटा से निपटना हो। किसी भी अप्रशिक्षित शिक्षण पद्धति का सबसे मूलभूत दोष इसकी संकीर्ण प्रयोज्यता का दायरा है।

एक टेक्स्ट डॉक्यूमेंट क्लासिफायरियर अर्ध-पर्यवेक्षित सीखने का एक लगातार अनुप्रयोग है। क्योंकि इस परिस्थिति में बड़ी संख्या में टैग किए गए टेक्स्ट दस्तावेज़ों को ढूंढना व्यावहारिक रूप से असंभव होगा, अर्ध-पर्यवेक्षित शिक्षण आदर्श है।

यह केवल एक सरल वर्गीकरण प्रदान करने के लिए किसी को पूर्ण-पाठ दस्तावेज़ों के माध्यम से पढ़ने की अक्षमता के कारण है।

किसी भी पर्यवेक्षित शिक्षण तकनीक का सबसे मूलभूत दोष यह है कि डेटासेट को मशीन शिक्षार्थियों द्वारा मैन्युअल रूप से लेबल किया जाना चाहिए।

यह एक बेहद महंगा ऑपरेशन है, खासकर जब बड़ी मात्रा में डेटा के साथ काम किया जा रहा हो। लगभग किसी भी अनसुपरवाइज्ड लर्निंग का सबसे मूलभूत दोष इसकी संकीर्ण अनुप्रयोग सीमा रही है।

औपचारिक अर्ध-पर्यवेक्षित शिक्षण कार्यों के लिए मानवीय उत्तरों ने बिना लेबल वाली सामग्री के प्रभाव की डिग्री के संबंध में विभिन्न प्रकार के परिणाम उत्पन्न किए हैं।

अर्ध-पर्यवेक्षित शिक्षण का उपयोग सीखने के अधिक प्राकृतिक मुद्दों के लिए भी किया जा सकता है। मानव विचार अधिग्रहण का एक बड़ा हिस्सा बिना लेबल वाले अनुभव की एक बड़ी मात्रा के साथ सीमित प्रत्यक्ष शिक्षण को जोड़ता है।

इस तरह के सीखने के मुद्दों को हल करना मुश्किल होता है। नतीजतन, विशेष सुविधाओं के साथ अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम की आवश्यकता होती है।

सुदृढीकरण सीखना क्या है?

जबकि सुदृढीकरण सीखने ने कृत्रिम बुद्धि के क्षेत्र में कई लोगों की जिज्ञासा को बढ़ाया है, इसकी व्यापक, वास्तविक दुनिया की स्वीकृति और उपयोग सीमित है। इसके बावजूद, सैद्धांतिक अनुप्रयोगों पर शोध पत्र प्रचुर मात्रा में हैं, और कुछ सफल उपयोग के मामले भी सामने आए हैं।

एक आदर्श समाधान प्राप्त करने के लिए, एजेंट को दीर्घकालिक और अधिकतम समग्र प्रतिफल प्राप्त करने के लिए प्रोग्राम किया जाता है।

ये दीर्घकालिक उद्देश्य एजेंट को अल्पकालिक उद्देश्यों पर रुकने से रोकते हैं। एजेंट धीरे-धीरे नकारात्मकता से दूर रहना और सकारात्मकता की तलाश करना सीखता है। इस सीखने की रणनीति का उपयोग कृत्रिम बुद्धिमत्ता में पुरस्कार और दंड का उपयोग करके बिना पर्यवेक्षित मशीन सीखने को निर्देशित करने के लिए किया गया है।

यह भी पढ़ें: मध्य युग बनाम अंधकार युग: अंतर और तुलना

सुदृढीकरण सीखने के लिए क्रमिक रूप से निर्णय लेना आवश्यक है। मूल शब्दों में, आउटपुट वर्तमान इनपुट की स्थिति से तय होता है, और अगला इनपुट पिछले इनपुट के आउटपुट से तय होता है।

चूँकि सुदृढीकरण सीखने में निर्णय निर्भर रहते हैं, इसलिए हम आश्रित निर्णय अनुक्रम का नाम देते हैं।

सुदृढीकरण दो प्रकार के होते हैं, सकारात्मक और नकारात्मक सुदृढीकरण। सकारात्मक सुदृढीकरण तब होता है जब एक निश्चित व्यवहार के परिणामस्वरूप होने वाली घटना व्यवहार की ताकत और आवृत्ति में सुधार करती है। दूसरे शब्दों में, यह आचरण को सकारात्मक रूप से प्रभावित करता है। नकारात्मक सुदृढीकरण को एक नकारात्मक परिस्थिति के समाप्त होने या टालने के परिणामस्वरूप व्यवहार को मजबूत करने के रूप में परिभाषित किया गया है।

सुदृढीकरण सीखने में कृत्रिम बुद्धिमत्ता को खेल जैसे वातावरण में रखा जाता है। समस्या का समाधान खोजने के लिए कंप्यूटर परीक्षण और त्रुटि का उपयोग करता है। प्रोग्रामर जो चाहता है उसे करने के लिए कंप्यूटर को मनाने के लिए, कृत्रिम बुद्धिमत्ता को उसके कार्यों के लिए पुरस्कृत या दंडित किया जाता है। इसका उद्देश्य संपूर्ण रिटर्न को अधिकतम करना है।

अर्ध-पर्यवेक्षित और सुदृढीकरण सीखने के बीच मुख्य अंतर

अर्ध-पर्यवेक्षित शिक्षण लेबल किए गए डेटा का उपयोग लेबल रहित डेटा को मजबूत करने के लिए करता है, जबकि सुदृढीकरण सीखने में, आप एल्गोरिदम के लिए एक इनाम प्रणाली स्थापित करते हैं।
अर्ध-पर्यवेक्षित शिक्षण का मुख्य उद्देश्य अन्य सीखने की प्रक्रियाओं के सभी नुकसानों का प्रतिकार करना है, और सुदृढीकरण सीखने का मुख्य उद्देश्य क्रियाओं को अधिक कुशलता से सीखना है।
अर्ध-पर्यवेक्षित शिक्षण एजेंट के साथ सहभागिता नहीं करता है। सुदृढीकरण सीखना एजेंट के साथ बातचीत करता है।
सुदृढीकरण तकनीक में, एजेंट द्वारा की गई कार्रवाई राज्यों के वितरण को प्रभावित करती है जिसे वह भविष्य में देखेगा। मानक (अर्ध-) पर्यवेक्षित सीखने की समस्या में ऐसा नहीं है।
सुदृढीकरण सीखने में कोई लेबल नहीं हैं, जबकि अर्ध-पर्यवेक्षणीय शिक्षा में हैं।

अर्ध पर्यवेक्षित और सुदृढीकरण सीखने के बीच अंतर

संदर्भ

https://arxiv.org/abs/1612.00429

अंतिम अद्यतन: 25 नवंबर, 2023

एक अनुरोध?

मैंने आपको मूल्य प्रदान करने के लिए इस ब्लॉग पोस्ट को लिखने में बहुत मेहनत की है। यदि आप इसे सोशल मीडिया पर या अपने मित्रों/परिवार के साथ साझा करने पर विचार करते हैं, तो यह मेरे लिए बहुत उपयोगी होगा। साझा करना है ♥️

फेसबुक ट्वीट पिन लिंक्डइन छाप ईमेल

एम्मा स्मिथ

एम्मा स्मिथ के पास इरविन वैली कॉलेज से अंग्रेजी में एमए की डिग्री है। वह 2002 से एक पत्रकार हैं और अंग्रेजी भाषा, खेल और कानून पर लेख लिखती हैं। मेरे बारे में उसके बारे में और पढ़ें जैव पृष्ठ.