การเรียนรู้แบบกึ่งกำกับดูแลและแบบเสริม: ความแตกต่างและการเปรียบเทียบ

ข้อมูลที่ผลิตทั่วโลกในปัจจุบันมีมากมายมหาศาล ข้อมูลนี้ไม่ได้สร้างขึ้นโดยมนุษย์เท่านั้น แต่ยังเกิดจากสมาร์ทโฟน คอมพิวเตอร์ และอุปกรณ์อิเล็กทรอนิกส์อื่นๆ

ไม่ต้องสงสัยเลยว่าโปรแกรมเมอร์จะเลือกวิธีฝึกอัลกอริทึมที่ใช้โมเดลการเรียนรู้เฉพาะตามประเภทของข้อมูลที่มีอยู่และสิ่งจูงใจที่มีให้   

ประเด็นที่สำคัญ

  1. การเรียนรู้แบบกึ่งมีผู้ดูแลคือการเรียนรู้ของเครื่องประเภทหนึ่งซึ่งมีการฝึกโมเดลเกี่ยวกับข้อมูลที่ติดป้ายกำกับและที่ไม่มีป้ายกำกับ ในทางตรงกันข้าม การเรียนรู้แบบเสริมกำลังเป็นการเรียนรู้ของเครื่องประเภทหนึ่งที่โมเดลเรียนรู้ที่จะตัดสินใจโดยพิจารณาจากรางวัลและการลงโทษ
  2. การเรียนรู้แบบกึ่งมีผู้สอนเหมาะสำหรับงานที่ข้อมูลที่ติดป้ายกำกับหายากหรือมีราคาแพง ในขณะที่การเรียนรู้แบบเสริมกำลังเหมาะสำหรับงานที่ไม่ทราบวิธีแก้ปัญหาที่ดีที่สุดล่วงหน้า
  3. การเรียนรู้แบบกึ่งกำกับดูแลจะใช้ในการประมวลผลภาษาธรรมชาติและการจำแนกภาพ ในขณะที่การเรียนรู้แบบเสริมแรงจะใช้ในวิทยาการหุ่นยนต์และการเล่นเกม

การเรียนรู้แบบกึ่งควบคุมและเสริมแรง    

การเรียนรู้แบบกึ่งมีผู้สอนคือก เรียนรู้เครื่อง วิธี. ในวิธีนี้ ข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับจะรวมกัน ในการรวมกันนี้ จำนวนข้อมูลที่ติดป้ายกำกับจะมีน้อย และจำนวนข้อมูลที่ไม่ติดป้ายกำกับจะมีขนาดใหญ่ เสริมการเรียนรู้ เป็นอัลกอริทึมการเรียนรู้ตามระบบการให้รางวัล การเสริมแรงอาจเป็นค่าบวกหรือลบ

การเรียนรู้แบบกึ่งอยู่ภายใต้การดูแลและการเสริมแรง

การเรียนรู้แบบกึ่งมีผู้สอนอยู่ระหว่างแบบมีผู้สอนและ การเรียนรู้ที่ไม่มีผู้ดูแล อัลกอริธึม ใช้ชุดข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับผสมกัน

ใช้งานได้กับข้อมูลที่มีป้ายกำกับเพียงไม่กี่รายการ ใช้งานได้กับข้อมูลที่ไม่มีป้ายกำกับ ฉลากมีราคาแพง แต่สำหรับวัตถุประสงค์ขององค์กร ฉลากเพียงไม่กี่ชิ้นก็อาจเพียงพอแล้ว    

การเรียนรู้แบบเสริมกำลังเป็นเพียงแนวทางการเรียนรู้ของเครื่องที่ให้รางวัลแก่พฤติกรรมเชิงบวก ในขณะเดียวกันก็ลงโทษพฤติกรรมที่ไม่ดีด้วย

โดยทั่วไปแล้ว ตัวแทนการเรียนรู้แบบเสริมแรงสามารถรับรู้และตีความสภาพแวดล้อม การแสดง และการเรียนรู้ผ่านการลองผิดลองถูก

ผู้พัฒนาการเรียนรู้แบบเสริมแรงเสนอวิธีการให้รางวัลแก่พฤติกรรมที่ต้องการและลงโทษพฤติกรรมเชิงลบ    

ตารางเปรียบเทียบ   

พารามิเตอร์ของการเปรียบเทียบ การเรียนรู้กึ่งควบคุม การเรียนรู้เสริมแรง 
คำนิยาม ใช้ข้อมูลที่มีป้ายกำกับจำนวนเล็กน้อยเพื่อสนับสนุนชุดข้อมูลที่ไม่มีป้ายกำกับจำนวนมากขึ้น อัลกอริทึมที่มีระบบการให้รางวัล 
มุ่ง  เพื่อตอบโต้ผลเสียของการเรียนรู้แบบมีผู้สอนและแบบไม่มีผู้สอน  เพื่อเรียนรู้ชุดของการกระทำ 
ปฏิสัมพันธ์ของตัวแทน  ไม่โต้ตอบ  โต้ตอบ   
การใช้งานจริง การวิเคราะห์คำพูด การจำแนกเนื้อหาอินเทอร์เน็ต การเพิ่มประสิทธิภาพวิถี การวางแผนการเคลื่อนไหว 
ป้ายกำกับ  มันมีฉลาก  มันไม่มีป้ายกำกับ   

การเรียนรู้แบบกึ่งควบคุมคืออะไร?   

การเรียนรู้แบบกึ่งมีผู้สอนเป็นวิธีหนึ่งของการเรียนรู้ของเครื่อง โดยจะมีการรวมข้อมูลที่ติดป้ายกำกับจำนวนเล็กน้อยเข้ากับชุดข้อมูลที่ไม่มีป้ายกำกับในระหว่างการฝึกอบรม

ยังอ่าน:  BFA กับ MFA: ความแตกต่างและการเปรียบเทียบ

เป็นการเรียนรู้ประเภทหนึ่งที่อยู่ระหว่างการเรียนรู้แบบไม่มีผู้สอนและการเรียนรู้แบบมีผู้สอน เป็นกรณีที่รุนแรงของการกำกับดูแลที่ไม่ดี   

ชุดข้อมูลจะต้องได้รับการใส่คำอธิบายประกอบอีกครั้งโดยวิศวกรแมชชีนเลิร์นนิงหรือนักวิทยาศาสตร์ข้อมูล ซึ่งเป็นข้อเสียที่สำคัญที่สุดของเทคนิคการเรียนรู้ภายใต้การดูแลใดๆ

นี่เป็นการดำเนินการที่มีค่าใช้จ่ายสูงมาก โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับข้อมูลจำนวนมาก ข้อเสียเปรียบขั้นพื้นฐานที่สุดของวิธีการเรียนรู้แบบไม่มีผู้สอนคือขอบเขตการบังคับใช้ที่แคบ   

ลักษณนามของเอกสารข้อความคือการประยุกต์ใช้การเรียนรู้แบบกึ่งควบคุมบ่อยครั้ง เนื่องจากแทบจะเป็นไปไม่ได้เลยที่จะค้นหาเอกสารข้อความที่ถูกแท็กจำนวนมากในสถานการณ์นี้ การเรียนรู้แบบกึ่งมีผู้สอนจึงเหมาะอย่างยิ่ง

นี่เป็นเพียงเพราะความไร้ประสิทธิภาพของการมีคนอ่านเอกสารแบบเต็มเพียงเพื่อกำหนดการจัดประเภทอย่างง่าย   

ข้อเสียเปรียบพื้นฐานที่สุดของเทคนิค Supervised Learning ก็คือชุดข้อมูลจะต้องติดป้ายกำกับด้วยตนเองโดยการเรียนรู้ของเครื่อง

นี่เป็นการดำเนินการที่มีราคาแพงมาก โดยเฉพาะอย่างยิ่งเมื่อทำงานกับข้อมูลจำนวนมาก ข้อเสียเปรียบขั้นพื้นฐานที่สุดของ Unsupervised Learning เกือบทุกชนิดคือขอบเขตของแอปพลิเคชันที่แคบ  

คำตอบของมนุษย์ต่องานการเรียนรู้กึ่งควบคุมอย่างเป็นทางการได้ให้ผลลัพธ์ที่หลากหลายเกี่ยวกับระดับผลกระทบของเนื้อหาที่ไม่มีป้ายกำกับ

การเรียนรู้แบบกึ่งควบคุมสามารถใช้กับประเด็นการเรียนรู้ที่เป็นธรรมชาติมากขึ้น การได้มาซึ่งความคิดของมนุษย์ส่วนใหญ่ผสมผสานการสอนโดยตรงเพียงเล็กน้อยที่จับคู่กับประสบการณ์จำนวนมากที่ไม่มีป้ายกำกับ  

ปัญหาการเรียนรู้ประเภทนี้แก้ไขได้ยาก ด้วยเหตุนี้ จึงจำเป็นต้องมีอัลกอริทึมการเรียนรู้แบบกึ่งควบคุมที่มีคุณสมบัติเฉพาะ   

การเรียนรู้การเสริมแรงคืออะไร?   

ในขณะที่การเรียนรู้แบบเสริมกำลังกระตุ้นความอยากรู้อยากเห็นของคนจำนวนมากในสาขาปัญญาประดิษฐ์ แต่การยอมรับและการใช้งานที่แพร่หลายในโลกแห่งความเป็นจริงยังคงมีจำกัด อย่างไรก็ตาม มีงานวิจัยเกี่ยวกับการประยุกต์ทางทฤษฎีมากมาย และมีกรณีการใช้งานที่ประสบความสำเร็จบ้าง   

เพื่อให้ได้โซลูชันที่เหมาะสม ตัวแทนได้รับการตั้งโปรแกรมให้แสวงหาผลตอบแทนโดยรวมในระยะยาวและมากที่สุด   

วัตถุประสงค์ระยะยาวเหล่านี้ทำให้ตัวแทนไม่หยุดชะงักตามวัตถุประสงค์ระยะสั้น เจ้าหน้าที่จะค่อยๆ เรียนรู้ที่จะหลีกเลี่ยงสิ่งที่เป็นลบและแสวงหาสิ่งที่เป็นบวก กลยุทธ์การเรียนรู้นี้ถูกนำมาใช้ในปัญญาประดิษฐ์เพื่อควบคุมการเรียนรู้ของเครื่องแบบไม่มีผู้ดูแลโดยใช้รางวัลและบทลงโทษ   

ยังอ่าน:  ตัวแปลงเวลาทหาร

การตัดสินใจตามลำดับเป็นสิ่งสำคัญในการเรียนรู้แบบเสริมแรง พูดง่ายๆ ก็คือ เอาต์พุตจะถูกกำหนดโดยสถานะของอินพุตปัจจุบัน และอินพุตถัดไปจะถูกกำหนดโดยเอาต์พุตของอินพุตก่อนหน้า   

เนื่องจากการตัดสินในการเรียนรู้การเสริมแรงยังคงขึ้นอยู่กับเราจึงตั้งชื่อลำดับการตัดสินใจที่ขึ้นอยู่กับ   

การเสริมแรงมี XNUMX แบบ คือ การเสริมแรงทางบวกและทางลบ การเสริมแรงเชิงบวกเกิดขึ้นเมื่อเหตุการณ์ที่เกิดขึ้นจากพฤติกรรมบางอย่างช่วยเพิ่มความแข็งแกร่งและความถี่ของพฤติกรรม กล่าวอีกนัยหนึ่งมันมีอิทธิพลต่อการกระทำในเชิงบวก การเสริมแรงเชิงลบหมายถึงการเสริมสร้างพฤติกรรมอันเป็นผลมาจากสถานการณ์เชิงลบที่ยุติหรือหลีกเลี่ยง   

ปัญญาประดิษฐ์ถูกจัดวางในสภาพแวดล้อมเหมือนเกมในการเรียนรู้แบบเสริมกำลัง คอมพิวเตอร์ใช้การลองผิดลองถูกเพื่อค้นหาวิธีแก้ไขปัญหา เพื่อชักชวนคอมพิวเตอร์ให้ทำสิ่งที่โปรแกรมเมอร์ต้องการ ปัญญาประดิษฐ์จะได้รับรางวัลหรือลงโทษสำหรับการกระทำที่มันทำ โดยมีวัตถุประสงค์คือเพื่อเพิ่มผลตอบแทนทั้งหมดให้สูงสุด   

ความแตกต่างหลักระหว่างการเรียนรู้แบบกึ่งควบคุมและการเสริมแรง   

  1. การเรียนรู้แบบกึ่งควบคุมใช้ข้อมูลที่มีป้ายกำกับเพื่อสนับสนุนข้อมูลที่ไม่มีป้ายกำกับ ในขณะที่ในการเรียนรู้แบบเสริมแรง คุณตั้งค่าระบบการให้รางวัลสำหรับอัลกอริทึม   
  2. จุดประสงค์หลักของการเรียนรู้แบบกึ่งควบคุมคือการต่อต้านข้อเสียทั้งหมดของกระบวนการเรียนรู้อื่นๆ และจุดประสงค์หลักของการเรียนรู้แบบเสริมแรงคือการเรียนรู้การกระทำอย่างมีประสิทธิภาพมากขึ้น   
  3. การเรียนรู้แบบกึ่งควบคุมไม่โต้ตอบกับตัวแทน การเรียนรู้การเสริมกำลังโต้ตอบกับตัวแทน 
  4. ในเทคนิคการเสริมแรง การกระทำที่กระทำโดยตัวแทนจะมีอิทธิพลต่อการกระจายสถานะที่จะสังเกตเห็นในอนาคต นี่ไม่ใช่กรณีของปัญหาการเรียนรู้แบบมาตรฐาน (กึ่ง) ควบคุม   
  5. ไม่มีป้ายกำกับในการเรียนรู้แบบเสริมแรง ในขณะที่มีการเรียนรู้แบบกึ่งควบคุมดูแล   
ความแตกต่างระหว่างการเรียนรู้แบบกึ่งควบคุมและการเสริมแรง
อ้างอิง
  1. https://arxiv.org/abs/1612.00429    

อัพเดตล่าสุด : 25 พฤศจิกายน 2023

จุด 1
หนึ่งคำขอ?

ฉันใช้ความพยายามอย่างมากในการเขียนบล็อกโพสต์นี้เพื่อมอบคุณค่าให้กับคุณ มันจะมีประโยชน์มากสำหรับฉัน หากคุณคิดจะแชร์บนโซเชียลมีเดียหรือกับเพื่อน/ครอบครัวของคุณ การแบ่งปันคือ♥️

แสดงความคิดเห็น

ต้องการบันทึกบทความนี้ไว้ใช้ภายหลังหรือไม่ คลิกที่หัวใจที่มุมล่างขวาเพื่อบันทึกลงในกล่องบทความของคุณเอง!