Học bán giám sát và học tăng cường: Sự khác biệt và so sánh

Dữ liệu được sản xuất trên toàn cầu ngày nay là rất lớn. Thông tin này được tạo ra không chỉ bởi con người mà còn bởi điện thoại thông minh, máy tính và các thiết bị điện tử khác.

Một lập trình viên chắc chắn sẽ chọn cách đào tạo một thuật toán sử dụng một mô hình học tập cụ thể dựa trên loại dữ liệu có sẵn và khuyến khích được cung cấp.   

Chìa khóa chính

  1. Học bán giám sát là một loại máy học trong đó một mô hình được đào tạo trên dữ liệu được gắn nhãn và không được gắn nhãn. Ngược lại, học tăng cường là một loại máy học trong đó một mô hình học cách đưa ra quyết định dựa trên phần thưởng và hình phạt.
  2. Học bán giám sát phù hợp hơn cho các tác vụ mà dữ liệu được gắn nhãn khan hiếm hoặc đắt tiền, trong khi học tăng cường phù hợp hơn cho các tác vụ không biết trước giải pháp tối ưu.
  3. Học bán giám sát được sử dụng trong xử lý ngôn ngữ tự nhiên và phân loại hình ảnh, trong khi học tăng cường được sử dụng trong chế tạo robot và chơi trò chơi.

Học bán giám sát và học tăng cường    

Học bán giám sát là một học máy phương pháp. Trong phương pháp này, dữ liệu được gắn nhãn và không được gắn nhãn được kết hợp với nhau. Trong sự kết hợp này, lượng dữ liệu được gắn nhãn là nhỏ và lượng dữ liệu không được gắn nhãn là lớn. Học tăng cường là một thuật toán học tập dựa trên hệ thống phần thưởng. Củng cố có thể là tích cực hoặc tiêu cực.

Học bán giám sát và học tăng cường

Học bán giám sát nằm ở đâu đó giữa Supervised và Học tập không giám sát thuật toán. Nó sử dụng kết hợp các bộ dữ liệu được gắn nhãn và không được gắn nhãn.

Nó hoạt động với dữ liệu chỉ có một vài nhãn; nó hoạt động với dữ liệu không được gắn nhãn. Nhãn thì đắt tiền, tuy nhiên đối với mục đích của công ty thì chỉ cần một vài nhãn là đủ.    

Học tăng cường chỉ là một phương pháp học máy nhằm thưởng cho hành vi tích cực trong khi xử phạt hành vi kém.

Nói chung, một tác nhân học tăng cường có khả năng cảm nhận và giải thích môi trường, hành động và học tập của nó thông qua thử và sai.

Các nhà phát triển học tăng cường đề xuất một cách khen thưởng các hành vi mong muốn và trừng phạt các hành vi tiêu cực.    

Bảng so sánh   

Các thông số so sánh Học tập bán giám sát Học tăng cường 
Định nghĩa Sử dụng một lượng nhỏ dữ liệu được gắn nhãn hỗ trợ một tập hợp dữ liệu không được gắn nhãn lớn hơn Một thuật toán với hệ thống phần thưởng 
Mục tiêu  Để khắc phục nhược điểm của học có giám sát và học không giám sát.  Để tìm hiểu một loạt các hành động 
Tương tác của đại lý  Không tương tác  Tương tác   
Ứng dụng thực tiễn Phân tích giọng nói, phân loại nội dung internet Tối ưu hóa quỹ đạo, lập kế hoạch chuyển động 
Nhãn  Nó có nhãn.  Nó không có nhãn.   

Học bán giám sát là gì?   

Học bán giám sát là một phương pháp học máy trong đó một lượng nhỏ dữ liệu được gắn nhãn được kết hợp với một tập dữ liệu không được gắn nhãn trong quá trình đào tạo.

Cũng đọc:  Độ chính xác và xấp xỉ: Sự khác biệt và so sánh

Đó là một kiểu học tồn tại giữa học không giám sát và học có giám sát. Đó là một trường hợp cực đoan của sự giám sát kém.   

Tập dữ liệu phải được Kỹ sư máy học hoặc Nhà khoa học dữ liệu chú thích lại theo cách thủ công, đây là nhược điểm quan trọng nhất của bất kỳ kỹ thuật Học có giám sát nào.

Đây là một hoạt động rất tốn kém, đặc biệt là khi xử lý một lượng lớn dữ liệu. Hạn chế cơ bản nhất của bất kỳ phương pháp Học tập không giám sát nào là phạm vi ứng dụng hạn hẹp của nó.   

Bộ phân loại tài liệu văn bản là một ứng dụng thường xuyên của học bán giám sát. Bởi vì thực tế không thể tìm thấy một số lượng lớn các tài liệu văn bản được gắn thẻ trong trường hợp này, học bán giám sát là lý tưởng.

Điều này đơn giản là do sự không hiệu quả của việc nhờ ai đó đọc qua các tài liệu toàn văn chỉ để gán một phân loại đơn giản.   

Hạn chế cơ bản nhất của bất kỳ kỹ thuật Học có giám sát nào là tập dữ liệu phải được người học máy gắn nhãn thủ công.

Đây là một hoạt động cực kỳ tốn kém, đặc biệt là khi làm việc với lượng dữ liệu lớn. Hạn chế cơ bản nhất của hầu hết mọi Học tập không giám sát là phạm vi ứng dụng hẹp của nó.  

Câu trả lời của con người đối với các nhiệm vụ học tập bán giám sát chính thức đã tạo ra nhiều kết quả khác nhau về mức độ ảnh hưởng của tài liệu không được dán nhãn.

Học bán giám sát cũng có thể được sử dụng cho các vấn đề học tập tự nhiên hơn. Một phần đáng kể trong quá trình tiếp thu ý tưởng của con người kết hợp một phần hạn chế của việc giảng dạy trực tiếp kết hợp với một lượng lớn kinh nghiệm không được gắn nhãn.  

Các vấn đề học tập thuộc loại này rất khó giải quyết. Do đó, các thuật toán học bán giám sát với các tính năng cụ thể được yêu cầu.   

Học tăng cường là gì?   

Mặc dù học tăng cường đã khơi dậy sự tò mò của nhiều người trong lĩnh vực trí tuệ nhân tạo, nhưng việc chấp nhận và sử dụng rộng rãi trong thế giới thực của nó vẫn còn hạn chế. Mặc dù vậy, vẫn có rất nhiều tài liệu nghiên cứu về các ứng dụng lý thuyết và đã có một số trường hợp sử dụng thành công.   

Để có được một giải pháp lý tưởng, tác nhân được lập trình để tìm kiếm lợi nhuận tổng thể dài hạn và lớn nhất.   

Những mục tiêu dài hạn này giúp đại lý không bị đình trệ trong các mục tiêu ngắn hạn. Tác nhân dần dần học cách tránh xa điều tiêu cực và tìm kiếm điều tích cực. Chiến lược học tập này đã được sử dụng trong trí tuệ nhân tạo để định hướng việc học máy không giám sát bằng cách sử dụng phần thưởng và hình phạt.   

Cũng đọc:  English vs Western Riding: Sự khác biệt và So sánh

Việc đưa ra các quyết định một cách tuần tự là điều cần thiết để tăng cường học tập. Nói một cách cơ bản, đầu ra được quyết định bởi trạng thái của đầu vào hiện tại và đầu vào tiếp theo được quyết định bởi đầu ra của đầu vào trước đó.   

Vì các phán đoán trong học tăng cường vẫn còn phụ thuộc, nên chúng tôi đặt tên cho các chuỗi quyết định phụ thuộc.   

Có hai loại củng cố, đó là củng cố tích cực và tiêu cực. Củng cố tích cực xảy ra khi một sự kiện xảy ra do một hành vi nhất định sẽ cải thiện cường độ và tần suất của hành vi đó. Nói cách khác, nó ảnh hưởng tích cực đến hành vi. Củng cố tiêu cực được định nghĩa là củng cố hành vi do một tình huống tiêu cực bị chấm dứt hoặc tránh được.   

Trí tuệ nhân tạo được đặt trong một môi trường giống như trò chơi trong học tập tăng cường. Máy tính sử dụng phương pháp thử và sai để tìm giải pháp cho vấn đề. Để thuyết phục máy tính làm điều mà lập trình viên mong muốn, trí tuệ nhân tạo sẽ được khen thưởng hoặc bị trừng phạt cho những hành vi mà nó thực hiện. Mục tiêu của nó là tối đa hóa toàn bộ lợi nhuận.   

Sự khác biệt chính giữa học bán giám sát và học tăng cường   

  1. Học bán giám sát sử dụng dữ liệu được gắn nhãn để củng cố dữ liệu chưa được gắn nhãn, trong khi đó, trong học tăng cường, bạn thiết lập hệ thống phần thưởng cho một thuật toán.   
  2. Mục đích chính của học bán giám sát là khắc phục tất cả các nhược điểm của các quá trình học khác và mục đích chính của học tăng cường là học các hành động hiệu quả hơn.   
  3. Học bán giám sát không tương tác với tác nhân. Học tăng cường tương tác với tác nhân. 
  4. Trong kỹ thuật củng cố, các hành động được thực hiện bởi tác nhân ảnh hưởng đến sự phân bố các trạng thái mà nó sẽ quan sát được trong tương lai. Đây không phải là trường hợp trong bài toán học có giám sát (bán) tiêu chuẩn.   
  5. Không có nhãn trong học tăng cường, trong khi có học bán giám sát.   
Sự khác biệt giữa học bán giám sát và học tăng cường
dự án
  1. https://arxiv.org/abs/1612.00429    

Cập nhật lần cuối: Ngày 25 tháng 2023 năm XNUMX

chấm 1
Một yêu cầu?

Tôi đã nỗ lực rất nhiều để viết bài đăng trên blog này nhằm cung cấp giá trị cho bạn. Nó sẽ rất hữu ích cho tôi, nếu bạn cân nhắc chia sẻ nó trên mạng xã hội hoặc với bạn bè/gia đình của bạn. CHIA SẺ LÀ ♥️

Để lại một bình luận

Bạn muốn lưu bài viết này cho sau này? Nhấp vào trái tim ở góc dưới cùng bên phải để lưu vào hộp bài viết của riêng bạn!