Dữ liệu được sản xuất trên toàn cầu ngày nay là rất lớn. Thông tin này được tạo ra không chỉ bởi con người mà còn bởi điện thoại thông minh, máy tính và các thiết bị điện tử khác.
Một lập trình viên chắc chắn sẽ chọn cách đào tạo một thuật toán sử dụng một mô hình học tập cụ thể dựa trên loại dữ liệu có sẵn và khuyến khích được cung cấp.
Các nội dung chính
- Học bán giám sát là một loại máy học trong đó một mô hình được đào tạo trên dữ liệu được gắn nhãn và không được gắn nhãn. Ngược lại, học tăng cường là một loại máy học trong đó một mô hình học cách đưa ra quyết định dựa trên phần thưởng và hình phạt.
- Học bán giám sát phù hợp hơn cho các tác vụ mà dữ liệu được gắn nhãn khan hiếm hoặc đắt tiền, trong khi học tăng cường phù hợp hơn cho các tác vụ không biết trước giải pháp tối ưu.
- Học bán giám sát được sử dụng trong xử lý ngôn ngữ tự nhiên và phân loại hình ảnh, trong khi học tăng cường được sử dụng trong chế tạo robot và chơi trò chơi.
Học bán giám sát và học tăng cường
Học bán giám sát là một phương pháp học máy. Trong phương pháp này, dữ liệu có nhãn và không có nhãn được kết hợp với nhau. Trong sự kết hợp này, lượng dữ liệu được gắn nhãn là nhỏ và lượng dữ liệu không được gắn nhãn là lớn. Học tăng cường là một thuật toán học tập dựa trên hệ thống khen thưởng. Sự củng cố có thể tích cực hoặc tiêu cực.

Học bán giám sát nằm ở đâu đó giữa các thuật toán học có giám sát và không giám sát. Nó sử dụng kết hợp các bộ dữ liệu có nhãn và không nhãn.
Nó hoạt động với dữ liệu chỉ có một vài nhãn; nó hoạt động với dữ liệu không được gắn nhãn. Nhãn thì đắt tiền, tuy nhiên đối với mục đích của công ty thì chỉ cần một vài nhãn là đủ.
Học tăng cường chỉ là một phương pháp học máy nhằm thưởng cho hành vi tích cực trong khi xử phạt hành vi kém.
Nói chung, một tác nhân học tăng cường có khả năng cảm nhận và giải thích môi trường, hành động và học tập của nó thông qua thử và sai.
Các nhà phát triển học tăng cường đề xuất một cách khen thưởng các hành vi mong muốn và trừng phạt các hành vi tiêu cực.
Bảng so sánh
Các thông số so sánh | Học tập bán giám sát | Học tăng cường |
---|---|---|
Định nghĩa | Sử dụng một lượng nhỏ dữ liệu được gắn nhãn hỗ trợ một tập hợp dữ liệu không được gắn nhãn lớn hơn | Một thuật toán với hệ thống phần thưởng |
Mục tiêu | Để khắc phục nhược điểm của học có giám sát và học không giám sát. | Để tìm hiểu một loạt các hành động |
Tương tác của đại lý | Không tương tác | Tương tác |
Ứng dụng thực tiễn | Phân tích giọng nói, phân loại nội dung internet | Tối ưu hóa quỹ đạo, lập kế hoạch chuyển động |
Nhãn | Nó có nhãn. | Nó không có nhãn. |
Học bán giám sát là gì?
Học bán giám sát là một phương pháp học máy trong đó một lượng nhỏ dữ liệu được gắn nhãn được kết hợp với một tập dữ liệu không được gắn nhãn trong quá trình đào tạo.
Đó là một kiểu học tồn tại giữa học không giám sát và học có giám sát. Đó là một trường hợp cực đoan của sự giám sát kém.
Tập dữ liệu phải được Kỹ sư máy học hoặc Nhà khoa học dữ liệu chú thích lại theo cách thủ công, đây là nhược điểm quan trọng nhất của bất kỳ kỹ thuật Học có giám sát nào.
Đây là một hoạt động rất tốn kém, đặc biệt là khi xử lý một lượng lớn dữ liệu. Hạn chế cơ bản nhất của bất kỳ phương pháp Học tập không giám sát nào là phạm vi ứng dụng hạn hẹp của nó.
Bộ phân loại tài liệu văn bản là một ứng dụng thường xuyên của học bán giám sát. Bởi vì thực tế không thể tìm thấy một số lượng lớn các tài liệu văn bản được gắn thẻ trong trường hợp này, học bán giám sát là lý tưởng.
Điều này đơn giản là do sự không hiệu quả của việc nhờ ai đó đọc qua các tài liệu toàn văn chỉ để gán một phân loại đơn giản.
Hạn chế cơ bản nhất của bất kỳ kỹ thuật Học có giám sát nào là tập dữ liệu phải được người học máy gắn nhãn thủ công.
Đây là một hoạt động cực kỳ tốn kém, đặc biệt là khi làm việc với lượng dữ liệu lớn. Hạn chế cơ bản nhất của hầu hết mọi Học tập không giám sát là phạm vi ứng dụng hẹp của nó.
Câu trả lời của con người đối với các nhiệm vụ học tập bán giám sát chính thức đã tạo ra nhiều kết quả khác nhau về mức độ ảnh hưởng của tài liệu không được dán nhãn.
Học bán giám sát cũng có thể được sử dụng cho các vấn đề học tập tự nhiên hơn. Một phần đáng kể trong quá trình tiếp thu ý tưởng của con người kết hợp một phần hạn chế của việc giảng dạy trực tiếp kết hợp với một lượng lớn kinh nghiệm không được gắn nhãn.
Các vấn đề học tập thuộc loại này rất khó giải quyết. Do đó, các thuật toán học bán giám sát với các tính năng cụ thể được yêu cầu.
Học tăng cường là gì?
Mặc dù học tăng cường đã khơi dậy sự tò mò của nhiều người trong lĩnh vực trí tuệ nhân tạo, nhưng việc chấp nhận và sử dụng rộng rãi trong thế giới thực của nó vẫn còn hạn chế. Mặc dù vậy, vẫn có rất nhiều tài liệu nghiên cứu về các ứng dụng lý thuyết và đã có một số trường hợp sử dụng thành công.
Để có được một giải pháp lý tưởng, tác nhân được lập trình để tìm kiếm lợi nhuận tổng thể dài hạn và lớn nhất.
Những mục tiêu dài hạn này giúp đại lý không bị đình trệ trong các mục tiêu ngắn hạn. Tác nhân dần dần học cách tránh xa điều tiêu cực và tìm kiếm điều tích cực. Chiến lược học tập này đã được sử dụng trong trí tuệ nhân tạo để định hướng việc học máy không giám sát bằng cách sử dụng phần thưởng và hình phạt.
Việc đưa ra các quyết định một cách tuần tự là điều cần thiết để tăng cường học tập. Nói một cách cơ bản, đầu ra được quyết định bởi trạng thái của đầu vào hiện tại và đầu vào tiếp theo được quyết định bởi đầu ra của đầu vào trước đó.
Vì các phán đoán trong học tăng cường vẫn còn phụ thuộc, nên chúng tôi đặt tên cho các chuỗi quyết định phụ thuộc.
Có hai loại củng cố, đó là củng cố tích cực và tiêu cực. Củng cố tích cực xảy ra khi một sự kiện xảy ra do một hành vi nhất định sẽ cải thiện cường độ và tần suất của hành vi đó. Nói cách khác, nó ảnh hưởng tích cực đến hành vi. Củng cố tiêu cực được định nghĩa là củng cố hành vi do một tình huống tiêu cực bị chấm dứt hoặc tránh được.
Trí tuệ nhân tạo được đặt trong một môi trường giống như trò chơi trong học tập tăng cường. Máy tính sử dụng phương pháp thử và sai để tìm giải pháp cho vấn đề. Để thuyết phục máy tính làm điều mà lập trình viên mong muốn, trí tuệ nhân tạo sẽ được khen thưởng hoặc bị trừng phạt cho những hành vi mà nó thực hiện. Mục tiêu của nó là tối đa hóa toàn bộ lợi nhuận.
Sự khác biệt chính giữa học bán giám sát và học tăng cường
- Học bán giám sát sử dụng dữ liệu được gắn nhãn để củng cố dữ liệu chưa được gắn nhãn, trong khi đó, trong học tăng cường, bạn thiết lập hệ thống phần thưởng cho một thuật toán.
- Mục đích chính của học bán giám sát là khắc phục tất cả các nhược điểm của các quá trình học khác và mục đích chính của học tăng cường là học các hành động hiệu quả hơn.
- Học bán giám sát không tương tác với tác nhân. Học tăng cường tương tác với tác nhân.
- Trong kỹ thuật củng cố, các hành động được thực hiện bởi tác nhân ảnh hưởng đến sự phân bố các trạng thái mà nó sẽ quan sát được trong tương lai. Đây không phải là trường hợp trong bài toán học có giám sát (bán) tiêu chuẩn.
- Không có nhãn trong học tăng cường, trong khi có học bán giám sát.
