Phân tách giá trị đơn lẻ (SVD) là một trong những tính năng hữu ích đa năng và được sử dụng rộng rãi nhất trong đại số tuyến tính số để thu thập dữ liệu, trong khi phân tích thành phần chính (PCA) là một phương pháp được thiết lập tốt đã đưa ra nhiều lý thuyết về thống kê.
Đặc biệt, PCA cung cấp cho chúng tôi một hệ tọa độ phân cấp dựa trên dữ liệu.
Các nội dung chính
- SVD là một kỹ thuật hệ số hóa ma trận áp dụng cho bất kỳ ma trận nào, trong khi PCA là một phép biến đổi tuyến tính dành riêng cho ma trận hiệp phương sai.
- PCA được sử dụng để nén dữ liệu và trích xuất tính năng, trong khi SVD có nhiều ứng dụng khác nhau trong xử lý tín hiệu, khai thác dữ liệu và truy xuất thông tin.
- SVD không yêu cầu dữ liệu được căn giữa, trong khi PCA hoạt động tốt nhất với dữ liệu được căn giữa và chuẩn hóa.
Phân tách giá trị số ít (SVD) so với Phân tích thành phần chính (PCA)
Phân tách giá trị số ít (SVD) là một phương pháp phân tích thừa số trong đại số tuyến tính có thể phân tách bất kỳ ma trận thực hoặc ma trận phức tạp nào. Phân tích thành phần chính (PCA) là một quy trình thống kê sử dụng phân tích SVD hoặc bản địa trên ma trận hiệp phương sai hoặc tương quan để xác định các thành phần chính.
Phân tách giá trị số ít (SVD) là tính năng được sử dụng rộng rãi nhất trong đại số tuyến tính số. Nó hỗ trợ trong việc giảm dữ liệu thành các tính năng chính cần thiết để phân tích, hiểu và mô tả.
Svd là một trong những yếu tố đầu tiên trong hầu hết các thuật toán tiền xử lý dữ liệu và học máy để giảm dữ liệu nói riêng. SVD là một phép tổng quát hóa biến đổi Fourier dựa trên dữ liệu.
Phân tích thành phần chính (PCA) hiện là một công cụ thống kê đã tạo ra nhiều ý tưởng. Điều này sẽ cho phép chúng tôi sử dụng một tập hợp các điểm có thứ bậc để thể hiện các thay đổi thống kê.
PCA là một kỹ thuật thống kê/trí tuệ máy móc được sử dụng để xác định các mẫu dữ liệu chính giúp tối đa hóa sự thay đổi tổng thể. Vì vậy, phương sai tối đa được ghi lại bởi một hệ tọa độ tùy thuộc vào hướng của dữ liệu.
Bảng so sánh
Các thông số so sánh | Phân rã giá trị số ít (SVD) | Phân tích thành phần chính (PCA) |
---|---|---|
Yêu cầu | Toán học trừu tượng, phân rã ma trận và vật lý lượng tử đều yêu cầu SVD. | Thống kê đặc biệt hiệu quả trong PCA để phân tích dữ liệu từ nghiên cứu. |
Biểu hiện | Thừa số các biểu thức đại số. | tương tự như xấp xỉ các biểu thức thừa số. |
Phương pháp | Nó là một phương pháp trong toán học trừu tượng và phân rã ma trận. | Nó là một phương pháp trong Statistics/Machine Learning. |
Chi nhánh | Hữu ích trong lĩnh vực toán học. | Hữu ích trong lĩnh vực toán học. |
Sự phát minh | SVD được phát minh bởi Eugenio Beltrami và Camille Jordan. | PCA được phát minh bởi Karl Pearson. |
Phân rã giá trị số ít (SVD) là gì?
SVD được liên kết chặt chẽ với một phần của hệ số xác định giá trị riêng và véc tơ riêng của Ma trận xác định dương.
Mặc dù không phải tất cả các ma trận đều có thể được phân tích thành pt, nhưng bất kỳ ma trận m×n A nào cũng có thể được phân tích thành nhân tử bằng cách cho phép nó ở bên trái và PT ở bên phải là hai ma trận trực giao bất kỳ U và vt (không nhất thiết phải chuyển vị của nhau).
Loại thừa số đặc biệt này được gọi là SVD.
Khai triển sin và cosin được sử dụng trong tất cả toán học để tính gần đúng các hàm và FT là một trong những phép biến đổi hữu ích nhất. Ngoài ra còn có các chức năng Bessel và Airy, cũng như sóng hài hình cầu.
Và, trong thế hệ khoa học và kỹ thuật máy tính trước đây, phép biến đổi toán học mô hình toán học này đã được sử dụng để chuyển một hệ thống quan tâm sang một hệ tọa độ mới.
Một trong những thuật toán nổi bật là SVD. Người ta có thể sử dụng đại số tuyến tính để tạo doanh thu.
Một trong những khía cạnh hữu ích nhất của việc sử dụng đại số tuyến tính để kiếm lợi nhuận là nó phổ biến vì nó dựa trên đại số tuyến tính rất đơn giản và dễ đọc, có thể được sử dụng bất cứ lúc nào.
Nếu bạn có Ma trận dữ liệu, bạn có thể tính toán svd và nhận các tính năng có thể diễn giải và dễ hiểu để từ đó bạn có thể tạo mô hình. Nó cũng có thể mở rộng, do đó nó có thể được sử dụng trên các tập dữ liệu rất lớn.
Mọi hệ số ma trận được chia thành ba phần, được gọi là chuyển vị u Sigma v. Một ma trận trực giao là một thành phần u. Ma trận đường chéo là yếu tố Sigma.
Chuyển vị nhân tố v cũng là một Ma trận trực giao, làm cho nó trở thành đường chéo trực giao hoặc kéo dài và quay về mặt vật lý.
Mỗi Ma trận được tính vào một Ma trận trực giao bằng cách nhân nó với một Ma trận đường chéo (giá trị số ít) với một Ma trận trực giao khác: xoay, kéo dài thời gian, quay lần.
Phân tích thành phần chính (PCA) là gì?
PCA là một phương pháp được thiết lập tốt đã đưa ra rất nhiều lý thuyết về thống kê. Nó tương đương với việc tính gần đúng một mệnh đề thừa số bằng cách duy trì các số hạng 'lớn nhất' và loại bỏ tất cả các số hạng nhỏ hơn'.
Đó là một phương pháp được thiết lập tốt đã đưa ra rất nhiều lý thuyết về thống kê. Đặc biệt, PCA cung cấp cho chúng tôi một hệ tọa độ phân cấp dựa trên dữ liệu.
Phân tích thành phần chính (PCA) được gọi là phân rã trực giao thích hợp. PCA là một phương pháp xác định các mẫu trong dữ liệu bằng cách xác định chúng dựa trên những điểm tương đồng và khác biệt.
Trong PCA, có một ma trận dữ liệu X chứa tập hợp các phép đo từ các thử nghiệm khác nhau và hai thử nghiệm độc lập được biểu diễn dưới dạng các thừa số hàng lớn tại x1,x2, v.v.
PCA là một phương pháp giảm kích thước có thể hỗ trợ giảm kích thước của tập dữ liệu được sử dụng trong đào tạo máy học. Nó làm giảm bớt lời nguyền kích thước đáng sợ.
PCA là phương pháp xác định các đặc điểm quan trọng nhất của thành phần chính có ảnh hưởng lớn nhất đến biến mục tiêu. PCA phát triển một thành phần nguyên tắc tính năng mới.
Sự khác biệt chính giữa Phân tích giá trị đơn lẻ (SVD) và Phân tích thành phần chính (PCA)
- SVD có thể so sánh trực tiếp với các biểu thức đại số phân tích nhân tử, trong khi PCA tương đương với việc tính gần đúng một câu lệnh phân tích nhân tử bằng cách duy trì các số hạng 'lớn nhất' và loại bỏ tất cả các số hạng nhỏ hơn.
- Các giá trị trong SVD là các số nhất quán và phân tích thừa số là quá trình phân tách chúng, trong khi đó PCA là một cách thống kê/thông minh máy móc để xác định các khía cạnh chính.
- Sự phân rã của ma trận thành các vùng trực giao bình thường được gọi là SVD, trong khi PCA có thể được tính bằng SVD, mặc dù nó có giá cao hơn.
- SVD là một trong những tính năng hữu ích đa năng và được sử dụng rộng rãi nhất trong đại số tuyến tính số để thu thập dữ liệu, trong khi PCA là một phương pháp được thiết lập tốt đã đưa ra nhiều lý thuyết về thống kê.
- SVD là một trong những thuật toán nổi bật, trong khi PCA là một phương pháp giảm kích thước.