Hồi quy (Regression) và phân loại (Classification) là 2 phần khác nhau trong bài toán học có giám sát (supervised learning). Sự khác biệt giữa chúng chỉ là giá trị đầu ra. Trong khi Phân loại chia các dữ liệu ra thành các lớp, thì hồi quy lại đưa ra kết quả là những giá trị liên tục [1].
Trong cách biểu diễn ở trên, ‘y’ là biến độc lập, trong khi ‘x’ là biến phụ thuộc. Khi bạn vẽ biểu đồ hồi quy tuyến tính, thì độ dốc của đường cung cấp cho chúng ta các biến đầu ra được gọi là ‘b’ và ‘c’ là điểm chặn của nó. Thuật toán hồi quy tuyến tính giả định rằng có một mối quan hệ tuyến tính giữa đầu vào và đầu ra.
2. Ridge Regression
Ridge regression là một thuật toán hồi quy phổ biến khác trong ML. Các chuyên gia ML thích dùng Ridge regression bởi vì nó giảm thiểu được loss, và cũng sử dụng được trong đa hồi quy. Hệ số của nó không được ước tính bằng bình phương nhỏ nhất thông thường (OLS), mà bằng công cụ ước lượng gọi là ridge, có độ lệch và phương sai thấp hơn OLS. Với loại mô hình này, chúng ta có thể giảm mức độ phức tạp của mô hình [3].
Ưu điểm [5]:
- Đánh đổi giữa phương sai với độ lệch (nghĩa là khi có đồng tuyến tính, đáng để có kết quả bị lệch nhằm giảm phương sai)
- Ngăn chặn overfitting
Nhược điểm [5]:
- Làm tăng bias
- Cần chọn được hệ số alpha hoàn hảo (hyper parameter)
- Khả năng diễn giải mô hình thấp
3. Neural network regression (NNR)
Neural network có sức mạnh thực sự trong việc đưa ra các dự đoán hồi quy cũng như phân loại. Mỗi node trong mạng neural có một chức năng kích hoạt tương ứng xác định nút đầu ra dựa trên một tập hợp đầu vào. Trong ML, thư viện Keras được sử dụng để xây dựng một mạng neural thích hợp.
Đầu ra của một nơ ron được ánh xạ tới nhiều giá trị khác nhau trong NNR, do đó nó đảm bảo tính phí tuyến. Các nơ ron được kết nối tốt giúp dự đoán các giá trị đầu ra và thiết lập mối quan hệ giữa các biến phụ thuộc và độc lập.
Ưu điểm [6]:
- NN rất linh hoạt và có thể được sử dụng cho cả hồi quy và phân loại.
- NN rất tốt để lập mô hình với dữ liệu phi tuyến với số lượng đầu vào lớn.
- Sau khi được huấn luyện, NN dự đoán khá nhanh
- NN có thể được huấn luyện với bất kỳ số lượng đầu vào và lớp
- NN làm việc tốt nhất với các điểm dữ liệu (data points)
Nhược điểm [6]:
- NN là hộp đen, có nghĩa là chúng ta không biết mỗi biến độc lập đang ảnh hưởng đến biến phụ thuộc như thế nào
- Về mặt tính toán, đòi hỏi CPUs đủ tốt (chi phí cao) và cả thời gian huấn luyện lâu
- NN phụ thuộc nhiều vào dữ liệu huấn luyện. Điều này dẫn đến over-fitting và generalization. Chế độ này dựa nhiều vào training data và có thể được điều chỉnh theo dữ liệu.
4. Lasso Regression
LASSO là viết tắt của Least Absolute Selection Shrinkage Operator. Shrinkage được định nghĩa là một ràng buộc với các thuộc tính hoặc tham số.
Lasso hoạt động bằng cách tìm và áp dụng một ràng buộc đối với các thuộc tính của mô hình khiến cho hệ số hồi quy của một biến thu hẹp về 0.
Các biến có hệ số hồi quy bằng 0 sẽ bị loại khỏi mô hình
Do đó, Lasso regression về cơ bản là một phương pháp thu hẹp và lựa chọn biến số, và nó giúp xác định yếu tố dự báo nào là quan trọng nhất.
5. Decision tree regression (DTR)
DTR có thể được áp dụng cho tất cả những dữ loại kiểu số và kiểu categorical. DTR thực hiện rất tốt trong việc bắt các tương tác phi tuyến giữa các đối tượng và mục tiêu. DTR khá giống với tư duy của con người nên rất trực quan để hiểu dữ liệu. [4]
Vì thế, DT chính là cây mà mỗi node đại diện cho một feature, mỗi nhánh đại diện cho một quyết định và một lá đại diện cho một kết quả (giá trị số cho hồi quy)
6. Random Forest (RF)
RF cũng là một thuật toán sử dụng rất rộng rãi cho bài toán hồi quy phi tuyến trong ML. Không giống như DTR, RF sử dụng nhiều decision trees (DT) cho việc dự đoán đầu ra. Dữ liệu điểm ngẫu nhiên được lựa chọn từ tập dữ liệu đầu vào, và một cây quyết định được xây dựng với chúng. Sau đó, một số DT được lập mô hình để dự đoán giá trị của bất cứ điểm dữ liệu mới nào [2].
Vì có nhiều DT, nhiều giá trị output sẽ được dự đoán thông qua một rừng thuật toán ngẫu nhiên. Bạn phải tìm giá trị trung bình của tất cả các giá trị dự đoán cho một điểm dữ liệu mới để tính toán kết quả cuối cùng. Hạn chế duy nhất của RF là nó đòi hỏi dữ liệu đầu vào nhiều hơn để training. Điều này xảy ra do có số lượng lớn các DT được ánh xạ theo thuật toán này, vì nó đòi hỏi nhiều sức mạnh tính toán hơn.
7. KNN model
KNN = K Nearest Neighbours, cũng là một thuật toán phổ biến dùng cho hồi quy phi tuyến trong ML. KNN giả định rằng điểm dữ liệu mới tương tự với các điểm dữ liệu hiện có. Giá trị trung bình của K lân cận gần nhất được lấy làm đầu vào cho thuật toán này. Các điểm hàng xóm trong KNN được đưa ra một trọng số cụ thể xác định đóng góp của chúng vào giá trị trung bình. Khi xác định giá trị của của điểm dữ liệu mới thông qua KNN, những điểm lân cận gần nhất sẽ có trọng số cao hơn những điểm ở xa.
8. Support Vector Machines (SVM)
SVM có thể dùng tốt cho cả hồi quy tuyến tính và phi tuyến trong ML. Trong không gian đa chiều, khi chúng ta có nhiều hơn 1 biến để xác định đầu ra, thì mỗi điểm trong 2D sẽ thành một vector trong đa chiều. Điều cần lưu ý là SVM hoàn toàn không phù hợp để dự đoán các giá trị cho tập training lớn. Khi dữ liệu bị noise, SVM cũng thể hiện không tốt. [3]
---------------------------
Tài liệu tham khảo
[1] Dominik Polzer, 2021. 7 of the most used regression algorithms and how to choose the right one. Towardsdatascience. Link: https://towardsdatascience.com/7-of-the-most-commonly-used-regression-algorithms-and-how-to-choose-the-right-one-fc3c8890f9e3
[2] Ajay Ohri, 2022. 10 popular regression algorithms in ML of 2022. Jigsaw. https://www.jigsawacademy.com/popular-regression-algorithms-ml/
[3] Surbhi_22, 2021. A quick overview of regression algorithms in ML. Analytics Vidhya. https://www.analyticsvidhya.com/blog/2021/01/a-quick-overview-of-regression-algorithms-in-machine-learning/
[4] Gaurav Sharma, 2021. 5 regression algorithms you should know - Introductory guide!. Analytics Vidhya. https://www.analyticsvidhya.com/blog/2021/05/5-regression-algorithms-you-should-know-introductory-guide/
[5]. Gokul Elumalai, 2019. Pros and cons of common ML algorithms. Medium. https://medium.com/@gokul.elumalai/pros-and-cons-of-common-machine-learning-algorithms-45e05423264f
[6] Pros and cons of neural networks. https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781788397872/1/ch01lvl1sec27/pros-and-cons-of-neural-networks
[7] Genesis, 2018. Pros and Cons of KNN. https://www.fromthegenesis.com/pros-and-cons-of-k-nearest-neighbors/
Không có nhận xét nào: