Bài viết này là của tác giả Akshita Chugh đăng trên Medium.com tại đường link
Bước quan trọng trong bất kỳ mô hình Machine Learning nào là đánh giá độ chính xác của mô hình đó. Các chỉ số MSE (Mean Square Error); MAE (Mean Absolute Error); RMSE (Root Mean Squared Error); R2 (R-Squared - còn được gọi là hệ số xác định) thường được sử dụng để đánh giá hiệu suất của mô hình trong phân tích hồi quy.
* MAE - Sai số tuyệt đối trung bình đại diện cho mức trung bình của sai khác tuyệt đối giữa giá trị thực tế và giá trị dự đoán trong tập dữ liệu. MAE đo mức trung bình của các phần còn lại trong tập dữ liệu
* MSE thể hiện mức trung bình của bình phương khác biệt giữa giá trị ban đầu và giá trị dự đoán trong tập dữ liệu. Nó đo phương sai của phần dư.
* Hệ số xác định R2 đại diện cho tỷ lệ của phương sai trong biến phụ thuộc được giải thích bằng mô hình hồi quy tuyến tính. Đây là điểm không có thang đo, tức là không phân biệt giá trị nhỏ hay lớn, nhưng R2 luôn nhỏ hơn 1.
* Hệ số R2 điều chỉnh (Adjusted R squared) là phiên bản sửa đổi của R2 và nó được điều chỉnh cho số lượng biến độc lập trong mô hình và luôn <= R2. Trong công thức sau đây, n là số quan sát trong dữ liệu và k là biến số độc lập trong dữ liệu
SỰ KHÁC BIỆT GIỮA CÁC HỆ SỐ
* MSE và RMSE phát hiện các lỗi dự đoán lớn thông qua MAE, tuy nhiên RMSE được sử dụng rộng rãi hơn MSE để đánh giá hiệu suất của mô hình hồi quy với các mô hình ngẫu nhiên khác vì nó có cùng đơn vị với biến phụ thuộc.
* MSE là một hàm có thể phân biệt giúp dễ dàng phát hiện các phép toán so với một hàm không phân biệt được như MAE. Do đó, trong nhiều mô hình, RMSE được sử dụng làm thước đo mặc định để tính toán hàm tổn thất (loss function) mặc dù khó diễn giải hơn MAE
*MAE mạnh hơn đối với dữ liệu ngoại biên (outliers)
* Giá trị của MAE, MSE và RMSE càng nhỏ thì mô hình hồi quy càng có độ chính xác cao. Tuy nhiên, R2 càng cao thì mới thể hiện điều mong muốn của mô hình
* R2 và R2 điều chỉnh được sử dụng để giải thích các biến độc lập trong mô hình hồi quy tuyến tính thay đổi trong biến phụ thuộc tốt như thế nào. Giá trị R2 luôn tăng khi bổ sung các biến độc lập, điều nay dẫn đến việc bổ sung các biến dư thừa trong mô hình của chúng ta. Tuy nhiên, R2 điều chỉnh lại có thể giải quyết được vấn đề này.
* R2 điều chính có tính đến số lượng biến dự báo và nó được sử dụng để xác định số lượng biến độc lập trong mô hình của chúng ta. Giá trị của R2 điều chỉnh sẽ giảm nếu độ tăng của R2 khi bổ sung biến không đủ đáng kể.
* Để so sánh độ chính xác giữa các mô hình hồi quy tuyến tính khác nhau, RMSE là sự lựa chọn tốt hơn R2
KẾT LUẬN
Nếu so sánh độ chính xác giữa các mô hình hồi quy tuyến tính thì RMSE là lựa chọn tốt vì nó tính toán đơn giản và có thể phân biệt được. Tuy nhiêu, nếu tập dữ liệu có các ngoại biên (outliers) thì hãy chọn MAE thay vì RMSE.
Ngoài ra, số lượng biến dự báo trong mô hình hồi quy tuyến tính được xác định bằng R2 điều chỉnh và chọn RMSE thay vì R2 điều chỉnh nếu bạn quan tâm đến việc đánh giá độ chính xác của dự đoán giữa các mô hình tuyến tính khác nhau.
MAE, MSE, RMSE, R2 — Hệ số nào tốt hơn?
Reviewed by VinhHD
on
15:50
Rating:
Không có nhận xét nào: