1. Hiểu được khái niệm cơ bản về ML và phân tích không gian
2. Biết được ML thông thường và ML trong phân tích không gian
Nếu bạn là một người sử dụng ML, bài viết sẽ giới thiệu về GIS và cách kết hợp ML với GIS. Nếu bạn là người sử dụng GIS, bài viết sẽ giới thiệu về ML cơ bản trước khi khám phá thêm về ML trong phân tích không gian.
(Bài này được lược dịch sang tiếng Việt từ bài viết của tác giả Rendyk đăng trên Anlytics Vidhya ngày 20/3/3021, link bài gốc tại đây https://www.analyticsvidhya.com/blog/2021/03/introducing-machine-learning-for-spatial-data-analysis/)
Machine learning
Chúng ta sẽ bắt đầu bằng việc hiểu cơ bản về ML. Nếu bạn đã hiểu khái niệm cơ bản của ML, bạn nên bỏ qua mục này. ML được sử dụng để xây dựng một môt hình hoặc 1 cái máy bằng cách dạy nó học từ một tập dữ liệu đủ lớn. Trong bài viết này, chúng ta sẽ chỉ nói một vài ví dụ về dữ liệu bảng biểu và dữ liệu không gian, không nói thêm ví dụ về dữ liệu ảnh hay text. Có 3 loại về ML, nhưng trong bài này chỉ tập trung về học có giám sát và học không giám sát (supervised/ unsupervised learning)
Trong học có giám sát (supervised learning), chúng ta cần có tập dữ liệu training và tập dữ liệu testing. Hai tập này được ví dụ trong bảng với các cột là biến và hàng là dữ liệu quan sát. Trong đó, có 1 cột là biến độc lập và các cột còn lại là biến phụ thuộc. Chúng ta huấn luyện mô hình thông qua tập training để mô hình học được quy luật của biến phụ thuộc nhằm dự đoán biến độc lập.
Dữ liệu kiểm tra, chỉ gồm các biến phụ thuộc mà không có biến độc lập. Chúng ta sử dụng mô hình ML đã được huấn luyện để dự đoán biến độc lập còn thiếu trong tập testing.
Supervised learning bao gồm dự đoán hồi quy và dự đoán phân loại (regression and classification). Để dự đoán mục tiêu là dữ liệu liên tục, chúng ta sử dụng regression. Còn để dự đoán dữ liệu categorical, chúng ta sử dụng classification.Học không giám sát (unsupervised learning), sử dụng cho tập dữ liệu không có biến độc lập (biến mục tiêu). Học không giám sát nhằm mục tiêu đơn giản hóa tập dữ liệu lớn dựa vào sự giống nhau của các quan sát và các biến quan trọng.
Có 2 kiểu hoạc không giám sát: Phân cụm (clustering) và giảm chiều dữ liệu (dimensionality reduction). Phân cụm các quan sát thành một số cụm có tính chất tương tự nhau. Giảm chiều dữ liệu tính toán cách làm thế nào để các biến có thể phân biệt được các quan sát, các biến có giá trị gần giống nhau hoặc tương quan lớn với nhau thường bị loại bỏ vì chúng không đóng vai trò quan trọng trong mẫu.
Phân tích dữ liệu không gian
Dữ liệu không gian, về thực chất cũng giống như dữ liệu bảng, nhưng nó nó có chứa thêm thuộc tính không gian. Nói cách khác, mỗi quan sát đều có một vị trí trong thế giới thực. Nghĩa là chúng có kinh độ, vĩ độ, diện tích, chu vi, tâm, hay độ dài. Một nhóm các features có thể có mật độ, khoảng cách và trung tâm. Vì có thuộc tính không gian, chúng ta có thể phân tích không gian hoặc làm các thao tác hình học như clip, erase, buffer, union, interpolation...
Machine learning trong phân tích không gian
Chúng ta có thể sử dụng ML để phân tích hồi quy, phân loại hoặc phân cụm cho dữ liệu không gian. Một trong những công cụ thường xuyên được sử dụng trong GIS là nội suy (interpolation). Thực thế, phân tích hồi quy trong dữ liệu không gian chính là nội suy bởi vì chúng ta muốn dự đoán giá trị chưa biết của area từ các point có giá trị đã biết.
Công cụ phổ biến để interpolation là Kriging. Trong ML, để interpolate, chúng ta có thể sử dụng tool Empirical Bayesian Kriging (EBK). Kriging thông thường chỉ dùng cho mô hình bán đơn biến để dự đoán giá trị chưa biết, còn EBK dự đoán giá trị chưa biết sử dụng đa biến và quy tắc Bayesian.
Một số thuật toán khác sử dụng trong nội suy không gian như Ordinary Least Squares (OLS) Regression and Geographically Weighted Regression (GWR)
ML trong phân tích nội suy
Các thuật toán hồi quy ML thông thường như Linear regresion, tree-based regression hay Support Vector Machine regression, có thể dự báo biến mục tiêu dựa vào các biến độc lập, nhưng không thể cho kết quả những biến mục tiêu trong khoảng cách ngắn có giá trị tương tự nhau. Giá nhà ở những khu vực gần nhau thường tương tự nhau. Nội suy không gian tuân theo quy luật địa lý đầu tiên do Tobler viện dẫn "những thứ ở gần có liên quan nhiều hơn những thứ ở xa".
Nhiệm vụ thứ 2 của ML là phân loại. Trong ML thông thường, chúng ta đều biết đến các thuật toán như Maximum likelihood, Support Vector Machine (SVM), và Decision Tree (DT). Nhiệm vụ phổ biến của ML trong phân loại không gian là phân loại sử dụng đất (LULC) từ ảnh vệ tinh.
Một phân tích không gian khác sử dụng ML là phân cụm. Trong ML thông thường, chúng ta có thể phân nhóm một lượng lớn dữ liệu thành một vài các cụm dựa vào sự tương tự nhau của các biến. Chúng ta có thể làm tương tự như thế cho dữ liệu không gian. Nhưng, vì là dữ liệu không gian có tính tương tự nhau đối với các thứ gần nhau, nên chúng ta xem xét phân cụm đa biến bị ràng buộc theo không gian (Spatially Constrained Multivariate Clustering). "Ràng buộc theo không gian" đảm bảo rằng, mỗi cụm sẽ được nhóm theo một số đa giác liền kề. Những đa giác trong cụng một cụm không thể tách rời.
Nếu chúng ta muốn xem nơi nào tập trung giá trị cao hay thấp, chúng ta có thể sử dụng Hot Spot Analysis. Hot Spot Analysis nhóm các polygons thành các cụm để chỉ ra nơi tập trung giá trị cao/thấp. Hình ảnh bên dưới chỉ ra cách các polygons được nhóm thành cụm bằng 3 công cụ khác nhau.
Đối với points, density-based clustering là công cụ ML được dùng để phân cụm. Công cụ này nhóm một số các điểm theo mật độ của chúng. Một số điểm có mật độ cao được nhóm thành một cụm khác nhau. Hình ảnh bên dưới phân cụm dựa vào mật độ không gian của các điểm, cái này tương tự như DBSCAN trong ML.
Đối với raster, chúng ta có thể phân cụm sử dụng "image segmentation". Tool này phân đoạn các đối tượng trong một ảnh, thường là từ ảnh vệ tinh hoặc ảnh hàng không. Trong ML, chúng ta phân tách đối tượng, như người, cây cối, nhà cửa trong bức ảnh ra từ nhiều góc độ. Trong phân tích không gian, chúng ta thường phân tách các đối tượng từ một góc đứng (ảnh vệ tinh chụp vuông góc xuống mặt đất). Do đó, kết quả phân tách có thể sử dụng để lập bản đồ.
Machine learning cũng được dùng trong phân tích không gian là khai thác theo không gian - thời gian. Nghĩa là phân tích tổ hợp dữ liệu theo không gian và thời gian cũng một lúc. Dữ liệu được minh họa dưới đây theo khối 3D. Trục x và y đại diện cho kích thước không gian và trục z là chuỗi thời gian. Phân tích như thế giúp chúng ta có thể kiểm tra theo thời gian khu vực nào có giá trị tăng, hoặc giảm hoặc không đổi.Kết luận
ML xây dựng một mô hình dự đoán từ các nhiệm vụ hồi quy, phân loại và phân cụm. Dữ liệu không gian, không giống như dữ liệu bảng biểu, chúng có chứa thuộc tính không gian và các giá trị đều có liên quan đến nhau. ML trong phân tích không gian xây dựng một mô hình dự báo, phân loại, hoặc phân cụm một ví trí chưa biết dựa vào ví trí đã biết bằng cách tính đến thuộc tính không gian.
Không có nhận xét nào: