Năm 2010, Drew Conway vẽ
giản đồ sau đây để mô tả ý tưởng liên hệ giữa 3 lĩnh vực: (1) Chuyên môn, (2)
Lập trình - dữ liệu và (3) Toán - Thống kê. Biểu đồ này còn cho phép chúng ta
phân ra 7 vùng và xác định 7 loại "khoa học gia" tương ứng với mỗi
vùng:
Vùng 1: Những người chỉ có
duy nhất kiến thức và kĩ năng trong chuyên ngành của mình. Thí dụ 1 bác sĩ lâm
sàng có kiến thức sinh lý bệnh học uyên thâm, kỹ năng khám, phẫu thuật xuất
sắc. Tuy nhiên ông ta không biết gì về thống kê học, và không có khả năng sử
dụng bất cứ phần mềm, công cụ phân tích dữ liệu nào.
Vùng này đông hơn các bạn
tưởng, bên trong nó chứa rất nhiều chuyên gia, giáo sư, trưởng khoa, kỹ sư ...
thậm chí những người có quyền lực rất cao về học thuật.
Vùng 2: Những kẻ mệnh danh
là Hacker máy tính, họ nói chuyện với máy tính bằng các dòng lệnh, thông thạo
ít nhất 1 ngôn ngữ lập trình, có tư duy giải quyết vấn đề theo thuật toán, sơ
đồ, giỏi khai thác dữ liệu nhưng KHÔNG có bất cứ kiến thức nào về Thống kê học
lẫn chuyên môn
Sự giao thoa giữa vùng 1 và
2 tạo ra 1 vùng rất nguy hiểm số 4: Những kẻ trong vùng này ngộ nhận là mình đã
có khả năng phân tích dữ liệu và vì có kiến thức chuyên ngành, họ sẽ dễ dàng
thiết kế nghiên cứu, thu thập số liệu, bật máy tính lên và chạy 1 phần mềm
thống kê và cho ra kết quả ngon lành, nhưng vì không có kiến thức thống kê, họ
sẽ chọn sai phương pháp và diễn đạt bậy bạ kết quả. Nguy hiểm hơn khi họ dùng
quyền lực và uy tín học thuật của mình để công bố kết quả nghiên cứu và đánh
lừa thiên hạ...
Nếu bạn cảm nhận mình đang
nằm trong vùng này, hãy cẩn trọng và nên học thêm về thống kê hoặc tư vấn
chuyên viên thống kê khi làm nghiên cứu.
Vùng số 3 gồm những người
học thống kê một cách bài bản như 1 nhánh của Toán ứng dụng, họ hiểu các khái
niệm về xác suất, mô hình, thuật toán thống kê và biết cách thực hiện cũng như
diễn giải chúng... Tuy nhiên dù giỏi đến đâu thì sức người vẫn có hạn... một
ngày nào đó những nhà thống kê học sẽ đối diện vấn đề phức tạp đến mức họ không
thể hình dung ra phương pháp giải quyết. Lúc này thế mạnh của vùng số 6 mới
được chú ý: Vùng số 6 biểu thị cho sự giao thoa giữa Toán, thống kê, khoa học
máy tính, lập trình và dữ liệu, một cách tổng quát, độc lập với chuyên ngành
khác. Vùng này chính là thứ được gọi là Machine Learning.
Giao thoa giữa vùng số 1 và
số 3 = vùng 5 chính là phần lớn thế giới học thuật truyền thống mà ta từng biết
từ hàng trăm năm nay, nơi tập trung hầu hết các nghiên cứu sinh, thạc sĩ, tiến
sĩ, giáo sư, ... các nhà khoa học chân chính vừa giỏi chuyên môn vừa có tư duy
kiến thức về thống kê. Nếu bạn đang ở trong vùng số 5 này, đó là điều rất tốt;
nhưng chưa đủ... vì khi không giỏi về thao tác lập trình và sử dụng máy tính,
bạn không có khả năng tự thực hiện những ý tưởng, giả thuyết của mình mà phải
phụ thuộc vào chuyên viên phân tích dữ liệu bên ngoài (những người ở vùng 2,4
hoặc 6)
Nếu bạn có đầy đủ cả 3 đặc
tính: giỏi chuyên môn, giỏi thống kê, và giỏi lập trình: Bạn đã trở thành
chuyên viên khoa học dữ liệu (vùng 7).
Nguồn: Sưu tầm
Other source: http://drewconway.com/.../3/26/the-data-science-venn-diagram
Không có nhận xét nào: