CRISP-DM là một phương pháp phổ biến tuân theo cách tiếp cận cấu trúc end – to – end tiêu chuẩn để giải quyết vấn đề đòi hỏi khoa học dữ liệu. Chính xác hơn, CRISP-DM hoặc “Quy trình tiêu chuẩn liên ngành đối với khai thác dữ liệu” được dùng để tập trung vào phần khai thác dữ liệu của hoạt động. Các ngành công nghiệp và doanh nghiệp đã sử dụng các phương pháp tiếp cận dựa trên học máy (machine learning) trong một vài năm nay. Tuy nhiên, theo báo cáo năm 2019 cho thấy rằng 85% dự án AI sẽ không đưa ra kết quả đúng vì những lý do như chất lượng thấp, thiếu quy trình phát triển và ít chức năng hơn trong các ứng dụng thế giới thực, cùng những lý do khác.
Một số ví dụ điển hình như IBM Watson AI Health dù đã chi 62 triệu nhưng vẫn bị hủy bỏ vào năm 2019 do đưa ra khuyến nghị sai về phương pháp điều trị ung thư. Hay trường hợp khác là xe tự lái năm 2018 của Uber đã giết một phụ nữ ở Arizona… Do những vấn đề này, các công ty đã bắt đầu sử dụng các phương pháp thay thế trong các ứng dụng machine learning của họ. Đây cũng là lúc CRISP-DM phát huy tác dụng. Việc sử dụng phương pháp này đã thúc đẩy sự tăng trưởng theo cấp số nhân trong một vài năm nay.
Mục lục
Vậy CRISP-DM hoạt động như thế nào?
CRISP-DM là khung biểu thị dự án khai thác dữ liệu và đưa ra các hoạt động cần thực hiện để hoàn thành một sản phẩm hoặc dịch vụ. Các hoạt động bao gồm sáu giai đoạn, đó là:
- Thấu hiểu Doanh nghiệp (Business Understanding)
- Thấu hiểu Dữ liệu (Data Understanding)
- Chuẩn bị Dữ liệu (Data Preparation)
- Lập mô hình (Modeling)
- Đánh giá (Evaluation)
- Triển khai (Deployment)
Việc hoàn thành thành công một giai đoạn sẽ khởi tạo việc thực hiện hoạt động tiếp theo. Ngoài ra, phương pháp này sẽ yêu cầu việc xem lại các bước trước đó và lặp lại các bước cho đến khi đáp ứng các tiêu chí thành công hoặc hoàn thành.
Tại sao nên sử dụng CRISP-DM?
Khoa học dữ liệu đòi hỏi một cách tiếp cận theo định hướng giải pháp từ trên xuống (top-down approach) để giải quyết vấn đề. Theo khảo sát tuyển dụng Data Science mới nhất, các vị trí việc làm trong ngành Data Science và Analytics xuất hiện nhiều nhất vào tháng 2 – 3 năm 2020, với 113.000 trong tuần đầu tiên tháng 3 và tăng đều đặn từ con số 97.000 trong năm 2019.
Trong lĩnh vực khoa học, dữ liệu đóng một vai trò rất quan trọng và các quy trình như khai thác dữ liệu giúp khám phá được nhiều insight hữu ích, trích xuất các mẫu và xác định mối quan hệ từ các tập dữ liệu lớn. CRISP-DM được thiết kế để không phụ thuộc vào lĩnh vực cụ thể và đã được sử dụng rộng rãi bởi các cộng đồng nghiên cứu và trong công nghiệp.
Chính những đặc điểm khác biệt này đã làm cho CRISP-DM trở thành là một tiêu chuẩn ‘thực tế’ của phương pháp khai thác dữ liệu và là một khung tham chiếu chuẩn cho các phương pháp khác. Một trong những yếu tố quan trọng của việc sử dụng phương pháp này trong Data Science là sự tiêu chuẩn liên ngành có thể dùng trong triển khai bất kỳ dự án Khoa học dữ liệu trong bất kể lĩnh vực nào. Đây cũng là một phương pháp đáng tin cậy để phát triển các giải pháp cho các vấn đề liên quan đến dữ liệu của doanh nghiệp. Ngoài ra, cách tiếp cận linh hoạt và lặp lại của phương pháp này còn tạo nên giải pháp thay thế trong tương lai cho bất kỳ ai muốn giải quyết các vấn đề liên quan đến Data Science.
Vậy lợi ích của việc sử dụng CRISP-DM là gì?
Đây là một phương pháp rất tiết kiệm chi phí vì đã bao gồm một số quy trình thực hiện các nhiệm vụ khai thác dữ liệu đơn giản. CRISP-DM cũng khuyến khích các phương thức thực hành hay nhất và cho phép các dự án nhân rộng. Phương pháp còn cung cấp một khuôn khổ thống nhất để lập kế hoạch và quản lý một dự án. Là một tiêu chuẩn liên ngành, CRISP-DM có thể được triển khai trong mọi dự án Khoa học dữ liệu, bất kể lĩnh vực nào của doanh nghiệp.
Tóm lại,
CRISP-DM đang trở thành quy trình tiêu chuẩn công nghiệp thực tế để khai thác dữ liệu, với số lượng ứng dụng ngày càng tăng, chẳng hạn như chẩn đoán chất lượng, bảo hành và các ứng dụng khác.
Tuy nhiên, gần đây, một nhóm các nhà nghiên cứu AI từ Viện Thông tin Max Planck và những người khác đã tìm ra hai điểm thiếu sót trong mô hình CRISP-DM. Đầu tiên, CRISP-DM không bao gồm viễn cảnh mô hình machine learning được duy trì dưới dạng ứng dụng. Và thứ hai, CRISP-DM thiếu hướng dẫn về phương pháp đảm bảo chất lượng. Để giảm thiểu những vấn đề như vậy, các nhà nghiên cứu đã đề xuất thêm CRISP-ML(Q) hoặc “Quy trình tiêu chuẩn liên ngành để phát triển các ứng dụng máy học với phương pháp đảm bảo chất lượng”.
CRISP-ML(Q) là một mô hình quy trình cho các ứng dụng machine learning với phương pháp đảm bảo chất lượng, giúp các công ty tăng hiệu quả và tỷ lệ thành công trong các dự án machine learning của họ. Phương pháp CRISP-ML(Q) cũng bao gồm sáu giai đoạn cơ bản và mở rộng thêm một giai đoạn bảo trì bổ sung. Nó hướng dẫn những người thực hành máy học trong toàn bộ vòng đời phát triển máy học, cung cấp các phương pháp định hướng chất lượng cho mọi giai đoạn và nhiệm vụ trong quy trình lặp lại bao gồm bảo trì và giám sát.
Nếu bạn muốn tìm hiểu chi tiết về mô hình CRISP-DM, hãy tham khảo nội dung khoá học “Data Analytics for Insights”.