Thuật ngữ

Khai thác dữ liệu

Khám phá cách khai thác dữ liệu chuyển đổi dữ liệu thô thành thông tin chi tiết hữu ích, hỗ trợ AI, ML và các ứng dụng thực tế trong chăm sóc sức khỏe, bán lẻ, v.v.!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Khai thác dữ liệu là quá trình khám phá các mô hình, xu hướng và thông tin chi tiết có giá trị ẩn trong các tập dữ liệu lớn. Quá trình này sử dụng kết hợp các phương pháp thống kê, thuật toán học máy (ML) và hệ thống cơ sở dữ liệu để chuyển đổi dữ liệu thô thành thông tin dễ hiểu và có thể hành động. Quá trình này là nền tảng của trí tuệ nhân tạo (AI) , cung cấp nền tảng để xây dựng các mô hình dự đoán và cho phép ra quyết định dựa trên dữ liệu trên nhiều lĩnh vực khác nhau. Khai thác dữ liệu hiệu quả giúp các tổ chức tối ưu hóa quy trình, hiểu hành vi của khách hàng và xác định các cơ hội mới bằng cách khám phá các mối quan hệ có thể không rõ ràng thông qua phân tích dữ liệu đơn giản.

Các kỹ thuật chính trong khai thác dữ liệu

Khai thác dữ liệu sử dụng nhiều kỹ thuật khác nhau để trích xuất các loại thông tin khác nhau:

  • Phân loại: Gán các mục trong một bộ sưu tập cho các danh mục hoặc lớp mục tiêu. Mục tiêu là dự đoán chính xác lớp mục tiêu cho từng trường hợp trong dữ liệu (ví dụ: dự đoán tỷ lệ khách hàng bỏ đi). Điều này thường liên quan đến các phương pháp học có giám sát .
  • Phân cụm: Nhóm các điểm dữ liệu tương tự lại với nhau mà không cần biết trước về các nhóm. Các thuật toán như K-Means hoặc DBSCAN giúp xác định các nhóm tự nhiên trong dữ liệu, một ví dụ về học không giám sát .
  • Hồi quy: Dự đoán giá trị liên tục (ví dụ: dự đoán giá nhà dựa trên các đặc điểm như kích thước và vị trí). Nó mô hình hóa mối quan hệ giữa các biến.
  • Khai thác quy tắc liên kết: Khám phá mối quan hệ giữa các biến trong cơ sở dữ liệu lớn, thường được sử dụng để phân tích giỏ hàng (ví dụ: phát hiện ra rằng những khách hàng mua bánh mì cũng có xu hướng mua sữa).
  • Phát hiện bất thường : Xác định các điểm dữ liệu hoặc sự kiện khác biệt đáng kể so với chuẩn mực, rất quan trọng cho các ứng dụng như phát hiện gian lận hoặc xác định lỗi trong sản xuất .

Khai thác dữ liệu so với các thuật ngữ liên quan

Mặc dù có liên quan, khai thác dữ liệu khác với các ngành tập trung vào dữ liệu khác:

  • Phân tích dữ liệu: Tập trung nhiều hơn vào thống kê mô tả, báo cáo và trực quan hóa dữ liệu để hiểu hiệu suất trong quá khứ và xu hướng hiện tại. Khai thác dữ liệu thường đi xa hơn, nhấn mạnh vào mô hình dự đoán và khám phá mẫu.
  • Học máy (ML): Cung cấp các thuật toán và công cụ được sử dụng trong khai thác dữ liệu để tìm các mẫu và xây dựng mô hình. Khai thác dữ liệu là quá trình rộng hơn trong việc áp dụng các phương pháp này (và các phương pháp khác) để trích xuất kiến thức từ dữ liệu. Nhiều tác vụ ML, như phân loại hình ảnh , là các ứng dụng được kích hoạt bởi các nguyên tắc khai thác dữ liệu áp dụng cho dữ liệu trực quan.
  • Dữ liệu lớn : Chỉ các tập dữ liệu cực lớn đòi hỏi các công cụ và kỹ thuật chuyên biệt để xử lý. Các kỹ thuật khai thác dữ liệu thường được áp dụng cho Dữ liệu lớn để trích xuất thông tin chi tiết, nhưng bản thân khai thác dữ liệu có thể được thực hiện trên các tập dữ liệu có bất kỳ kích thước nào. Phương pháp CRISP-DM cung cấp một mô hình quy trình chuẩn cho các dự án khai thác dữ liệu.

Ứng dụng thực tế của khai thác dữ liệu

Các kỹ thuật khai thác dữ liệu thúc đẩy sự đổi mới và hiệu quả trong nhiều lĩnh vực. Sau đây là hai ví dụ:

  1. Phân tích giỏ hàng bán lẻ: Các siêu thị sử dụng khai thác quy tắc liên kết trên dữ liệu giao dịch để hiểu thói quen mua sắm. Phát hiện ra rằng khách hàng thường mua khoai tây chiên và soda cùng nhau có thể dẫn đến việc đặt những mặt hàng này gần nhau hoặc cung cấp các chương trình khuyến mãi theo gói, như đã thảo luận trong các chiến lược AI trong bán lẻ .
  2. Chẩn đoán dự đoán chăm sóc sức khỏe: Các bệnh viện và nhà nghiên cứu áp dụng các kỹ thuật phân loại và phân cụm vào dữ liệu bệnh nhân (triệu chứng, tiền sử, kết quả xét nghiệm) để dự đoán khả năng mắc các bệnh như tiểu đường hoặc bệnh tim. Điều này hỗ trợ phát hiện sớm và lập kế hoạch điều trị cá nhân hóa, một khía cạnh quan trọng của AI trong chăm sóc sức khỏe . Ví dụ, các kỹ thuật tương tự như các kỹ thuật được sử dụng để phát hiện khối u trong hình ảnh y tế phụ thuộc rất nhiều vào các mẫu được khai thác từ các tập dữ liệu y tế khổng lồ.

Khai thác dữ liệu và Ultralytics

Tại Ultralytics , các nguyên tắc khai thác dữ liệu hỗ trợ nhiều khía cạnh của việc phát triển và triển khai các mô hình thị giác máy tính (CV) hiện đại như Ultralytics YOLO . Việc đào tạo các mô hình mạnh mẽ cho các tác vụ như phát hiện đối tượng hoặc phân đoạn hình ảnh đòi hỏi dữ liệu chất lượng cao, được hiểu rõ. Các kỹ thuật khai thác dữ liệu là cần thiết trong quá trình xử lý trước dữ liệuthu thập dữ liệu và chú thích để làm sạch dữ liệu, xác định độ lệch ( độ lệch tập dữ liệu ) và chọn các tính năng có liên quan, cuối cùng là cải thiện độ chính xác của mô hình.

Hơn nữa, Ultralytics HUB cung cấp một nền tảng nơi người dùng có thể quản lý các tập dữ liệu và đào tạo các mô hình. Các công cụ trong hệ sinh thái HUB tạo điều kiện thuận lợi cho việc khám phá và hiểu các tập dữ liệu, cho phép người dùng áp dụng các khái niệm khai thác dữ liệu để tối ưu hóa quy trình làm việc ML của riêng họ và tận dụng các kỹ thuật như tăng cường dữ liệu một cách hiệu quả. Hiểu dữ liệu thông qua khai thác là rất quan trọng trước khi thực hiện các bước như điều chỉnh siêu tham số . Bạn có thể tìm hiểu thêm về vai trò của máy học và khai thác dữ liệu trong thị giác máy tính trong blog của chúng tôi.

Đọc tất cả