Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Khai phá Dữ liệu

Khám phá các kỹ thuật và ứng dụng khai thác dữ liệu. Tìm hiểu cách trích xuất thông tin chi tiết, xác định các mẫu và tối ưu hóa quy trình làm việc của AI bằng cách sử dụng Ultralytics YOLO26.

Khai thác dữ liệu là quá trình khám phá và phân tích các khối thông tin lớn để tìm ra các mẫu và xu hướng có ý nghĩa. Nó nằm ở giao điểm của thống kê, học máy (ML) và hệ thống cơ sở dữ liệu, đóng vai trò là bước quan trọng trong quy trình "Khám phá tri thức trong cơ sở dữ liệu" (KDD). Bằng cách sàng lọc lượng lớn dữ liệu thô, khai thác dữ liệu biến đổi nhiễu không cấu trúc thành những thông tin chi tiết có cấu trúc, có thể hành động được mà các doanh nghiệp và nhà nghiên cứu sử dụng để đưa ra quyết định sáng suốt.

Trong bối cảnh trí tuệ nhân tạo (AI) hiện đại, khai thác dữ liệu thường là tiền đề cho mô hình dự đoán. Trước khi một thuật toán có thể dự đoán tương lai, nó phải hiểu quá khứ. Ví dụ, trong thị giác máy tính (CV) , các kỹ thuật khai thác có thể phân tích hàng nghìn hình ảnh để xác định các đặc điểm chung—như cạnh, kết cấu hoặc hình dạng—xác định một lớp đối tượng cụ thể, tạo nền tảng cho việc huấn luyện các tập dữ liệu mạnh mẽ.

Các kỹ thuật chính trong khai thác dữ liệu

Khai thác dữ liệu dựa trên một số phương pháp phức tạp để khám phá các mối quan hệ ẩn giấu trong dữ liệu. Những kỹ thuật này cho phép các nhà phân tích vượt ra khỏi việc tóm tắt dữ liệu đơn thuần để tiến tới khám phá sâu sắc hơn.

  • Phân loại : Quá trình này bao gồm việc phân loại các mục dữ liệu thành các nhóm hoặc lớp được xác định trước. Trong trí tuệ nhân tạo thị giác, điều này phản ánh quá trình huấn luyện một mô hình để phân biệt giữa "ô tô" và "người đi bộ" dựa trên các ví dụ đã được gắn nhãn trong quá khứ.
  • Phân tích cụm : Khác với phân loại, phân cụm nhóm các điểm dữ liệu dựa trên sự tương đồng mà không cần nhãn được xác định trước. Điều này rất cần thiết cho học không giám sát , nơi thuật toán có thể tự động nhóm các hành vi mua hàng của khách hàng hoặc các kết cấu hình ảnh tương tự. Bạn có thể tìm hiểu thêm về các phương pháp phân cụm trong tài liệu của Scikit-learn .
  • Phát hiện bất thường : Kỹ thuật này xác định các điểm dữ liệu lệch đáng kể so với chuẩn mực. Nó rất quan trọng trong việc phát hiện gian lận trong lĩnh vực tài chính hoặc tìm kiếm các lỗi sản xuất trên dây chuyền sản xuất.
  • Học luật liên kết: Phương pháp này khám phá các mối quan hệ giữa các biến trong cơ sở dữ liệu. Một ví dụ kinh điển là phân tích giỏ hàng , mà các nhà bán lẻ sử dụng để xác định rằng khách hàng mua bánh mì cũng có khả năng mua bơ.
  • Phân tích hồi quy : Được sử dụng để dự đoán một giá trị số liên tục dựa trên các biến khác, hồi quy rất quan trọng để dự báo xu hướng bán hàng hoặc ước tính khoảng cách của một vật thể trong các nhiệm vụ ước lượng chiều sâu .

Các Ứng dụng Thực tế

Ứng dụng của khai thác dữ liệu trải rộng hầu hết mọi ngành công nghiệp, thúc đẩy hiệu quả và đổi mới bằng cách phát hiện ra các mô hình mà mắt thường không thể nhìn thấy.

Sản xuất và Kiểm soát chất lượng

Trong sản xuất thông minh , khai thác dữ liệu được sử dụng để phân tích dữ liệu cảm biến từ máy móc. Bằng cách áp dụng các thuật toán bảo trì dự đoán , các nhà máy có thể dự đoán sự cố thiết bị trước khi chúng xảy ra. Hơn nữa, các mô hình thị giác máy tính như YOLO26 có thể tạo ra nhật ký suy luận được khai thác để xác định các loại lỗi lặp lại, giúp các kỹ sư điều chỉnh quy trình sản xuất để giảm thiểu lãng phí.

Chẩn đoán chăm sóc sức khỏe

Khai thác dữ liệu đang cách mạng hóa ngành chăm sóc sức khỏe bằng cách phân tích hồ sơ sức khỏe điện tử và hình ảnh y tế. Các nhà nghiên cứu khai thác dữ liệu gen để tìm ra mối liên hệ giữa các trình tự gen cụ thể và bệnh tật. Trong lĩnh vực X quang, việc khai thác các tập dữ liệu lớn về tia X giúp xác định các dấu hiệu sớm của các bệnh như viêm phổi hoặc khối u, hỗ trợ phân tích hình ảnh y tế .

Phân biệt các thuật ngữ liên quan

Để hiểu đầy đủ về khai thác dữ liệu, điều hữu ích là phân biệt nó với các khái niệm có liên quan chặt chẽ trong lĩnh vực khoa học dữ liệu.

  • Khai thác dữ liệu so với học máy : Mặc dù có sự chồng chéo, khai thác dữ liệu tập trung vào việc khám phá các mẫu hiện có, trong khi học máy tập trung vào việc sử dụng các mẫu đó để học và dự đoán kết quả trong tương lai. Khai thác thường là giai đoạn khám phá, cung cấp thông tin cho việc thiết kế đặc trưng cho các mô hình học máy.
  • Khai thác dữ liệu so với trực quan hóa dữ liệu : Trực quan hóa là việc biểu diễn dữ liệu bằng đồ thị (biểu đồ, đồ thị). Khai thác dữ liệu là quá trình phân tích tạo ra những thông tin chi tiết cần được trực quan hóa. Các công cụ như Tableau thường trực quan hóa kết quả của quá trình khai thác dữ liệu.
  • Khai thác dữ liệu so với Kho dữ liệu : Kho dữ liệu liên quan đến việc lưu trữ và quản lý tập trung một lượng lớn dữ liệu từ nhiều nguồn khác nhau. Khai thác là quá trình được thực hiện trên dữ liệu đã được lưu trữ để trích xuất giá trị.

Khai thác dữ liệu trong thực tiễn với Ultralytics

Trong quy trình làm việc của thị giác máy tính, "khai thác dữ liệu" thường xảy ra khi phân tích kết quả suy luận để tìm ra các phát hiện có giá trị cao hoặc các trường hợp ngoại lệ khó xử lý. Quá trình này được tối ưu hóa bằng cách sử dụng Nền tảng Ultralytics , giúp quản lý và phân tích các tập dữ liệu.

Ví dụ sau đây minh họa cách "khai thác" một tập hợp hình ảnh để tìm ra các phát hiện có độ tin cậy cao bằng cách sử dụng mô hình YOLO26 . Điều này mô phỏng quá trình lọc các luồng dữ liệu khổng lồ để tìm ra các sự kiện liên quan.

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

Đoạn trích này minh họa một thao tác khai thác cơ bản: lọc các dự đoán thô để trích xuất một tập con quan tâm—hình ảnh chứa người được xác định với độ chắc chắn cao—sau đó có thể được sử dụng cho học tập chủ động để cải thiện hơn nữa hiệu suất của mô hình.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay