Thuật ngữ

Phân tích dữ liệu

Khám phá cách phân tích dữ liệu thúc đẩy thành công của AI và ML bằng cách tối ưu hóa chất lượng dữ liệu, khám phá thông tin chi tiết và cho phép đưa ra quyết định thông minh.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân tích dữ liệu bao gồm việc kiểm tra tính toán dữ liệu hoặc số liệu thống kê một cách có hệ thống. Nó bao gồm các quy trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích, đưa ra kết luận và hỗ trợ ra quyết định sáng suốt. Trong lĩnh vực trí tuệ nhân tạo (AI)học máy (ML) , phân tích dữ liệu là nền tảng để chuẩn bị các tập dữ liệu, hiểu các đặc điểm dữ liệu thông qua các kỹ thuật như Phân tích dữ liệu thăm dò (EDA) , trích xuất các tính năng có ý nghĩa và đánh giá hiệu suất mô hình. Phân tích nghiêm ngặt này cuối cùng góp phần xây dựng các hệ thống AI mạnh mẽ và đáng tin cậy hơn, bao gồm các mô hình tinh vi như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng .

Sự liên quan của phân tích dữ liệu trong AI và học máy

Phân tích dữ liệu đóng vai trò là nền tảng cho các dự án AI và ML thành công. Trước khi đào tạo các mô hình phức tạp, dữ liệu thô cần được phân tích kỹ lưỡng. Điều này bao gồm các bước quan trọng như làm sạch dữ liệu để giải quyết lỗi và sự không nhất quán, và xử lý trước dữ liệu để định dạng dữ liệu phù hợp cho các thuật toán. Các kỹ thuật như EDA, thường được tăng cường bằng cách trực quan hóa dữ liệu bằng các công cụ như Seaborn , giúp tiết lộ các mô hình, cấu trúc, giá trị ngoại lệ và độ lệch tiềm ẩn trong dữ liệu . Hiểu sâu sắc về các khía cạnh này là rất quan trọng để lựa chọn các mô hình phù hợp, đảm bảo chất lượng dữ liệu và đạt được đào tạo hiệu quả, thường được quản lý trong các nền tảng như Ultralytics HUB .

Hơn nữa, phân tích dữ liệu vẫn là yếu tố cần thiết sau khi đào tạo mô hình. Đánh giá hiệu suất mô hình bao gồm việc phân tích kết quả dự đoán so với dữ liệu thực tế bằng các số liệu như độ chính xác hoặc Độ chính xác trung bình trung bình (mAP) . Bạn có thể tìm hiểu thêm về số liệu hiệu suất YOLO trong hướng dẫn của chúng tôi . Quy trình phân tích này giúp xác định điểm yếu của mô hình, hiểu các loại lỗi (thường được hình dung bằng ma trận nhầm lẫn ) và hướng dẫn cải tiến thông qua các phương pháp như điều chỉnh siêu tham số hoặc khám phá các kiến trúc mô hình khác nhau. Các khuôn khổ như PyTorchTensorFlow , cùng với các thư viện như Pandas để thao tác dữ liệu, là những công cụ phổ biến trong quy trình này.

Phân tích dữ liệu so với các khái niệm liên quan

Mặc dù có liên quan, phân tích dữ liệu khác với một số thuật ngữ khác:

  • Khai thác dữ liệu : Tập trung chủ yếu vào việc khám phá các mẫu và mối quan hệ mới , chưa từng biết đến trong các tập dữ liệu lớn. Phân tích dữ liệu thường liên quan đến việc phân tích các khía cạnh dữ liệu đã biết hoặc kiểm tra các giả thuyết cụ thể, mặc dù nó có thể bao gồm khám phá thăm dò. Tìm hiểu thêm về vai trò của khai thác dữ liệu trong thị giác máy tính .
  • Học máy (ML) : Sử dụng thuật toán để học từ dữ liệu (thường được chuẩn bị và phân tích thông qua phân tích dữ liệu) để đưa ra dự đoán hoặc quyết định mà không cần lập trình rõ ràng. Phân tích cung cấp thông tin chi tiết và dữ liệu đã chuẩn bị mà các mô hình ML sử dụng. ML là phương pháp để đạt được AI, trong khi phân tích dữ liệu là quy trình áp dụng cho dữ liệu.
  • Dữ liệu lớn : Chỉ các tập dữ liệu cực lớn và phức tạp. Phân tích dữ liệu là quá trình trích xuất giá trị và thông tin chi tiết từ dữ liệu, bất kể dữ liệu đó có đủ tiêu chuẩn là "dữ liệu lớn" hay không. Phân tích dữ liệu lớn áp dụng các kỹ thuật phân tích cụ thể cho các tập dữ liệu lớn này.
  • Data Visualization : Là biểu diễn đồ họa của dữ liệu và thông tin. Đây là công cụ chính được sử dụng trong quy trình phân tích dữ liệu rộng hơn để khám phá dữ liệu và truyền đạt các phát hiện một cách hiệu quả. Xem các ví dụ trong hướng dẫn tích hợp TensorBoard của chúng tôi.
  • Business Intelligence (BI): Thường tập trung nhiều hơn vào phân tích mô tả (những gì đã xảy ra) bằng cách sử dụng dữ liệu lịch sử để đưa ra quyết định kinh doanh, thường thông qua bảng điều khiển và báo cáo. Phân tích dữ liệu có thể bao gồm phân tích mô tả, chẩn đoán, dự đoán và quy định. Đọc thêm tại Gartner's IT Glossary .

Ứng dụng AI/ML trong thế giới thực

Phân tích dữ liệu đóng vai trò quan trọng trong việc thúc đẩy tiến độ của nhiều ứng dụng AI:

  1. Phân tích hình ảnh y tế : Trước khi mô hình AI có thể phát hiện ra các bất thường trong các lần quét y tế (như chụp X-quang hoặc MRI), phân tích dữ liệu được sử dụng rộng rãi. Hình ảnh thô được xử lý trước (chuẩn hóa, thay đổi kích thước) và làm sạch. Phân tích thăm dò giúp hiểu các biến thể về chất lượng hình ảnh hoặc thông tin nhân khẩu học của bệnh nhân trong các tập dữ liệu như tập dữ liệu U não . Phân tích giúp xác định các tính năng có liên quan và đánh giá hiệu suất của mô hình chẩn đoán ( độ chính xác , độ nhạy, độ đặc hiệu) so với chú thích của chuyên gia, hướng dẫn cải tiến để sử dụng trong lâm sàng. Các nguồn lực như sáng kiến Khoa học dữ liệu y sinh của NIH làm nổi bật tầm quan trọng của sáng kiến này. Xem cách YOLO mô hình có thể được sử dụng để phát hiện khối u trong hình ảnh y tế .
  2. Quản lý hàng tồn kho bán lẻ theo định hướng AI : Các nhà bán lẻ sử dụng phân tích dữ liệu để tối ưu hóa mức tồn kho và giảm lãng phí. Điều này bao gồm phân tích dữ liệu bán hàng trong quá khứ, xác định xu hướng theo mùa và hiểu được các mô hình mua hàng của khách hàng ( mô hình dự đoán ). Hơn nữa, các hệ thống thị giác máy tính (CV) , được hỗ trợ bởi các mô hình được đào tạo bằng dữ liệu trực quan được phân tích, có thể theo dõi hàng tồn kho trên kệ theo thời gian thực. Phân tích dữ liệu đánh giá hiệu quả của các hệ thống này bằng cách phân tích độ chính xác phát hiện và liên kết dữ liệu hàng tồn kho với kết quả bán hàng, cho phép các chiến lược bổ sung thông minh hơn. Khám phá Google Cloud AI for Retail để biết các giải pháp cho ngành. Ultralytics cung cấp thông tin chi tiết về AI để quản lý hàng tồn kho bán lẻ thông minh hơnđạt được hiệu quả bán lẻ với AI .

Phân tích dữ liệu cung cấp những hiểu biết quan trọng cần thiết để xây dựng, tinh chỉnh và xác thực các hệ thống AI và ML hiệu quả trên nhiều lĩnh vực khác nhau, từ chăm sóc sức khỏe đến nông nghiệpsản xuất . Việc sử dụng các nền tảng như Ultralytics HUB có thể hợp lý hóa quy trình từ phân tích dữ liệu đến triển khai mô hình .

Đọc tất cả