Thuật ngữ

Dữ liệu trôi dạt

Khám phá các loại, nguyên nhân và giải pháp cho sự trôi dữ liệu trong học máy. Tìm hiểu cách phát hiện và giảm thiểu sự trôi dữ liệu cho các mô hình AI mạnh mẽ.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Sự trôi dữ liệu là một thách thức phổ biến trong Học máy (ML) khi các thuộc tính thống kê của dữ liệu đầu vào được sử dụng để đào tạo mô hình thay đổi theo thời gian so với dữ liệu mà mô hình gặp phải trong quá trình sản xuất hoặc suy luận. Sự khác biệt này có nghĩa là các mẫu mà mô hình học được trong quá trình đào tạo có thể không còn thể hiện chính xác môi trường thực tế, dẫn đến giảm hiệu suất và độ chính xác . Việc hiểu và quản lý sự trôi dữ liệu là điều cần thiết để duy trì độ tin cậy của các hệ thống Trí tuệ nhân tạo (AI) , đặc biệt là những hệ thống hoạt động trong điều kiện động như xe tự hành hoặc dự báo tài chính.

Tại sao dữ liệu trôi dạt lại quan trọng

Khi dữ liệu trôi dạt xảy ra, các mô hình được đào tạo trên dữ liệu lịch sử trở nên kém hiệu quả hơn trong việc đưa ra dự đoán về dữ liệu mới, chưa được biết đến. Sự suy giảm hiệu suất này có thể dẫn đến việc ra quyết định sai lầm, giảm giá trị kinh doanh hoặc các lỗi nghiêm trọng trong các ứng dụng nhạy cảm. Ví dụ, một mô hình được đào tạo để phát hiện vật thể có thể bắt đầu bỏ sót vật thể nếu điều kiện ánh sáng hoặc góc máy ảnh thay đổi đáng kể so với dữ liệu đào tạo . Việc giám sát mô hình liên tục là rất quan trọng để phát hiện sớm sự trôi dạt và triển khai các hành động khắc phục, chẳng hạn như đào tạo lại mô hình hoặc cập nhật bằng các nền tảng như Ultralytics HUB , để duy trì hiệu suất. Việc bỏ qua sự trôi dạt dữ liệu có thể nhanh chóng khiến ngay cả các mô hình phức tạp như Ultralytics YOLO trở nên lỗi thời.

Nguyên nhân gây ra sự trôi dữ liệu

Một số yếu tố có thể góp phần gây ra sự trôi dạt dữ liệu, bao gồm:

  • Những thay đổi trong thế giới thực: Các sự kiện bên ngoài, tính theo mùa (ví dụ: mô hình mua sắm vào ngày lễ) hoặc sự thay đổi trong hành vi của người dùng có thể làm thay đổi cách phân phối dữ liệu.
  • Thay đổi nguồn dữ liệu: Các thay đổi trong phương pháp thu thập dữ liệu, hiệu chuẩn cảm biến hoặc đường ống xử lý dữ liệu thượng nguồn có thể gây ra hiện tượng trôi. Ví dụ, thay đổi phần cứng camera cho hệ thống thị giác máy tính .
  • Thay đổi tính năng: Tính liên quan hoặc định nghĩa của các tính năng đầu vào có thể thay đổi theo thời gian.
  • Các vấn đề về chất lượng dữ liệu: Các vấn đề như giá trị bị thiếu, giá trị ngoại lai hoặc lỗi phát sinh trong quá trình thu thập hoặc xử lý dữ liệu có thể tích tụ và gây ra sự trôi dạt. Việc duy trì chất lượng dữ liệu là tối quan trọng.
  • Thay đổi mô hình thượng nguồn: Nếu một mô hình dựa vào đầu ra của một mô hình khác, những thay đổi trong mô hình thượng nguồn có thể khiến dữ liệu của mô hình hạ nguồn bị trôi.

Dữ liệu trôi dạt so với các khái niệm liên quan

Sự trôi dạt dữ liệu chủ yếu liên quan đến những thay đổi trong phân phối dữ liệu đầu vào ( X (biến trong mô hình hóa). Nó khác biệt với các khái niệm liên quan:

  • Sự trôi dạt của khái niệm: Điều này đề cập đến những thay đổi trong mối quan hệ giữa dữ liệu đầu vào và biến mục tiêu ( Y biến). Ví dụ, định nghĩa về thư rác có thể thay đổi theo thời gian, ngay cả khi các tính năng của email vẫn tương tự nhau về mặt thống kê. Sự trôi dạt dữ liệu tập trung vào các đầu vào, trong khi sự trôi dạt khái niệm tập trung vào các mẫu hoặc quy tắc cơ bản mà mô hình đang cố gắng dự đoán. Tìm hiểu thêm về khái niệm phát hiện trôi dạt.
  • Phát hiện bất thường : Điều này liên quan đến việc xác định các điểm dữ liệu riêng lẻ khác biệt đáng kể so với chuẩn mực hoặc các mẫu dự kiến. Mặc dù đôi khi các bất thường có thể báo hiệu sự trôi dạt, nhưng sự trôi dạt dữ liệu đề cập đến sự thay đổi rộng hơn, có hệ thống trong phân phối dữ liệu tổng thể, không chỉ là các giá trị ngoại lệ riêng lẻ.

Hiểu được những điểm khác biệt này rất quan trọng để thực hành MLOps hiệu quả.

Ứng dụng trong thế giới thực

Sự trôi dạt dữ liệu tác động đến nhiều miền khác nhau nơi triển khai mô hình ML:

  • Dịch vụ tài chính: Các mô hình phát hiện gian lận có thể bị trôi khi kẻ gian phát triển các chiến thuật mới. Các mô hình chấm điểm tín dụng có thể bị trôi do những thay đổi về điều kiện kinh tế ảnh hưởng đến hành vi của người vay. Đọc về các mô hình thị giác máy tính trong tài chính .
  • Bán lẻ và thương mại điện tử: Hệ thống đề xuất có thể thay đổi do xu hướng tiêu dùng, tính thời vụ hoặc các sự kiện khuyến mại thay đổi. Các mô hình quản lý hàng tồn kho có thể thay đổi nếu động lực chuỗi cung ứng hoặc mô hình nhu cầu của khách hàng thay đổi.
  • Chăm sóc sức khỏe: Các mô hình phân tích hình ảnh y tế , như mô hình dùng để phát hiện khối u , có thể bị thay đổi nếu thiết bị hoặc giao thức hình ảnh mới được đưa vào sử dụng, làm thay đổi các đặc điểm của hình ảnh so với tập dữ liệu đào tạo ban đầu có nguồn gốc từ các nền tảng như Imagenet .
  • Sản xuất: Các mô hình bảo trì dự đoán có thể bị sai lệch nếu thiết bị bị hao mòn theo cách khác với dự kiến hoặc nếu điều kiện vận hành thay đổi. Khám phá AI trong sản xuất .

Phát hiện và giảm thiểu sự trôi dữ liệu

Việc phát hiện và giải quyết tình trạng trôi dữ liệu liên quan đến một số kỹ thuật:

  • Giám sát hiệu suất: Theo dõi các số liệu mô hình chính như độ chính xác , độ thu hồiđiểm F1 theo thời gian có thể chỉ ra sự suy giảm hiệu suất có thể do trôi dạt. Các công cụ như TensorBoard có thể giúp trực quan hóa các số liệu này.
  • Giám sát thống kê: Áp dụng các bài kiểm tra thống kê để so sánh sự phân bố của dữ liệu đầu vào với dữ liệu đào tạo . Các phương pháp phổ biến bao gồm bài kiểm tra Kolmogorov-Smirnov , Chỉ số ổn định dân số (PSI) hoặc các bài kiểm tra chi bình phương.
  • Công cụ giám sát: Sử dụng các nền tảng và công cụ quan sát chuyên dụng như Prometheus , Grafana , Evidently AINannyML được thiết kế để giám sát các mô hình ML trong quá trình sản xuất. Ultralytics HUB cũng cung cấp các tính năng giám sát các mô hình được đào tạo và triển khai thông qua nền tảng của mình.
  • Chiến lược giảm thiểu:
    • Đào tạo lại: Đào tạo lại mô hình thường xuyên trên dữ liệu gần đây. Ultralytics HUB tạo điều kiện cho quy trình đào tạo lại dễ dàng.
    • Học trực tuyến: Cập nhật mô hình theo từng bước khi có dữ liệu mới (cần thận trọng vì mô hình này có thể nhạy cảm với nhiễu).
    • Tăng cường dữ liệu : Sử dụng các kỹ thuật trong quá trình đào tạo để làm cho mô hình mạnh mẽ hơn trước những thay đổi trong dữ liệu đầu vào.
    • Thích ứng miền: Sử dụng các kỹ thuật thích ứng rõ ràng mô hình với phân phối dữ liệu mới.
    • Lựa chọn mô hình: Lựa chọn các mô hình vốn có khả năng chống chịu tốt hơn với những thay đổi dữ liệu. Khám phá các mẹo đào tạo mô hình để đào tạo hiệu quả.

Quản lý hiệu quả tình trạng trôi dữ liệu là một quá trình liên tục quan trọng để đảm bảo rằng các hệ thống AI được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow vẫn đáng tin cậy và mang lại giá trị trong suốt vòng đời hoạt động của chúng.

Đọc tất cả