Thuật ngữ

Chuẩn hóa

Khám phá sức mạnh của chuẩn hóa trong học máy! Tìm hiểu cách nó nâng cao việc đào tạo mô hình, tăng cường hiệu suất và đảm bảo các giải pháp AI mạnh mẽ.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chuẩn hóa là một kỹ thuật tiền xử lý dữ liệu cơ bản được sử dụng rộng rãi trong học máy (ML) và khoa học dữ liệu. Mục tiêu chính của nó là định lại tỷ lệ các đặc điểm dữ liệu số thành một phạm vi chuẩn chung, thường nằm trong khoảng từ 0 đến 1 hoặc -1 đến 1, mà không làm méo mó sự khác biệt trong phạm vi giá trị. Quá trình này đảm bảo rằng tất cả các đặc điểm đều đóng góp bình đẳng hơn vào quá trình đào tạo mô hình, ngăn các đặc điểm có giá trị lớn hơn vốn có (như mức lương trong tập dữ liệu) ảnh hưởng không cân xứng đến kết quả so với các đặc điểm có giá trị nhỏ hơn (như số năm kinh nghiệm). Chuẩn hóa đặc biệt quan trọng đối với các thuật toán nhạy cảm với tỷ lệ đặc điểm, chẳng hạn như các phương pháp dựa trên độ dốc giảm dần được sử dụng trong học sâu (DL) và nhiều thuật toán tối ưu hóa khác nhau.

Tại sao chuẩn hóa lại quan trọng

Các tập dữ liệu trong thế giới thực thường chứa các tính năng có quy mô và đơn vị rất khác nhau. Ví dụ, trong một tập dữ liệu để dự đoán tình trạng mất khách hàng, 'số dư tài khoản' có thể dao động từ hàng trăm đến hàng triệu, trong khi 'số lượng sản phẩm' có thể dao động từ 1 đến 10. Nếu không có chuẩn hóa, các thuật toán ML tính toán khoảng cách hoặc sử dụng độ dốc, như Máy vectơ hỗ trợ (SVM) hoặc mạng nơ-ron (NN) , có thể nhận thức không chính xác tính năng có phạm vi lớn hơn là quan trọng hơn chỉ vì quy mô của nó. Chuẩn hóa cân bằng sân chơi, đảm bảo rằng đóng góp của mỗi tính năng dựa trên sức mạnh dự đoán của nó, không phải độ lớn của nó. Điều này dẫn đến sự hội tụ nhanh hơn trong quá trình đào tạo (như được thấy trong các kỷ nguyên giảm), độ chính xác của mô hình được cải thiện và các mô hình ổn định hơn, mạnh mẽ hơn. Sự ổn định này có lợi khi đào tạo các mô hình như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng hoặc phân đoạn phiên bản , có khả năng cải thiện các số liệu như Độ chính xác trung bình (mAP) .

Các kỹ thuật chuẩn hóa phổ biến

Có một số phương pháp để thay đổi kích thước dữ liệu, mỗi phương pháp phù hợp với những tình huống khác nhau:

  • Tỷ lệ Min-Max: Thay đổi tỷ lệ các tính năng thành một phạm vi cố định, thường là [0, 1]. Nó được tính như sau: (giá trị - min) / (max - min). Phương pháp này bảo toàn hình dạng của phân phối ban đầu nhưng nhạy cảm với các giá trị ngoại lệ .
  • Chuẩn hóa điểm Z (Standard Scaling): Định lại tỷ lệ các tính năng để có giá trị trung bình là 0 và độ lệch chuẩn là 1. Nó được tính như sau: (giá trị - giá trị trung bình) / độ lệch chuẩn. Không giống như tỷ lệ Min-Max, nó không ràng buộc các giá trị vào một phạm vi cụ thể, điều này có thể là nhược điểm đối với các thuật toán yêu cầu đầu vào trong một khoảng giới hạn, nhưng nó xử lý các giá trị ngoại lai tốt hơn. Bạn có thể tìm thêm thông tin về các phương pháp này và các phương pháp khác trong tài liệu Tiền xử lý Scikit-learn .
  • Robust Scaling: Sử dụng số liệu thống kê mạnh mẽ đối với các giá trị ngoại lệ, như phạm vi liên tứ phân vị (IQR), thay vì min/max hoặc mean/std dev. Nó đặc biệt hữu ích khi tập dữ liệu chứa các giá trị ngoại lệ đáng kể. Tìm hiểu thêm về Robust Scaling .

Sự lựa chọn giữa các kỹ thuật này thường phụ thuộc vào tập dữ liệu cụ thể (như những tập dữ liệu được tìm thấy trong Ultralytics Datasets ) và các yêu cầu của thuật toán ML đang được sử dụng. Hướng dẫn về xử lý trước dữ liệu có chú thích thường đề cập đến các bước chuẩn hóa có liên quan đến các tác vụ cụ thể.

Chuẩn hóa so với Chuẩn hóa so với Chuẩn hóa hàng loạt

Điều quan trọng là phải phân biệt chuẩn hóa với các khái niệm liên quan:

  • Chuẩn hóa: Thường được sử dụng thay thế cho chuẩn hóa điểm Z, kỹ thuật này chuyển đổi dữ liệu thành giá trị trung bình bằng không và phương sai đơn vị. Trong khi chuẩn hóa thường chia tỷ lệ dữ liệu thành một phạm vi cố định (ví dụ: 0 đến 1), chuẩn hóa tập trung dữ liệu xung quanh giá trị trung bình và chia tỷ lệ dựa trên độ lệch chuẩn, mà không nhất thiết phải giới hạn dữ liệu trong một phạm vi cụ thể.
  • Chuẩn hóa theo lô : Đây là một kỹ thuật được áp dụng trong mạng nơ-ron trong quá trình đào tạo, cụ thể là đối với các đầu vào của các lớp hoặc kích hoạt. Nó chuẩn hóa các đầu ra của một lớp kích hoạt trước đó cho mỗi lô nhỏ, ổn định và tăng tốc quá trình đào tạo bằng cách giảm vấn đề dịch chuyển biến phụ thuộc nội bộ . Không giống như chuẩn hóa tính năng (Min-Max hoặc Z-score) là bước tiền xử lý được áp dụng cho tập dữ liệu ban đầu, Chuẩn hóa theo lô là một phần của chính kiến trúc mạng, thích ứng động trong quá trình đào tạo mô hình .

Ứng dụng của Chuẩn hóa

Chuẩn hóa là một bước phổ biến trong việc chuẩn bị dữ liệu cho nhiều tác vụ Trí tuệ nhân tạo (AI) và ML:

  • Thị giác máy tính (CV) : Giá trị pixel trong hình ảnh (thường nằm trong khoảng từ 0 đến 255) thường được chuẩn hóa thành [0, 1] hoặc [-1, 1] trước khi đưa vào Mạng nơ-ron tích chập (CNN) . Điều này đảm bảo tính nhất quán giữa các hình ảnh và giúp mạng học các tính năng hiệu quả hơn cho các tác vụ như phân loại hình ảnh , phát hiện đối tượng bằng các mô hình như YOLO11phân đoạn hình ảnh . Nhiều tập dữ liệu CV chuẩn được hưởng lợi từ bước xử lý trước này.
  • Phân tích hình ảnh y tế : Trong các ứng dụng như phát hiện khối u bằng mô hình YOLO , việc chuẩn hóa các giá trị cường độ của quét MRI hoặc CT là rất quan trọng. Các thiết bị hoặc cài đặt quét khác nhau có thể tạo ra hình ảnh với các thang cường độ khác nhau. Chuẩn hóa đảm bảo rằng phân tích là nhất quán và có thể so sánh được giữa các lần quét và bệnh nhân khác nhau, dẫn đến các mô hình chẩn đoán đáng tin cậy hơn. Điều này rất quan trọng trong các lĩnh vực như AI trong chăm sóc sức khỏe .
  • Mô hình dự đoán : Khi xây dựng các mô hình để dự đoán kết quả dựa trên các tính năng đa dạng (ví dụ: dự đoán giá nhà dựa trên kích thước, số phòng và tọa độ vị trí), chuẩn hóa đảm bảo rằng các tính năng có phạm vi số lớn hơn (như diện tích vuông) không chi phối các phép tính dựa trên khoảng cách (ví dụ: trong k-Nearest Neighbors ) hoặc cập nhật gradient trong quá trình đào tạo. Điều này phổ biến trong phân tích tài chínhbán lẻ .
  • Xử lý ngôn ngữ tự nhiên (NLP) : Mặc dù ít phổ biến hơn đối với văn bản thô, chuẩn hóa có thể được áp dụng cho các tính năng số có nguồn gốc, chẳng hạn như tần suất từ hoặc TF -Điểm IDF, đặc biệt khi kết hợp chúng với các loại tính năng khác trong một mô hình lớn hơn.

Tóm lại, chuẩn hóa là bước tiền xử lý quan trọng giúp mở rộng các tính năng dữ liệu theo phạm vi nhất quán, cải thiện quy trình đào tạo, tính ổn định và hiệu suất của nhiều mô hình học máy, bao gồm cả những mô hình được phát triển và đào tạo bằng các công cụ như Ultralytics HUB . Nó đảm bảo đóng góp tính năng công bằng và rất cần thiết cho các thuật toán nhạy cảm với quy mô đầu vào, góp phần tạo ra các giải pháp AI mạnh mẽ và chính xác hơn.

Đọc tất cả