Thuật ngữ

Chuẩn hóa

Khám phá sức mạnh của chuẩn hóa trong học máy! Tìm hiểu cách nó nâng cao việc đào tạo mô hình, tăng cường hiệu suất và đảm bảo các giải pháp AI mạnh mẽ.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chuẩn hóa là một kỹ thuật tiền xử lý dữ liệu cơ bản được sử dụng rộng rãi trong học máy (ML) và khoa học dữ liệu. Mục tiêu chính của nó là định lại tỷ lệ các đặc điểm dữ liệu số thành một phạm vi chuẩn chung, thường nằm trong khoảng từ 0 đến 1 hoặc -1 đến 1, mà không làm méo mó sự khác biệt trong phạm vi giá trị. Quá trình này đảm bảo rằng tất cả các đặc điểm đều đóng góp bình đẳng hơn vào quá trình đào tạo mô hình, ngăn các đặc điểm có giá trị lớn hơn vốn có (như lương) ảnh hưởng không cân xứng đến kết quả so với các đặc điểm có giá trị nhỏ hơn (như số năm kinh nghiệm). Chuẩn hóa đặc biệt quan trọng đối với các thuật toán nhạy cảm với tỷ lệ đặc điểm, chẳng hạn như các phương pháp dựa trên gradient descent được sử dụng trong học sâu (DL) .

Tại sao chuẩn hóa lại quan trọng

Các tập dữ liệu trong thế giới thực thường chứa các tính năng có quy mô và đơn vị rất khác nhau. Ví dụ, trong một tập dữ liệu để dự đoán tình trạng mất khách hàng, 'số dư tài khoản' có thể dao động từ hàng trăm đến hàng triệu, trong khi 'số lượng sản phẩm' có thể dao động từ 1 đến 10. Nếu không có chuẩn hóa, các thuật toán ML tính toán khoảng cách hoặc sử dụng độ dốc, như Máy vectơ hỗ trợ (SVM) hoặc mạng nơ-ron (NN) , có thể nhận thức sai tính năng có phạm vi lớn hơn là quan trọng hơn chỉ vì quy mô của nó. Chuẩn hóa cân bằng sân chơi, đảm bảo rằng đóng góp của mỗi tính năng dựa trên sức mạnh dự đoán của nó, không phải độ lớn của nó. Điều này dẫn đến sự hội tụ nhanh hơn trong quá trình đào tạo, cải thiện độ chính xác của mô hình và các mô hình ổn định hơn, mạnh mẽ hơn, điều này có lợi khi đào tạo các mô hình như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng .

Các kỹ thuật chuẩn hóa phổ biến

Có một số phương pháp để thay đổi kích thước dữ liệu:

  • Min-Max Scaling: Đây có thể được coi là kỹ thuật chuẩn hóa phổ biến nhất. Nó chia tỷ lệ lại các đặc điểm theo tuyến tính thành một phạm vi cố định, thường là [0, 1]. Giá trị tối thiểu trong đặc điểm gốc trở thành 0, giá trị tối đa trở thành 1 và tất cả các giá trị khác đều nằm ở giữa theo tỷ lệ. Nó nhạy cảm với các giá trị ngoại lai.
  • Chuẩn hóa điểm Z: Mặc dù thường được nhóm với chuẩn hóa, chuẩn hóa về mặt kỹ thuật lại khác. Nó chia tỷ lệ lại dữ liệu để có giá trị trung bình là 0 và độ lệch chuẩn là 1. Không giống như tỷ lệ Min-Max, nó không ràng buộc các giá trị vào một phạm vi cụ thể, điều này có thể có lợi cho các thuật toán giả định dữ liệu có tâm bằng 0. Tìm hiểu thêm về Xử lý trước Scikit-learn .

Sự lựa chọn giữa các kỹ thuật này thường phụ thuộc vào tập dữ liệu cụ thể và các yêu cầu của thuật toán ML đang được sử dụng. Bạn có thể tìm thấy hướng dẫn về xử lý trước dữ liệu chú thích thường liên quan đến các bước chuẩn hóa.

Chuẩn hóa so với Chuẩn hóa so với Chuẩn hóa hàng loạt

Điều quan trọng là phải phân biệt chuẩn hóa với các khái niệm liên quan:

  • Chuẩn hóa (Min-Max Scaling): Chia tỷ lệ dữ liệu thành một phạm vi cố định (ví dụ: 0 đến 1). Hữu ích khi cần giới hạn các giá trị tính năng.
  • Chuẩn hóa (Điểm Z): Tập trung dữ liệu xung quanh giá trị trung bình là 0 với độ lệch chuẩn là 1. Ít bị ảnh hưởng bởi các giá trị ngoại lai hơn so với phương pháp chia tỷ lệ Min-Max và thường được ưu tiên cho các thuật toán giả định dữ liệu phân phối chuẩn hoặc có tâm bằng 0.
  • Chuẩn hóa theo lô : Đây là một kỹ thuật được áp dụng trong các lớp mạng nơ-ron sâu trong quá trình đào tạo, không phải là bước tiền xử lý dữ liệu chung được áp dụng trước đó. Nó chuẩn hóa các hoạt động của lớp trước đó cho mỗi lô nhỏ, giúp ổn định quá trình đào tạo và giảm sự dịch chuyển biến phụ thuộc nội bộ .

Ứng dụng của Chuẩn hóa

Chuẩn hóa là một bước phổ biến trong việc chuẩn bị dữ liệu cho nhiều tác vụ AI và ML khác nhau:

  1. Xử lý hình ảnh: Trong thị giác máy tính (CV) , các giá trị pixel trong hình ảnh (thường nằm trong khoảng từ 0 đến 255) thường được chuẩn hóa theo phạm vi [0, 1] hoặc [-1, 1] trước khi đưa vào các mô hình cho các tác vụ như phân loại hình ảnh hoặc phân đoạn hình ảnh . Điều này đảm bảo tỷ lệ đầu vào nhất quán cho Mạng nơ-ron tích chập (CNN) . Nhiều tập dữ liệu CV phổ biến được hưởng lợi từ quá trình xử lý trước này.
  2. Hợp nhất dữ liệu đa cảm biến: Khi kết hợp dữ liệu từ các cảm biến khác nhau với các thang đo khác nhau (ví dụ: nhiệt độ, áp suất, độ ẩm) cho một mô hình dự đoán, chuẩn hóa đảm bảo rằng không có số đọc của cảm biến nào chiếm ưu thế so với các cảm biến khác chỉ vì thang đo của chúng. Điều này có liên quan trong các lĩnh vực như robot hoặc xe tự hành .
  3. Phân tích hình ảnh y tế: Tương tự như xử lý hình ảnh nói chung, phân tích hình ảnh y tế thường yêu cầu chuẩn hóa cường độ pixel hoặc voxel trên các lần quét khác nhau (ví dụ: MRI, CT) để tính đến sự thay đổi trong thiết bị và giao thức chụp ảnh, hỗ trợ các nhiệm vụ như phát hiện khối u .

Tóm lại, chuẩn hóa là bước tiền xử lý quan trọng giúp mở rộng các tính năng dữ liệu theo phạm vi nhất quán, cải thiện quy trình đào tạo, tính ổn định và hiệu suất của nhiều mô hình học máy, bao gồm cả những mô hình được phát triển và đào tạo bằng các công cụ như Ultralytics HUB . Nó đảm bảo đóng góp tính năng công bằng và rất cần thiết cho các thuật toán nhạy cảm với quy mô đầu vào.

Đọc tất cả