Trong trí tuệ nhân tạo (AI) và học máy (ML) , hàm mất mát là một thành phần quan trọng được sử dụng trong quá trình đào tạo mô hình. Nó đo lường sự khác biệt hoặc "mất mát" giữa các dự đoán của mô hình và các giá trị thực tế từ dữ liệu đào tạo . Hãy coi nó như một điểm số định lượng mức độ kém hiệu quả của mô hình đối với một tác vụ cụ thể. Giá trị mất mát cao có nghĩa là các dự đoán còn xa, trong khi giá trị mất mát thấp cho biết các dự đoán gần với giá trị thực tế. Mục tiêu cơ bản của việc đào tạo hầu hết các mô hình học máy, đặc biệt là trong học sâu (DL) , là giảm thiểu hàm mất mát này, do đó làm cho mô hình chính xác và đáng tin cậy nhất có thể.
Tầm quan trọng của hàm mất mát
Các hàm mất mát rất cần thiết vì chúng cung cấp một mục tiêu cụ thể, có thể định lượng cho quá trình đào tạo mô hình. Chúng chuyển đổi mục tiêu trừu tượng là "học từ dữ liệu" thành một giá trị toán học mà thuật toán tối ưu hóa có thể hoạt động để giảm thiểu. Quá trình tối ưu hóa này, thường sử dụng các kỹ thuật như Gradient Descent và backpropagation , dựa vào giá trị mất mát để điều chỉnh lặp lại các tham số bên trong của mô hình ( trọng số mô hình ) theo hướng làm giảm lỗi dự đoán. Việc lựa chọn một hàm mất mát phù hợp là rất quan trọng và phụ thuộc rất nhiều vào tác vụ ML cụ thể, chẳng hạn như hồi quy , phân loại hoặc phát hiện đối tượng . Sử dụng sai hàm mất mát có thể dẫn đến hiệu suất mô hình không tối ưu, ngay cả khi có đủ dữ liệu và tài nguyên tính toán. Nó hướng dẫn quá trình học của các mạng nơ-ron phức tạp (NN) .
Các loại hàm mất mát
Các tác vụ học máy khác nhau yêu cầu các hàm mất mát khác nhau tùy theo bản chất của vấn đề và đầu ra mong muốn. Một số ví dụ phổ biến bao gồm:
- Lỗi bình phương trung bình (MSE) : Thường được sử dụng trong các tác vụ hồi quy , trong đó mục tiêu là dự đoán một giá trị số liên tục. Nó tính toán giá trị trung bình của các chênh lệch bình phương giữa giá trị dự đoán và giá trị thực tế, phạt nặng các lỗi lớn hơn.
- Lỗi tuyệt đối trung bình (MAE) : Một hàm mất mát hồi quy khác tính toán giá trị trung bình của các chênh lệch tuyệt đối giữa dự đoán và giá trị thực tế. Hàm này ít nhạy cảm với các giá trị ngoại lai hơn so với MSE.
- Cross-Entropy Loss (Log Loss) : Hàm mất mát tiêu chuẩn cho các tác vụ phân loại . Nó đo lường hiệu suất của một mô hình phân loại có đầu ra là giá trị xác suất nằm trong khoảng từ 0 đến 1. Binary Cross-Entropy được sử dụng cho các vấn đề hai lớp, trong khi Categorical Cross-Entropy được sử dụng cho các vấn đề đa lớp.
- Mất bản lề : Chủ yếu được sử dụng để đào tạo Máy hỗ trợ vectơ (SVM) và nhằm mục đích tối đa hóa biên độ giữa các lớp.
- Mất mát phát hiện đối tượng: Các mô hình như Ultralytics YOLO sử dụng các hàm mất mát tổng hợp thường kết hợp nhiều thành phần. Ví dụ, YOLOv8 sử dụng một hàm mất mát bao gồm các thuật ngữ cho hồi quy hộp giới hạn (hộp định vị đối tượng chính xác như thế nào), phân loại (đối tượng thuộc lớp nào) và đôi khi là tính đối tượng (đối tượng có hiện diện trong ô lưới hay không). Các triển khai cụ thể có thể được tìm thấy trong tài liệu tiện ích mất mát Ultralytics .
Ứng dụng trong thế giới thực
Các hàm mất mát là nền tảng cơ bản cho các mô hình đào tạo trên nhiều ứng dụng AI:
- Phân tích hình ảnh y tế : Trong các mô hình đào tạo để phát hiện khối u hoặc phân đoạn cơ quan, một hàm mất mát như Dice Loss hoặc một biến thể của Cross-Entropy được giảm thiểu. Điều này thúc đẩy mô hình dự đoán các mặt nạ phân đoạn khớp chặt chẽ với các chú thích thực tế do các bác sĩ X quang cung cấp, tác động trực tiếp đến độ chính xác chẩn đoán trong AI trong chăm sóc sức khỏe .
- Xe tự hành : Hệ thống nhận thức trong xe tự lái sử dụng các mô hình phát hiện vật thể được đào tạo bằng cách giảm thiểu các hàm mất mát. Các hàm này phạt các lỗi trong việc dự đoán vị trí (hộp giới hạn) và loại (người đi bộ, ô tô, người đi xe đạp) của các vật thể trên đường, rất quan trọng để điều hướng an toàn và tránh va chạm. Các mô hình YOLO thường được sử dụng ở đây.
Mối quan hệ với các khái niệm chính khác
Các hàm mất mát có liên hệ chặt chẽ với một số khái niệm ML cốt lõi khác:
- Thuật toán tối ưu hóa : Hàm mất mát xác định "bối cảnh" mà trình tối ưu hóa điều hướng. Các thuật toán như Adam Optimizer và Stochastic Gradient Descent (SGD) sử dụng độ dốc của hàm mất mát để cập nhật trọng số mô hình, được hướng dẫn bởi tốc độ học .
- Số liệu đánh giá: Điều quan trọng là phải phân biệt các hàm mất mát với các số liệu đánh giá như Độ chính xác , Độ chính xác , Thu hồi , Điểm F1 và Độ chính xác trung bình trung bình (mAP) . Các hàm mất mát được sử dụng trong quá trình đào tạo để hướng dẫn quá trình tối ưu hóa. Chúng cần có thể phân biệt được để các phương pháp dựa trên độ dốc có thể hoạt động. Số liệu đánh giá được sử dụng sau khi đào tạo (hoặc trong quá trình xác thực) để đánh giá hiệu suất thực tế của mô hình trên dữ liệu chưa biết ( dữ liệu xác thực hoặc dữ liệu thử nghiệm ). Mặc dù mức mất mát thấp hơn thường tương quan với điểm số số liệu tốt hơn, nhưng chúng đo lường những thứ khác nhau và không phải lúc nào cũng có thể hoán đổi trực tiếp cho nhau. Ví dụ: tối ưu hóa cho mất mát entropy chéo không tối ưu hóa trực tiếp cho độ chính xác, mặc dù nó thường cải thiện độ chính xác. Bạn có thể tìm hiểu thêm về số liệu hiệu suất YOLO tại đây .
- Quá khớp và thiếu khớp : Theo dõi tổn thất trên cả tập huấn luyện và tập xác thực riêng biệt là chìa khóa để chẩn đoán các vấn đề này. Quá khớp xảy ra khi tổn thất huấn luyện tiếp tục giảm trong khi tổn thất xác thực bắt đầu tăng. Thiếu khớp được chỉ ra bởi các giá trị tổn thất cao trên cả hai tập. Các chiến lược để giải quyết những vấn đề này được thảo luận trong các hướng dẫn như Mẹo huấn luyện mô hình và Thông tin chi tiết về đánh giá mô hình .
Kết thúc
Các hàm mất mát là nền tảng của việc đào tạo các mô hình học máy hiệu quả. Chúng cung cấp tín hiệu cần thiết cho các thuật toán tối ưu hóa để điều chỉnh các tham số mô hình, cho phép các mô hình học các mẫu phức tạp từ dữ liệu và giải quyết các nhiệm vụ đầy thách thức trong thị giác máy tính (CV) và hơn thế nữa. Hiểu được mục đích của chúng, các loại khác nhau có sẵn và mối quan hệ của chúng với các số liệu đánh giá là rất quan trọng để phát triển các ứng dụng AI thành công. Các nền tảng như Ultralytics HUB hợp lý hóa quy trình đào tạo các mô hình phức tạp như Ultralytics YOLO11 , xử lý sự phức tạp của việc triển khai và tối ưu hóa hàm mất mát đằng sau hậu trường, giúp AI tiên tiến dễ tiếp cận hơn. Có thể khám phá thêm thông qua tài liệu Ultralytics .