Điểm F1 là một số liệu được sử dụng rộng rãi trong học máy (ML) và truy xuất thông tin để đánh giá hiệu suất của các mô hình phân loại nhị phân. Nó cung cấp một điểm số duy nhất cân bằng hai số liệu quan trọng khác: độ chính xác và độ thu hồi . Sự cân bằng này làm cho Điểm F1 đặc biệt có giá trị trong các tình huống mà sự phân phối các lớp không đồng đều (các tập dữ liệu không cân bằng) hoặc khi cả kết quả dương tính giả và kết quả âm tính giả đều gây ra chi phí đáng kể. Nó được tính là giá trị trung bình hài hòa của độ chính xác và độ thu hồi, đưa ra phạm vi từ 0 đến 1, trong đó 1 biểu thị độ chính xác và độ thu hồi hoàn hảo.
Hiểu về độ chính xác và thu hồi
Để nắm được Điểm F1, điều quan trọng là phải hiểu các thành phần của nó:
- Độ chính xác : Đo độ chính xác của các dự đoán tích cực. Nó trả lời câu hỏi: "Trong tất cả các trường hợp mà mô hình dự đoán là tích cực, có bao nhiêu trường hợp thực sự là tích cực?" Độ chính xác cao có nghĩa là mô hình mắc ít lỗi tích cực sai.
- Recall (Độ nhạy) : Đo lường khả năng của mô hình trong việc xác định tất cả các trường hợp dương thực tế. Nó trả lời câu hỏi: "Trong tất cả các trường hợp dương thực tế, mô hình đã xác định chính xác bao nhiêu trường hợp?" Recall cao có nghĩa là mô hình mắc ít lỗi âm tính giả.
Điểm F1 kết hợp cả hai bằng cách tính toán trung bình hài hòa của chúng. Không giống như trung bình đơn giản, trung bình hài hòa phạt các giá trị cực đoan nặng hơn, nghĩa là một mô hình phải hoạt động khá tốt về cả độ chính xác và độ thu hồi để đạt được Điểm F1 cao.
Tại sao nên sử dụng Điểm F1?
Mặc dù độ chính xác (tỷ lệ dự đoán đúng nói chung) là một số liệu phổ biến, nhưng nó có thể gây hiểu lầm, đặc biệt là với các tập dữ liệu mất cân bằng . Ví dụ, nếu chỉ có 1% điểm dữ liệu thuộc về lớp tích cực, một mô hình dự đoán mọi thứ là tiêu cực đạt được độ chính xác 99% nhưng hoàn toàn không xác định được lớp tích cực.
Điểm F1 giải quyết vấn đề này bằng cách tập trung vào hiệu suất lớp học tích cực thông qua độ chính xác và khả năng nhớ lại. Điểm này được ưu tiên khi:
- Có sự mất cân bằng giữa các lớp: Nó cung cấp khả năng đánh giá tốt hơn độ chính xác khi một lớp có số lượng vượt trội so với lớp khác.
- Cả kết quả dương tính giả và kết quả âm tính giả đều quan trọng: Các tình huống mà việc giảm thiểu cả hai loại lỗi đều rất quan trọng sẽ được hưởng lợi từ hành động cân bằng của Điểm F1. Việc lựa chọn giữa việc tối ưu hóa độ chính xác hoặc khả năng thu hồi thường liên quan đến sự đánh đổi; Điểm F1 giúp tìm ra một mô hình cân bằng sự đánh đổi giữa độ chính xác và khả năng thu hồi này.
F1-Score trong thực tế: Ví dụ thực tế
Điểm F1 rất quan trọng trong nhiều ứng dụng Trí tuệ nhân tạo (AI) :
Phân tích hình ảnh y tế để phát hiện bệnh : Hãy xem xét một mô hình AI được thiết kế để phát hiện khối u ung thư từ các lần quét bằng cách sử dụng thị giác máy tính (CV) .
- Kết quả âm tính giả (tỷ lệ thu hồi thấp) có nghĩa là không phát hiện được ung thư khi nó xuất hiện, điều này có thể gây ra hậu quả nghiêm trọng cho bệnh nhân.
- Kết quả dương tính giả (độ chính xác thấp) có nghĩa là chẩn đoán ung thư khi thực tế không có, dẫn đến căng thẳng không cần thiết, tốn kém và các xét nghiệm xâm lấn tiếp theo.
- Điểm F1 giúp đánh giá các mô hình như mô hình được sử dụng trong các giải pháp chăm sóc sức khỏe AI bằng cách đảm bảo sự cân bằng giữa việc phát hiện các trường hợp thực tế (thu hồi) và tránh chẩn đoán sai (độ chính xác). Việc đào tạo các mô hình như vậy có thể liên quan đến các tập dữ liệu như tập dữ liệu phát hiện khối u não .
Lọc email rác : Các dịch vụ email sử dụng mô hình phân loại để xác định thư rác.
- Cần có khả năng thu hồi cao để bắt được càng nhiều thư rác càng tốt. Việc bỏ sót thư rác (âm tính giả) sẽ gây khó chịu cho người dùng.
- Độ chính xác cao là rất quan trọng để tránh đánh dấu email hợp lệ ("ham") là thư rác (dương tính giả). Phân loại sai một email quan trọng có thể gây ra nhiều vấn đề.
- Điểm F1 cung cấp một thước đo phù hợp để đánh giá hiệu quả tổng thể của bộ lọc thư rác, cân bằng nhu cầu lọc thư rác mà không làm mất các tin nhắn quan trọng. Điều này liên quan đến các kỹ thuật từ Xử lý ngôn ngữ tự nhiên (NLP) .
Điểm F1 so với các số liệu liên quan
Điều quan trọng là phải phân biệt Điểm F1 với các số liệu đánh giá khác:
- Độ chính xác : Đo độ chính xác tổng thể nhưng có thể không đáng tin cậy đối với các lớp mất cân bằng.
- Độ chính xác và Thu hồi : F1-Score kết hợp những yếu tố này. Sử dụng độ chính xác khi giảm thiểu các kết quả dương tính giả là chìa khóa; sử dụng thu hồi khi giảm thiểu các kết quả âm tính giả là tối quan trọng.
- Độ chính xác trung bình trung bình (mAP) : Một số liệu chính cho các tác vụ phát hiện đối tượng , như những tác vụ được thực hiện bởi các mô hình YOLO Ultralytics . mAP tính độ chính xác trung bình trên nhiều mức độ thu hồi khác nhau và thường trên nhiều lớp đối tượng và ngưỡng Giao nhau trên Liên hợp (IoU) . Mặc dù liên quan đến độ chính xác và thu hồi, mAP đánh giá cụ thể hiệu suất phát hiện đối tượng, xem xét cả phân loại và định vị. Bạn có thể khám phá các số liệu hiệu suất YOLO để biết thêm chi tiết. Xem các so sánh mô hình như YOLO11 so với YOLOv8 thường dựa vào mAP.
- Giao điểm trên Union (IoU) : Đo lường sự chồng chéo giữa hộp giới hạn dự đoán và hộp giới hạn thực tế trong phát hiện đối tượng. Đánh giá chất lượng định vị, không phải hiệu suất phân loại trực tiếp như F1-Score.
- Ma trận nhầm lẫn : Bảng tóm tắt hiệu suất phân loại, hiển thị Kết quả dương tính thật, Kết quả âm tính thật, Kết quả dương tính giả và Kết quả âm tính giả, từ đó suy ra Độ chính xác, Thu hồi, Độ chính xác và Điểm F1.
Điểm F1 trong Ultralytics Hệ sinh thái
Trong vòng Ultralytics hệ sinh thái, trong khi mAP là tiêu chuẩn để đánh giá các mô hình phát hiện đối tượng như YOLO11 , Điểm F1 có thể có liên quan khi đánh giá khả năng của tác vụ phân loại hoặc đánh giá hiệu suất trên một lớp cụ thể trong vấn đề phát hiện hoặc phân đoạn , đặc biệt nếu mất cân bằng lớp là mối quan tâm. Các công cụ như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo các mô hình tùy chỉnh và theo dõi nhiều số liệu hiệu suất khác nhau trong quá trình đánh giá mô hình . Hiểu các số liệu như Điểm F1 giúp tinh chỉnh các mô hình cho các nhu cầu cụ thể bằng cách sử dụng các kỹ thuật như điều chỉnh siêu tham số . Các khuôn khổ như PyTorch và các thư viện như Scikit-learn cung cấp các triển khai để tính Điểm F1.