Khám phá vai trò quan trọng của dữ liệu kiểm thử trong học máy. Tìm hiểu cách đánh giá. Ultralytics Đánh giá hiệu năng của YOLO26 bằng cách sử dụng các tập dữ liệu không thiên vị để đảm bảo độ chính xác trong điều kiện thực tế.
Dữ liệu thử nghiệm là một tập hợp con cụ thể của một tập dữ liệu lớn hơn, được dành riêng để đánh giá hiệu suất cuối cùng của một mô hình học máy (ML) . Không giống như dữ liệu được sử dụng trong các giai đoạn học tập trước đó, dữ liệu thử nghiệm hoàn toàn "không được thuật toán nhìn thấy" cho đến khi kết thúc chu kỳ phát triển. Sự cô lập này rất quan trọng vì nó cung cấp một đánh giá khách quan về mức độ khái quát hóa của một mô hình thị giác máy tính (CV) hoặc hệ thống trí tuệ nhân tạo (AI) khác đối với các đầu vào thực tế mới. Bằng cách mô phỏng môi trường sản xuất, dữ liệu thử nghiệm giúp các nhà phát triển xác minh rằng mô hình của họ thực sự đã học được các mẫu cơ bản chứ không chỉ đơn giản là ghi nhớ các ví dụ huấn luyện.
Trong quy trình làm việc tiêu chuẩn của máy học , dữ liệu thường được chia thành ba loại riêng biệt, mỗi loại phục vụ một mục đích riêng. Hiểu được sự khác biệt giữa các phân loại này là rất quan trọng để xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ.
Việc quản lý các phân chia này một cách hiệu quả thường được hỗ trợ bởi các công cụ như Nền tảng Ultralytics , có thể tự động sắp xếp các tập dữ liệu đã tải lên thành các danh mục thiết yếu này để đảm bảo đánh giá mô hình một cách nghiêm ngặt.
Giá trị chính của dữ liệu thử nghiệm nằm ở khả năng của nó trong việc... detect Các vấn đề về độ lệch và phương sai của tập dữ liệu . Nếu một mô hình đạt độ chính xác 99% trên dữ liệu huấn luyện nhưng chỉ 60% trên dữ liệu kiểm tra, điều đó cho thấy phương sai cao (quá khớp). Ngược lại, hiệu suất kém trên cả hai loại dữ liệu cho thấy chưa khớp.
Việc sử dụng bộ dữ liệu kiểm thử được chỉ định tuân thủ các nguyên tắc khoa học về khả năng tái tạo và tính khách quan. Nếu không có bộ dữ liệu kiểm thử hoàn hảo, các nhà phát triển có nguy cơ "dạy theo bài kiểm thử", dẫn đến việc rò rỉ thông tin từ giai đoạn đánh giá trở lại giai đoạn huấn luyện – hiện tượng này được gọi là rò rỉ dữ liệu . Điều này dẫn đến các ước tính hiệu suất quá lạc quan, dễ bị sụp đổ khi mô hình đối mặt với dữ liệu thực tế .
Dữ liệu thử nghiệm là yếu tố thiết yếu trong tất cả các ngành công nghiệp sử dụng trí tuệ nhân tạo để đảm bảo an toàn và độ tin cậy trước khi hệ thống được đưa vào vận hành chính thức.
Sử dụng ultralytics Với gói phần mềm này, bạn có thể dễ dàng đánh giá hiệu suất của mô hình trên tập dữ liệu được giữ lại. Trong khi đó, val Chế độ này thường được sử dụng để xác thực trong quá trình huấn luyện, nó cũng có thể được cấu hình để chạy trên một tập dữ liệu kiểm thử cụ thể được xác định trong tệp của bạn.
Cấu hình YAML của tập dữ liệu.
Dưới đây là cách đánh giá mô hình YOLO26 đã được huấn luyện trước để thu được các chỉ số như sau: mAP50 -95:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")
# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")
Quá trình này tạo ra các số liệu toàn diện, cho phép các nhà phát triển so sánh một cách khách quan các kiến trúc khác nhau, chẳng hạn như YOLO26 so với YOLO11 , và đảm bảo giải pháp được chọn đáp ứng các mục tiêu đã định của dự án. Thử nghiệm nghiêm ngặt là bước kiểm soát cuối cùng để đảm bảo đáp ứng các tiêu chuẩn an toàn AI chất lượng cao.