Bảng chú giải thuật ngữ

Dữ liệu kiểm tra

Khám phá vai trò quan trọng của dữ liệu kiểm thử trong học máy. Tìm hiểu cách đánh giá. Ultralytics Đánh giá hiệu năng của YOLO26 bằng cách sử dụng các tập dữ liệu không thiên vị để đảm bảo độ chính xác trong điều kiện thực tế.

Dữ liệu thử nghiệm là một tập hợp con cụ thể của một tập dữ liệu lớn hơn, được dành riêng để đánh giá hiệu suất cuối cùng của một mô hình học máy (ML) . Không giống như dữ liệu được sử dụng trong các giai đoạn học tập trước đó, dữ liệu thử nghiệm hoàn toàn "không được thuật toán nhìn thấy" cho đến khi kết thúc chu kỳ phát triển. Sự cô lập này rất quan trọng vì nó cung cấp một đánh giá khách quan về mức độ khái quát hóa của một mô hình thị giác máy tính (CV) hoặc hệ thống trí tuệ nhân tạo (AI) khác đối với các đầu vào thực tế mới. Bằng cách mô phỏng môi trường sản xuất, dữ liệu thử nghiệm giúp các nhà phát triển xác minh rằng mô hình của họ thực sự đã học được các mẫu cơ bản chứ không chỉ đơn giản là ghi nhớ các ví dụ huấn luyện.

Vai trò của Dữ liệu Kiểm thử trong Vòng đời ML

Trong quy trình làm việc tiêu chuẩn của máy học , dữ liệu thường được chia thành ba loại riêng biệt, mỗi loại phục vụ một mục đích riêng. Hiểu được sự khác biệt giữa các phân loại này là rất quan trọng để xây dựng các hệ thống trí tuệ nhân tạo (AI) mạnh mẽ.

Dữ liệu huấn luyện : Đây là phần lớn nhất của tập dữ liệu, được sử dụng để huấn luyện mô hình. Thuật toán điều chỉnh lặp đi lặp lại các tham số nội bộ, hay trọng số , để giảm thiểu lỗi trên tập hợp ví dụ cụ thể này.
Dữ liệu kiểm định : Tập dữ liệu con này được sử dụng thường xuyên trong quá trình huấn luyện để tinh chỉnh các siêu tham số và định hướng các quyết định về kiến trúc. Nó đóng vai trò như một bước kiểm tra trung gian để ngăn ngừa hiện tượng quá khớp , khi mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng lại thất bại trên dữ liệu mới.
Dữ liệu kiểm thử: Đây là "bài kiểm tra" cuối cùng cho mô hình. Nó không bao giờ được sử dụng để cập nhật trọng số hoặc tinh chỉnh các thiết lập. Việc đánh giá trên dữ liệu kiểm thử mang lại các chỉ số hiệu suất chính xác, chẳng hạn như độ chính xác , độ thu hồi và độ chính xác trung bình ( mAP ) , mà các bên liên quan sử dụng để quyết định xem mô hình đã sẵn sàng để triển khai hay chưa.

Việc quản lý các phân chia này một cách hiệu quả thường được hỗ trợ bởi các công cụ như Nền tảng Ultralytics , có thể tự động sắp xếp các tập dữ liệu đã tải lên thành các danh mục thiết yếu này để đảm bảo đánh giá mô hình một cách nghiêm ngặt.

Tầm quan trọng của việc đánh giá khách quan

Giá trị chính của dữ liệu thử nghiệm nằm ở khả năng của nó trong việc... detect Các vấn đề về độ lệch và phương sai của tập dữ liệu . Nếu một mô hình đạt độ chính xác 99% trên dữ liệu huấn luyện nhưng chỉ 60% trên dữ liệu kiểm tra, điều đó cho thấy phương sai cao (quá khớp). Ngược lại, hiệu suất kém trên cả hai loại dữ liệu cho thấy chưa khớp.

Việc sử dụng bộ dữ liệu kiểm thử được chỉ định tuân thủ các nguyên tắc khoa học về khả năng tái tạo và tính khách quan. Nếu không có bộ dữ liệu kiểm thử hoàn hảo, các nhà phát triển có nguy cơ "dạy theo bài kiểm thử", dẫn đến việc rò rỉ thông tin từ giai đoạn đánh giá trở lại giai đoạn huấn luyện – hiện tượng này được gọi là rò rỉ dữ liệu . Điều này dẫn đến các ước tính hiệu suất quá lạc quan, dễ bị sụp đổ khi mô hình đối mặt với dữ liệu thực tế .

Các Ứng dụng Thực tế

Dữ liệu thử nghiệm là yếu tố thiết yếu trong tất cả các ngành công nghiệp sử dụng trí tuệ nhân tạo để đảm bảo an toàn và độ tin cậy trước khi hệ thống được đưa vào vận hành chính thức.

Lái xe tự hành: Trong quá trình phát triển xe tự hành , dữ liệu huấn luyện có thể bao gồm hàng triệu dặm đường cao tốc được lái trong điều kiện thời tiết tốt. Tuy nhiên, dữ liệu thử nghiệm phải bao gồm các tình huống hiếm gặp và đầy thách thức—chẳng hạn như tuyết rơi dày, chướng ngại vật bất ngờ hoặc biển báo giao thông gây nhầm lẫn—mà chiếc xe chưa từng "nhìn thấy" rõ ràng trong quá trình huấn luyện. Điều này đảm bảo hệ thống phát hiện vật thể có thể phản ứng an toàn trong môi trường khó lường.
Chẩn đoán Y tế: Khi xây dựng mô hình phát hiện khối u trong hình ảnh y tế , tập dữ liệu huấn luyện có thể đến từ cơ sở dữ liệu của một bệnh viện cụ thể. Để xác minh mô hình mạnh mẽ và an toàn cho việc sử dụng rộng rãi, dữ liệu thử nghiệm lý tưởng nên bao gồm các bản quét từ các bệnh viện khác nhau, được thực hiện bằng các máy khác nhau và đại diện cho một nhóm bệnh nhân đa dạng. Việc xác thực bên ngoài này xác nhận rằng AI không thiên vị đối với một loại thiết bị hoặc nhóm dân số cụ thể nào.

Đánh giá hiệu năng bằng mã nguồn

Sử dụng ultralytics Với gói phần mềm này, bạn có thể dễ dàng đánh giá hiệu suất của mô hình trên tập dữ liệu được giữ lại. Trong khi đó, val Chế độ này thường được sử dụng để xác thực trong quá trình huấn luyện, nó cũng có thể được cấu hình để chạy trên một tập dữ liệu kiểm thử cụ thể được xác định trong tệp của bạn. Cấu hình YAML của tập dữ liệu.

Dưới đây là cách đánh giá mô hình YOLO26 đã được huấn luyện trước để thu được các chỉ số như sau: mAP50 -95:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

Quá trình này tạo ra các số liệu toàn diện, cho phép các nhà phát triển so sánh một cách khách quan các kiến trúc khác nhau, chẳng hạn như YOLO26 so với YOLO11 , và đảm bảo giải pháp được chọn đáp ứng các mục tiêu đã định của dự án. Thử nghiệm nghiêm ngặt là bước kiểm soát cuối cùng để đảm bảo đáp ứng các tiêu chuẩn an toàn AI chất lượng cao.

Dữ liệu kiểm tra

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Vai trò của Dữ liệu Kiểm thử trong Vòng đời ML

Tầm quan trọng của việc đánh giá khách quan

Các Ứng dụng Thực tế

Đánh giá hiệu năng bằng mã nguồn

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng