Bảng chú giải thuật ngữ

Dữ liệu Validation

Khám phá cách dữ liệu xác thực giúp cải thiện khả năng khái quát hóa của mô hình. Tìm hiểu cách tinh chỉnh. Ultralytics YOLO26, ngăn ngừa hiện tượng quá khớp (overfitting) và tối ưu hóa siêu tham số để đạt hiệu suất cao nhất. mAP .

Dữ liệu xác thực đóng vai trò là điểm kiểm tra quan trọng trong vòng đời phát triển máy học, hoạt động như một tập dữ liệu trung gian được sử dụng để đánh giá hiệu suất của mô hình trong quá trình huấn luyện. Không giống như tập dữ liệu chính được sử dụng để dạy thuật toán, tập dữ liệu xác thực cung cấp ước tính khách quan về mức độ hệ thống học cách khái quát hóa đối với thông tin mới, chưa từng thấy. Bằng cách theo dõi các chỉ số trên tập con cụ thể này, các nhà phát triển có thể tinh chỉnh cấu hình của mô hình và xác định các vấn đề tiềm ẩn như quá khớp , trong đó hệ thống ghi nhớ các ví dụ huấn luyện thay vì hiểu các mẫu cơ bản. Vòng phản hồi này rất cần thiết để tạo ra các giải pháp trí tuệ nhân tạo (AI) mạnh mẽ hoạt động đáng tin cậy trong thế giới thực.

Vai trò của việc xác thực trong việc tinh chỉnh siêu tham số

Chức năng chính của dữ liệu kiểm định là hỗ trợ tối ưu hóa các siêu tham số . Trong khi các tham số nội bộ, chẳng hạn như trọng số mô hình , được học tự động thông qua quá trình huấn luyện, thì các siêu tham số—bao gồm tốc độ học , kích thước lô và kiến trúc mạng—phải được thiết lập thủ công hoặc được tìm ra thông qua thử nghiệm.

Dữ liệu kiểm định cho phép các kỹ sư so sánh các cấu hình khác nhau một cách hiệu quả thông qua việc lựa chọn mô hình . Ví dụ, nếu một nhà phát triển đang huấn luyện mô hình YOLO26 , họ có thể thử nghiệm ba tốc độ học khác nhau. Phiên bản mang lại độ chính xác cao nhất trên tập dữ liệu kiểm định thường được chọn. Quá trình này giúp cân bằng giữa độ lệch và phương sai , đảm bảo mô hình đủ phức tạp để nắm bắt được những sắc thái tinh tế của dữ liệu nhưng đủ đơn giản để vẫn có thể khái quát hóa được.

Phân biệt giữa các phân chia dữ liệu

Để đảm bảo tính chính xác khoa học, một tập dữ liệu hoàn chỉnh thường được chia thành ba tập con riêng biệt. Hiểu rõ mục đích riêng của từng tập con là điều vô cùng quan trọng để quản lý dữ liệu hiệu quả.

Dữ liệu huấn luyện : Đây là phần lớn nhất của tập dữ liệu, được sử dụng trực tiếp để huấn luyện mô hình. Thuật toán xử lý các ví dụ này để điều chỉnh các tham số nội bộ của nó thông qua lan truyền ngược .
Dữ liệu kiểm chứng: Tập dữ liệu con này được sử dụng trong quá trình huấn luyện để cung cấp đánh giá thường xuyên. Điều quan trọng là mô hình không bao giờ trực tiếp cập nhật trọng số dựa trên dữ liệu này; nó chỉ sử dụng dữ liệu này để hướng dẫn việc lựa chọn mô hình và các quyết định dừng sớm .
Dữ liệu thử nghiệm : Một tập dữ liệu hoàn toàn bí mật, chỉ được sử dụng một lần sau khi cấu hình mô hình cuối cùng được chọn. Nó đóng vai trò như một "bài kiểm tra cuối cùng" để cung cấp thước đo thực tế về hiệu suất triển khai mô hình .

Thực hiện thực tế với Ultralytics

Trong Ultralytics Trong hệ sinh thái này, việc xác thực mô hình là một quy trình được đơn giản hóa. Khi người dùng bắt đầu huấn luyện hoặc xác thực, khung phần mềm sẽ tự động sử dụng các hình ảnh được chỉ định trong cấu hình YAML của tập dữ liệu. Điều này tính toán các chỉ số hiệu suất chính như Độ chính xác trung bình ( mAP ) , giúp người dùng đánh giá độ chính xác của các tác vụ phát hiện hoặc phân đoạn đối tượng của họ.

Ví dụ sau đây minh họa cách xác thực mô hình YOLO26 đã được huấn luyện trước trên tập dữ liệu COCO8 tiêu chuẩn bằng cách sử dụng Python :

from ultralytics import YOLO

# Load the YOLO26 model (recommended for state-of-the-art performance)
model = YOLO("yolo26n.pt")

# Validate the model using the 'val' mode
# The 'data' argument points to the dataset config containing the validation split
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision at IoU 0.5-0.95
print(f"Validation mAP50-95: {metrics.box.map}")

Các Ứng dụng Thực tế

Dữ liệu xác thực là không thể thiếu trong nhiều ngành công nghiệp, nơi độ chính xác và độ tin cậy là yếu tố không thể thỏa hiệp.

Nông nghiệp thông minh: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong nông nghiệp , các hệ thống được huấn luyện để... detect bệnh cây trồng hoặc theo dõi các giai đoạn sinh trưởng. Bộ dữ liệu kiểm chứng chứa hình ảnh được chụp trong các điều kiện thời tiết khác nhau (nắng, nhiều mây, mưa) đảm bảo mô hình không chỉ hoạt động tốt trong những ngày nắng đẹp. Bằng cách điều chỉnh các chiến lược tăng cường dữ liệu dựa trên điểm số kiểm chứng, nông dân nhận được những hiểu biết nhất quán bất kể sự biến đổi của môi trường.
Chẩn đoán y tế: Khi phát triển các giải pháp phân tích hình ảnh y tế , chẳng hạn như xác định khối u trong ảnh chụp CT, dữ liệu xác thực giúp ngăn chặn mô hình học hỏi những thành kiến đặc thù từ thiết bị của một bệnh viện cụ thể. Việc xác thực nghiêm ngặt trên nhiều nhóm bệnh nhân khác nhau đảm bảo rằng các công cụ chẩn đoán đáp ứng các tiêu chuẩn an toàn do các cơ quan quản lý như hướng dẫn về sức khỏe kỹ thuật số của FDA yêu cầu.

Kỹ thuật nâng cao: Xác thực chéo

Trong những trường hợp dữ liệu khan hiếm, việc dành riêng 20% dữ liệu cho việc kiểm chứng có thể loại bỏ quá nhiều thông tin huấn luyện quý giá. Trong những trường hợp như vậy, các chuyên gia thường sử dụng phương pháp kiểm chứng chéo , cụ thể là kiểm chứng chéo K-fold . Kỹ thuật này bao gồm việc chia dữ liệu thành 'K' tập con và luân phiên chọn tập con nào được sử dụng làm dữ liệu kiểm chứng. Điều này đảm bảo rằng mọi điểm dữ liệu đều được sử dụng cho cả huấn luyện và kiểm chứng, cung cấp ước tính hiệu suất mô hình mạnh mẽ hơn về mặt thống kê như được mô tả trong lý thuyết học máy thống kê .

Sử dụng hiệu quả dữ liệu xác thực là nền tảng của hoạt động vận hành máy học chuyên nghiệp (MLOps) . Bằng cách tận dụng các công cụ như Nền tảng Ultralytics , các nhóm có thể tự động hóa việc quản lý các tập dữ liệu này, đảm bảo rằng các mô hình được kiểm tra và tối ưu hóa một cách nghiêm ngặt trước khi được đưa vào sản xuất.

Dữ liệu Validation

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Vai trò của việc xác thực trong việc tinh chỉnh siêu tham số

Phân biệt giữa các phân chia dữ liệu

Thực hiện thực tế với Ultralytics

Các Ứng dụng Thực tế

Kỹ thuật nâng cao: Xác thực chéo

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng