Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.
ImageNet là một tập dữ liệu nền tảng rất lớn được sử dụng rộng rãi trong nghiên cứu và phát triển thị giác máy tính (CV) . Nó bao gồm hơn 14 triệu hình ảnh đã được chú thích thủ công để chỉ ra những đối tượng nào được chụp ảnh, được sắp xếp theo thứ bậc WordNet . Với hơn 20.000 danh mục (synset), ImageNet cung cấp một nguồn tài nguyên phong phú và đa dạng để đào tạo và đánh giá các mô hình học máy (ML) , đặc biệt là đối với các tác vụ như phân loại hình ảnh và nhận dạng hình ảnh . Quy mô tuyệt đối và các chú thích chi tiết của nó rất quan trọng để thúc đẩy lĩnh vực này. Bạn có thể tìm hiểu thêm về cách sử dụng tập dữ liệu với Ultralytics mô hình trên trang tài liệu Bộ dữ liệu ImageNet .
Sự ra đời của ImageNet đánh dấu một thời điểm then chốt cho việc học sâu (DL) , đặc biệt là trong thị giác máy tính. Trước ImageNet, việc thiếu các tập dữ liệu lớn, đa dạng và được gắn nhãn tốt là một nút thắt cổ chai lớn. ImageNet cho phép đào tạo các mô hình sâu hơn và phức tạp hơn nhiều, chẳng hạn như Mạng nơ-ron tích chập (CNN) , dẫn đến những đột phá đáng kể. Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm, diễn ra từ năm 2010 đến năm 2017, đã sử dụng một tập hợp con của ImageNet và trở thành chuẩn mực để đánh giá các thuật toán phân loại hình ảnh và phát hiện đối tượng . Các mô hình như AlexNet và ResNet , đạt được kết quả tiên tiến trên ImageNet, đã ảnh hưởng rất lớn đến các kiến trúc CV hiện đại.
Ứng dụng chính của ImageNet là đóng vai trò là chuẩn mực để đánh giá các mô hình và thuật toán thị giác máy tính mới. Ngoài chuẩn mực, nó còn được sử dụng rộng rãi cho các mô hình tiền đào tạo.
Trong khi ImageNet rất rộng lớn và tuyệt vời cho các tác vụ phân loại, các tập dữ liệu khác phục vụ các mục đích khác nhau. Ví dụ, tập dữ liệu COCO (Đối tượng chung trong ngữ cảnh) được sử dụng rộng rãi để phát hiện đối tượng, phân đoạn và chú thích, cung cấp các chú thích chi tiết hơn như mặt nạ thể hiện và hộp giới hạn cho ít danh mục đối tượng hơn so với ImageNet. Tương tự như vậy, Open Images V7 cung cấp hộp giới hạn cho một số lượng lớn các lớp đối tượng. Việc lựa chọn tập dữ liệu thường phụ thuộc vào tác vụ thị giác máy tính cụ thể, chẳng hạn như phân loại, phát hiện hoặc phân đoạn. Khám phá các tập dữ liệu thị giác máy tính khác nhau giúp lựa chọn tập dữ liệu phù hợp nhất cho một dự án.