Thuật ngữ

Hình ảnhNet

Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

ImageNet là một tập dữ liệu nền tảng rất lớn được sử dụng rộng rãi trong nghiên cứu và phát triển thị giác máy tính (CV) . Nó bao gồm hơn 14 triệu hình ảnh đã được chú thích thủ công để chỉ ra những đối tượng nào được chụp ảnh, được sắp xếp theo thứ bậc WordNet . Với hơn 20.000 danh mục (synset), ImageNet cung cấp một nguồn tài nguyên phong phú và đa dạng để đào tạo và đánh giá các mô hình học máy (ML) , đặc biệt là đối với các tác vụ như phân loại hình ảnhnhận dạng hình ảnh . Quy mô tuyệt đối và các chú thích chi tiết của nó rất quan trọng để thúc đẩy lĩnh vực này. Bạn có thể tìm hiểu thêm về cách sử dụng tập dữ liệu với Ultralytics mô hình trên trang tài liệu Bộ dữ liệu ImageNet .

Ý nghĩa và sự liên quan

Sự ra đời của ImageNet đánh dấu một thời điểm then chốt cho việc học sâu (DL) , đặc biệt là trong thị giác máy tính. Trước ImageNet, việc thiếu các tập dữ liệu lớn, đa dạng và được gắn nhãn tốt là một nút thắt cổ chai lớn. ImageNet cho phép đào tạo các mô hình sâu hơn và phức tạp hơn nhiều, chẳng hạn như Mạng nơ-ron tích chập (CNN) , dẫn đến những đột phá đáng kể. Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm, diễn ra từ năm 2010 đến năm 2017, đã sử dụng một tập hợp con của ImageNet và trở thành chuẩn mực để đánh giá các thuật toán phân loại hình ảnh và phát hiện đối tượng . Các mô hình như AlexNetResNet , đạt được kết quả tiên tiến trên ImageNet, đã ảnh hưởng rất lớn đến các kiến trúc CV hiện đại.

Ứng dụng của ImageNet

Ứng dụng chính của ImageNet là đóng vai trò là chuẩn mực để đánh giá các mô hình và thuật toán thị giác máy tính mới. Ngoài chuẩn mực, nó còn được sử dụng rộng rãi cho các mô hình tiền đào tạo.

  • Tiền đào tạo cho Chuyển giao học tập: Các mô hình được đào tạo trên ImageNet học các tính năng trực quan chung hữu ích cho nhiều nhiệm vụ thị giác khác nhau. Kỹ thuật này, được gọi là chuyển giao học tập , cho phép các nhà phát triển điều chỉnh các mô hình được đào tạo trước (như các mô hình có sẵn trong Ultralytics HUB ) cho các ứng dụng cụ thể bằng cách sử dụng các tập dữ liệu tùy chỉnh nhỏ hơn nhiều, giúp giảm đáng kể thời gian đào tạo và yêu cầu dữ liệu. Ví dụ, nhiều mô hình Ultralytics YOLO tận dụng các trọng số được đào tạo trước trên các tập dữ liệu lớn.
  • Thúc đẩy nghiên cứu: ImageNet tiếp tục thúc đẩy nghiên cứu trong các lĩnh vực như học biểu diễn, thích ứng miền và hiểu cách thức hoạt động bên trong của mạng nơ-ron sâu.

Ví dụ thực tế

  1. Phân tích hình ảnh y tế: Mặc dù ImageNet không chứa hình ảnh y tế, nhưng các mô hình được đào tạo trước trên ImageNet thường được sử dụng làm điểm khởi đầu cho các tác vụ trong phân tích hình ảnh y tế . Khả năng trích xuất tính năng chung học được từ ImageNet có thể được tinh chỉnh trên các tập dữ liệu nhỏ hơn của X-quang, CT hoặc MRI để giúp phát hiện các bất thường như khối u hoặc gãy xương, như đã chứng minh trong các ứng dụng như sử dụng YOLO để phát hiện khối u .
  2. Xe tự hành: Các mô hình nhận dạng đối tượng là nền tảng cho xe tự hành . Nhiều mô hình nền tảng được sử dụng để nhận dạng người đi bộ, ô tô, đèn giao thông và biển báo đường bộ ban đầu được phát triển và đánh giá chuẩn bằng ImageNet, chứng minh vai trò của tập dữ liệu trong việc xây dựng hệ thống nhận thức cho AI trong xe tự lái .

ImageNet so với các tập dữ liệu khác

Trong khi ImageNet rất rộng lớn và tuyệt vời cho các tác vụ phân loại, các tập dữ liệu khác phục vụ các mục đích khác nhau. Ví dụ, tập dữ liệu COCO (Đối tượng chung trong ngữ cảnh) được sử dụng rộng rãi để phát hiện đối tượng, phân đoạn và chú thích, cung cấp các chú thích chi tiết hơn như mặt nạ thể hiện và hộp giới hạn cho ít danh mục đối tượng hơn so với ImageNet. Tương tự như vậy, Open Images V7 cung cấp hộp giới hạn cho một số lượng lớn các lớp đối tượng. Việc lựa chọn tập dữ liệu thường phụ thuộc vào tác vụ thị giác máy tính cụ thể, chẳng hạn như phân loại, phát hiện hoặc phân đoạn. Khám phá các tập dữ liệu thị giác máy tính khác nhau giúp lựa chọn tập dữ liệu phù hợp nhất cho một dự án.

Đọc tất cả