Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Khám phá các tập dữ liệu thị giác máy tính tốt nhất năm 2025

Hãy cùng chúng tôi xem xét kỹ hơn các tập dữ liệu thị giác máy tính tốt nhất năm 2025. Tìm hiểu cách các tập dữ liệu đa dạng và chất lượng cao thúc đẩy các giải pháp AI thị giác thông minh hơn.

Bạn có biết rằng dữ liệu đóng vai trò trong hầu hết mọi thứ bạn làm hàng ngày không? Xem video, chụp ảnh hoặc kiểm tra Google Bản đồ góp phần vào luồng thông tin liên tục được thu thập bởi hơn 75 tỷ thiết bị được kết nối. Những dữ liệu này tạo thành nền tảng của trí tuệ nhân tạo (AI). Trên thực tế, các mô hình thị giác máy tính tiên tiến như Ultralytics YOLO11 dựa vào dữ liệu trực quan để xác định các mẫu, diễn giải hình ảnh và hiểu được thế giới xung quanh chúng ta.

Điều thú vị là giá trị của dữ liệu không chỉ nằm ở số lượng. Điều quan trọng hơn là dữ liệu được tổ chức và chuẩn bị tốt như thế nào. Nếu một tập dữ liệu lộn xộn hoặc không đầy đủ, nó có thể dẫn đến sai sót. Tuy nhiên, khi các tập dữ liệu sạch và đa dạng, chúng giúp các mô hình thị giác máy tính hoạt động tốt hơn, cho dù đó là nhận dạng các đối tượng trong đám đông hay phân tích hình ảnh phức tạp. Các tập dữ liệu chất lượng cao tạo nên tất cả sự khác biệt.

Trong bài viết này, chúng ta sẽ khám phá các tập dữ liệu thị giác máy tính tốt nhất năm 2025 và xem cách chúng đóng góp vào việc xây dựng các mô hình thị giác máy tính chính xác và hiệu quả hơn. Hãy bắt đầu nào!

Bộ dữ liệu thị giác máy tính là gì?

Bộ dữ liệu thị giác máy tính là tập hợp các hình ảnh hoặc video giúp hệ thống thị giác máy tính học cách hiểu và nhận dạng thông tin trực quan. Các bộ dữ liệu này đi kèm với nhãn hoặc chú thích giúp mô hình nhận dạng các đối tượng, con người, cảnh và mẫu trong dữ liệu.

Chúng có thể được sử dụng để đào tạo các mô hình thị giác máy tính, giúp chúng cải thiện các tác vụ như nhận dạng khuôn mặt, phát hiện vật thể hoặc phân tích cảnh. Bộ dữ liệu càng tốt - được tổ chức tốt, đa dạng và chính xác - thì mô hình Vision AI càng hoạt động tốt, dẫn đến công nghệ thông minh hơn và hữu ích hơn trong cuộc sống hàng ngày.

Cách xây dựng một tập dữ liệu thị giác máy tính

Xây dựng một tập dữ liệu thị giác máy tính giống như chuẩn bị ghi chú học tập để dạy ai đó cách nhìn và hiểu thế giới. Tất cả bắt đầu bằng việc thu thập hình ảnh và video phù hợp với ứng dụng cụ thể mà bạn đang phát triển. 

Một tập dữ liệu lý tưởng bao gồm nhiều ví dụ đa dạng về các đối tượng quan tâm, được chụp từ nhiều góc độ khác nhau, trong nhiều điều kiện ánh sáng khác nhau và trên nhiều bối cảnh và môi trường khác nhau. Sự đa dạng này đảm bảo rằng mô hình thị giác máy tính học cách nhận dạng các mẫu chính xác và hoạt động đáng tin cậy trong các tình huống thực tế.

Hình 1. Xây dựng bộ dữ liệu thị giác hoàn hảo. Hình ảnh của tác giả.

Sau khi thu thập hình ảnh và video có liên quan, bước tiếp theo là gắn nhãn dữ liệu . Quá trình này bao gồm việc thêm thẻ, chú thích hoặc mô tả vào dữ liệu để AI có thể hiểu được nội dung của từng hình ảnh hoặc video. 

Nhãn có thể bao gồm tên đối tượng, vị trí, ranh giới hoặc các chi tiết liên quan khác giúp đào tạo mô hình để nhận dạng và diễn giải thông tin trực quan một cách chính xác. Nhãn dữ liệu chuyển đổi một tập hợp hình ảnh đơn giản thành một tập dữ liệu có cấu trúc có thể được sử dụng để đào tạo mô hình thị giác máy tính.

Đào tạo mô hình đòi hỏi dữ liệu chất lượng cao

Bạn có thể tự hỏi điều gì làm nên một tập dữ liệu chất lượng cao. Có nhiều yếu tố liên quan, như nhãn chính xác, tính đa dạng và tính nhất quán. Ví dụ, nếu nhiều chú thích viên đang gắn nhãn cho một tập dữ liệu phát hiện đối tượng để xác định tai mèo, một người có thể gắn nhãn chúng là một phần của đầu trong khi người khác gắn nhãn chúng riêng biệt là tai. Sự không nhất quán này có thể gây nhầm lẫn cho mô hình và ảnh hưởng đến khả năng học chính xác của mô hình.

Sau đây là tổng quan nhanh về các phẩm chất của một tập dữ liệu thị giác máy tính lý tưởng:

  • Nhãn rõ ràng : Mỗi hình ảnh đều được chú thích chính xác bằng nhãn thống nhất và rõ ràng.
  • Dữ liệu đa dạng : Bộ dữ liệu bao gồm nhiều đối tượng, bối cảnh, điều kiện ánh sáng và góc độ khác nhau để giúp mô hình hoạt động tốt trong nhiều tình huống khác nhau.
  • Hình ảnh có độ phân giải cao : Hình ảnh sắc nét, chi tiết giúp mô hình dễ dàng học và nhận dạng các đặc điểm.

Ultralytics hỗ trợ nhiều tập dữ liệu khác nhau

Ultralytics YOLO các mô hình, như YOLO11 , được xây dựng để làm việc với các tập dữ liệu trong một YOLO định dạng tệp. Mặc dù bạn có thể dễ dàng chuyển đổi dữ liệu của mình sang định dạng này, chúng tôi cũng cung cấp tùy chọn dễ dàng cho những ai muốn bắt đầu thử nghiệm ngay. 

Gói Python Ultralytics hỗ trợ nhiều tập dữ liệu thị giác máy tính, cho phép bạn tìm hiểu sâu hơn về các dự án bằng các tác vụ như phát hiện đối tượng, phân đoạn thể hiện hoặc ước tính tư thế mà không cần bất kỳ thiết lập bổ sung nào.  

Người dùng có thể dễ dàng truy cập các tập dữ liệu sẵn sàng sử dụng như COCO, DOTA-v2.0, Open Images V7 và ImageNet bằng cách chỉ định tên tập dữ liệu là một trong các tham số trong hàm đào tạo. Khi bạn thực hiện như vậy, tập dữ liệu sẽ tự động được tải xuống và cấu hình trước, do đó bạn có thể tập trung vào việc xây dựng và tinh chỉnh các mô hình của mình.

Top 5 bộ dữ liệu thị giác máy tính năm 2025

Những tiến bộ trong Vision AI dựa vào các tập dữ liệu đa dạng, quy mô lớn thúc đẩy sự đổi mới và tạo ra những đột phá. Hãy cùng xem xét một số tập dữ liệu quan trọng nhất, được hỗ trợ bởi Ultralytics , đang ảnh hưởng đến các mô hình thị giác máy tính.

Bộ dữ liệu ImageNet 

ImageNet , do Fei-Fei Li và nhóm của cô tại Đại học Princeton tạo ra vào năm 2007 và được giới thiệu vào năm 2009, là một tập dữ liệu lớn với hơn 14 triệu hình ảnh được gắn nhãn. Nó được sử dụng rộng rãi để đào tạo các hệ thống nhận dạng và phân loại các đối tượng khác nhau. Thiết kế có cấu trúc của nó làm cho nó đặc biệt hữu ích cho việc dạy các mô hình phân loại hình ảnh chính xác. Mặc dù được ghi chép đầy đủ, nhưng nó chủ yếu tập trung vào phân loại hình ảnh và thiếu chú thích chi tiết cho các tác vụ như phát hiện đối tượng. 

Sau đây là một số điểm mạnh chính của ImageNet:

  • Tính đa dạng: Với hình ảnh trải dài trên 20.000 danh mục, ImageNet cung cấp một tập dữ liệu rộng lớn và đa dạng giúp nâng cao khả năng đào tạo và khái quát hóa mô hình.
  • Tổ chức có cấu trúc: Hình ảnh được phân loại tỉ mỉ bằng cách sử dụng hệ thống phân cấp WordNet, tạo điều kiện thuận lợi cho việc truy xuất dữ liệu hiệu quả và đào tạo mô hình một cách có hệ thống. 
  • Tài liệu toàn diện : Nghiên cứu sâu rộng và nhiều năm học tập giúp ImageNet dễ tiếp cận với cả người mới bắt đầu và chuyên gia, cung cấp thông tin chi tiết và hướng dẫn có giá trị cho các dự án thị giác máy tính .

Tuy nhiên, giống như bất kỳ tập dữ liệu nào, nó cũng có những hạn chế. Sau đây là một số thách thức cần cân nhắc:

  • Nhu cầu tính toán: Kích thước khổng lồ của nó có thể đặt ra thách thức cho các nhóm nhỏ có nguồn lực tính toán hạn chế.
  • Thiếu dữ liệu thời gian: Vì chỉ chứa hình ảnh tĩnh nên có thể không đáp ứng được nhu cầu của các ứng dụng yêu cầu dữ liệu video hoặc dữ liệu theo thời gian.
  • Hình ảnh lỗi thời: Một số hình ảnh trong tập dữ liệu đã cũ và có thể không phản ánh các đối tượng, kiểu dáng hoặc môi trường hiện tại, có khả năng làm giảm sự liên quan cho các ứng dụng hiện đại.

Bộ dữ liệu DOTA-v2.0

Bộ dữ liệu DOTA-v2.0 , trong đó DOTA là viết tắt của Bộ dữ liệu để phát hiện đối tượng trong ảnh trên không, là một bộ sưu tập ảnh trên không mở rộng được tạo ra đặc biệt để phát hiện đối tượng theo hộp giới hạn định hướng (OBB) . Trong phát hiện OBB, các hộp giới hạn xoay được sử dụng để căn chỉnh chính xác hơn với hướng thực tế của các đối tượng trong ảnh. Phương pháp này hoạt động đặc biệt tốt đối với ảnh trên không, trong đó các đối tượng thường xuất hiện ở nhiều góc độ khác nhau, dẫn đến định vị chính xác hơn và phát hiện tốt hơn nhìn chung.

Bộ dữ liệu này bao gồm hơn 11.000 hình ảnh và hơn 1,7 triệu hộp giới hạn định hướng trên 18 danh mục đối tượng. Các hình ảnh có kích thước từ 800×800 đến 20.000×20.000 pixel và bao gồm các đối tượng như máy bay, tàu và tòa nhà. 

Hình 2. Ví dụ về hình ảnh và chú thích từ tập dữ liệu DOTA-v2.0. Hình ảnh của tác giả.

Nhờ có chú thích chi tiết, DOTA-v2.0 đã trở thành lựa chọn phổ biến cho các dự án cảm biến từ xa và giám sát trên không. Sau đây là một số tính năng chính của DOTA-v2.0:

  • Danh mục đối tượng đa dạng: Bao gồm nhiều loại đối tượng khác nhau, chẳng hạn như xe cộ, bến cảng và bể chứa, giúp mô hình tiếp xúc với nhiều đối tượng trong thế giới thực.
  • Chú thích chất lượng cao: Các chuyên gia chú thích đã cung cấp các hộp giới hạn định hướng chính xác, hiển thị rõ ràng hình dạng và hướng của vật thể.
  • Hình ảnh đa tỷ lệ: Bộ dữ liệu bao gồm các hình ảnh có nhiều kích cỡ khác nhau, giúp các mô hình học cách phát hiện các đối tượng ở cả tỷ lệ nhỏ và lớn.

Mặc dù DOTA-v2 có nhiều điểm mạnh nhưng sau đây là một số hạn chế mà người dùng cần lưu ý:

  • Các bước tải xuống bổ sung: Do cách duy trì tập dữ liệu DOTA, DOTA-v2.0 yêu cầu một bước thiết lập bổ sung. Trước tiên, bạn cần tải xuống hình ảnh DOTA-v1.0 rồi thêm hình ảnh bổ sung và chú thích đã cập nhật cho DOTA-v2.0 để hoàn thiện tập dữ liệu.
  • Chú thích phức tạp: Các hộp giới hạn định hướng có thể cần nhiều nỗ lực hơn để xử lý trong quá trình đào tạo mô hình.
  • Phạm vi hạn chế: DOTA-v2 được thiết kế cho hình ảnh trên không, khiến nó ít hữu ích hơn cho các tác vụ phát hiện vật thể nói chung nằm ngoài phạm vi này.

Roboflow 100 tập dữ liệu 

Bộ dữ liệu Roboflow 100 (RF100) được tạo bởi Roboflow với sự hỗ trợ từ Intel . Nó có thể được sử dụng để kiểm tra và đánh giá chuẩn mức độ hoạt động của các mô hình phát hiện đối tượng. Bộ dữ liệu đánh giá chuẩn này bao gồm 100 bộ dữ liệu khác nhau được chọn từ hơn 90.000 bộ dữ liệu công khai. Nó có hơn 224.000 hình ảnh và 800 lớp đối tượng từ các lĩnh vực như chăm sóc sức khỏe, chế độ xem trên không và trò chơi. 

Sau đây là một số lợi thế chính khi sử dụng RF100:

  • Phạm vi rộng: Bao gồm các tập dữ liệu từ bảy lĩnh vực, chẳng hạn như hình ảnh y tế, chế độ xem trên không và thám hiểm dưới nước. 
  • Khuyến khích cải tiến mô hình: Tính biến đổi và những thách thức cụ thể trong RF100 bộc lộ những khoảng trống trong các mô hình hiện tại, thúc đẩy nghiên cứu hướng tới các giải pháp phát hiện đối tượng thích ứng và mạnh mẽ hơn.
  • Định dạng hình ảnh nhất quán: Tất cả hình ảnh được thay đổi kích thước thành 640x640 pixel. Điều này giúp người dùng đào tạo mô hình mà không cần phải điều chỉnh kích thước hình ảnh.

Bên cạnh những ưu điểm vượt trội, RF100 cũng có một số nhược điểm cần lưu ý:

  • Hạn chế về mặt nhiệm vụ: RF100 được thiết kế để phát hiện đối tượng, do đó không thể đáp ứng các nhiệm vụ như phân đoạn hoặc phân loại.
  • Tập trung vào chuẩn mực: RF100 chủ yếu được thiết kế như một công cụ chuẩn mực hơn là để đào tạo các mô hình cho các ứng dụng thực tế, do đó kết quả của nó có thể không hoàn toàn phù hợp với các tình huống triển khai thực tế.
  • Tính biến thiên của chú thích : Vì RF100 tổng hợp các tập dữ liệu do cộng đồng đóng góp nên có thể có sự không nhất quán về chất lượng chú thích và phương pháp dán nhãn, điều này có thể ảnh hưởng đến việc đánh giá và tinh chỉnh mô hình.

Bộ dữ liệu COCO (Các đối tượng chung trong ngữ cảnh)

Bộ dữ liệu COCO là một trong những bộ dữ liệu thị giác máy tính được sử dụng rộng rãi nhất, cung cấp hơn 330.000 hình ảnh với chú thích hình ảnh chi tiết. Nó được thiết kế để phát hiện đối tượng, phân đoạn và chú thích hình ảnh, khiến nó trở thành một nguồn tài nguyên có giá trị cho nhiều dự án. Các nhãn chi tiết của nó, bao gồm các hộp giới hạn và mặt nạ phân đoạn, giúp các hệ thống học cách phân tích hình ảnh chính xác.

Bộ dữ liệu này được biết đến với tính linh hoạt và hữu ích cho nhiều tác vụ khác nhau, từ các dự án đơn giản đến phức tạp. Nó đã trở thành tiêu chuẩn trong lĩnh vực Vision AI, thường được sử dụng trong các thử thách và cuộc thi để đánh giá hiệu suất của mô hình.

Một số điểm mạnh của nó bao gồm:

  • Dữ liệu đa dạng và thực tế : Bộ dữ liệu bao gồm hình ảnh từ các tình huống thực tế với nhiều đối tượng, hiện tượng che khuất và điều kiện ánh sáng khác nhau.
  • Được cộng đồng và nghiên cứu áp dụng mạnh mẽ : Được sử dụng trong các cuộc thi và nghiên cứu học máy lớn, tập dữ liệu COCO có tài liệu mở rộng, các mô hình được đào tạo trước và sự hỗ trợ tích cực của cộng đồng.
  • Chú thích phong phú và chi tiết : Bộ dữ liệu COCO cung cấp các chú thích rất chi tiết, bao gồm phân đoạn đối tượng, điểm chính và chú thích, rất lý tưởng cho các dự án đòi hỏi sự hiểu biết trực quan chính xác.

Sau đây là một số yếu tố hạn chế bạn cần lưu ý:

  • Yêu cầu tính toán cao : Do quy mô và tính phức tạp, các mô hình đào tạo trên COCO có thể yêu cầu nhiều tài nguyên tính toán, gây khó khăn cho các nhóm có phần cứng hạn chế.
  • Mất cân bằng dữ liệu : Một số danh mục đối tượng có nhiều hình ảnh hơn đáng kể so với các danh mục khác, điều này có thể dẫn đến sai lệch trong quá trình đào tạo mô hình.
  • Cấu trúc chú thích phức tạp : Các chú thích chi tiết của tập dữ liệu, mặc dù có giá trị, nhưng có thể gây khó khăn cho người mới bắt đầu hoặc các nhóm nhỏ không có kinh nghiệm làm việc với tập dữ liệu Vision AI có cấu trúc.

Mở tập dữ liệu Hình ảnh V7

Open Images V7 là một bộ dữ liệu nguồn mở khổng lồ được quản lý bởi Google , có hơn 9 triệu hình ảnh với chú thích cho 600 danh mục đối tượng. Nó bao gồm nhiều loại chú thích và lý tưởng để giải quyết các tác vụ thị giác máy tính phức tạp. Quy mô và độ sâu của nó cung cấp một nguồn tài nguyên toàn diện để đào tạo và thử nghiệm các mô hình thị giác máy tính.

Hình 3. Một cái nhìn thoáng qua về bộ dữ liệu Open Images V7. Hình ảnh của tác giả.

Ngoài ra, sự phổ biến của tập dữ liệu Open Images V7 trong nghiên cứu cung cấp nhiều tài nguyên và ví dụ để người dùng học hỏi. Tuy nhiên, kích thước lớn của nó có thể khiến việc tải xuống và xử lý tốn thời gian, đặc biệt là đối với các nhóm nhỏ hơn. Một vấn đề khác là một số chú thích có thể không nhất quán, đòi hỏi thêm công sức để làm sạch dữ liệu và tích hợp không phải lúc nào cũng liền mạch, nghĩa là có thể cần phải chuẩn bị thêm. 

Chọn đúng tập dữ liệu 

Chọn đúng tập dữ liệu là một phần quan trọng trong việc thiết lập dự án thị giác máy tính của bạn để thành công. Lựa chọn tốt nhất phụ thuộc vào nhiệm vụ cụ thể của bạn - tìm được sự kết hợp tốt giúp mô hình của bạn học được các kỹ năng phù hợp. Nó cũng nên dễ dàng tích hợp với các công cụ của bạn, để bạn có thể tập trung nhiều hơn vào việc xây dựng mô hình của mình và ít hơn vào việc khắc phục sự cố.

Hình 4. Các yếu tố để lựa chọn tập dữ liệu phù hợp. Hình ảnh của tác giả.

Những điểm chính

Các tập dữ liệu chất lượng cao là xương sống của bất kỳ mô hình thị giác máy tính nào, giúp các hệ thống học cách diễn giải hình ảnh một cách chính xác. Các tập dữ liệu đa dạng và được chú thích tốt đặc biệt quan trọng vì chúng cho phép các mô hình hoạt động đáng tin cậy trong các tình huống thực tế và giảm lỗi do dữ liệu hạn chế hoặc chất lượng kém gây ra.

Ultralytics đơn giản hóa quá trình truy cập và làm việc với các tập dữ liệu thị giác máy tính, giúp bạn dễ dàng tìm thấy dữ liệu phù hợp cho dự án của mình. Việc chọn đúng tập dữ liệu là bước quan trọng trong việc xây dựng mô hình hiệu suất cao, dẫn đến kết quả chính xác và có tác động hơn.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Khám phá những tiến bộ như thị giác máy tính cho chăm sóc sức khỏeAI trong xe tự lái trên các trang giải pháp của chúng tôi. Kiểm tra các tùy chọn cấp phép của chúng tôi và thực hiện bước đầu tiên để bắt đầu với thị giác máy tính ngay hôm nay!

Logo FacebookBiểu trưng TwitterBiểu tượng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning