Thuật ngữ

Phân loại hình ảnh

Khám phá phân loại hình ảnh với Ultralytics YOLO : đào tạo các mô hình tùy chỉnh cho chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân loại hình ảnh là một nhiệm vụ cơ bản trong Thị giác máy tính (CV) liên quan đến việc gán một nhãn hoặc danh mục duy nhất cho toàn bộ hình ảnh dựa trên nội dung trực quan của nó. Đây là một khả năng cốt lõi trong Trí tuệ nhân tạo (AI) , cho phép máy móc hiểu và phân loại hình ảnh tương tự như cách con người nhận dạng cảnh hoặc vật thể. Được hỗ trợ bởi các kỹ thuật Học máy (ML) và đặc biệt là Học sâu (DL) , phân loại hình ảnh nhằm mục đích trả lời câu hỏi: "Chủ thể chính của hình ảnh này là gì?". Nhiệm vụ này đóng vai trò là khối xây dựng cho nhiều vấn đề hiểu biết trực quan phức tạp hơn.

Phân loại hình ảnh hoạt động như thế nào

Quá trình này thường bao gồm việc đào tạo một mô hình, thường là một loại mạng nơ-ron chuyên biệt được gọi là Mạng nơ-ron tích chập (CNN) , trên một tập dữ liệu lớn gồm các hình ảnh được gắn nhãn. Các tập dữ liệu nổi tiếng như ImageNet , chứa hàng triệu hình ảnh trên hàng nghìn danh mục, thường được sử dụng để đào tạo các mô hình mạnh mẽ. Trong quá trình đào tạo, mô hình học cách xác định các mẫu và đặc điểm phân biệt—chẳng hạn như kết cấu, hình dạng, cạnh và phân phối màu—đặc trưng cho các danh mục khác nhau. Các khuôn khổ như PyTorchTensorFlow cung cấp các công cụ và thư viện cần thiết để xây dựng và đào tạo các mô hình học sâu này. Bạn có thể khám phá nhiều tập dữ liệu phân loại Ultralytics khác nhau như CIFAR-100 hoặc MNIST để bắt đầu các dự án của riêng bạn. Mục tiêu cuối cùng là để mô hình được đào tạo dự đoán chính xác nhãn lớp cho các hình ảnh mới, chưa từng thấy trước đây. Để hiểu sâu hơn về mặt kỹ thuật về các cơ chế cơ bản, các tài nguyên như khóa học Stanford CS231n về Mạng nơ-ron tích chập để nhận dạng hình ảnh cung cấp tài liệu toàn diện.

Sự khác biệt chính so với các nhiệm vụ thị giác khác

Phân loại hình ảnh tập trung vào việc gán một nhãn duy nhất, bao quát cho toàn bộ hình ảnh. Điều này làm cho nó khác biệt với các tác vụ thị giác máy tính phổ biến khác:

  • Phát hiện đối tượng : Nhiệm vụ này tiến xa hơn một bước bằng cách không chỉ phân loại các đối tượng trong một hình ảnh mà còn định vị chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Nó trả lời "Những đối tượng nào có trong hình ảnh này và chúng nằm ở đâu?".
  • Phân đoạn hình ảnh:Điều này liên quan đến việc phân loại từng điểm ảnh trong hình ảnh.
    • Phân đoạn ngữ nghĩa gán nhãn lớp (ví dụ: 'ô tô', 'đường', 'bầu trời') cho từng pixel mà không phân biệt các trường hợp khác nhau của cùng một lớp.
    • Phân đoạn trường hợp phân biệt giữa các trường hợp riêng lẻ của đối tượng, gán một mã định danh duy nhất cho các điểm ảnh thuộc về từng đối tượng riêng biệt (ví dụ: dán nhãn 'xe 1', 'xe 2').

Việc hiểu được những khác biệt này rất quan trọng để lựa chọn kỹ thuật phù hợp cho một vấn đề cụ thể, vì mỗi nhiệm vụ cung cấp mức độ chi tiết khác nhau về nội dung hình ảnh.

Ứng dụng trong thế giới thực

Phân loại hình ảnh được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau do tính hiệu quả của nó trong việc phân loại thông tin hình ảnh:

Phân loại hình ảnh với Ultralytics

Ultralytics YOLO Các mô hình, mặc dù nổi tiếng về khả năng phát hiện đối tượng, cũng thể hiện hiệu suất mạnh mẽ trong các tác vụ phân loại hình ảnh . Các kiến trúc tiên tiến như Ultralytics YOLO11 có thể dễ dàng được đào tạo hoặc tinh chỉnh để phân loại bằng cách sử dụng gói Ultralytics Python trực quan hoặc nền tảng Ultralytics HUB không cần mã. Các công cụ này cung cấp các tài nguyên toàn diện, bao gồm các mẹo đào tạo mô hình và tài liệu hướng dẫn rõ ràng, chẳng hạn như hướng dẫn về cách sử dụng Ultralytics YOLO11 để phân loại hình ảnh . Để thực hành thêm, hãy cân nhắc khám phá các hướng dẫn phân loại PyTorch hoặc tham gia các cuộc thi phân loại hình ảnh Kaggle . Để luôn cập nhật những tiến bộ nghiên cứu mới nhất, các tài nguyên như Papers With Code vô cùng hữu ích. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các điểm chuẩn chuẩn.

Đọc tất cả