Thuật ngữ

Phân loại hình ảnh

Khám phá phân loại hình ảnh với Ultralytics YOLO : đào tạo các mô hình tùy chỉnh cho chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.

Phân loại hình ảnh là một nhiệm vụ cơ bản trong Thị giác máy tính (CV) liên quan đến việc gán một nhãn hoặc danh mục duy nhất cho toàn bộ hình ảnh dựa trên nội dung trực quan của nó. Đây là một khả năng cốt lõi trong Trí tuệ nhân tạo (AI) , cho phép máy móc hiểu và phân loại hình ảnh tương tự như cách con người nhận dạng cảnh hoặc vật thể. Được hỗ trợ bởi các kỹ thuật Học máy (ML) và đặc biệt là Học sâu (DL) , phân loại hình ảnh nhằm mục đích trả lời câu hỏi: "Chủ thể chính của hình ảnh này là gì?". Nhiệm vụ này đóng vai trò là khối xây dựng cho nhiều vấn đề hiểu biết trực quan phức tạp hơn.

Phân loại hình ảnh hoạt động như thế nào

Quá trình này thường bao gồm việc đào tạo một mô hình, thường là một loại mạng nơ-ron chuyên biệt được gọi là Mạng nơ-ron tích chập (CNN) , trên một tập dữ liệu lớn gồm các hình ảnh được gắn nhãn. Các tập dữ liệu nổi tiếng như ImageNet , chứa hàng triệu hình ảnh trên hàng nghìn danh mục, thường được sử dụng để đào tạo các mô hình mạnh mẽ. Trong quá trình đào tạo, mô hình học cách xác định các mẫu và đặc điểm phân biệt—chẳng hạn như kết cấu, hình dạng, cạnh và phân phối màu—đặc trưng cho các danh mục khác nhau. Các khuôn khổ như PyTorch và TensorFlow cung cấp các công cụ và thư viện cần thiết để xây dựng và đào tạo các mô hình học sâu này. Bạn có thể khám phá nhiều tập dữ liệu phân loại Ultralytics khác nhau như CIFAR-100 hoặc MNIST để bắt đầu các dự án của riêng bạn. Mục tiêu cuối cùng là để mô hình được đào tạo dự đoán chính xác nhãn lớp cho các hình ảnh mới, chưa từng thấy trước đây. Để hiểu sâu hơn về mặt kỹ thuật về các cơ chế cơ bản, các tài nguyên như khóa học Stanford CS231n về Mạng nơ-ron tích chập để nhận dạng hình ảnh cung cấp tài liệu toàn diện.

Sự khác biệt chính so với các nhiệm vụ thị giác khác

Phân loại hình ảnh tập trung vào việc gán một nhãn duy nhất, bao quát cho toàn bộ hình ảnh. Điều này làm cho nó khác biệt với các tác vụ thị giác máy tính phổ biến khác:

Phát hiện đối tượng : Nhiệm vụ này tiến xa hơn một bước bằng cách không chỉ phân loại các đối tượng trong một hình ảnh mà còn định vị chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Nó trả lời "Những đối tượng nào có trong hình ảnh này và chúng nằm ở đâu?".
Phân đoạn hình ảnh:Điều này liên quan đến việc phân loại từng điểm ảnh trong hình ảnh.
- Phân đoạn ngữ nghĩa gán nhãn lớp (ví dụ: 'ô tô', 'đường', 'bầu trời') cho từng pixel mà không phân biệt các trường hợp khác nhau của cùng một lớp.
- Phân đoạn trường hợp phân biệt giữa các trường hợp riêng lẻ của đối tượng, gán một mã định danh duy nhất cho các điểm ảnh thuộc về từng đối tượng riêng biệt (ví dụ: dán nhãn 'xe 1', 'xe 2').

Việc hiểu được những khác biệt này rất quan trọng để lựa chọn kỹ thuật phù hợp cho một vấn đề cụ thể, vì mỗi nhiệm vụ cung cấp mức độ chi tiết khác nhau về nội dung hình ảnh.

Ứng dụng trong thế giới thực

Phân loại hình ảnh được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau do tính hiệu quả của nó trong việc phân loại thông tin hình ảnh:

Phân tích hình ảnh y tế : Phân loại các bản quét y tế (như X-quang, CT hoặc MRI) để hỗ trợ chẩn đoán. Ví dụ, một mô hình có thể được đào tạo để phân loại các bản quét khi cho thấy dấu hiệu của một tình trạng cụ thể, chẳng hạn như sử dụng các mô hình YOLO để phát hiện khối u , do đó hỗ trợ các bác sĩ X quang. Khám phá thêm AI trong các giải pháp chăm sóc sức khỏe .
Công nghệ Nông nghiệp : Phân loại hình ảnh cây trồng để xác định bệnh, đánh giá sức khỏe cây trồng hoặc xác định độ chín. Ví dụ, một ứng dụng có thể phân loại ảnh do máy bay không người lái hoặc nông dân chụp là 'lúa mì khỏe mạnh' hoặc 'phát hiện rỉ sét lúa mì', cho phép can thiệp kịp thời. Tìm hiểu thêm về thị giác máy tính trong nông nghiệp .
Bán lẻ và thương mại điện tử : Tự động phân loại hình ảnh sản phẩm cho danh mục trực tuyến, cải thiện khả năng tìm kiếm và quản lý hàng tồn kho.
Kiểm duyệt nội dung : Lọc hình ảnh trên mạng xã hội hoặc trang web bằng cách phân loại chúng thành an toàn hoặc không phù hợp.
Bảo tồn động vật hoang dã : Phân loại hình ảnh từ bẫy ảnh để theo dõi quần thể động vật và xác định loài ( như ngựa vằn ).

Phân loại hình ảnh với Ultralytics

Ultralytics YOLO Các mô hình, mặc dù nổi tiếng về khả năng phát hiện đối tượng, cũng thể hiện hiệu suất mạnh mẽ trong các tác vụ phân loại hình ảnh . Các kiến trúc tiên tiến như Ultralytics YOLO11 có thể dễ dàng được đào tạo hoặc tinh chỉnh để phân loại bằng cách sử dụng gói Ultralytics Python trực quan hoặc nền tảng Ultralytics HUB không cần mã. Các công cụ này cung cấp các tài nguyên toàn diện, bao gồm các mẹo đào tạo mô hình và tài liệu hướng dẫn rõ ràng, chẳng hạn như hướng dẫn về cách sử dụng Ultralytics YOLO11 để phân loại hình ảnh . Để thực hành thêm, hãy cân nhắc khám phá các hướng dẫn phân loại PyTorch hoặc tham gia các cuộc thi phân loại hình ảnh Kaggle . Để luôn cập nhật những tiến bộ nghiên cứu mới nhất, các tài nguyên như Papers With Code vô cùng hữu ích. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các điểm chuẩn chuẩn.

Phân loại hình ảnh

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Phân loại hình ảnh hoạt động như thế nào

Sự khác biệt chính so với các nhiệm vụ thị giác khác

Ứng dụng trong thế giới thực

Phân loại hình ảnh với Ultralytics

Đọc thêm blog

Tham gia Ultralytics cộng đồng