Khám phá sức mạnh của phân loại hình ảnh trong AI, từ chăm sóc sức khỏe đến bán lẻ, với Ultralytics YOLO mô hình và công cụ triển khai dễ dàng.
Phân loại hình ảnh là một nhiệm vụ cơ bản trong thị giác máy tính liên quan đến việc gán nhãn hoặc danh mục cho toàn bộ hình ảnh. Quá trình này cho phép máy móc xác định và phân loại chủ thể hoặc cảnh chính được mô tả trong hình ảnh, cho phép nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau. Các mô hình phân loại hình ảnh được đào tạo để nhận dạng các mẫu và đặc điểm trong hình ảnh, cho phép chúng phân loại chính xác các hình ảnh mới, chưa từng thấy dựa trên kiến thức đã học của chúng.
Phân loại hình ảnh dựa trên một số khái niệm chính từ học máy và học sâu. Về bản chất, phân loại hình ảnh thường liên quan đến việc đào tạo Mạng nơ-ron tích chập (CNN) , một loại mạng nơ-ron đặc biệt phù hợp với dữ liệu hình ảnh. CNN có thể tự động học các biểu diễn phân cấp của hình ảnh thông qua các lớp bộ lọc phát hiện các mẫu ngày càng phức tạp. Trong quá trình đào tạo, mô hình được cung cấp một tập dữ liệu lớn gồm các hình ảnh được gắn nhãn và nó điều chỉnh các tham số bên trong của mình để giảm thiểu sự khác biệt giữa các nhãn dự đoán và nhãn thực. Quá trình này thường liên quan đến các kỹ thuật như tăng cường dữ liệu , làm tăng kích thước của tập dữ liệu đào tạo một cách giả tạo bằng cách áp dụng các phép biến đổi như xoay, lật và cắt vào các hình ảnh hiện có.
Mặc dù cả phân loại hình ảnh và phát hiện đối tượng đều là các tác vụ quan trọng của thị giác máy tính, nhưng chúng phục vụ các mục đích khác nhau. Phân loại hình ảnh gán một nhãn duy nhất cho toàn bộ hình ảnh, xác định chủ thể hoặc cảnh chính. Ví dụ, một mô hình phân loại hình ảnh có thể dán nhãn một hình ảnh là "mèo", "chó" hoặc "ô tô". Ngược lại, phát hiện đối tượng không chỉ xác định sự hiện diện của nhiều đối tượng trong một hình ảnh mà còn định vị chúng bằng các hộp giới hạn . Một mô hình phát hiện đối tượng có thể xác định và định vị nhiều đối tượng trong một hình ảnh, chẳng hạn như mèo, chó và ô tô, mỗi đối tượng có hộp giới hạn riêng. Ultralytics YOLO các mô hình có khả năng thực hiện cả nhiệm vụ phân loại hình ảnh và phát hiện đối tượng, cung cấp các giải pháp đa năng cho nhiều ứng dụng thị giác máy tính khác nhau. Bạn có thể tìm hiểu thêm về sự phát triển của các mô hình này trong Sự phát triển của các mô hình YOLO phát hiện đối tượng và Ultralytics .
Phân loại hình ảnh có nhiều ứng dụng thực tế trong nhiều ngành công nghiệp khác nhau:
Đào tạo mô hình phân loại hình ảnh bao gồm một số bước, bao gồm thu thập dữ liệu, xử lý trước, đào tạo mô hình và đánh giá. Các tập dữ liệu được gắn nhãn chất lượng cao là điều cần thiết để đào tạo các mô hình chính xác. Sau khi được đào tạo, các mô hình có thể được triển khai bằng nhiều nền tảng và công cụ khác nhau. Ultralytics HUB cung cấp nền tảng thân thiện với người dùng để đào tạo và triển khai các mô hình Ultralytics YOLO , bao gồm cả các mô hình phân loại hình ảnh. Ultralytics HUB đơn giản hóa quy trình, cho phép người dùng dễ dàng quản lý các tập dữ liệu, đào tạo các mô hình và triển khai chúng cho các ứng dụng thực tế. Bạn có thể tìm hiểu thêm về cách sử dụng Ultralytics YOLO11 để phân loại hình ảnh trong hướng dẫn này về cách sử dụng YOLO11 để phân loại hình ảnh . Ngoài ra, bạn có thể khám phá những điều cơ bản về phân loại hình ảnh và các ứng dụng của nó trong phần giới thiệu về phân loại hình ảnh này.
Nhận dạng hình ảnh : Một thuật ngữ rộng hơn bao gồm cả phân loại hình ảnh và phát hiện đối tượng, liên quan đến việc xác định và hiểu các đối tượng và cảnh trong hình ảnh. Tìm hiểu thêm về nhận dạng hình ảnh .
Phân đoạn hình ảnh : Bao gồm việc phân chia một hình ảnh thành nhiều phân đoạn hoặc vùng, mỗi phân đoạn đại diện cho một đối tượng hoặc một phần khác nhau của đối tượng. Không giống như phân loại hình ảnh, chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh, phân đoạn hình ảnh cung cấp phân tích chi tiết hơn bằng cách phân loại từng pixel trong hình ảnh. Tìm hiểu thêm về phân đoạn hình ảnh .