Thuật ngữ

Phân đoạn hình ảnh

Khám phá sức mạnh của phân đoạn hình ảnh với Ultralytics YOLO . Khám phá độ chính xác ở cấp độ pixel, các loại, ứng dụng và trường hợp sử dụng AI trong thế giới thực.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn hình ảnh là một kỹ thuật cơ bản trong thị giác máy tính (CV) liên quan đến việc phân vùng một hình ảnh kỹ thuật số thành nhiều vùng hoặc phân đoạn riêng biệt. Mục tiêu chính là gán nhãn lớp cho mọi pixel trong hình ảnh, về cơ bản là đơn giản hóa biểu diễn hình ảnh thành thứ gì đó có ý nghĩa hơn và dễ phân tích hơn đối với máy móc. Không giống như phát hiện đối tượng , xác định đối tượng bằng hộp giới hạn hình chữ nhật, phân đoạn hình ảnh cung cấp sự hiểu biết chi tiết hơn nhiều ở cấp độ pixel về nội dung hình ảnh, phác thảo hình dạng chính xác của đối tượng. Độ chính xác này rất quan trọng đối với các tác vụ đòi hỏi nhận thức không gian chi tiết.

Phân đoạn hình ảnh hoạt động như thế nào

Thuật toán phân đoạn hình ảnh hoạt động bằng cách kiểm tra từng pixel của hình ảnh và nhóm các pixel có chung một số đặc điểm nhất định—chẳng hạn như màu sắc, cường độ, kết cấu hoặc vị trí không gian—thành các phân đoạn. Các phương pháp ban đầu dựa vào các kỹ thuật như ngưỡng, phát triển vùng và phân cụm ( K-Means , DBSCAN ). Tuy nhiên, các phương pháp tiếp cận hiện đại tận dụng rất nhiều học sâu (DL) , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các mạng nơ-ron này học các tính năng phân cấp phức tạp trực tiếp từ dữ liệu đào tạo để thực hiện phân loại từng pixel. Đầu ra điển hình là mặt nạ phân đoạn, một hình ảnh trong đó giá trị của mỗi pixel tương ứng với nhãn lớp mà nó thuộc về, làm nổi bật trực quan các ranh giới chính xác của các đối tượng hoặc vùng. Các khung như PyTorchTensorFlow thường được sử dụng để xây dựng và đào tạo các mô hình này.

Các loại phân đoạn hình ảnh

Nhiệm vụ phân đoạn hình ảnh có thể khác nhau tùy thuộc vào cách xử lý các đối tượng và lớp:

  • Phân đoạn ngữ nghĩa : Gán mỗi pixel vào một danh mục được xác định trước (ví dụ: 'ô tô', 'đường', 'bầu trời'). Nó không phân biệt giữa các trường hợp khác nhau của cùng một lớp đối tượng. Ví dụ, tất cả ô tô sẽ chia sẻ cùng một nhãn.
  • Phân đoạn thể hiện : Tiến xa hơn một bước so với phân đoạn ngữ nghĩa bằng cách xác định và phân định từng thể hiện đối tượng riêng lẻ trong một hình ảnh. Mỗi chiếc xe riêng biệt sẽ có một mã định danh hoặc mặt nạ duy nhất, ngay cả khi chúng thuộc cùng một lớp. Điều này đặc biệt hữu ích khi cần đếm hoặc theo dõi từng đối tượng.
  • Phân đoạn toàn cảnh : Kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó gán nhãn lớp cho mọi pixel (giống như phân đoạn ngữ nghĩa) xác định duy nhất từng thể hiện đối tượng (giống như phân đoạn thể hiện). Nó cung cấp sự hiểu biết toàn diện, thống nhất về cảnh.

Phân biệt phân đoạn hình ảnh với các thuật ngữ liên quan

  • Phân đoạn hình ảnh so với Phát hiện đối tượng : Phát hiện đối tượng vẽ các hộp giới hạn xung quanh các đối tượng, chỉ ra vị trí và lớp của chúng. Phân đoạn hình ảnh cung cấp mặt nạ cấp độ pixel phác thảo hình dạng chính xác của từng đối tượng hoặc vùng, cung cấp nhiều chi tiết hơn so với một hộp đơn giản.
  • Phân đoạn hình ảnh so với Phân loại hình ảnh : Phân loại hình ảnh gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: 'có chứa một con mèo'). Phân đoạn hình ảnh gán một nhãn cho mỗi pixel trong hình ảnh, xác định nhiều đối tượng hoặc vùng và hình dạng của chúng.
  • Phân đoạn hình ảnh so với Nhận dạng hình ảnh : Nhận dạng hình ảnh là thuật ngữ rộng hơn cho các tác vụ mà AI xác định các đối tượng, con người, địa điểm, v.v. trong hình ảnh. Phân đoạn hình ảnh là một loại nhận dạng hình ảnh cụ thể tập trung vào phân vùng cấp độ pixel.

Ứng dụng trong thế giới thực

Phân tích chi tiết do phân đoạn hình ảnh cung cấp cho phép nhiều ứng dụng:

  • Phân tích hình ảnh y tế : Phân đoạn rất quan trọng để xác định và phác thảo khối u, cơ quan hoặc bất thường trong chụp CT, MRI và X-quang. Ví dụ, các mô hình YOLO Ultralytics có thể phân đoạn chính xác khối u , hỗ trợ các bác sĩ X quang trong việc chẩn đoán và lập kế hoạch điều trị bằng cách định lượng kích thước và hình dạng chính xác của các khu vực bị ảnh hưởng, thường cung cấp nhiều thông tin hơn là chỉ phát hiện sự hiện diện của chúng bằng hộp giới hạn. Nhiều kỹ thuật chụp ảnh y tế được hưởng lợi đáng kể từ mức độ chi tiết này.
  • Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào phân đoạn để hiểu môi trường xung quanh ở mức độ chi tiết. Ví dụ, phân đoạn đường, vạch kẻ làn đường, người đi bộ, các phương tiện khác và chướng ngại vật cho phép xe di chuyển an toàn. Biết chính xác khu vực có thể lái (phân đoạn đường) so với khu vực không thể lái (vỉa hè, rào chắn) là rất quan trọng để lập kế hoạch đường đi và đạt được mức độ tự động hóa lái xe cao hơn.
  • Phân tích hình ảnh vệ tinh : Được sử dụng để phân loại lớp phủ đất (xác định rừng, nguồn nước, khu vực đô thị), theo dõi nạn phá rừng và các ứng dụng nông nghiệp như theo dõi cây trồng ( AI trong nông nghiệp ).
  • Sản xuất: Phát hiện lỗi hoặc thực hiện kiểm tra chất lượng trên dây chuyền lắp ráp .
  • Bán lẻ: Phân tích cách bố trí kệ hàng hoặc theo dõi hàng tồn kho .

Phân đoạn hình ảnh và Ultralytics YOLO

Các mô hình YOLO Ultralytics , chẳng hạn như YOLOv8YOLO11 , cung cấp hiệu suất tiên tiến cho các tác vụ phân đoạn, cân bằng tốc độ và độ chính xác để suy luận theo thời gian thực . Ultralytics framework đơn giản hóa quá trình đào tạo các mô hình phân đoạn tùy chỉnh trên các tập dữ liệu như COCO hoặc các tập dữ liệu chuyên biệt như phân đoạn phụ tùng ô tô hoặc vết nứt . Các công cụ như Ultralytics HUB cung cấp một nền tảng hợp lý để quản lý các tập dữ liệu, đào tạo các mô hình ( có đào tạo đám mây ) và triển khai chúng. Bạn có thể khám phá tài liệu về tác vụ phân đoạn để biết chi tiết triển khai hoặc làm theo các hướng dẫn như phân đoạn với các mô hình YOLOv8 được đào tạo trước hoặc phân đoạn hình ảnh với YOLO11 trên Google Colab .

Đọc tất cả