Thuật ngữ

Phân đoạn trường hợp

Khám phá cách phân đoạn trường hợp tinh chỉnh khả năng phát hiện đối tượng với độ chính xác đến từng pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn thể hiện là một kỹ thuật thị giác máy tính (CV) tinh vi giúp xác định các đối tượng trong một hình ảnh và phân định ranh giới chính xác của từng thể hiện riêng lẻ ở cấp độ pixel. Không giống như các phương pháp chỉ đặt các hộp xung quanh các đối tượng, phân đoạn thể hiện cung cấp sự hiểu biết chi tiết hơn nhiều về một cảnh bằng cách tạo ra một mặt nạ duy nhất cho mọi đối tượng được phát hiện, ngay cả khi chúng thuộc cùng một lớp. Khả năng này rất quan trọng đối với các ứng dụng trí tuệ nhân tạo (AI) tiên tiến, trong đó việc biết chính xác hình dạng, kích thước và phạm vi không gian của các đối tượng riêng biệt là điều cần thiết, đặc biệt là khi các đối tượng chồng chéo lên nhau.

Phân đoạn phiên bản hoạt động như thế nào

Các mô hình phân đoạn thể hiện phân tích một hình ảnh để trước tiên xác định vị trí các đối tượng tiềm năng và sau đó, đối với mỗi đối tượng được phát hiện, dự đoán các pixel nào thuộc về thể hiện cụ thể đó. Các phương pháp tiếp cận truyền thống, như kiến trúc Mask R-CNN có ảnh hưởng, thường sử dụng quy trình hai giai đoạn: đầu tiên, chúng thực hiện phát hiện đối tượng để tạo ra các đề xuất hộp giới hạn và thứ hai, chúng tạo ra một mặt nạ phân đoạn trong mỗi hộp được đề xuất. Mặc dù hiệu quả, các phương pháp này có thể đòi hỏi nhiều tính toán.

Các phương pháp tiếp cận gần đây hơn, bao gồm các mô hình như Ultralytics YOLO , thường sử dụng các đường ống một giai đoạn. Các mô hình này đồng thời dự đoán các hộp giới hạn, nhãn lớp và mặt nạ thể hiện trong một lần chạy qua mạng nơ-ron (NN) , dẫn đến cải thiện đáng kể về tốc độ, khiến chúng phù hợp với suy luận thời gian thực . Việc đào tạo các mô hình này đòi hỏi các tập dữ liệu lớn với chú thích cấp độ pixel, chẳng hạn như tập dữ liệu COCO được sử dụng rộng rãi, đặc biệt là chú thích phân đoạn của nó. Quá trình này thường liên quan đến các kỹ thuật học sâu (DL) , tận dụng Mạng nơ-ron tích chập (CNN) để tìm hiểu các tính năng trực quan phức tạp.

Phân đoạn trường hợp so với các nhiệm vụ liên quan

Điều quan trọng là phải phân biệt phân đoạn trường hợp với các tác vụ phân đoạn hình ảnh khác:

  • Phát hiện đối tượng : Xác định sự hiện diện và vị trí của đối tượng bằng cách sử dụng hộp giới hạn nhưng không cung cấp thông tin về hình dạng. Phân đoạn thể hiện tiến xa hơn bằng cách phác thảo các pixel chính xác của từng đối tượng.
  • Phân đoạn ngữ nghĩa : Gán nhãn lớp cho mọi pixel trong hình ảnh (ví dụ: "ô tô", "người", "đường"). Tuy nhiên, nó không phân biệt giữa các trường hợp khác nhau của cùng một lớp. Ví dụ, tất cả ô tô sẽ là một phần của cùng một phân đoạn "ô tô". Bạn có thể đọc thêm trong hướng dẫn này về phân đoạn trường hợp so với phân đoạn ngữ nghĩa .
  • Phân đoạn toàn cảnh : Kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó gán nhãn lớp cho mọi pixel (giống như phân đoạn ngữ nghĩa) và cũng xác định duy nhất từng thể hiện đối tượng (giống như phân đoạn thể hiện).

Phân đoạn trường hợp tập trung cụ thể vào việc phát hiện và phân định từng trường hợp đối tượng riêng lẻ, cung cấp độ chính xác cao về ranh giới và sự tách biệt đối tượng.

Ứng dụng của Phân đoạn trường hợp

Khả năng xác định và phân lập chính xác từng đối tượng riêng lẻ khiến phân đoạn trường hợp trở nên vô cùng hữu ích trong nhiều lĩnh vực:

  • Lái xe tự động : Xe tự lái dựa vào phân đoạn trường hợp để nhận biết chính xác môi trường xung quanh. Phân biệt giữa từng xe, người đi bộ, người đi xe đạp và chướng ngại vật, ngay cả trong các cảnh lộn xộn hoặc chồng chéo, là rất quan trọng để điều hướng an toàn và ra quyết định. Các công ty như Waymo sử dụng rộng rãi các kỹ thuật như vậy.
  • Phân tích hình ảnh y tế : Trong X quang và bệnh lý học, phân đoạn trường hợp giúp phác thảo các cấu trúc cụ thể như khối u, cơ quan hoặc tế bào trong các lần quét ( CT , MRI, v.v.). Độ chính xác ở cấp độ pixel này hỗ trợ chẩn đoán, đo kích thước khối u, lập kế hoạch phẫu thuật và theo dõi tiến triển của bệnh. Ví dụ, sử dụng YOLO11 để phát hiện khối u cho thấy ứng dụng này trong bối cảnh rộng hơn của AI trong chăm sóc sức khỏe .
  • Robot : Robot thực hiện các nhiệm vụ như nắm bắt hoặc thao tác trong môi trường không có cấu trúc cần phải xác định và định vị chính xác từng đối tượng. Phân đoạn thể hiện cho phép robot hiểu hình dạng và ranh giới chính xác của các mục để tương tác thành công, điều này được khám phá thêm trong AI trong Robot .
  • Phân tích hình ảnh vệ tinh : Được sử dụng để lập bản đồ chi tiết về lớp phủ đất, giám sát sự phát triển đô thị bằng cách xác định từng tòa nhà hoặc theo dõi các đối tượng cụ thể như tàu thuyền hoặc phương tiện. Mức độ chi tiết này hỗ trợ giám sát môi trường, quản lý tài nguyên và thu thập thông tin tình báo. Khám phá các kỹ thuật phân tích hình ảnh vệ tinh chung.
  • Giám sát nông nghiệp : Giúp đếm từng cây hoặc quả, đánh giá sức khỏe cây trồng trên từng cây hoặc xác định các loại cỏ dại cụ thể để can thiệp có mục tiêu, góp phần vào nền nông nghiệp chính xác .

Phân đoạn trường hợp với Ultralytics YOLO

Ultralytics cung cấp các mô hình tiên tiến có khả năng thực hiện phân đoạn thể hiện hiệu quả. Các mô hình như YOLOv8YOLO11 được thiết kế để mang lại hiệu suất cao cho nhiều tác vụ thị giác máy tính , bao gồm phân đoạn thể hiện ( xem chi tiết tác vụ phân đoạn ). Người dùng có thể tận dụng các mô hình được đào tạo trước hoặc thực hiện tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng các công cụ như nền tảng Ultralytics HUB , giúp đơn giản hóa quy trình làm việc học máy (ML) từ quản lý dữ liệu đến triển khai mô hình . Đối với việc triển khai thực tế, các tài nguyên như hướng dẫn về phân đoạn với các mô hình Ultralytics YOLOv8 được đào tạo trước hoặc hướng dẫn về cách cô lập các đối tượng phân đoạn đều có sẵn. Bạn cũng có thể tìm hiểu cách sử dụng Ultralytics YOLO11 để phân đoạn thể hiện . Các khuôn khổ phổ biến như PyTorchTensorFlow thường được sử dụng để phát triển và triển khai các mô hình này.

Đọc tất cả