Khám phá cách phân đoạn trường hợp tinh chỉnh khả năng phát hiện đối tượng với độ chính xác đến từng pixel, cho phép tạo mặt nạ đối tượng chi tiết cho các ứng dụng AI.
Phân đoạn thể hiện là một kỹ thuật thị giác máy tính (CV) tinh vi giúp xác định các đối tượng trong một hình ảnh và phân định ranh giới chính xác của từng thể hiện riêng lẻ ở cấp độ pixel. Không giống như các phương pháp chỉ đặt các hộp xung quanh các đối tượng, phân đoạn thể hiện cung cấp sự hiểu biết chi tiết hơn nhiều về một cảnh bằng cách tạo ra một mặt nạ duy nhất cho mọi đối tượng được phát hiện, ngay cả khi chúng thuộc cùng một lớp. Khả năng này rất quan trọng đối với các ứng dụng trí tuệ nhân tạo (AI) tiên tiến, trong đó việc biết chính xác hình dạng, kích thước và phạm vi không gian của các đối tượng riêng biệt là điều cần thiết, đặc biệt là khi các đối tượng chồng chéo lên nhau.
Các mô hình phân đoạn thể hiện phân tích một hình ảnh để trước tiên xác định vị trí các đối tượng tiềm năng và sau đó, đối với mỗi đối tượng được phát hiện, dự đoán các pixel nào thuộc về thể hiện cụ thể đó. Các phương pháp tiếp cận truyền thống, như kiến trúc Mask R-CNN có ảnh hưởng, thường sử dụng quy trình hai giai đoạn: đầu tiên, chúng thực hiện phát hiện đối tượng để tạo ra các đề xuất hộp giới hạn và thứ hai, chúng tạo ra một mặt nạ phân đoạn trong mỗi hộp được đề xuất. Mặc dù hiệu quả, các phương pháp này có thể đòi hỏi nhiều tính toán.
Các phương pháp tiếp cận gần đây hơn, bao gồm các mô hình như Ultralytics YOLO , thường sử dụng các đường ống một giai đoạn. Các mô hình này đồng thời dự đoán các hộp giới hạn, nhãn lớp và mặt nạ thể hiện trong một lần chạy qua mạng nơ-ron (NN) , dẫn đến cải thiện đáng kể về tốc độ, khiến chúng phù hợp với suy luận thời gian thực . Việc đào tạo các mô hình này đòi hỏi các tập dữ liệu lớn với chú thích cấp độ pixel, chẳng hạn như tập dữ liệu COCO được sử dụng rộng rãi, đặc biệt là chú thích phân đoạn của nó. Quá trình này thường liên quan đến các kỹ thuật học sâu (DL) , tận dụng Mạng nơ-ron tích chập (CNN) để tìm hiểu các tính năng trực quan phức tạp.
Điều quan trọng là phải phân biệt phân đoạn trường hợp với các tác vụ phân đoạn hình ảnh khác:
Phân đoạn trường hợp tập trung cụ thể vào việc phát hiện và phân định từng trường hợp đối tượng riêng lẻ, cung cấp độ chính xác cao về ranh giới và sự tách biệt đối tượng.
Khả năng xác định và phân lập chính xác từng đối tượng riêng lẻ khiến phân đoạn trường hợp trở nên vô cùng hữu ích trong nhiều lĩnh vực:
Ultralytics cung cấp các mô hình tiên tiến có khả năng thực hiện phân đoạn thể hiện hiệu quả. Các mô hình như YOLOv8 và YOLO11 được thiết kế để mang lại hiệu suất cao cho nhiều tác vụ thị giác máy tính , bao gồm phân đoạn thể hiện ( xem chi tiết tác vụ phân đoạn ). Người dùng có thể tận dụng các mô hình được đào tạo trước hoặc thực hiện tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng các công cụ như nền tảng Ultralytics HUB , giúp đơn giản hóa quy trình làm việc học máy (ML) từ quản lý dữ liệu đến triển khai mô hình . Đối với việc triển khai thực tế, các tài nguyên như hướng dẫn về phân đoạn với các mô hình Ultralytics YOLOv8 được đào tạo trước hoặc hướng dẫn về cách cô lập các đối tượng phân đoạn đều có sẵn. Bạn cũng có thể tìm hiểu cách sử dụng Ultralytics YOLO11 để phân đoạn thể hiện . Các khuôn khổ phổ biến như PyTorch và TensorFlow thường được sử dụng để phát triển và triển khai các mô hình này.