Phân đoạn thể hiện là một kỹ thuật thị giác máy tính tinh vi mở rộng khả năng phát hiện đối tượng bằng cách không chỉ xác định sự hiện diện và vị trí của các đối tượng trong một hình ảnh mà còn phác thảo ranh giới chính xác của từng thể hiện đối tượng riêng lẻ. Điều này có nghĩa là phân đoạn thể hiện có thể phân biệt giữa nhiều đối tượng cùng loại gần nhau hoặc chồng chéo lên nhau, cung cấp mặt nạ cấp độ pixel cho từng đối tượng. Mức độ chi tiết này rất quan trọng đối với các ứng dụng đòi hỏi phải hiểu chính xác về cảnh, chẳng hạn như lái xe tự động, hình ảnh y tế và thao tác bằng rô-bốt.
Sự khác biệt chính từ các thuật ngữ liên quan
Trong khi phân đoạn trường hợp có liên quan đến các tác vụ thị giác máy tính khác, nó cung cấp các khả năng độc đáo:
- Phát hiện đối tượng : Phát hiện đối tượng xác định sự hiện diện và vị trí của các đối tượng trong một hình ảnh, thường sử dụng các hộp giới hạn. Tuy nhiên, nó không cung cấp thông tin về hình dạng hoặc phạm vi của các đối tượng. Phân đoạn thể hiện tiến xa hơn bằng cách phân định ranh giới chính xác của từng đối tượng.
- Phân đoạn ngữ nghĩa : Phân đoạn ngữ nghĩa phân loại từng pixel trong một hình ảnh thành một lớp cụ thể, về cơ bản là tô màu tất cả các pixel thuộc cùng một lớp bằng cùng một màu. Tuy nhiên, nó không phân biệt giữa các trường hợp khác nhau của cùng một lớp. Ví dụ, tất cả các ô tô trong một hình ảnh sẽ được dán nhãn là "ô tô", nhưng các ô tô riêng lẻ sẽ không được phân biệt.
- Phân đoạn toàn cảnh : Phân đoạn toàn cảnh kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện, cung cấp cả phân loại cấp độ pixel và phân biệt thể hiện đối tượng riêng lẻ. Trong khi phân đoạn toàn cảnh cung cấp hiểu biết toàn diện về cảnh, phân đoạn thể hiện tập trung cụ thể vào việc phân biệt các thể hiện đối tượng riêng lẻ.
Ứng dụng trong thế giới thực
Phân đoạn thể hiện được sử dụng trong nhiều ứng dụng thực tế, trong đó việc phân định đối tượng chính xác là điều cần thiết:
- Lái xe tự động : Trong xe tự lái , phân đoạn trường hợp giúp xác định và phân biệt giữa các xe riêng lẻ, người đi bộ và các vật thể khác trên đường. Điều này rất quan trọng để đưa ra quyết định lái xe chính xác, chẳng hạn như duy trì khoảng cách an toàn với các xe khác hoặc tránh va chạm với người đi bộ. Ví dụ, hệ thống có thể phân biệt giữa nhiều xe trong tình trạng tắc đường, cho phép xe điều hướng an toàn trong các tình huống phức tạp.
- Chụp ảnh y khoa : Phân đoạn trường hợp được sử dụng để xác định và phân đoạn từng tế bào, cơ quan hoặc khối u trong hình ảnh y khoa như chụp MRI hoặc CT. Độ chính xác này rất quan trọng để chẩn đoán chính xác, lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Ví dụ, phân đoạn từng khối u trong ảnh chụp não có thể giúp bác sĩ lập kế hoạch xạ trị hoặc phẫu thuật cắt bỏ với độ chính xác cao hơn. Khám phá thêm về AI trong chăm sóc sức khỏe .
Thông tin chi tiết về kỹ thuật
Các mô hình phân đoạn thể hiện thường được xây dựng dựa trên các kiến trúc phát hiện đối tượng, chẳng hạn như Mạng nơ-ron tích chập (CNN) . Một cách tiếp cận phổ biến là sử dụng một bộ dò hai giai đoạn, trong đó giai đoạn đầu tiên đề xuất các vùng quan tâm (hộp giới hạn) và giai đoạn thứ hai tinh chỉnh các vùng này để tạo ra mặt nạ cấp độ pixel. Mask R-CNN là một ví dụ nổi tiếng về cách tiếp cận này, mở rộng mô hình phát hiện đối tượng Faster R-CNN bằng cách thêm một nhánh để dự đoán mặt nạ phân đoạn trên mỗi Vùng quan tâm (RoI).
Công cụ và Khung
Một số công cụ và khuôn khổ hỗ trợ phân đoạn phiên bản, giúp các nhà nghiên cứu và nhà phát triển có thể sử dụng:
- TensorFlow và PyTorch : Các khuôn khổ học máy phổ biến này cung cấp các khối xây dựng để triển khai các mô hình phân đoạn thể hiện. Chúng cung cấp tính linh hoạt và khả năng kiểm soát kiến trúc mô hình và quy trình đào tạo. Tìm hiểu thêm về TensorFlow và PyTorch .
- Ultralytics YOLO : Các Ultralytics YOLO Các mô hình, nổi tiếng với khả năng phát hiện đối tượng theo thời gian thực, cũng hỗ trợ các tác vụ phân đoạn thể hiện. Các mô hình này cung cấp sự cân bằng giữa tốc độ và độ chính xác, khiến chúng phù hợp với các ứng dụng theo thời gian thực.
- Ultralytics HUB : Nền tảng này đơn giản hóa quy trình đào tạo và triển khai các mô hình phân đoạn phiên bản, cho phép người dùng tập trung vào ứng dụng cụ thể của họ mà không bị sa lầy vào các chi tiết kỹ thuật của việc triển khai mô hình. Khám phá cách bạn có thể tận dụng điều này với Ultralytics HUB .
Bằng cách cung cấp mặt nạ chi tiết ở cấp độ pixel cho từng trường hợp đối tượng, phân đoạn trường hợp sẽ nâng cao khả năng của hệ thống AI trong việc hiểu và tương tác với thế giới trực quan, thúc đẩy sự tiến bộ trong nhiều lĩnh vực.