Khám phá cách phân đoạn toàn cảnh thống nhất phân đoạn ngữ nghĩa và phân đoạn thể hiện để hiểu cảnh chính xác ở cấp độ pixel trong các ứng dụng AI.
Phân đoạn toàn cảnh là một kỹ thuật thị giác máy tính tiên tiến nhằm mục đích cung cấp sự hiểu biết toàn diện về cảnh ở cấp độ pixel. Nó hợp nhất và mở rộng cả phân đoạn ngữ nghĩa, phân loại từng pixel thành các danh mục ngữ nghĩa (như người, ô tô, đường) và phân đoạn thể hiện, phát hiện và phân đoạn các thể hiện đối tượng riêng lẻ (như từng ô tô hoặc người riêng biệt). Về bản chất, phân đoạn toàn cảnh gán một nhãn ngữ nghĩa cho mọi pixel trong hình ảnh đồng thời phân biệt giữa các thể hiện riêng biệt của đối tượng, cung cấp cách diễn giải cảnh phong phú và hoàn thiện hơn.
Không giống như phát hiện đối tượng , tập trung vào việc xác định và định vị các đối tượng trong các hộp giới hạn, phân đoạn toàn cảnh cung cấp sự hiểu biết chi tiết hơn nhiều về một hình ảnh. Trong khi phân đoạn ngữ nghĩa phân loại mọi pixel thành các danh mục được xác định trước, nó không phân biệt giữa các trường hợp riêng lẻ của cùng một lớp đối tượng. Ví dụ, trong phân đoạn ngữ nghĩa, tất cả các xe ô tô đều được dán nhãn là 'xe ô tô' mà không phân biệt xe này với xe khác. Phân đoạn trường hợp giải quyết vấn đề này bằng cách phát hiện từng trường hợp đối tượng và tạo mặt nạ phân đoạn cho từng trường hợp, nhưng thường tập trung vào các lớp 'vật' (các đối tượng có thể đếm được) và có thể bỏ qua các lớp 'đồ đạc' (các vùng vô định hình như bầu trời, đường, cỏ).
Phân đoạn toàn cảnh thu hẹp khoảng cách này bằng cách thực hiện cả hai nhiệm vụ cùng lúc và toàn diện. Nó gán một nhãn ngữ nghĩa cho mọi pixel, phân loại pixel đó thành lớp 'vật' (ví dụ: người, ô tô, xe đạp) hoặc lớp 'đồ đạc' (ví dụ: bầu trời, đường, cỏ). Đối với các lớp 'vật', nó cũng cung cấp ID thể hiện, phân đoạn và phân biệt hiệu quả từng thể hiện đối tượng. Phương pháp tiếp cận thống nhất này đảm bảo rằng mọi pixel trong hình ảnh đều được tính đến và phân loại có ý nghĩa, dẫn đến sự hiểu biết toàn diện về cảnh. Bạn có thể khám phá các mô hình YOLO Ultralytics , là những mô hình đi đầu trong nhiều tác vụ thị giác máy tính bao gồm phân đoạn, cung cấp các giải pháp hiệu quả và chính xác cho các tác vụ phức tạp này.
Các mô hình phân đoạn toàn cảnh thường tận dụng các kiến trúc học sâu được thiết kế để thực hiện đồng thời cả phân đoạn ngữ nghĩa và phân đoạn thể hiện. Các mô hình này thường sử dụng mạng xương sống được chia sẻ để trích xuất các tính năng từ hình ảnh đầu vào, sau đó là các nhánh hoặc đầu riêng biệt để xử lý các tác vụ phân đoạn ngữ nghĩa và thể hiện. Ví dụ, một cách tiếp cận phổ biến liên quan đến việc sử dụng mạng để dự đoán nhãn ngữ nghĩa cho từng pixel và đồng thời dự đoán mặt nạ thể hiện và xác suất lớp cho các vùng 'thing'. Sau đó, các đầu ra này được kết hợp để tạo ra kết quả phân đoạn toàn cảnh cuối cùng.
Các mô hình tiên tiến như Ultralytics YOLOv8 đã tích hợp khả năng phân đoạn, cho phép đào tạo và suy luận các mô hình phân đoạn toàn cảnh. Các nền tảng như Ultralytics HUB có thể hợp lý hóa hơn nữa quá trình đào tạo, quản lý và triển khai các mô hình này.
Khả năng hiểu biết chi tiết về bối cảnh của phân đoạn toàn cảnh khiến nó trở nên vô cùng hữu ích trong nhiều ứng dụng:
Lái xe tự động: Xe tự lái cần hiểu biết toàn diện về môi trường xung quanh để điều hướng an toàn. Phân đoạn toàn cảnh giúp xe tự hành đồng thời xác định và phân biệt giữa các yếu tố đường bộ khác nhau như người đi bộ, phương tiện, biển báo giao thông và mặt đường. Việc diễn giải bối cảnh chi tiết này rất quan trọng để đưa ra quyết định trong điều hướng tự động. Nghiên cứu về AI trong xe tự lái làm nổi bật vai trò quan trọng của các tác vụ thị giác máy tính như phân đoạn toàn cảnh.
Robot: Trong robot, đặc biệt là đối với các nhiệm vụ như điều hướng và thao tác trong môi trường phức tạp, phân đoạn toàn cảnh cung cấp cho robot khả năng hiểu biết sâu sắc về môi trường xung quanh. Robot có thể sử dụng phân đoạn toàn cảnh để phân biệt giữa các vật thể mà chúng cần tương tác, chướng ngại vật cần tránh và các khu vực có thể điều hướng. Ví dụ, trong bối cảnh nhà kho, robot có thể sử dụng phân đoạn toàn cảnh để xác định các loại mặt hàng khác nhau trên kệ và điều hướng xung quanh các hộp và người. Tích hợp các mô hình YOLO Ultralytics trên các thiết bị NVIDIA Jetson có thể mang lại khả năng phân đoạn toàn cảnh theo thời gian thực cho các ứng dụng robot biên.
Quy hoạch đô thị và thành phố thông minh: Phân tích các cảnh đô thị từ hình ảnh trên không hoặc trên đường phố bằng cách sử dụng phân đoạn toàn cảnh có thể cung cấp dữ liệu có giá trị cho quy hoạch đô thị. Nó có thể giúp ích cho các nhiệm vụ như lập bản đồ dấu chân tòa nhà, mạng lưới đường bộ, không gian xanh và xác định đồ đạc đường phố và cơ sở hạ tầng. Thông tin này có thể được sử dụng để phát triển đô thị, quản lý giao thông và phân bổ nguồn lực trong các thành phố thông minh .
Phân tích hình ảnh y tế: Trong chăm sóc sức khỏe, phân đoạn toàn cảnh có thể được áp dụng cho hình ảnh y tế để phân đoạn đồng thời các loại mô, cơ quan và vùng bệnh lý khác nhau, đồng thời phân biệt các trường hợp riêng lẻ của tế bào hoặc tổn thương. Phân tích chi tiết này có thể hỗ trợ chẩn đoán, lập kế hoạch điều trị và nghiên cứu y tế. Phân tích hình ảnh y tế là một lĩnh vực đang phát triển, trong đó các kỹ thuật phân đoạn hỗ trợ AI đang ngày càng trở nên quan trọng.
Bằng cách cung cấp sự hiểu biết thống nhất và chi tiết về hình ảnh, phân đoạn toàn cảnh là một công cụ mạnh mẽ có tác động ngày càng tăng trên nhiều ứng dụng AI và máy học khác nhau.