Thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá sức mạnh của phân đoạn ngữ nghĩa—phân loại từng pixel trong hình ảnh để hiểu chính xác cảnh. Khám phá các ứng dụng và công cụ ngay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn ngữ nghĩa là một nhiệm vụ quan trọng của thị giác máy tính liên quan đến việc phân loại từng pixel trong một hình ảnh thành các danh mục hoặc lớp được xác định trước. Không giống như các nhiệm vụ thị giác máy tính khác, phân đoạn ngữ nghĩa cung cấp một dự đoán dày đặc, gán nhãn cho từng pixel, cho phép hiểu biết chi tiết về cảnh. Kỹ thuật này không chỉ đơn thuần là phát hiện các đối tượng; nó phác thảo và phân loại chính các đối tượng, cung cấp cách diễn giải phong phú hơn về nội dung hình ảnh.

Phân đoạn ngữ nghĩa là gì?

Phân đoạn ngữ nghĩa nhằm mục đích hiểu và dán nhãn từng pixel trong một hình ảnh theo những gì nó biểu diễn. Điều này vượt ra ngoài phân loại hình ảnh cơ bản, chỉ dự đoán một nhãn duy nhất cho toàn bộ hình ảnh và phát hiện đối tượng , vẽ các hộp giới hạn xung quanh các đối tượng. Ngược lại, phân đoạn ngữ nghĩa phân định chính xác ranh giới đối tượng ở cấp độ pixel. Ví dụ, trong hình ảnh của một cảnh đường phố, phân đoạn ngữ nghĩa không chỉ xác định ô tô, người đi bộ và đường mà còn phác thảo hình dạng chính xác của từng ô tô, người đi bộ và mặt đường, dán nhãn mỗi pixel thuộc về một trong những lớp này.

Phân loại cấp độ pixel này làm cho phân đoạn ngữ nghĩa trở thành một công cụ mạnh mẽ cho các ứng dụng đòi hỏi phải hiểu chi tiết về cảnh. Đây là một dạng học có giám sát , trong đó các mô hình được đào tạo trên các tập dữ liệu có chú thích cấp độ pixel. Đầu ra là một hình ảnh phân đoạn trong đó mỗi phân đoạn tương ứng với một lớp đối tượng cụ thể. Các mô hình tiên tiến như Ultralytics YOLOv8Segment Anything Model ( SAM ) có thể được sử dụng cho các tác vụ phân đoạn ngữ nghĩa hiệu quả và chính xác.

Ứng dụng của phân đoạn ngữ nghĩa

Phân đoạn ngữ nghĩa có nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau:

  • Lái xe tự động : Trong xe tự lái, phân đoạn ngữ nghĩa là điều cần thiết để hiểu bối cảnh. Nó giúp xe phân biệt giữa đường, vỉa hè, người đi bộ, biển báo giao thông và các phương tiện khác, cho phép điều hướng và ra quyết định an toàn hơn. Ví dụ, phân đoạn mặt đường chính xác đảm bảo xe đi đúng làn đường, trong khi xác định người đi bộ và người đi xe đạp giúp ngăn ngừa tai nạn. Tìm hiểu thêm về AI trong xe tự lái .
  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, phân đoạn ngữ nghĩa được sử dụng rộng rãi trong phân tích hình ảnh y tế . Nó có thể hỗ trợ xác định và phân định các vùng quan tâm trong các lần quét y tế như chụp CT, MRI và chụp X-quang. Ví dụ, nó có thể được sử dụng để phân đoạn khối u, cơ quan và các cấu trúc giải phẫu khác, hỗ trợ chẩn đoán, lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Khám phá cách Ultralytics YOLO được sử dụng để phát hiện khối u trong hình ảnh y tế .
  • Phân tích hình ảnh vệ tinh và trên không : Phân đoạn ngữ nghĩa đóng vai trò quan trọng trong việc phân tích hình ảnh vệ tinh và trên không. Nó có thể được sử dụng để phân loại lớp phủ đất, quy hoạch đô thị và giám sát môi trường. Bằng cách phân đoạn hình ảnh thành các danh mục như tòa nhà, rừng, vùng nước và đường, nó cung cấp dữ liệu có giá trị cho phát triển đô thị, giám sát nông nghiệp và ứng phó thảm họa. Khám phá cách thị giác máy tính phân tích hình ảnh vệ tinh .
  • Nông nghiệp và Nông nghiệp chính xác : Trong nông nghiệp, phân đoạn ngữ nghĩa có thể được sử dụng để phân tích cây trồng và thảm thực vật. Nó giúp phân biệt giữa cây trồng và cỏ dại, đánh giá sức khỏe thực vật và theo dõi điều kiện đồng ruộng. Điều này cho phép áp dụng các kỹ thuật canh tác chính xác, tối ưu hóa việc sử dụng tài nguyên và cải thiện năng suất cây trồng. Tìm hiểu về những lợi ích hàng đầu của việc sử dụng AI thị giác cho nông nghiệp .

Phân đoạn ngữ nghĩa so với phát hiện đối tượng và phân đoạn thể hiện

Trong khi phân đoạn ngữ nghĩa, phát hiện đối tượngphân đoạn thể hiện đều là các tác vụ thị giác máy tính tập trung vào việc hiểu bối cảnh, chúng lại khác nhau về đầu ra và mức độ chi tiết.

  • Phát hiện đối tượng : Xác định các đối tượng trong hình ảnh và định vị chúng bằng các hộp giới hạn. Nó cho biết đối tượng là ở đâu , nhưng không cho biết hình dạng chính xác hoặc chi tiết ở cấp độ pixel của chúng. Ví dụ, nó có thể phát hiện 'ô tô' và vẽ một hộp xung quanh mỗi ô tô trong cảnh đường phố.
  • Phân đoạn ngữ nghĩa : Phân loại từng pixel trong một hình ảnh thành các lớp được xác định trước, cung cấp hiểu biết ở cấp độ pixel về cảnh. Nó cho biết mỗi pixel đại diện cho điều gì . Nó phân biệt giữa các lớp, nhưng không phải các trường hợp riêng lẻ của cùng một lớp. Ví dụ, nó gắn nhãn tất cả các pixel ô tô là 'ô tô' và tất cả các pixel đường là 'đường', bất kể có bao nhiêu ô tô hoặc đường.
  • Phân đoạn thể hiện : Kết hợp các khía cạnh của cả phát hiện đối tượng và phân đoạn ngữ nghĩa. Nó phát hiện từng thể hiện đối tượng trong một hình ảnh và phân đoạn từng thể hiện riêng biệt. Nó không chỉ cho biết đối tượng là ở đâu mà còn phân biệt giữa các thể hiện riêng lẻ của cùng một lớp đối tượng. Ví dụ, nó sẽ phân đoạn từng chiếc ô tô trong một cảnh đường phố riêng lẻ, ngay cả khi chúng thuộc cùng một lớp 'ô tô'.

Tóm lại, phân đoạn ngữ nghĩa cung cấp phân loại hình ảnh chi tiết theo từng pixel, rất quan trọng đối với các ứng dụng cần hiểu cảnh chi tiết. Các công cụ như Ultralytics HUB đơn giản hóa quá trình đào tạo và triển khai các mô hình phân đoạn ngữ nghĩa, giúp công nghệ mạnh mẽ này dễ tiếp cận hơn.

Đọc tất cả