Thuật ngữ

Phân đoạn ngữ nghĩa

Khám phá sức mạnh của phân đoạn ngữ nghĩa—phân loại từng pixel trong hình ảnh để hiểu chính xác cảnh. Khám phá các ứng dụng và công cụ ngay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân đoạn ngữ nghĩa là một nhiệm vụ cơ bản trong thị giác máy tính liên quan đến việc gán nhãn lớp cụ thể cho từng pixel trong một hình ảnh. Không giống như các nhiệm vụ thị giác khác có thể xác định đối tượng hoặc phân loại toàn bộ hình ảnh, phân đoạn ngữ nghĩa cung cấp sự hiểu biết sâu sắc ở cấp độ pixel về nội dung cảnh. Điều này có nghĩa là nó không chỉ phát hiện ra có một chiếc ô tô mà còn phác thảo chính xác những pixel nào thuộc về loại ô tô, phân biệt chúng với các pixel thuộc về đường, bầu trời hoặc người đi bộ.

Phân đoạn ngữ nghĩa là gì?

Mục tiêu chính của phân đoạn ngữ nghĩa là phân chia một hình ảnh thành các vùng có ý nghĩa tương ứng với các loại đối tượng khác nhau. Ví dụ, trong một hình ảnh chứa nhiều ô tô, người đi bộ và cây cối, một mô hình phân đoạn ngữ nghĩa sẽ dán nhãn tất cả các pixel tạo nên bất kỳ ô tô nào là 'ô tô', tất cả các pixel của bất kỳ người đi bộ nào là 'người đi bộ' và tất cả các pixel của bất kỳ cây nào là 'cây'. Nó xử lý tất cả các trường hợp của cùng một lớp đối tượng giống hệt nhau. Điều này trái ngược với phân loại hình ảnh , chỉ định một nhãn duy nhất cho toàn bộ hình ảnh và phát hiện đối tượng , vẽ các hộp giới hạn xung quanh các đối tượng được phát hiện nhưng không phác thảo hình dạng chính xác của chúng.

Các mô hình phân đoạn ngữ nghĩa thường được đào tạo bằng các kỹ thuật học có giám sát , yêu cầu các tập dữ liệu có chú thích chi tiết ở cấp độ pixel . Đầu ra thường là một bản đồ phân đoạn, là một hình ảnh trong đó giá trị (hoặc màu) của mỗi pixel tương ứng với nhãn lớp dự đoán của nó.

Sự khác biệt chính so với các nhiệm vụ phân đoạn khác

Điều quan trọng là phải phân biệt phân đoạn ngữ nghĩa với các nhiệm vụ liên quan:

  • Phân đoạn thể hiện : Trong khi phân đoạn ngữ nghĩa gắn nhãn tất cả các pixel thuộc về lớp 'xe hơi' giống nhau, phân đoạn thể hiện tiến xa hơn một bước. Nó xác định và phân đoạn từng thể hiện riêng biệt của một đối tượng. Vì vậy, ba chiếc xe hơi khác nhau trong một hình ảnh sẽ có một mặt nạ phân đoạn duy nhất, mặc dù tất cả chúng đều thuộc về lớp 'xe hơi'. Bạn có thể tìm hiểu cách sử dụng Ultralytics YOLO để phân đoạn thể hiện .
  • Phân đoạn toàn cảnh : Nhiệm vụ này kết hợp phân đoạn ngữ nghĩa và phân đoạn thể hiện. Nó gán nhãn lớp cho mọi pixel (giống như phân đoạn ngữ nghĩa) và cũng xác định duy nhất từng thể hiện đối tượng (giống như phân đoạn thể hiện), cung cấp sự hiểu biết thống nhất về cảnh.

Ứng dụng của phân đoạn ngữ nghĩa

Việc hiểu bối cảnh chi tiết được cung cấp bởi phân đoạn ngữ nghĩa rất quan trọng đối với nhiều ứng dụng trong thế giới thực:

  1. Lái xe tự động : Xe tự lái phụ thuộc rất nhiều vào phân đoạn ngữ nghĩa để hiểu môi trường xung quanh. Bằng cách phân loại pixel thành các danh mục như 'đường', 'vỉa hè', 'người đi bộ', 'phương tiện' và 'chướng ngại vật', hệ thống lái xe tự động có thể đưa ra quyết định sáng suốt về điều hướng và an toàn.
  2. Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, phân đoạn ngữ nghĩa giúp phân tích các bản quét y tế như MRI hoặc CT. Nó có thể phác thảo chính xác các cơ quan, mô hoặc bất thường như khối u, hỗ trợ bác sĩ trong chẩn đoán, lập kế hoạch điều trị và theo dõi tiến triển của bệnh. Ví dụ, các mô hình YOLO Ultralytics có thể được sử dụng để phát hiện khối u .
  3. Phân tích hình ảnh vệ tinh : Được sử dụng để phân loại các loại đất che phủ (ví dụ: rừng, nước, khu vực đô thị), theo dõi nạn phá rừng, lập bản đồ đô thị hóa hoặc đánh giá sức khỏe cây trồng trong nông nghiệp chính xác. Vision AI mang lại nhiều lợi ích cho nông nghiệp .
  4. Robot: Cho phép robot nhận thức môi trường của chúng chi tiết hơn, cần thiết cho các nhiệm vụ như thao tác và điều hướng đối tượng trong các cài đặt phức tạp. Tìm hiểu thêm về việc tích hợp thị giác máy tính vào robot .

Mô hình và Công cụ

Phân đoạn ngữ nghĩa thường sử dụng các mô hình học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) . Các kiến trúc như Mạng tích chập hoàn toàn (FCN)U-Net là những lựa chọn phổ biến. Các mô hình hiện đại như Ultralytics YOLOv8 cũng cung cấp các khả năng mạnh mẽ cho các tác vụ phân đoạn . Các công cụ như Ultralytics HUB cung cấp nền tảng để đào tạo, quản lý các tập dữ liệu như COCO và triển khai các mô hình phân đoạn một cách hiệu quả.

Đọc tất cả