Hãy cùng chúng tôi tìm hiểu kỹ hơn về phân đoạn trường hợp, cách thức hoạt động, ứng dụng của nó trong nhiều ứng dụng thị giác máy tính và tác động mà nó có thể mang lại.
Các ứng dụng thị giác máy tính đang trở nên phổ biến hơn trong cuộc sống hàng ngày của chúng ta, từ camera giao thông theo dõi tình trạng đường sá đến hệ thống tự thanh toán trong các cửa hàng. Bằng cách cho phép máy móc hiểu dữ liệu trực quan theo cách tương tự như con người, Vision AI đang tạo ra tác động trong nhiều ngành công nghiệp.
Nhiều ứng dụng trong số này dựa vào phát hiện đối tượng, một tác vụ thị giác máy tính đặt các hộp giới hạn xung quanh các đối tượng chính trong hình ảnh. Mặc dù cách tiếp cận này thường hiệu quả, một số giải pháp phân tích hình ảnh thậm chí còn cần độ chính xác cao hơn.
Ví dụ, hình ảnh y khoa đòi hỏi nhiều hơn là chỉ phát hiện khối u - điều quan trọng là phác thảo hình dạng chính xác của nó. Tương tự như vậy, trong robot, máy móc cần nhận dạng đường viền chính xác của vật thể để nắm bắt nó một cách chính xác. Để giải quyết những thách thức này, phân đoạn trường hợp cung cấp một giải pháp chính xác hơn.
Phân đoạn thể hiện là một tác vụ thị giác máy tính được thiết kế để hỗ trợ các trường hợp sử dụng mà việc phát hiện đối tượng là không đủ - nó cung cấp độ chính xác ở cấp độ pixel. Các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được sử dụng để áp dụng phân đoạn thể hiện cho hình ảnh và video một cách dễ dàng.
Trong hướng dẫn này, chúng tôi sẽ phân tích cách phân đoạn phiên bản hoạt động, ứng dụng của nó và cách Ultralytics YOLO11 có thể được đào tạo tùy chỉnh cho các nhiệm vụ phân đoạn cụ thể.
Giả sử có một bức ảnh nhóm người đứng gần nhau. Phát hiện đối tượng có thể giúp vẽ các ô xung quanh mỗi người, nhưng điều đó không cho bạn biết hình dạng chính xác của họ.
Mặt khác, phân đoạn thể hiện tương tự như việc cẩn thận theo dõi xung quanh mỗi người để bạn có thể thấy toàn bộ phác thảo của họ, ngay cả khi họ chồng lên nhau. Thay vì chỉ đánh dấu vị trí của một thứ gì đó bằng một hộp, nó xác định hình dạng chính xác của từng đối tượng ở cấp độ pixel, giúp dễ hiểu hơn các hình ảnh phức tạp.
Kết quả là một mặt nạ chi tiết lấp đầy hình dạng của một vật thể, xác định chính xác các pixel nào thuộc về vật thể đó. Mức độ chính xác này hữu ích trong nhiều ứng dụng thực tế, nơi mà việc hiểu chính xác hình dạng và ranh giới của các vật thể là quan trọng.
Khi khám phá phân đoạn trường hợp, bạn có thể bắt gặp khái niệm phân đoạn ngữ nghĩa .
Cả hai kỹ thuật đều giúp máy tính hiểu hình ảnh ở cấp độ pixel, nhưng chúng phục vụ các mục đích khác nhau. Phân đoạn ngữ nghĩa gắn nhãn mọi pixel dựa trên danh mục của nó, nhóm tất cả các đối tượng cùng loại lại với nhau. Ví dụ, trong một hình ảnh có nhiều ô tô, phân đoạn ngữ nghĩa sẽ đánh dấu tất cả chúng là "ô tô" mà không phân biệt giữa các phương tiện riêng lẻ.
Mặt khác, phân đoạn thể hiện tiến xa hơn một bước bằng cách xác định từng đối tượng riêng biệt. Nó gán nhãn duy nhất cho từng thể hiện và tạo mặt nạ chính xác xung quanh hình dạng của chúng. Vì vậy, trong cùng một hình ảnh, phân đoạn thể hiện sẽ không chỉ dán nhãn mọi thứ là "ô tô" mà sẽ nhận dạng và phác thảo từng ô tô riêng lẻ.
Sự khác biệt chính giữa hai phương pháp này là phân đoạn ngữ nghĩa nhóm các đối tượng theo danh mục, trong khi phân đoạn thể hiện phân biệt từng đối tượng như một thực thể duy nhất với ranh giới rõ ràng. Việc lựa chọn tác vụ nào để sử dụng phụ thuộc vào ứng dụng cụ thể - liệu có đủ để biết những gì có trong hình ảnh hay việc phân biệt giữa các đối tượng riêng lẻ là quan trọng.
Hiện nay, có nhiều mô hình phân đoạn trường hợp khác nhau có sẵn cho cộng đồng Vision AI. Một số mô hình nhanh hơn, một số mô hình chính xác hơn và một số mô hình dễ sử dụng hơn.
Những tùy chọn này mặc dù hữu ích nhưng có thể dẫn đến câu hỏi, tùy chọn nào là phù hợp để sử dụng cho một nhiệm vụ cụ thể? Trong số các tùy chọn, Ultralytics YOLO Các mô hình này khá phổ biến vì chúng tập trung vào tốc độ và độ chính xác.
Ngoài ra, các mô hình này đã phát triển đáng kể qua nhiều năm. Ví dụ, Ultralytics YOLOv5 đã đơn giản hóa việc triển khai bằng cách sử dụng các khuôn khổ như PyTorch , giúp AI thị giác tiên tiến có thể tiếp cận được với nhiều đối tượng hơn mà không cần chuyên môn kỹ thuật sâu.
Dựa trên thành công đó, Ultralytics YOLOv8 đã giới thiệu khả năng hỗ trợ nâng cao cho các tác vụ thị giác máy tính như phân đoạn trường hợp, ước tính tư thế và phân loại hình ảnh.
Hiện nay, YOLO11 đưa hiệu suất lên một tầm cao mới. Nó đạt được độ chính xác trung bình cao hơn (mAP) trên tập dữ liệu COCO với ít hơn 22% tham số so với YOLOv8m , nghĩa là nó có thể nhận dạng các đối tượng chính xác hơn trong khi sử dụng ít tài nguyên hơn.
Nói một cách đơn giản, YOLO11 mang lại độ chính xác tiên tiến mà không ảnh hưởng đến hiệu quả, trở thành bước đột phá trong lĩnh vực này.
Tiếp theo, chúng ta hãy khám phá cách phân đoạn phiên bản thường hoạt động. Các mô hình thị giác máy tính cũ sử dụng phương pháp tiếp cận hai bước.
Đầu tiên, họ phát hiện các đối tượng bằng cách vẽ các hộp giới hạn xung quanh chúng. Sau đó, họ tạo ra một mặt nạ cấp độ pixel để phác thảo hình dạng chính xác của từng đối tượng. Một ví dụ nổi tiếng là Mask R-CNN, được xây dựng trên các mô hình phát hiện đối tượng bằng cách thêm một bước dự đoán mặt nạ. Mặc dù phương pháp này hiệu quả, nhưng nó có thể chậm vì nó xử lý hình ảnh theo nhiều giai đoạn, khiến các ứng dụng thời gian thực trở nên khó khăn hơn.
Trong khi đó, các mô hình như YOLO11 xử lý hình ảnh cùng một lúc, đồng thời dự đoán các hộp giới hạn đối tượng và mặt nạ phân đoạn thể hiện. Phương pháp hợp lý hóa này giúp xử lý nhanh hơn nhiều trong khi vẫn duy trì độ chính xác cao. Do đó, nó đặc biệt hữu ích cho các ứng dụng thời gian thực như lái xe tự động, phân tích video và robot, trong đó cả tốc độ và độ chính xác đều rất quan trọng.
Ra khỏi hộp, YOLO11 được đưa ra như một mô hình được đào tạo trước. Nó đã được đào tạo trên tập dữ liệu COCO-Seg , bao gồm các đối tượng hàng ngày cho ví dụ phân đoạn. Tuy nhiên, Ultralytics Python Gói hỗ trợ đào tạo tùy chỉnh, điều này rất cần thiết cho các ứng dụng chuyên biệt khi cần phân đoạn các đối tượng riêng biệt.
Tại sao đào tạo tùy chỉnh hoặc tinh chỉnh mô hình lại quan trọng? Đào tạo tùy chỉnh thúc đẩy việc học chuyển giao bằng cách xây dựng trên kiến thức đã được nhúng trong các mô hình được đào tạo trước. Thay vì bắt đầu từ đầu, nó điều chỉnh một mô hình hiện có cho các tác vụ mới bằng cách sử dụng các tập dữ liệu nhỏ hơn và ít tài nguyên điện toán hơn, tất cả trong khi vẫn duy trì độ chính xác cao.
Sau đây là cái nhìn sâu hơn về các bước liên quan đến việc tinh chỉnh YOLO11 ví dụ phân đoạn:
Phân đoạn thể hiện có thể được sử dụng để giải quyết các thách thức trong thế giới thực bằng cách giúp máy móc nhìn và hiểu các đối tượng chính xác hơn. Từ việc cải thiện tự động hóa đến bảo vệ môi trường, nó đóng vai trò quan trọng trong nhiều lĩnh vực. Hãy cùng xem qua một số ví dụ về nơi nó đang tạo ra tác động.
Phân đoạn trường hợp có thể là một phần quan trọng để đảm bảo an toàn và hiệu quả tại các công trường xây dựng. Ví dụ, nó có thể được sử dụng để giám sát máy móc hạng nặng.
YOLO11 có thể được tinh chỉnh để phân đoạn và xác định chính xác các loại thiết bị khác nhau, chẳng hạn như cần cẩu, máy đào và máy ủi, và theo dõi vị trí của chúng theo thời gian thực. Điều này cho phép người quản lý công trường đảm bảo rằng máy móc hoạt động nghiêm ngặt trong các khu vực được chỉ định và không xâm phạm vào các khu vực có công nhân hoặc có nguy hiểm.
Ngoài ra, việc tích hợp các giải pháp như vậy với hệ thống cảnh báo thời gian thực cho phép thực hiện các hành động khắc phục nhanh chóng. Ngoài ra, thông tin chi tiết được thu thập có thể giúp tối ưu hóa bố cục trang web và quy trình làm việc, giảm thiểu rủi ro và tăng năng suất.
Giám sát hành vi động vật giúp các nhà nghiên cứu, nông dân và nhà bảo tồn chăm sóc động vật tốt hơn trong các môi trường khác nhau. Phân đoạn cá thể đóng vai trò hữu ích trong các hệ thống này bằng cách xác định và phân đoạn từng cá thể động vật trong các trang trại, sở thú và môi trường sống tự nhiên. Không giống như phát hiện vật thể truyền thống sử dụng hộp giới hạn, phân đoạn cá thể cung cấp sự phân định cấp độ pixel của từng loài động vật, đặc biệt hữu ích khi động vật ở gần nhau.
Phân đoạn chi tiết giúp theo dõi chính xác hơn các chuyển động và hành vi. Có thể nhận dạng rõ ràng các động vật chồng chéo hoặc tập trung gần nhau và cung cấp phân tích chính xác hơn về các tương tác, đánh giá sức khỏe và mô hình hoạt động. Nhìn chung, hiểu biết sâu sắc hơn về hành vi của động vật giúp nâng cao các hoạt động chăm sóc và quản lý động vật.
Theo dõi chính xác người chơi và sự kiện là một phần rất lớn của phân tích thể thao. Các phương pháp theo dõi truyền thống dựa vào gắn thẻ thủ công, có thể không nắm bắt được các tương tác chi tiết. Thị giác máy tính có thể được sử dụng để phân đoạn các chi tiết như từng người chơi, quả bóng và sự kiện quan trọng ở cấp độ pixel để có được thông tin chi tiết.
Ví dụ, phân đoạn trường hợp có thể giúp phát hiện các sự kiện như phạm lỗi hoặc sự cố ngoài bóng bằng cách tách biệt rõ ràng từng cầu thủ và đối tượng. Giám sát chi tiết này được kích hoạt bởi các mô hình như YOLO11 cung cấp cho các nhà phân tích thông tin rõ ràng hơn để nghiên cứu các mô hình chuyển động, định vị không gian và tương tác với độ chính xác cao. Một lợi ích chính của những hiểu biết này là chúng giúp các nhóm tinh chỉnh chiến lược của mình và thúc đẩy hiệu suất chung.
Sau đây là một số lợi ích chính mà phân khúc trường hợp có thể mang lại cho nhiều ngành khác nhau:
Mặc dù những lợi ích này nêu bật cách phân đoạn phiên bản tác động đến các trường hợp sử dụng khác nhau, nhưng điều quan trọng là phải xem xét những thách thức liên quan đến việc triển khai phân đoạn phiên bản.
Sau đây là một số hạn chế chính của phân đoạn trường hợp:
Phân đoạn thể hiện cho phép phân biệt các đối tượng riêng lẻ một cách chính xác, ngay cả khi chúng chồng lên nhau. Bằng cách nắm bắt ranh giới đối tượng ở cấp độ pixel, nó cung cấp sự hiểu biết sâu sắc hơn về dữ liệu trực quan so với các tác vụ thị giác máy tính truyền thống như phát hiện đối tượng.
Những tiến bộ gần đây trong thị giác máy tính đã làm cho việc phân đoạn trường hợp nhanh hơn và dễ sử dụng hơn. Đặc biệt, các mô hình thị giác máy tính như Ultralytics YOLO11 đơn giản hóa quy trình, cho phép phân đoạn theo thời gian thực với thiết lập tối thiểu, giúp nhiều ngành và ứng dụng khác nhau dễ tiếp cận hơn.
Bạn có tò mò về AI không? Hãy truy cập kho lưu trữ GitHub của chúng tôi và kết nối với cộng đồng của chúng tôi để tiếp tục khám phá. Tìm hiểu về những đổi mới như AI trong xe tự lái và Vision AI trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép của chúng tôi và bắt đầu một dự án thị giác máy tính!
Bắt đầu hành trình của bạn với tương lai của machine learning