Khám phá cách thức mới Ultralytics YOLO11 mô hình có thể được sử dụng để phát hiện đối tượng nhằm đạt được độ chính xác cao hơn trong nhiều ứng dụng khác nhau trong nhiều ngành công nghiệp.
Thị giác máy tính là một lĩnh vực của trí tuệ nhân tạo (AI) giúp máy móc diễn giải và hiểu thông tin trực quan để thực hiện các tác vụ thiết yếu như phát hiện đối tượng . Không giống như phân loại hình ảnh , phát hiện đối tượng không chỉ xác định đối tượng nào có trong hình ảnh mà còn xác định chính xác vị trí của chúng. Điều này làm cho nó trở thành một công cụ quan trọng cho các ứng dụng AI về thị giác như xe tự lái , hệ thống an ninh thời gian thực và tự động hóa kho hàng.
Theo thời gian, công nghệ phát hiện đối tượng đã trở nên tiên tiến hơn và dễ sử dụng hơn. Một bước tiến lớn đã được công bố tại Ultralytics 'sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24) , với sự ra mắt của mẫu Ultralytics YOLO11 . YOLO11 cải thiện độ chính xác và hiệu suất trong khi vẫn hỗ trợ các tác vụ giống như YOLOv8 , giúp người dùng các mẫu trước dễ dàng chuyển đổi liền mạch.
Trong bài viết này, chúng tôi sẽ phân tích phát hiện đối tượng là gì, nó khác với các tác vụ thị giác máy tính khác như thế nào và khám phá các ứng dụng thực tế của nó. Chúng tôi cũng sẽ hướng dẫn bạn cách sử dụng YOLO11 mô hình với gói Ultralytics Python và nền tảng Ultralytics HUB . Hãy bắt đầu nào!
Phát hiện đối tượng là một nhiệm vụ cốt lõi trong thị giác máy tính, không chỉ xác định các đối tượng trong hình ảnh. Không giống như phân loại hình ảnh, chỉ xác định xem một đối tượng cụ thể có hiện diện hay không, phát hiện đối tượng nhận dạng nhiều đối tượng và xác định chính xác vị trí của chúng bằng cách sử dụng hộp giới hạn.
Ví dụ, nó có thể xác định và định vị khuôn mặt trong ảnh nhóm , ô tô trên phố đông đúc hoặc sản phẩm trên kệ hàng trong cửa hàng. Kết hợp nhận dạng đối tượng và định vị khiến nó đặc biệt hữu ích cho các ứng dụng như giám sát , theo dõi đám đông và quản lý hàng tồn kho tự động.
Điểm khác biệt giữa phát hiện đối tượng với các nhiệm vụ khác như phân đoạn ngữ nghĩa hoặc phân đoạn thể hiện là tính tập trung và hiệu quả của nó.
Phân đoạn ngữ nghĩa gắn nhãn cho từng pixel trong một hình ảnh nhưng không phân biệt giữa các đối tượng riêng lẻ cùng loại (ví dụ: tất cả khuôn mặt trong ảnh sẽ được nhóm thành "khuôn mặt"). Phân đoạn thể hiện tiến xa hơn bằng cách tách từng đối tượng và phác thảo hình dạng chính xác của đối tượng đó, ngay cả đối với các đối tượng cùng loại.
Tuy nhiên, phát hiện đối tượng cung cấp một cách tiếp cận hợp lý hơn bằng cách xác định và phân loại các đối tượng trong khi đánh dấu vị trí của chúng. Điều này làm cho nó trở nên lý tưởng cho các tác vụ thời gian thực như phát hiện khuôn mặt trong cảnh quay an ninh hoặc xác định chướng ngại vật cho xe tự hành .
YOLO11 Các tính năng phát hiện đối tượng tiên tiến của nó làm cho nó hữu ích trong nhiều ngành công nghiệp. Chúng ta hãy xem một số ví dụ.
YOLO11 và phát hiện đối tượng đang định nghĩa lại phân tích bán lẻ bằng cách làm cho việc quản lý hàng tồn kho và giám sát kệ hàng hiệu quả và chính xác hơn. Khả năng phát hiện đối tượng nhanh chóng và đáng tin cậy của mô hình giúp các nhà bán lẻ theo dõi mức tồn kho, sắp xếp kệ hàng và giảm sai sót trong việc kiểm kê hàng tồn kho.
Ví dụ, YOLO11 có thể phát hiện các mặt hàng cụ thể như kính mát trên kệ hàng trong cửa hàng. Nhưng tại sao một nhà bán lẻ lại muốn theo dõi một kệ hàng? Việc giữ cho các kệ hàng được sắp xếp và ngăn nắp là rất quan trọng để đảm bảo khách hàng có thể tìm thấy những gì họ cần, điều này ảnh hưởng trực tiếp đến doanh số bán hàng. Bằng cách theo dõi các kệ hàng theo thời gian thực, các nhà bán lẻ có thể nhanh chóng phát hiện ra khi các mặt hàng sắp hết, thất lạc hoặc quá tải, giúp họ duy trì một màn hình có tổ chức và hấp dẫn giúp cải thiện trải nghiệm mua sắm.
Một thành phố nhộn nhịp phụ thuộc vào lưu lượng giao thông thông suốt và đường phố an toàn để hoạt động hiệu quả, và YOLO11 có thể giúp thực hiện điều này. Trên thực tế, nhiều ứng dụng thành phố thông minh có thể được tích hợp với YOLO11 .
Một trường hợp thú vị liên quan đến việc sử dụng phát hiện đối tượng để xác định biển số xe trên các phương tiện đang di chuyển. Bằng cách làm như vậy, YOLO11 có thể hỗ trợ thu phí nhanh hơn, quản lý giao thông tốt hơn và thực thi quy định nhanh hơn.
Thông tin chi tiết từ hệ thống Vision AI giám sát đường bộ có thể cảnh báo chính quyền về các vi phạm giao thông hoặc tình trạng tắc nghẽn trước khi chúng trở thành vấn đề lớn hơn. YOLO11 cũng có thể phát hiện người đi bộ và người đi xe đạp, giúp đường phố an toàn hơn và hiệu quả hơn cho mọi người.
Thực tế là, YOLO11 Khả năng xử lý dữ liệu trực quan của nó khiến nó trở thành một công cụ mạnh mẽ để cải thiện cơ sở hạ tầng của thành phố. Ví dụ, nó có thể giúp tối ưu hóa thời gian đèn giao thông bằng cách phân tích chuyển động của xe cộ và người đi bộ. Nó cũng có thể tăng cường an toàn trong khu vực trường học bằng cách phát hiện trẻ em và cảnh báo người lái xe giảm tốc độ. Với YOLO11 , các thành phố có thể thực hiện các biện pháp chủ động để giải quyết các thách thức và tạo ra môi trường hiệu quả hơn cho mọi người.
Phát hiện đối tượng theo thời gian thực đề cập đến khả năng của hệ thống trong việc xác định và phân loại các đối tượng trong nguồn cấp dữ liệu video trực tiếp khi chúng xuất hiện. YOLO11 được thiết kế để có hiệu suất thời gian thực vượt trội và hỗ trợ khả năng này một cách xuất sắc. Các ứng dụng của nó không chỉ đơn thuần là hợp lý hóa quy trình - mà còn có thể giúp tạo ra một thế giới toàn diện và dễ tiếp cận hơn.
Ví dụ, YOLO11 có thể hỗ trợ những người khiếm thị bằng cách xác định các đối tượng theo thời gian thực. Dựa trên các phát hiện, có thể cung cấp mô tả bằng âm thanh, giúp người dùng điều hướng môi trường xung quanh độc lập hơn.
Hãy xem xét một người khiếm thị đang mua sắm hàng tạp hóa. Việc chọn đúng mặt hàng có thể là một thách thức, nhưng YOLO11 có thể hỗ trợ. Khi họ đặt các mặt hàng vào giỏ hàng của họ, một hệ thống tích hợp với YOLO11 có thể được sử dụng để nhận dạng từng mặt hàng - như chuối, quả bơ hoặc một hộp sữa - và cung cấp mô tả âm thanh theo thời gian thực. Điều này cho phép họ xác nhận lựa chọn của mình và đảm bảo họ có mọi thứ họ cần. Bằng cách nhận dạng các mặt hàng hàng ngày, YOLO11 có thể làm cho việc mua sắm trở nên đơn giản hơn.
Bây giờ chúng ta đã tìm hiểu những điều cơ bản về phát hiện đối tượng và các ứng dụng đa dạng của nó, hãy cùng tìm hiểu cách bạn có thể bắt đầu với Ultralytics YOLO11 mô hình cho các nhiệm vụ như phát hiện đối tượng.
Có hai cách đơn giản để sử dụng YOLO11 : thông qua Ultralytics Python gói hoặc Ultralytics HUB. Hãy cùng khám phá cả hai phương pháp, bắt đầu với Python bưu kiện.
Suy luận là khi mô hình AI phân tích dữ liệu mới, chưa từng thấy để đưa ra dự đoán , phân loại thông tin hoặc cung cấp thông tin chi tiết dựa trên những gì nó học được trong quá trình đào tạo. Đối với phát hiện đối tượng, điều đó có nghĩa là xác định và định vị các đối tượng cụ thể trong hình ảnh hoặc video, vẽ các hộp giới hạn xung quanh chúng và gắn nhãn cho chúng dựa trên quá trình đào tạo của mô hình.
Để suy ra bằng cách sử dụng YOLO11 mô hình phát hiện đối tượng, trước tiên bạn cần cài đặt gói Python Ultralytics qua pip, conda hoặc Docker. Nếu bạn gặp bất kỳ sự cố cài đặt nào, hãy xem hướng dẫn khắc phục sự cố để biết các mẹo và thủ thuật giúp bạn giải quyết chúng. Sau khi cài đặt, bạn có thể sử dụng mã sau để tải YOLO11 mô hình phát hiện đối tượng và đưa ra dự đoán về hình ảnh.
YOLO11 cũng hỗ trợ đào tạo tùy chỉnh để phù hợp hơn với các trường hợp sử dụng cụ thể của bạn. Bằng cách tinh chỉnh mô hình, bạn có thể điều chỉnh nó để phát hiện các đối tượng có liên quan đến dự án của bạn. Ví dụ, khi sử dụng thị giác máy tính trong chăm sóc sức khỏe , một YOLO11 mô hình có thể được sử dụng để phát hiện những bất thường cụ thể trong hình ảnh y tế, chẳng hạn như khối u trong ảnh chụp MRI hoặc gãy xương trong ảnh chụp X-quang, giúp bác sĩ đưa ra chẩn đoán nhanh hơn và chính xác hơn.
Đoạn mã dưới đây trình bày cách tải và đào tạo YOLO11 mô hình để phát hiện đối tượng. Bạn có thể bắt đầu từ tệp cấu hình YAML hoặc mô hình được đào tạo trước, chuyển trọng số và đào tạo trên các tập dữ liệu như COCO để có khả năng phát hiện đối tượng tinh vi hơn.
Sau khi đào tạo một mô hình, bạn cũng có thể xuất mô hình đã đào tạo theo nhiều định dạng khác nhau để triển khai trong các môi trường khác nhau.
Đối với những người đang tìm kiếm một giải pháp thay thế không cần mã, Ultralytics HUB cung cấp nền tảng Vision AI dễ sử dụng để đào tạo và triển khai YOLO các mô hình, bao gồm YOLO11 .
Để chạy phát hiện đối tượng trên hình ảnh, chỉ cần tạo một tài khoản, điều hướng đến phần 'Mô hình' và chọn YOLO11 biến thể mô hình phát hiện đối tượng. Tải hình ảnh của bạn lên và nền tảng sẽ hiển thị các đối tượng được phát hiện trong phần xem trước.
Bằng cách kết hợp tính linh hoạt của Python gói với sự dễ dàng của HUB, YOLO11 giúp các nhà phát triển và doanh nghiệp dễ dàng khai thác sức mạnh của công nghệ phát hiện đối tượng tiên tiến.
YOLO11 thiết lập một tiêu chuẩn mới trong phát hiện đối tượng, kết hợp độ chính xác cao với tính linh hoạt để đáp ứng nhu cầu của nhiều ngành công nghiệp khác nhau. Từ việc nâng cao phân tích bán lẻ đến quản lý cơ sở hạ tầng thành phố thông minh, YOLO11 được xây dựng để có hiệu suất đáng tin cậy, thời gian thực trên vô số ứng dụng.
Với các tùy chọn đào tạo tùy chỉnh và giao diện dễ sử dụng thông qua Ultralytics HUB, tích hợp YOLO11 vào quy trình làm việc của bạn chưa bao giờ đơn giản hơn thế. Cho dù bạn là nhà phát triển đang khám phá tầm nhìn máy tính hay doanh nghiệp đang tìm cách đổi mới với AI, YOLO11 cung cấp các công cụ bạn cần để thành công.
Để tìm hiểu thêm, hãy xem kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự lái và thị giác máy tính cho nông nghiệp trên các trang giải pháp của chúng tôi. 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning