Tìm hiểu về phát hiện đối tượng, tầm quan trọng của nó trong AI và cách các mô hình như YOLO11 đang chuyển đổi các ngành công nghiệp như xe tự lái, chăm sóc sức khỏe và an ninh.
Nhiều ngành công nghiệp đang nhanh chóng tích hợp các giải pháp trí tuệ nhân tạo (AI) vào hoạt động của họ. Trong số nhiều công nghệ AI hiện có ngày nay, thị giác máy tính là một trong những công nghệ phổ biến nhất. Thị giác máy tính là một nhánh của AI giúp máy tính nhìn thấy và hiểu nội dung của hình ảnh và video, giống như con người. Nó giúp máy móc có thể nhận dạng các vật thể, xác định các mẫu và hiểu được những gì chúng đang nhìn.
Giá trị thị trường toàn cầu của thị giác máy tính ước tính sẽ tăng lên 175,72 tỷ đô la vào năm 2032. Thị giác máy tính bao gồm nhiều nhiệm vụ khác nhau cho phép các hệ thống Vision AI phân tích và diễn giải dữ liệu trực quan. Một trong những nhiệm vụ được sử dụng rộng rãi và thiết yếu nhất của thị giác máy tính là phát hiện đối tượng.
Phát hiện đối tượng tập trung vào việc định vị và phân loại các đối tượng trong dữ liệu trực quan. Ví dụ, nếu bạn cho máy tính xem hình ảnh một con bò, máy có thể phát hiện ra con bò và vẽ một hộp giới hạn xung quanh nó. Khả năng này hữu ích trong các ứng dụng thực tế như theo dõi động vật, xe tự lái và giám sát.
Vậy, làm thế nào để phát hiện đối tượng? Một cách là thông qua các mô hình thị giác máy tính. Ví dụ, Ultralytics YOLO11 là một mô hình thị giác máy tính hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng.
Trong hướng dẫn này, chúng ta sẽ khám phá phát hiện đối tượng và cách thức hoạt động của nó. Chúng ta cũng sẽ thảo luận về một số ứng dụng thực tế của phát hiện đối tượng và Ultralytics YOLO11 .
Phát hiện đối tượng là một nhiệm vụ thị giác máy tính xác định và định vị các đối tượng trong hình ảnh hoặc video. Nó trả lời hai câu hỏi chính: 'Những đối tượng nào có trong hình ảnh?' và 'Chúng nằm ở đâu?'
Bạn có thể nghĩ về phát hiện đối tượng như một quá trình bao gồm hai bước chính. Bước đầu tiên, phân loại đối tượng, cho phép hệ thống nhận dạng và dán nhãn đối tượng, chẳng hạn như xác định một con mèo, một chiếc ô tô hoặc một người dựa trên các mẫu đã học. Bước thứ hai, định vị, xác định vị trí của đối tượng bằng cách vẽ một hộp giới hạn xung quanh nó, chỉ ra vị trí nó xuất hiện trong hình ảnh. Cùng nhau, các bước này cho phép máy móc phát hiện và hiểu các đối tượng trong một cảnh.
Khía cạnh phát hiện vật thể khiến nó trở nên độc đáo là khả năng nhận dạng vật thể và xác định chính xác vị trí của chúng. Các tác vụ thị giác máy tính khác tập trung vào các mục tiêu khác nhau.
Ví dụ, phân loại hình ảnh gán nhãn cho toàn bộ hình ảnh. Trong khi đó, phân đoạn hình ảnh cung cấp hiểu biết ở cấp độ pixel về các thành phần khác nhau. Mặt khác, phát hiện đối tượng kết hợp nhận dạng với định vị. Điều này làm cho nó đặc biệt hữu ích cho các tác vụ như đếm nhiều đối tượng theo thời gian thực.
Khi bạn khám phá các thuật ngữ thị giác máy tính khác nhau, bạn có thể cảm thấy nhận dạng đối tượng và phát hiện đối tượng có thể hoán đổi cho nhau - nhưng chúng phục vụ các mục đích khác nhau. Một cách tuyệt vời để hiểu sự khác biệt là xem xét phát hiện khuôn mặt và nhận dạng khuôn mặt.
Phát hiện khuôn mặt là một loại phát hiện đối tượng. Nó xác định sự hiện diện của khuôn mặt trong hình ảnh và đánh dấu vị trí của khuôn mặt đó bằng hộp giới hạn. Nó trả lời câu hỏi "Khuôn mặt ở đâu trong hình ảnh?" Công nghệ này thường được sử dụng trong camera điện thoại thông minh tự động lấy nét vào khuôn mặt hoặc trong camera an ninh phát hiện khi có người.
Mặt khác, nhận dạng khuôn mặt là một dạng nhận dạng đối tượng. Nó không chỉ phát hiện khuôn mặt; nó xác định khuôn mặt đó là của ai bằng cách phân tích các đặc điểm riêng biệt và so sánh chúng với cơ sở dữ liệu. Nó trả lời câu hỏi "Người này là ai?" Đây là công nghệ đằng sau việc mở khóa điện thoại của bạn bằng Face ID hoặc hệ thống an ninh sân bay xác minh danh tính.
Nói một cách đơn giản, phát hiện đối tượng sẽ tìm và định vị đối tượng, trong khi nhận dạng đối tượng sẽ phân loại và xác định chúng.
Nhiều mô hình phát hiện đối tượng, như YOLO11 , được thiết kế để hỗ trợ phát hiện khuôn mặt nhưng không hỗ trợ nhận dạng khuôn mặt. YOLO11 có thể xác định hiệu quả sự hiện diện của khuôn mặt trong hình ảnh và vẽ một hộp giới hạn xung quanh nó, làm cho nó hữu ích cho các ứng dụng như hệ thống giám sát, theo dõi đám đông và gắn thẻ ảnh tự động. Tuy nhiên, nó không thể xác định khuôn mặt đó là của ai. YOLO11 có thể tích hợp với các mô hình được đào tạo chuyên biệt để nhận dạng khuôn mặt, chẳng hạn như Facenet hoặc DeepFace, để cho phép phát hiện và nhận dạng trong một hệ thống duy nhất.
Trước khi thảo luận về cách phát hiện đối tượng hoạt động, trước tiên hãy xem xét kỹ hơn cách máy tính phân tích hình ảnh. Thay vì nhìn thấy hình ảnh như chúng ta, máy tính chia nhỏ hình ảnh thành một lưới các ô vuông nhỏ gọi là pixel. Mỗi pixel chứa thông tin về màu sắc và độ sáng mà máy tính có thể xử lý để diễn giải dữ liệu hình ảnh.
Để hiểu được các pixel này, các thuật toán nhóm chúng thành các vùng có ý nghĩa dựa trên hình dạng, màu sắc và mức độ gần nhau của chúng. Các mô hình phát hiện đối tượng, như YOLO11 , có thể nhận ra các mẫu hoặc đặc điểm trong các nhóm điểm ảnh này.
Ví dụ, một chiếc xe tự lái không nhìn thấy người đi bộ theo cách chúng ta nhìn thấy - nó phát hiện các hình dạng và mẫu phù hợp với các đặc điểm của người đi bộ. Các mô hình này dựa vào quá trình đào tạo mở rộng với các tập dữ liệu hình ảnh được gắn nhãn, cho phép chúng học các đặc điểm riêng biệt của các đối tượng như ô tô, biển báo giao thông và con người.
Một mô hình phát hiện đối tượng điển hình có ba phần chính: backbone, neck và head. backbone trích xuất các đặc điểm quan trọng từ hình ảnh. Neck xử lý và tinh chỉnh các đặc điểm này, trong khi head chịu trách nhiệm dự đoán vị trí đối tượng và phân loại chúng.
Sau khi phát hiện ban đầu, các kỹ thuật xử lý hậu kỳ được áp dụng để cải thiện độ chính xác và lọc ra các dự đoán trùng lặp. Ví dụ, các hộp giới hạn chồng chéo được loại bỏ, đảm bảo chỉ giữ lại các phát hiện có liên quan nhất. Ngoài ra, điểm số tin cậy (giá trị số biểu thị mức độ chắc chắn của mô hình rằng một đối tượng được phát hiện thuộc về một lớp nhất định) được gán cho từng đối tượng được phát hiện để chỉ ra mức độ chắc chắn của mô hình trong các dự đoán của nó.
Cuối cùng, đầu ra được trình bày với các hộp giới hạn được vẽ xung quanh các đối tượng được phát hiện, cùng với nhãn lớp dự đoán và điểm tin cậy của chúng. Những kết quả này sau đó có thể được sử dụng cho các ứng dụng trong thế giới thực.
Ngày nay, có rất nhiều mô hình thị giác máy tính khả dụng và một số mô hình phổ biến nhất là mô hình Ultralytics YOLO . Chúng được biết đến với tốc độ, độ chính xác và tính linh hoạt. Trong những năm qua, các mô hình này đã trở nên nhanh hơn, chính xác hơn và có khả năng xử lý nhiều tác vụ hơn. Việc phát hành Ultralytics YOLOv5 đã giúp triển khai dễ dàng hơn với các khuôn khổ như PyTorch , cho phép nhiều người sử dụng Vision AI tiên tiến hơn mà không cần chuyên môn kỹ thuật sâu.
Dựa trên nền tảng này, Ultralytics YOLOv8 đã giới thiệu các tính năng mới như phân đoạn trường hợp, ước tính tư thế và phân loại hình ảnh. Bây giờ, YOLO11 đang đưa mọi thứ tiến xa hơn nữa với hiệu suất tốt hơn trên nhiều tác vụ. Với ít hơn 22% thông số so với YOLOv8m , YOLO11m đạt được độ chính xác trung bình (mAP) cao hơn trên tập dữ liệu COCO. Nói một cách đơn giản, YOLO11 có thể nhận dạng các đối tượng với độ chính xác cao hơn trong khi sử dụng ít tài nguyên hơn, giúp việc nhận dạng nhanh hơn và đáng tin cậy hơn.
Cho dù bạn là chuyên gia AI hay chỉ mới bắt đầu, YOLO11 cung cấp giải pháp mạnh mẽ nhưng thân thiện với người dùng cho các ứng dụng thị giác máy tính.
Đào tạo các mô hình AI Vision liên quan đến việc giúp máy tính nhận dạng và hiểu hình ảnh và video. Tuy nhiên, đào tạo có thể là một quá trình tốn thời gian. Thay vì bắt đầu từ đầu, chuyển giao học tập sẽ tăng tốc mọi thứ bằng cách sử dụng các mô hình được đào tạo trước đã nhận dạng các mẫu chung.
Ví dụ, YOLO11 đã được đào tạo trên tập dữ liệu COCO , chứa một tập hợp đa dạng các đối tượng hàng ngày. Mô hình được đào tạo trước này có thể được đào tạo tùy chỉnh thêm để phát hiện các đối tượng cụ thể có thể không có trong tập dữ liệu gốc.
Để đào tạo tùy chỉnh YOLO11 , bạn cần một tập dữ liệu được gắn nhãn có chứa hình ảnh của các đối tượng bạn muốn phát hiện. Ví dụ, nếu bạn muốn xây dựng một mô hình để xác định các loại trái cây khác nhau trong một cửa hàng tạp hóa, bạn sẽ tạo một tập dữ liệu với hình ảnh được gắn nhãn của táo, chuối, cam, v.v. Sau khi tập dữ liệu được chuẩn bị, YOLO11 có thể được đào tạo, điều chỉnh các thông số như kích thước lô, tốc độ học và kỷ nguyên để tối ưu hóa hiệu suất.
Với cách tiếp cận này, các doanh nghiệp có thể đào tạo YOLO11 để phát hiện mọi thứ, từ các bộ phận bị lỗi trong sản xuất đến các loài động vật hoang dã trong các dự án bảo tồn, điều chỉnh mô hình theo đúng nhu cầu của chúng.
Tiếp theo, chúng ta hãy xem xét một số trường hợp sử dụng thực tế của công nghệ phát hiện đối tượng và cách công nghệ này đang chuyển đổi nhiều ngành công nghiệp khác nhau.
Xe tự lái sử dụng các tác vụ thị giác máy tính như phát hiện vật thể để điều hướng an toàn và tránh chướng ngại vật. Công nghệ này giúp chúng nhận ra người đi bộ, các phương tiện khác, ổ gà và các mối nguy hiểm trên đường, giúp chúng hiểu rõ hơn về môi trường xung quanh. Chúng có thể đưa ra quyết định nhanh chóng và di chuyển an toàn qua giao thông bằng cách liên tục phân tích môi trường của chúng.
Các kỹ thuật chụp ảnh y khoa như chụp X-quang, chụp MRI, chụp CT và siêu âm tạo ra hình ảnh chi tiết cao về cơ thể con người để giúp chẩn đoán và điều trị bệnh. Các lần chụp này tạo ra lượng lớn dữ liệu mà các bác sĩ, chẳng hạn như bác sĩ X-quang và bác sĩ bệnh học, phải phân tích cẩn thận để phát hiện bệnh. Tuy nhiên, việc xem xét chi tiết từng hình ảnh có thể tốn thời gian và đôi khi các chuyên gia có thể bỏ sót chi tiết do mệt mỏi hoặc hạn chế về thời gian.
Các mô hình phát hiện đối tượng như YOLO11 có thể hỗ trợ bằng cách tự động xác định các đặc điểm chính trong quá trình quét y tế, chẳng hạn như các cơ quan, khối u hoặc bất thường, với độ chính xác cao. Các mô hình được đào tạo tùy chỉnh có thể làm nổi bật các khu vực quan tâm bằng các hộp giới hạn, giúp bác sĩ tập trung vào các vấn đề tiềm ẩn nhanh hơn. Điều này làm giảm khối lượng công việc, cải thiện hiệu quả và cung cấp thông tin chi tiết nhanh chóng.
Theo dõi đối tượng là một nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11 , cho phép giám sát thời gian thực và tăng cường bảo mật. Nó dựa trên việc phát hiện đối tượng bằng cách xác định đối tượng và liên tục theo dõi chuyển động của chúng qua các khung hình. Công nghệ này được sử dụng rộng rãi trong các hệ thống giám sát để cải thiện tính an toàn trong nhiều môi trường khác nhau.
Ví dụ, trong trường học và trung tâm chăm sóc trẻ em, theo dõi đối tượng có thể giúp giám sát trẻ em và ngăn chúng đi lang thang. Trong các ứng dụng an ninh, nó đóng vai trò quan trọng trong việc phát hiện kẻ xâm nhập vào các khu vực hạn chế, giám sát đám đông để phát hiện tình trạng quá tải hoặc hành vi đáng ngờ và gửi cảnh báo theo thời gian thực khi phát hiện hoạt động trái phép. Bằng cách theo dõi các đối tượng khi chúng di chuyển, YOLO11 - hệ thống theo dõi được hỗ trợ tăng cường bảo mật, tự động giám sát và cho phép phản ứng nhanh hơn với các mối đe dọa tiềm ẩn.
Sau đây là một số lợi ích chính mà công nghệ phát hiện đối tượng có thể mang lại cho nhiều ngành công nghiệp khác nhau:
Mặc dù những lợi ích này làm nổi bật cách phát hiện đối tượng tác động đến các trường hợp sử dụng khác nhau, nhưng cũng quan trọng khi xem xét những thách thức liên quan đến việc triển khai nó. Sau đây là một số thách thức chính:
Phát hiện đối tượng là một công cụ thay đổi cuộc chơi trong thị giác máy tính giúp máy móc phát hiện và định vị các đối tượng trong hình ảnh và video. Nó đang được sử dụng trong các lĩnh vực từ xe tự lái đến chăm sóc sức khỏe, giúp các nhiệm vụ trở nên dễ dàng hơn, an toàn hơn và hiệu quả hơn. Với các mô hình mới hơn như YOLO11 , các doanh nghiệp có thể dễ dàng tạo các mô hình phát hiện đối tượng tùy chỉnh để tạo ra các ứng dụng thị giác máy tính chuyên dụng.
Mặc dù có một số thách thức, như lo ngại về quyền riêng tư và các đối tượng bị ẩn khỏi tầm nhìn, phát hiện đối tượng là một công nghệ đáng tin cậy. Khả năng tự động hóa các tác vụ, xử lý dữ liệu trực quan theo thời gian thực và tích hợp với các công cụ Vision AI khác khiến nó trở thành một phần thiết yếu của những cải tiến tiên tiến.
Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi . Khám phá những đổi mới trong các lĩnh vực như AI trong xe tự lái và thị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép yolo của chúng tôi và hiện thực hóa các dự án Vision AI của bạn. 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning