Thuật ngữ

Kiến trúc phát hiện đối tượng

Khám phá sức mạnh của kiến trúc phát hiện đối tượng, xương sống AI để hiểu hình ảnh. Tìm hiểu các loại, công cụ và ứng dụng thực tế ngay hôm nay!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Kiến trúc phát hiện đối tượng là xương sống của cách các hệ thống trí tuệ nhân tạo (AI) "nhìn" và hiểu hình ảnh. Các kiến trúc này là các mạng nơ-ron chuyên dụng được thiết kế không chỉ để phân loại các đối tượng trong một hình ảnh—cho chúng ta biết những đối tượng nào hiện diện—mà còn để định vị chúng, thường bằng cách vẽ các hộp giới hạn xung quanh mỗi trường hợp được phát hiện. Đối với bất kỳ ai quen thuộc với những điều cơ bản của máy học, việc hiểu các kiến trúc này là chìa khóa để mở khóa sức mạnh của thị giác máy tính.

Thành phần cốt lõi

Cốt lõi của kiến trúc phát hiện đối tượng là một số thành phần quan trọng hoạt động cùng nhau. Mạng nơ-ron tích chập (CNN) là nền tảng, hoạt động như trình trích xuất tính năng xác định các mẫu và phân cấp trong dữ liệu trực quan. Một khái niệm quan trọng khác là Giao điểm trên Liên hợp (IoU) , một số liệu được sử dụng để đánh giá độ chính xác của định vị đối tượng bằng cách đo sự chồng chéo giữa các hộp giới hạn dự đoán và hộp sự thật cơ bản.

Các loại kiến trúc

Kiến trúc phát hiện đối tượng có thể được phân loại thành một số loại chính. Các máy dò hai giai đoạn như R-CNN và Fast R-CNN ưu tiên độ chính xác bằng cách đầu tiên tạo ra các đề xuất vùng và sau đó phân loại và tinh chỉnh các đề xuất này. Ngược lại, các máy dò một giai đoạn , chẳng hạn như SSD và máy dò đối tượng một giai đoạn , nhấn mạnh vào tốc độ, thực hiện định vị và phân loại đối tượng trong một lần chạy. Ultralytics YOLO , viết tắt của "You Only Look Once", đại diện cho một loại máy dò một giai đoạn hiệu quả cao khác, được biết đến với hiệu suất và độ chính xác theo thời gian thực và có sẵn thông qua nền tảng Ultralytics HUB .

Phân biệt với các thuật ngữ tương tự

Điều quan trọng là phải phân biệt kiến trúc phát hiện đối tượng với các tác vụ thị giác máy tính liên quan. Trong khi phân loại hình ảnh cho chúng ta biết liệu một đối tượng có hiện diện trong hình ảnh hay không, thì nó không định vị được đối tượng đó. Phân đoạn ngữ nghĩa tiến xa hơn phát hiện đối tượng bằng cách phân loại từng pixel trong hình ảnh thành các lớp ngữ nghĩa, tạo ra sự hiểu biết từng pixel về cảnh, thay vì chỉ là các hộp giới hạn. Phát hiện đối tượng tập trung cụ thể vào việc xác định và định vị nhiều đối tượng trong một hình ảnh, cung cấp sự hiểu biết có cấu trúc về sự hiện diện và vị trí của đối tượng.

Ứng dụng trong thế giới thực

Ứng dụng của kiến trúc phát hiện vật thể rất rộng lớn và đa dạng. Trong công nghệ tự lái , các kiến trúc này rất quan trọng để xe có thể nhận biết môi trường xung quanh, phát hiện người đi bộ, xe khác và biển báo giao thông theo thời gian thực. Trong chăm sóc sức khỏe , chúng hỗ trợ phân tích hình ảnh y tế, giúp xác định các bất thường như khối u trong quá trình quét, góp phần chẩn đoán nhanh hơn và chính xác hơn. Đây chỉ là một vài ví dụ về cách kiến trúc phát hiện vật thể đang chuyển đổi các ngành công nghiệp.

Công cụ và công nghệ

Một số công cụ và khuôn khổ mạnh mẽ được sử dụng để xây dựng và triển khai các mô hình phát hiện đối tượng. Ultralytics YOLO không chỉ là một loại kiến trúc mà còn là một khuôn khổ phổ biến, cung cấp các mô hình và công cụ được đào tạo trước để đào tạo các trình phát hiện đối tượng tùy chỉnh. OpenCV là một thư viện thiết yếu khác, cung cấp một loạt các thuật toán và công cụ thị giác máy tính bổ sung cho các tác vụ phát hiện đối tượng.

Thách thức và định hướng tương lai

Mặc dù có những tiến bộ đáng kể, kiến trúc phát hiện vật thể vẫn phải đối mặt với những thách thức. Phát hiện chính xác các vật thể nhỏ, xử lý các vật thể che khuất (vật thể ẩn một phần) và quản lý các biến thể về quy mô và hình dạng của vật thể vẫn là những lĩnh vực nghiên cứu tích cực. Các máy dò không neo là một hướng đi đầy hứa hẹn, đơn giản hóa quy trình phát hiện và có khả năng cải thiện độ mạnh mẽ. Những tiến bộ liên tục trong kiến trúc mô hình và kỹ thuật đào tạo tiếp tục đẩy mạnh ranh giới của những gì có thể trong phát hiện vật thể.

Đọc tất cả