Thuật ngữ

Nhận dạng hình ảnh

Khám phá cách nhận dạng hình ảnh hỗ trợ AI phân loại và hiểu hình ảnh, thúc đẩy đổi mới trong chăm sóc sức khỏe, bán lẻ, an ninh, v.v.

Nhận dạng hình ảnh là một nhánh quan trọng của trí tuệ nhân tạo (AI) và thị giác máy tính (CV) cho phép máy móc xác định và diễn giải thông tin trực quan từ hình ảnh hoặc video. Nó không chỉ đơn thuần là nhìn thấy các pixel; nó liên quan đến việc hiểu nội dung, chẳng hạn như các đối tượng, con người, cảnh và hành động được mô tả trong dữ liệu trực quan. Công nghệ này tạo thành nền tảng cho vô số ứng dụng, cho phép các hệ thống "nhìn" và hiểu thế giới theo cách tương tự như con người.

Nhận dạng hình ảnh hoạt động như thế nào

Về bản chất, nhận dạng hình ảnh phụ thuộc rất nhiều vào máy học (ML), đặc biệt là các thuật toán học sâu (DL). Mạng nơ-ron tích chập (CNN) là một thành phần cơ bản, được thiết kế để tự động và thích ứng học các phân cấp không gian của các đặc điểm từ hình ảnh. Quá trình này thường bao gồm việc đào tạo một mô hình trên các tập dữ liệu lớn gồm các hình ảnh được gắn nhãn, chẳng hạn như tập dữ liệu ImageNet nổi tiếng, trong đó mỗi hình ảnh được gắn thẻ thông tin về nội dung của nó, thường được tổ chức bằng các cấu trúc như phân cấp WordNet . Trong quá trình đào tạo, mô hình học cách liên kết các mẫu và đặc điểm trực quan cụ thể (như cạnh, kết cấu, hình dạng) với các nhãn hoặc danh mục khác nhau. Các kiến trúc như ResNet có hiệu suất nâng cao đáng kể đối với các tác vụ này. Sau khi được đào tạo, mô hình có thể phân tích các hình ảnh mới, chưa từng thấy và dự đoán các đối tượng hoặc khái niệm có trong chúng. Có thể đào sâu hơn việc hiểu các khái niệm này thông qua các tài nguyên như Chuyên ngành học sâu . Trong khi ImageNet là chìa khóa để phân loại, các tập dữ liệu như COCO cũng rất quan trọng đối với các nhiệm vụ hiểu hình ảnh rộng hơn. Đào tạo mô hình hiệu quả đòi hỏi phải lập kế hoạch và thực hiện cẩn thận .

Sự khác biệt từ các thuật ngữ liên quan

Trong khi liên quan đến các nhiệm vụ thị giác máy tính khác, nhận dạng hình ảnh thường được sử dụng như một thuật ngữ rộng hơn bao gồm một số khả năng cụ thể. Điều quan trọng là phải phân biệt nó với các nhiệm vụ hẹp hơn:

Phân loại hình ảnh : Nhiệm vụ này gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: "mèo", "ô tô", "phong cảnh"). Nhiệm vụ này xác định chủ thể chính nhưng không xác định vị trí của chủ thể. Ultralytics các mô hình có thể thực hiện nhiệm vụ phân loại hình ảnh .
Phát hiện đối tượng : Điều này tiến xa hơn bằng cách xác định nhiều đối tượng trong một hình ảnh và định vị từng đối tượng, thường bằng cách vẽ một hộp giới hạn xung quanh đối tượng đó và gán nhãn lớp (ví dụ: "người ở tọa độ (x1, y1, x2, y2)"). Khám phá tính năng phát hiện với các mô hình Ultralytics .
Phân đoạn hình ảnh : Điều này bao gồm việc phân loại từng điểm ảnh trong một hình ảnh.
- Phân đoạn ngữ nghĩa : Gán nhãn lớp cho từng pixel (ví dụ: tất cả pixel thuộc về ô tô đều được gắn nhãn 'ô tô').
- Phân đoạn trường hợp : Phân biệt giữa các trường hợp riêng lẻ của cùng một lớp đối tượng (ví dụ: dán nhãn 'xe 1', 'xe 2'). Ultralytics hỗ trợ nhiều tác vụ phân đoạn khác nhau.

Nhận dạng hình ảnh đôi khi có thể đề cập cụ thể đến phân loại hình ảnh, nhưng thường ngụ ý khả năng rộng hơn trong việc hiểu nội dung hình ảnh, có thể bao gồm phát hiện hoặc phân đoạn tùy thuộc vào nhu cầu của ứng dụng.

Ứng dụng trong thế giới thực

Nhận dạng hình ảnh hỗ trợ nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau:

Chăm sóc sức khỏe: Được sử dụng trong phân tích hình ảnh y tế để hỗ trợ bác sĩ chẩn đoán tình trạng bằng cách xác định các bất thường trong X-quang, CT hoặc MRI. Ví dụ, các mô hình có thể được đào tạo để phát hiện khối u trong hình ảnh y tế , có khả năng dẫn đến chẩn đoán sớm hơn. Khám phá AI trong Giải pháp chăm sóc sức khỏe và các tạp chí như Radiology: Artificial Intelligence để biết thêm thông tin chi tiết.
Bán lẻ: Cho phép các ứng dụng như hệ thống thanh toán tự động, giám sát kệ để quản lý hàng tồn kho do AI điều khiển và phân tích hành vi khách hàng. Xem cách AI tạo ra hiệu quả bán lẻ và đọc thông tin chi tiết từ các tổ chức như Liên đoàn bán lẻ quốc gia (NRF) về AI .
An ninh và giám sát: Cung cấp năng lượng cho hệ thống nhận dạng khuôn mặt để kiểm soát truy cập và nhận dạng cá nhân, cũng như phát hiện các hoạt động đáng ngờ cho tầm nhìn máy tính để ngăn ngừa trộm cắp . Việc sử dụng công nghệ này nêu lên những cân nhắc quan trọng liên quan đến đạo đức AI .
Ô tô: Quan trọng đối với xe tự hành và Hệ thống hỗ trợ lái xe tiên tiến (ADAS) để phát hiện người đi bộ, xe khác, biển báo giao thông và vạch kẻ đường. Tìm hiểu thêm về AI trong các giải pháp ô tô và xem công nghệ từ các công ty như Waymo .
Kiểm duyệt nội dung: Tự động quét nội dung do người dùng tạo trên các nền tảng mạng xã hội và trang web để xác định và đánh dấu các hình ảnh và video không phù hợp hoặc có hại, như được giải thích bởi các nguồn như TechTarget .
Sản xuất: Được sử dụng để kiểm tra chất lượng trực quan nhằm phát hiện lỗi trong sản phẩm trên dây chuyền lắp ráp, cải thiện kiểm soát chất lượng. Khám phá các giải pháp AI trong sản xuất .

Lĩnh vực này liên tục phát triển, được thúc đẩy bởi các nghiên cứu được chia sẻ tại các địa điểm như Hội nghị về Thị giác máy tính và Nhận dạng mẫu (CVPR) và các tổ chức như Quỹ Thị giác máy tính (CVF) . Đọc những hiểu biết thực tế trên Blog AI Google Cloud .

Công cụ và đào tạo

Phát triển các ứng dụng nhận dạng hình ảnh thường liên quan đến việc sử dụng các thư viện và khuôn khổ chuyên biệt. Các công nghệ chính bao gồm:

Khung: PyTorch ( trang web chính thức ) và TensorFlow ( trang web chính thức ) cung cấp các công cụ cốt lõi để xây dựng và đào tạo các mô hình học sâu.
Thư viện: OpenCV (Thư viện thị giác máy tính nguồn mở) ( trang web chính thức ) cung cấp bộ sưu tập lớn các chức năng cho các tác vụ thị giác máy tính thời gian thực.
Mô hình & Nền tảng: Ultralytics cung cấp các mô hình YOLO Ultralytics tiên tiến, chẳng hạn như YOLO11 , được đào tạo trước trên các tập dữ liệu lớn như COCO và ImageNet. Nền tảng Ultralytics HUB đơn giản hóa quy trình quản lý tập dữ liệu , đào tạo các mô hình tùy chỉnh và khám phá các tùy chọn triển khai mô hình .

Nhận dạng hình ảnh

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Nhận dạng hình ảnh hoạt động như thế nào

Sự khác biệt từ các thuật ngữ liên quan

Ứng dụng trong thế giới thực

Công cụ và đào tạo

Đọc thêm blog

Tham gia Ultralytics cộng đồng