Khám phá cách nhận dạng hình ảnh hỗ trợ AI phân loại và hiểu hình ảnh, thúc đẩy đổi mới trong chăm sóc sức khỏe, bán lẻ, an ninh, v.v.
Nhận dạng hình ảnh là một nhánh quan trọng của trí tuệ nhân tạo (AI) và thị giác máy tính (CV) cho phép máy móc xác định và diễn giải thông tin trực quan từ hình ảnh hoặc video. Nó không chỉ đơn thuần là nhìn thấy các pixel; nó liên quan đến việc hiểu nội dung, chẳng hạn như các đối tượng, con người, cảnh và hành động được mô tả trong dữ liệu trực quan. Công nghệ này tạo thành nền tảng cho vô số ứng dụng, cho phép các hệ thống "nhìn" và hiểu thế giới theo cách tương tự như con người.
Về bản chất, nhận dạng hình ảnh phụ thuộc rất nhiều vào máy học (ML), đặc biệt là các thuật toán học sâu (DL). Mạng nơ-ron tích chập (CNN) là một thành phần cơ bản, được thiết kế để tự động và thích ứng học các phân cấp không gian của các đặc điểm từ hình ảnh. Quá trình này thường bao gồm việc đào tạo một mô hình trên các tập dữ liệu lớn gồm các hình ảnh được gắn nhãn, chẳng hạn như tập dữ liệu ImageNet nổi tiếng, trong đó mỗi hình ảnh được gắn thẻ thông tin về nội dung của nó, thường được tổ chức bằng các cấu trúc như phân cấp WordNet . Trong quá trình đào tạo, mô hình học cách liên kết các mẫu và đặc điểm trực quan cụ thể (như cạnh, kết cấu, hình dạng) với các nhãn hoặc danh mục khác nhau. Các kiến trúc như ResNet có hiệu suất nâng cao đáng kể đối với các tác vụ này. Sau khi được đào tạo, mô hình có thể phân tích các hình ảnh mới, chưa từng thấy và dự đoán các đối tượng hoặc khái niệm có trong chúng. Có thể đào sâu hơn việc hiểu các khái niệm này thông qua các tài nguyên như Chuyên ngành học sâu . Trong khi ImageNet là chìa khóa để phân loại, các tập dữ liệu như COCO cũng rất quan trọng đối với các nhiệm vụ hiểu hình ảnh rộng hơn. Đào tạo mô hình hiệu quả đòi hỏi phải lập kế hoạch và thực hiện cẩn thận .
Trong khi liên quan đến các nhiệm vụ thị giác máy tính khác, nhận dạng hình ảnh thường được sử dụng như một thuật ngữ rộng hơn bao gồm một số khả năng cụ thể. Điều quan trọng là phải phân biệt nó với các nhiệm vụ hẹp hơn:
Nhận dạng hình ảnh đôi khi có thể đề cập cụ thể đến phân loại hình ảnh, nhưng thường ngụ ý khả năng rộng hơn trong việc hiểu nội dung hình ảnh, có thể bao gồm phát hiện hoặc phân đoạn tùy thuộc vào nhu cầu của ứng dụng.
Nhận dạng hình ảnh hỗ trợ nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau:
Lĩnh vực này liên tục phát triển, được thúc đẩy bởi các nghiên cứu được chia sẻ tại các địa điểm như Hội nghị về Thị giác máy tính và Nhận dạng mẫu (CVPR) và các tổ chức như Quỹ Thị giác máy tính (CVF) . Đọc những hiểu biết thực tế trên Blog AI Google Cloud .
Phát triển các ứng dụng nhận dạng hình ảnh thường liên quan đến việc sử dụng các thư viện và khuôn khổ chuyên biệt. Các công nghệ chính bao gồm: