Thuật ngữ

Nhận dạng hình ảnh

Khám phá cách nhận dạng hình ảnh hỗ trợ AI phân loại và hiểu hình ảnh, thúc đẩy đổi mới trong chăm sóc sức khỏe, bán lẻ, an ninh, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Nhận dạng hình ảnh là một nhánh quan trọng của trí tuệ nhân tạo (AI)thị giác máy tính (CV) cho phép máy móc xác định và diễn giải thông tin trực quan từ hình ảnh hoặc video. Nó không chỉ đơn thuần là nhìn thấy các pixel; nó liên quan đến việc hiểu nội dung, chẳng hạn như các đối tượng, con người, cảnh và hành động được mô tả trong dữ liệu trực quan. Công nghệ này tạo thành nền tảng cho vô số ứng dụng, cho phép các hệ thống "nhìn" và hiểu thế giới theo cách tương tự như con người.

Nhận dạng hình ảnh hoạt động như thế nào

Về bản chất, nhận dạng hình ảnh phụ thuộc rất nhiều vào máy học (ML) , đặc biệt là các thuật toán học sâu (DL) . Mạng nơ-ron tích chập (CNN) là một thành phần cơ bản, được thiết kế để tự động và thích ứng học các phân cấp không gian của các đặc điểm từ hình ảnh. Quá trình này thường bao gồm việc đào tạo một mô hình trên các tập dữ liệu lớn gồm các hình ảnh được gắn nhãn, chẳng hạn như tập dữ liệu ImageNet , trong đó mỗi hình ảnh được gắn nhãn thông tin về nội dung của nó. Trong quá trình đào tạo, mô hình học cách liên kết các mẫu hình ảnh và đặc điểm cụ thể với các nhãn hoặc danh mục khác nhau. Sau khi được đào tạo, mô hình có thể phân tích các hình ảnh mới, chưa từng thấy và dự đoán các đối tượng hoặc khái niệm có trong đó.

Sự khác biệt từ các thuật ngữ liên quan

Mặc dù liên quan đến các tác vụ thị giác máy tính khác, nhận dạng hình ảnh có những sắc thái cụ thể:

  • Phân loại hình ảnh : Thường được sử dụng thay thế cho nhận dạng hình ảnh, phân loại thường tập trung vào việc gán một nhãn chính duy nhất cho toàn bộ hình ảnh (ví dụ: xác định hình ảnh có chứa "mèo" hoặc "chó"). Nhận dạng hình ảnh đôi khi có thể ngụ ý một sự hiểu biết rộng hơn, như xác định nhiều đối tượng hoặc hành động trong cảnh. Ultralytics YOLO các mô hình như YOLOv11 có thể thực hiện nhiệm vụ phân loại hình ảnh .
  • Phát hiện đối tượng : Nhiệm vụ này tiến xa hơn nhiều so với nhận dạng đơn giản bằng cách không chỉ xác định đối tượng nào có trong hình ảnh mà còn xác định vị trí của chúng, thường bằng cách vẽ các hộp giới hạn xung quanh chúng.
  • Phân đoạn hình ảnh : Cung cấp hiểu biết chi tiết hơn bằng cách phân loại từng pixel trong hình ảnh để xác định đường viền hoặc hình dạng chính xác của đối tượng, phân biệt giữa các trường hợp khác nhau ( phân đoạn trường hợp ) hoặc danh mục ( phân đoạn ngữ nghĩa ).

Ứng dụng trong thế giới thực

Nhận dạng hình ảnh hỗ trợ nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau:

  • Chăm sóc sức khỏe: Được sử dụng trong phân tích hình ảnh y tế để giúp các bác sĩ X quang phát hiện các bất thường như khối u hoặc gãy xương trong X-quang, chụp CT và MRI, có khả năng dẫn đến chẩn đoán sớm hơn. Ví dụ, các mô hình có thể được đào tạo cho các nhiệm vụ như phát hiện khối u trong hình ảnh y tế .
  • Bán lẻ: Cho phép các ứng dụng như hệ thống thanh toán tự động nhận dạng sản phẩm mà không cần mã vạch, nâng cao khả năng quản lý hàng tồn kho bán lẻ bằng cách theo dõi mức tồn kho và phân tích hành vi của khách hàng tại các cửa hàng.
  • An ninh và Giám sát: Cung cấp năng lượng cho hệ thống nhận dạng khuôn mặt để xác minh danh tính và kiểm soát truy cập, phát hiện xâm nhập hoặc hoạt động bất thường trong nguồn cấp dữ liệu video, góp phần vào các hệ thống như thị giác máy tính để phòng chống trộm cắp .
  • Xe tự hành: Cần thiết cho AI trong xe tự lái để nhận dạng người đi bộ, phương tiện khác, đèn giao thông và biển báo đường bộ, cho phép điều hướng an toàn.
  • Kiểm duyệt nội dung: Các nền tảng truyền thông xã hội và dịch vụ trực tuyến sử dụng tính năng nhận dạng hình ảnh để tự động phát hiện và lọc nội dung không phù hợp hoặc có hại, chẳng hạn như hình ảnh deepfake hoặc vi phạm chính sách, theo các nguyên tắc đạo đức của AI .

Công cụ và công nghệ

Phát triển hệ thống nhận dạng hình ảnh thường liên quan đến việc sử dụng các công cụ và khuôn khổ chuyên dụng. Các thư viện như OpenCV cung cấp các chức năng xử lý hình ảnh thiết yếu, trong khi các khuôn khổ học sâu như PyTorchTensorFlow cung cấp các khối xây dựng để tạo và đào tạo các mô hình mạng nơ-ron phức tạp. Các nền tảng như Ultralytics HUB hợp lý hóa quy trình đào tạo, triển khai và quản lý các mô hình thị giác máy tính, bao gồm cả các mô hình được sử dụng cho các tác vụ nhận dạng và phân loại.

Đọc tất cả