Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng hình ảnh

Tìm hiểu cách nhận dạng hình ảnh sử dụng trí tuệ nhân tạo và học sâu để xác định dữ liệu hình ảnh. Khám phá các ứng dụng thực tế và triển khai chúng. Ultralytics Sử dụng YOLO26 để có kết quả tốt nhất.

Nhận dạng hình ảnh là một công nghệ cơ bản trong lĩnh vực thị giác máy tính (CV) rộng lớn hơn, cho phép các hệ thống phần mềm xác định các đối tượng, con người, địa điểm và văn bản trong hình ảnh kỹ thuật số. Bằng cách phân tích nội dung pixel của một hình ảnh hoặc khung hình video, công nghệ này cố gắng mô phỏng khả năng nhận thức thị giác của mắt và não người. Được hỗ trợ bởi trí tuệ nhân tạo (AI) , nhận dạng hình ảnh chuyển đổi dữ liệu hình ảnh không cấu trúc thành thông tin có cấu trúc, có thể sử dụng được, đóng vai trò là nền tảng cho tự động hóa trong các ngành công nghiệp từ chăm sóc sức khỏe đến vận tải tự hành.

Các cơ chế và công nghệ cốt lõi

Các hệ thống nhận dạng hình ảnh hiện đại đã vượt ra khỏi lập trình dựa trên quy tắc truyền thống để dựa nhiều vào các thuật toán học sâu (DL) . Kiến trúc phổ biến nhất được sử dụng cho các tác vụ này là Mạng nơ-ron tích chập (CNN) . CNN xử lý hình ảnh như một lưới các giá trị—thường đại diện cho các kênh màu Đỏ, Xanh lục và Xanh lam (RGB)—và truyền chúng qua nhiều lớp phép toán.

Trong quá trình này, mạng nơ-ron thực hiện trích xuất đặc trưng . Các lớp ban đầu có thể là... detect Các mô hình có thể nhận diện các mẫu hình học đơn giản như cạnh hoặc góc, trong khi các lớp sâu hơn tổng hợp các mẫu này để nhận diện các cấu trúc phức tạp như mắt, bánh xe hoặc lá cây. Để đạt được độ chính xác cao, các mô hình này cần một lượng lớn dữ liệu huấn luyện được gắn nhãn . Các tập dữ liệu công khai quy mô lớn, chẳng hạn như ImageNet , giúp các mô hình học được xác suất thống kê rằng một sự sắp xếp hình ảnh cụ thể tương ứng với một khái niệm như "mèo", "xe đạp" hoặc "biển báo dừng".

Phân biệt sự công nhận với các khái niệm liên quan

Mặc dù thuật ngữ "nhận dạng hình ảnh" thường được sử dụng như một cụm từ bao quát, nhưng nó khác biệt với các nhiệm vụ thị giác máy tính cụ thể khác. Hiểu rõ những điểm khác biệt này là rất quan trọng để lựa chọn mô hình phù hợp cho một dự án:

  • Nhận dạng so với Phân loại hình ảnh : Phân loại là nhiệm vụ gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: gắn nhãn một bức ảnh là "bãi biển"). Nhận dạng là khả năng rộng hơn cho phép hệ thống hiểu được nội dung.
  • Nhận dạng so với Phát hiện đối tượng : Trong khi nhận dạng xác định những gì có trong hình ảnh, phát hiện xác định vị trí của đối tượng đó. Các thuật toán phát hiện vẽ một khung bao quanh mỗi đối tượng, tách nó ra khỏi nền.
  • Nhận dạng so với Phân đoạn đối tượng : Phương pháp này đưa quá trình nhận dạng tiến thêm một bước bằng cách xác định chính xác đường viền pixel của một đối tượng, thay vì chỉ là một hình hộp. Điều này rất quan trọng đối với các ứng dụng yêu cầu đo lường chính xác, chẳng hạn như phân tích hình ảnh y sinh .

Các Ứng dụng Thực tế

Ứng dụng của nhận dạng hình ảnh trải rộng hầu hết mọi lĩnh vực tạo ra dữ liệu hình ảnh.

  • Chẩn đoán y khoa: Trong lĩnh vực chăm sóc sức khỏe, các thuật toán nhận dạng hỗ trợ các bác sĩ X quang bằng cách phân tích hình ảnh y tế như X-quang và MRI. Các công cụ như trí tuệ nhân tạo (AI) trong chẩn đoán hình ảnh có thể xác định các bất thường như khối u hoặc gãy xương nhanh hơn và đôi khi chính xác hơn so với chỉ dựa vào quan sát của con người.
  • Bán lẻ và quản lý tồn kho: Siêu thị thông minh sử dụng công nghệ nhận diện để track Sản phẩm được lấy ra từ kệ, cho phép hệ thống thanh toán tự động hoạt động. Tương tự, robot trong kho cũng sử dụng công nghệ này để nhận dạng và phân loại kiện hàng.
  • Bảo mật và kiểm soát truy cập: Hệ thống nhận diện khuôn mặt cho phép truy cập an toàn vào điện thoại thông minh và các tòa nhà bằng cách xác minh danh tính dựa trên cơ sở dữ liệu các hình ảnh khuôn mặt được lưu trữ.

Triển khai nhận dạng hình ảnh với YOLO26

Đối với các nhà phát triển và nhà nghiên cứu, việc triển khai nhận dạng hình ảnh đã trở nên dễ tiếp cận hơn đáng kể nhờ các mô hình tiên tiến như... YOLO26, hỗ trợ phân loại, phát hiện và phân đoạn một cách tự nhiên. Ví dụ sau đây minh họa cách thực hiện nhận dạng (cụ thể là phát hiện đối tượng) trên một hình ảnh bằng cách sử dụng . ultralytics Python bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")

# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Đối với các nhóm muốn chú thích dữ liệu của riêng mình và huấn luyện các mô hình tùy chỉnh trên đám mây, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa để quản lý toàn bộ vòng đời của một dự án nhận dạng hình ảnh, từ thu thập dữ liệu đến triển khai.

Xu hướng tương lai

Khi sức mạnh tính toán tăng lên, nhận dạng hình ảnh đang phát triển thành hiểu video , nơi các hệ thống phân tích ngữ cảnh thời gian trên các khung hình. Hơn nữa, việc tích hợp trí tuệ nhân tạo tạo sinh cho phép các hệ thống không chỉ nhận dạng hình ảnh mà còn tạo ra các mô tả văn bản chi tiết về chúng, thu hẹp khoảng cách giữa xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay