Tìm hiểu cách nhận dạng hình ảnh sử dụng trí tuệ nhân tạo và học sâu để xác định dữ liệu hình ảnh. Khám phá các ứng dụng thực tế và triển khai chúng. Ultralytics Sử dụng YOLO26 để có kết quả tốt nhất.
Nhận dạng hình ảnh là một công nghệ cơ bản trong lĩnh vực thị giác máy tính (CV) rộng lớn hơn, cho phép các hệ thống phần mềm xác định các đối tượng, con người, địa điểm và văn bản trong hình ảnh kỹ thuật số. Bằng cách phân tích nội dung pixel của một hình ảnh hoặc khung hình video, công nghệ này cố gắng mô phỏng khả năng nhận thức thị giác của mắt và não người. Được hỗ trợ bởi trí tuệ nhân tạo (AI) , nhận dạng hình ảnh chuyển đổi dữ liệu hình ảnh không cấu trúc thành thông tin có cấu trúc, có thể sử dụng được, đóng vai trò là nền tảng cho tự động hóa trong các ngành công nghiệp từ chăm sóc sức khỏe đến vận tải tự hành.
Các hệ thống nhận dạng hình ảnh hiện đại đã vượt ra khỏi lập trình dựa trên quy tắc truyền thống để dựa nhiều vào các thuật toán học sâu (DL) . Kiến trúc phổ biến nhất được sử dụng cho các tác vụ này là Mạng nơ-ron tích chập (CNN) . CNN xử lý hình ảnh như một lưới các giá trị—thường đại diện cho các kênh màu Đỏ, Xanh lục và Xanh lam (RGB)—và truyền chúng qua nhiều lớp phép toán.
Trong quá trình này, mạng nơ-ron thực hiện trích xuất đặc trưng . Các lớp ban đầu có thể là... detect Các mô hình có thể nhận diện các mẫu hình học đơn giản như cạnh hoặc góc, trong khi các lớp sâu hơn tổng hợp các mẫu này để nhận diện các cấu trúc phức tạp như mắt, bánh xe hoặc lá cây. Để đạt được độ chính xác cao, các mô hình này cần một lượng lớn dữ liệu huấn luyện được gắn nhãn . Các tập dữ liệu công khai quy mô lớn, chẳng hạn như ImageNet , giúp các mô hình học được xác suất thống kê rằng một sự sắp xếp hình ảnh cụ thể tương ứng với một khái niệm như "mèo", "xe đạp" hoặc "biển báo dừng".
Mặc dù thuật ngữ "nhận dạng hình ảnh" thường được sử dụng như một cụm từ bao quát, nhưng nó khác biệt với các nhiệm vụ thị giác máy tính cụ thể khác. Hiểu rõ những điểm khác biệt này là rất quan trọng để lựa chọn mô hình phù hợp cho một dự án:
Ứng dụng của nhận dạng hình ảnh trải rộng hầu hết mọi lĩnh vực tạo ra dữ liệu hình ảnh.
Đối với các nhà phát triển và nhà nghiên cứu, việc triển khai nhận dạng hình ảnh đã trở nên dễ tiếp cận hơn đáng kể nhờ các mô hình tiên tiến như... YOLO26, hỗ trợ phân loại, phát hiện và phân đoạn một cách tự nhiên. Ví dụ sau đây minh họa cách thực hiện nhận dạng (cụ thể là phát hiện đối tượng) trên một hình ảnh bằng cách sử dụng . ultralytics Python bưu kiện.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Đối với các nhóm muốn chú thích dữ liệu của riêng mình và huấn luyện các mô hình tùy chỉnh trên đám mây, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa để quản lý toàn bộ vòng đời của một dự án nhận dạng hình ảnh, từ thu thập dữ liệu đến triển khai.
Khi sức mạnh tính toán tăng lên, nhận dạng hình ảnh đang phát triển thành hiểu video , nơi các hệ thống phân tích ngữ cảnh thời gian trên các khung hình. Hơn nữa, việc tích hợp trí tuệ nhân tạo tạo sinh cho phép các hệ thống không chỉ nhận dạng hình ảnh mà còn tạo ra các mô tả văn bản chi tiết về chúng, thu hẹp khoảng cách giữa xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính.