Khám phá những kiến thức cơ bản về Thị giác máy tính (Computer Vision - CV). Tìm hiểu cách thức... Ultralytics YOLO26 và Ultralytics Nền tảng này cho phép phát hiện đối tượng, phân đoạn và nhiều hơn nữa.
Thị giác máy tính (Computer Vision - CV) là một lĩnh vực phức tạp của Trí tuệ nhân tạo (Artificial Intelligence - AI) cho phép máy tính và hệ thống trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào hình ảnh khác. Trong khi thị giác con người có khả năng bẩm sinh nhận thức và hiểu môi trường xung quanh ngay lập tức, máy tính cần được huấn luyện để nhận dạng các mẫu và diễn giải các điểm ảnh. Bằng cách tận dụng Học máy (Machine Learning - ML) và đặc biệt là các thuật toán Học sâu (Deep Learning - DL) , hệ thống CV có thể lấy dữ liệu hình ảnh, xử lý nó và đưa ra các khuyến nghị hoặc thực hiện các hành động dựa trên thông tin đó.
Về bản chất, máy tính nhìn nhận hình ảnh như một mảng các giá trị số đại diện cho các điểm ảnh. Thị giác máy tính hiện đại dựa rất nhiều vào Mạng nơ-ron tích chập (CNN) , được thiết kế để mô phỏng mô hình kết nối của các nơ-ron trong não người. Các mạng này học cách xác định hệ thống phân cấp các đặc điểm—từ các cạnh và kết cấu đơn giản đến các hình dạng và đối tượng phức tạp—thông qua một quá trình gọi là trích xuất đặc điểm .
Để hoạt động hiệu quả, các mô hình này cần một lượng lớn dữ liệu huấn luyện . Ví dụ, để nhận dạng một chiếc ô tô, mô hình cần xử lý hàng nghìn hình ảnh ô tô được gắn nhãn trong các điều kiện khác nhau. Các công cụ như Nền tảng Ultralytics giúp đơn giản hóa quy trình này, cho phép người dùng chú thích tập dữ liệu, huấn luyện mô hình trên đám mây và triển khai chúng một cách hiệu quả.
Thị giác máy tính không phải là một chức năng duy nhất mà là một tập hợp các nhiệm vụ riêng biệt, mỗi nhiệm vụ giải quyết một vấn đề cụ thể:
Ứng dụng của thị giác máy tính trải rộng hầu hết mọi ngành công nghiệp, tự động hóa các nhiệm vụ trước đây cần đến mắt người.
Điều quan trọng là phải phân biệt giữa thị giác máy tính (CV) và xử lý ảnh , mặc dù chúng thường làm việc cùng nhau.
Các thư viện hiện đại đã giúp việc triển khai các mô hình thị giác máy tính mạnh mẽ trở nên dễ dàng hơn. Ví dụ dưới đây minh họa cách tải các thư viện tiên tiến nhất hiện nay. YOLO26 mô hình tới detect các đối tượng trong một hình ảnh bằng cách sử dụng ultralytics bưu kiện.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Đoạn mã đơn giản này sử dụng mô hình đã được huấn luyện trước để thực hiện các tác vụ suy luận phức tạp, chứng minh tính khả thi của các công cụ AI hiện đại. Đối với các nhà phát triển muốn vượt ra ngoài hình ảnh tĩnh, thị giác máy tính (CV) cũng hỗ trợ hiểu video và các hệ thống theo dõi thời gian thực được sử dụng trong an ninh và phân tích thể thao. Bằng cách tích hợp với các thư viện như OpenCV , các nhà phát triển có thể xây dựng các ứng dụng toàn diện để thu thập, xử lý và phân tích thế giới hình ảnh.