Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Thị giác máy tính (Computer Vision - CV)

Khám phá những kiến ​​thức cơ bản về Thị giác máy tính (Computer Vision - CV). Tìm hiểu cách thức... Ultralytics YOLO26 và Ultralytics Nền tảng này cho phép phát hiện đối tượng, phân đoạn và nhiều hơn nữa.

Thị giác máy tính (Computer Vision - CV) là một lĩnh vực phức tạp của Trí tuệ nhân tạo (Artificial Intelligence - AI) cho phép máy tính và hệ thống trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào hình ảnh khác. Trong khi thị giác con người có khả năng bẩm sinh nhận thức và hiểu môi trường xung quanh ngay lập tức, máy tính cần được huấn luyện để nhận dạng các mẫu và diễn giải các điểm ảnh. Bằng cách tận dụng Học máy (Machine Learning - ML) và đặc biệt là các thuật toán Học sâu (Deep Learning - DL) , hệ thống CV có thể lấy dữ liệu hình ảnh, xử lý nó và đưa ra các khuyến nghị hoặc thực hiện các hành động dựa trên thông tin đó.

Cách thức hoạt động của Thị giác máy tính

Về bản chất, máy tính nhìn nhận hình ảnh như một mảng các giá trị số đại diện cho các điểm ảnh. Thị giác máy tính hiện đại dựa rất nhiều vào Mạng nơ-ron tích chập (CNN) , được thiết kế để mô phỏng mô hình kết nối của các nơ-ron trong não người. Các mạng này học cách xác định hệ thống phân cấp các đặc điểm—từ các cạnh và kết cấu đơn giản đến các hình dạng và đối tượng phức tạp—thông qua một quá trình gọi là trích xuất đặc điểm .

Để hoạt động hiệu quả, các mô hình này cần một lượng lớn dữ liệu huấn luyện . Ví dụ, để nhận dạng một chiếc ô tô, mô hình cần xử lý hàng nghìn hình ảnh ô tô được gắn nhãn trong các điều kiện khác nhau. Các công cụ như Nền tảng Ultralytics giúp đơn giản hóa quy trình này, cho phép người dùng chú thích tập dữ liệu, huấn luyện mô hình trên đám mây và triển khai chúng một cách hiệu quả.

Nhiệm vụ cốt lõi trong thị giác máy tính

Thị giác máy tính không phải là một chức năng duy nhất mà là một tập hợp các nhiệm vụ riêng biệt, mỗi nhiệm vụ giải quyết một vấn đề cụ thể:

  • Phân loại hình ảnh : Nhiệm vụ này gán nhãn lớp cho toàn bộ hình ảnh, trả lời câu hỏi, "Trong bức ảnh này có gì?" (ví dụ: phân biệt giữa mèo và chó).
  • Phát hiện đối tượng : Tiến thêm một bước nữa, tính năng phát hiện xác định các đối tượng riêng biệt trong hình ảnh và vẽ một khung bao quanh chúng. Điều này rất quan trọng để đếm số lượng vật phẩm hoặc định vị các đặc điểm cụ thể.
  • Phân đoạn đối tượng : Phương pháp này cung cấp mặt nạ chính xác ở cấp độ pixel cho mỗi đối tượng được phát hiện, tách biệt các đối tượng riêng lẻ thuộc cùng một lớp. Điều này rất quan trọng đối với các ứng dụng yêu cầu độ chính xác cao, chẳng hạn như phân tích hình ảnh y tế .
  • Ước lượng tư thế : Quá trình này bao gồm việc phát hiện các điểm mấu chốt cụ thể trên một đối tượng, chẳng hạn như các khớp của cơ thể người, để track chuyển động và tư thế.

Các Ứng dụng Thực tế

Ứng dụng của thị giác máy tính trải rộng hầu hết mọi ngành công nghiệp, tự động hóa các nhiệm vụ trước đây cần đến mắt người.

  • Sản xuất và Kiểm soát Chất lượng: Trong môi trường công nghiệp, thị giác máy tính (CV) thường được gọi là Thị giác Máy . Nó được sử dụng để tự động hóa việc kiểm tra chất lượng , phát hiện các khuyết tật nhỏ trong sản phẩm trên dây chuyền lắp ráp nhanh hơn và chính xác hơn so với người kiểm tra. Ví dụ, Trí tuệ Nhân tạo (AI) trong Sản xuất cho phép giám sát thiết bị theo thời gian thực để ngăn ngừa sự cố.
  • Giao thông tự hành: Xe tự lái hoàn toàn dựa vào thị giác máy tính (CV) để di chuyển an toàn. Bằng cách xử lý dữ liệu đầu vào từ camera và cảm biến LiDAR , những chiếc xe này thực hiện phát hiện vật thể 3D để nhận diện người đi bộ, các phương tiện khác và biển báo giao thông trong thời gian thực. Đây là một thành phần quan trọng để đạt được mức độ tự động hóa xe cao.
  • Chăm sóc sức khỏe và chẩn đoán: Các bác sĩ X quang sử dụng thị giác máy tính (CV) để hỗ trợ xác định các bất thường trong ảnh chụp X-quang, MRI và CT. Trí tuệ nhân tạo (AI) trong chăm sóc sức khỏe giúp phát hiện bệnh sớm, chẳng hạn như xác định khối u, bằng cách làm nổi bật các vùng quan trọng mà mắt thường có thể bỏ sót.

Thị giác máy tính so với Xử lý ảnh

Điều quan trọng là phải phân biệt giữa thị giác máy tính (CV) và xử lý ảnh , mặc dù chúng thường làm việc cùng nhau.

  • Xử lý ảnh bao gồm việc thao tác với một hình ảnh để cải thiện chất lượng hoặc trích xuất thông tin (ví dụ: điều chỉnh độ sáng, độ tương phản hoặc áp dụng các bộ lọc như trong Adobe Photoshop ). Kết quả đầu ra thường là một hình ảnh khác.
  • Thị giác máy tính (Computer Vision - CV) nhận một hình ảnh làm đầu vào và đưa ra thông tin hoặc sự diễn giải (ví dụ: "Có ba người trong phòng này"). CV sử dụng các kỹ thuật xử lý ảnh để chuẩn bị hình ảnh cho việc phân tích bởi mạng nơ-ron .

Ứng dụng Thị giác máy tính với Python

Các thư viện hiện đại đã giúp việc triển khai các mô hình thị giác máy tính mạnh mẽ trở nên dễ dàng hơn. Ví dụ dưới đây minh họa cách tải các thư viện tiên tiến nhất hiện nay. YOLO26 mô hình tới detect các đối tượng trong một hình ảnh bằng cách sử dụng ultralytics bưu kiện.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

Đoạn mã đơn giản này sử dụng mô hình đã được huấn luyện trước để thực hiện các tác vụ suy luận phức tạp, chứng minh tính khả thi của các công cụ AI hiện đại. Đối với các nhà phát triển muốn vượt ra ngoài hình ảnh tĩnh, thị giác máy tính (CV) cũng hỗ trợ hiểu video và các hệ thống theo dõi thời gian thực được sử dụng trong an ninh và phân tích thể thao. Bằng cách tích hợp với các thư viện như OpenCV , các nhà phát triển có thể xây dựng các ứng dụng toàn diện để thu thập, xử lý và phân tích thế giới hình ảnh.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay