Khám phá cách thức hoạt động của ứng dụng thị giác máy tính

Hãy cùng chúng tôi tìm hiểu sâu hơn về các ứng dụng của thị giác máy tính. Chúng tôi cũng sẽ hướng dẫn bạn thực hiện nhiều tác vụ thị giác máy tính khác nhau như phát hiện và phân đoạn đối tượng.

Viết bởi

Abirami Vina

phút đọc

Tháng Tám 9, 2024

Ngày 13 tháng 4 năm 2025

Tầm nhìn máy tính là gì?

Các mô hình tầm nhìn hỗ trợ nhiều tác vụ tầm nhìn máy tính khác nhau

Phân loại hình ảnh

Phát hiện đối tượng

Phân đoạn ngữ nghĩa và trường hợp

Ước tính tư thế

Phát hiện đối tượng hộp giới hạn định hướng

Theo dõi đối tượng

Cái nhìn cuối cùng về tầm nhìn máy tính

Khi chúng tôi khám phá lịch sử của các mô hình thị giác máy tính, chúng tôi đã thấy thị giác máy tính đã phát triển như thế nào và con đường dẫn đến các mô hình thị giác tiên tiến mà chúng ta có ngày nay. Các mô hình hiện đại như Ultralytics YOLOv8 Hỗ trợ nhiều tác vụ thị giác máy tính và đang được sử dụng trong các ứng dụng thú vị khác nhau.

Trong bài viết này, chúng ta sẽ xem xét những điều cơ bản của các mô hình thị giác và thị giác máy tính. Chúng tôi sẽ đề cập đến cách chúng hoạt động và các ứng dụng đa dạng của chúng trong các ngành công nghiệp khác nhau. Những đổi mới về thị giác máy tính ở khắp mọi nơi, âm thầm định hình thế giới của chúng ta. Hãy khám phá từng cái một!

Tầm nhìn máy tính là gì?

Trí tuệ nhân tạo (AI) là một thuật ngữ bao gồm nhiều công nghệ nhằm tái tạo một phần trí thông minh của con người. Một lĩnh vực con như vậy của AI là thị giác máy tính. Thị giác máy tính tập trung vào việc cung cấp cho máy móc đôi mắt có thể nhìn, quan sát và hiểu môi trường xung quanh.

Cũng giống như thị giác của con người, các giải pháp thị giác máy tính nhằm mục đích phân biệt các vật thể, tính toán khoảng cách và phát hiện chuyển động. Tuy nhiên, không giống như con người, những người có cả đời kinh nghiệm để giúp họ nhìn và hiểu, máy tính dựa vào lượng dữ liệu khổng lồ, máy ảnh độ nét cao và các thuật toán phức tạp.

__wf_reserved_thừa kế — Hình 1. So sánh thị giác con người và thị giác máy tính.

‍

Hệ thống thị giác máy tính có thể xử lý và phân tích dữ liệu hình ảnh như hình ảnh và video với tốc độ và độ chính xác đáng kinh ngạc. Khả năng phân tích nhanh chóng và chính xác một lượng lớn thông tin hình ảnh làm cho thị giác máy tính trở thành một công cụ mạnh mẽ trong các ngành công nghiệp khác nhau, từ sản xuất đến chăm sóc sức khỏe.

Các mô hình tầm nhìn hỗ trợ nhiều tác vụ tầm nhìn máy tính khác nhau

Các mô hình thị giác máy tính là cốt lõi của bất kỳ ứng dụng thị giác máy tính nào. Về cơ bản, chúng là các thuật toán tính toán được hỗ trợ bởi các kỹ thuật học sâu được thiết kế để cung cấp cho máy móc khả năng diễn giải và hiểu thông tin hình ảnh. Các mô hình thị giác cho phép các nhiệm vụ thị giác máy tính quan trọng, từ phân loại hình ảnh đến phát hiện đối tượng. Chúng ta hãy xem xét kỹ hơn một số tác vụ này và các trường hợp sử dụng của chúng chi tiết hơn.

Phân loại hình ảnh

Phân loại hình ảnh liên quan đến việc phân loại và gắn nhãn hình ảnh thành các lớp hoặc danh mục được xác định trước. Một mô hình tầm nhìn như YOLOv8 có thể được đào tạo trên các bộ dữ liệu lớn của hình ảnh được gắn nhãn. Trong quá trình đào tạo, mô hình học cách nhận ra các mẫu và tính năng liên quan đến mỗi lớp. Sau khi được đào tạo, nó có thể dự đoán danh mục hình ảnh mới, không nhìn thấy bằng cách phân tích các tính năng của chúng và so sánh chúng với các mẫu đã học.

‍

Có nhiều loại phân loại hình ảnh khác nhau. Ví dụ: khi xử lý hình ảnh y tế, bạn có thể sử dụng phân loại nhị phân để chia hình ảnh thành hai nhóm, như khỏe mạnh hoặc ốm yếu. Một loại khác là phân loại đa lớp. Nó có thể giúp phân loại hình ảnh thành nhiều nhóm, như phân loại các động vật khác nhau trong một trang trại như lợn, dê và bò. Hoặc, giả sử bạn muốn phân loại động vật thành các nhóm và phân nhóm, như phân loại động vật thành động vật có vú và chim và sau đó tiếp tục thành các loài như sư tử, hổ, đại bàng và chim sẻ; Phân loại phân cấp sẽ là lựa chọn tốt nhất.

Phát hiện đối tượng

Phát hiện đối tượng là quá trình xác định và định vị các đối tượng trong hình ảnh và khung video bằng thị giác máy tính. Nó bao gồm hai nhiệm vụ: bản địa hóa đối tượng, vẽ các hộp giới hạn xung quanh các đối tượng và phân loại đối tượng, xác định danh mục của từng đối tượng. Dựa trên các chú thích hộp giới hạn, một mô hình tầm nhìn có thể học cách nhận ra các mẫu và tính năng cụ thể cho từng loại đối tượng và dự đoán sự hiện diện và vị trí của các đối tượng này trong các hình ảnh mới, không nhìn thấy.

‍

Phát hiện đối tượng có nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau, bất cứ nơi nào từ thể thao đến sinh học biển. Ví dụ, trong bán lẻ, công nghệ Just Walk Out của Amazon sử dụng tính năng phát hiện đối tượng để tự động hóa thanh toán bằng cách xác định các mặt hàng khách hàng nhận. Sự kết hợp giữa thị giác máy tính và dữ liệu cảm biến cho phép khách hàng lấy đồ của họ và rời đi mà không phải xếp hàng.

Dưới đây là một cái nhìn sâu hơn về cách nó hoạt động:

Các camera gắn trên trần nhà sẽ ghi lại hình ảnh khách hàng di chuyển trong cửa hàng và cảnh quay video này sẽ được xử lý theo thời gian thực bằng mô hình thị giác.
‍
Phát hiện đối tượng được sử dụng để phát hiện chính xác sản phẩm mà khách hàng cầm lên và đặt vào giỏ hàng để cập nhật giỏ hàng ảo của họ cho phù hợp.
‍
Cảm biến trọng lượng trên kệ cải thiện độ chính xác bằng cách phát hiện việc loại bỏ hoặc thay thế sản phẩm.
‍
Khi khách hàng rời khỏi cửa hàng, công nghệ phát hiện đối tượng và nhận dạng khuôn mặt có thể được sử dụng để xác nhận rằng khách hàng đã rời đi và chi tiết thanh toán của họ, như thẻ tín dụng, có thể được sử dụng để tính phí tự động.

Phân đoạn ngữ nghĩa và trường hợp

Phân đoạn ngữ nghĩa và phân đoạn phiên bản là các tác vụ thị giác máy tính giúp phân vùng hình ảnh thành các phân đoạn có ý nghĩa. Phân đoạn ngữ nghĩa phân loại pixel dựa trên ý nghĩa ngữ nghĩa của chúng và coi tất cả các đối tượng trong một danh mục là một thực thể duy nhất có cùng nhãn. Nó phù hợp để dán nhãn các vật thể không đếm được như "bầu trời" hoặc "đại dương" hoặc các cụm như "lá" hoặc "cỏ".

Mặt khác, phân đoạn phiên bản có thể phân biệt các trường hợp khác nhau của cùng một lớp bằng cách gán một nhãn duy nhất cho mỗi đối tượng được phát hiện. Bạn có thể sử dụng phân đoạn phiên bản để phân đoạn các đối tượng có thể đếm được trong đó số lượng và tính độc lập của các đối tượng là quan trọng. Nó cho phép xác định và phân biệt chính xác hơn.

‍

Chúng ta có thể hiểu sự tương phản giữa phân đoạn ngữ nghĩa và phiên bản rõ ràng hơn với một ví dụ liên quan đến xe tự lái. Phân đoạn ngữ nghĩa rất tốt cho các nhiệm vụ đòi hỏi phải hiểu nội dung của cảnh và có thể được sử dụng trong các phương tiện tự trị để phân loại các tính năng trên đường, như đường dành cho người đi bộ và biển báo giao thông. Trong khi đó, phân đoạn phiên bản có thể được sử dụng trong các phương tiện tự trị để xác định giữa từng người đi bộ, phương tiện và chướng ngại vật.

Ước tính tư thế

Ước tính tư thế là một nhiệm vụ thị giác máy tính tập trung vào việc phát hiện và theo dõi các điểm chính của tư thế của đối tượng trong hình ảnh hoặc video. Nó được sử dụng phổ biến nhất để ước tính tư thế của con người, với các điểm chính bao gồm các khu vực như vai và đầu gối. Ước tính tư thế của con người giúp chúng ta hiểu và nhận ra các hành động và chuyển động quan trọng đối với các ứng dụng khác nhau.

‍

Ước tính tư thế có thể được sử dụng trong thể thao để phân tích cách các vận động viên di chuyển. NBA sử dụng ước tính tư thế để nghiên cứu chuyển động và vị trí của cầu thủ trong suốt trận đấu. Bằng cách theo dõi các điểm chính như vai, khuỷu tay, đầu gối và mắt cá chân, ước tính tư thế cung cấp thông tin chi tiết về chuyển động của cầu thủ. Những thông tin này giúp huấn luyện viên phát triển các chiến lược tốt hơn, tối ưu hóa các chương trình đào tạo và thực hiện các điều chỉnh theo thời gian thực trong suốt trận đấu. Ngoài ra, dữ liệu có thể giúp theo dõi tình trạng mệt mỏi và nguy cơ chấn thương của cầu thủ để cải thiện sức khỏe và hiệu suất tổng thể của cầu thủ.

Phát hiện đối tượng hộp giới hạn định hướng

Oriented Bounding Boxes Object Detection (OBB) sử dụng các hình chữ nhật xoay để xác định và định vị chính xác các đối tượng trong một hình ảnh. Không giống như các hộp giới hạn tiêu chuẩn thẳng hàng với các trục hình ảnh, OBB xoay để phù hợp với hướng của đối tượng. Điều này làm cho chúng đặc biệt hữu ích cho các đối tượng không hoàn toàn ngang hoặc dọc. Chúng rất giỏi trong việc xác định chính xác và cách ly các vật thể xoay để ngăn chặn sự chồng chéo trong môi trường đông đúc.

‍

Trong giám sát hàng hải , xác định và theo dõi tàu là chìa khóa cho an ninh và quản lý tài nguyên. Phát hiện OBB có thể được sử dụng để định vị chính xác tàu, ngay cả khi chúng được đóng gói dày đặc hoặc định hướng ở nhiều góc độ khác nhau. Nó giúp giám sát các tuyến đường vận chuyển, quản lý giao thông hàng hải và tối ưu hóa hoạt động của cảng. Nó cũng có thể hỗ trợ ứng phó thảm họa bằng cách nhanh chóng xác định và đánh giá thiệt hại cho tàu và cơ sở hạ tầng sau các sự kiện như bão hoặc sự cố tràn dầu.

Theo dõi đối tượng

Cho đến nay, chúng ta đã thảo luận về các nhiệm vụ thị giác máy tính xử lý hình ảnh. Theo dõi đối tượng là một tác vụ thị giác máy tính có thể theo dõi một đối tượng trong suốt các khung hình của video. Nó bắt đầu bằng cách xác định đối tượng trong khung hình đầu tiên bằng các thuật toán phát hiện và sau đó liên tục theo dõi vị trí của nó khi nó di chuyển qua video. Theo dõi đối tượng liên quan đến các kỹ thuật như phát hiện đối tượng, trích xuất tính năng và dự đoán chuyển động để giữ cho việc theo dõi chính xác.

‍

Các mô hình tầm nhìn như YOLOv8 có thể được sử dụng để theo dõi cá trong sinh học biển. Sử dụng camera dưới nước, các nhà nghiên cứu có thể theo dõi chuyển động và hành vi của cá trong môi trường sống tự nhiên của chúng. Quá trình bắt đầu bằng cách phát hiện từng con cá trong các khung hình đầu tiên và sau đó theo dõi vị trí của chúng trong suốt video. Theo dõi cá giúp các nhà khoa học hiểu được mô hình di cư, hành vi xã hội và tương tác với môi trường. Nó cũng hỗ trợ các hoạt động đánh bắt bền vững bằng cách cung cấp những hiểu biết sâu sắc về phân phối và sự phong phú của cá.

Cái nhìn cuối cùng về tầm nhìn máy tính

Thị giác máy tính đang tích cực thay đổi cách chúng ta sử dụng công nghệ và tương tác với thế giới. Bằng cách sử dụng các mô hình học sâu và các thuật toán phức tạp để hiểu hình ảnh và video, thị giác máy tính giúp các ngành công nghiệp hợp lý hóa nhiều quy trình. Các tác vụ thị giác máy tính như phát hiện đối tượng và theo dõi đối tượng đang giúp tạo ra các giải pháp chưa từng được tưởng tượng trước đây. Khi công nghệ thị giác máy tính tiếp tục được cải thiện, tương lai sẽ có nhiều ứng dụng sáng tạo hơn!

Hãy cùng nhau học hỏi và phát triển! Khám phá kho lưu trữ GitHub của chúng tôi để xem những đóng góp của chúng tôi cho AI. Kiểm tra cách chúng tôi định nghĩa lại các ngành công nghiệp như xe tự lái và nông nghiệp với AI. 🚀

Khám phá cách thức hoạt động của ứng dụng thị giác máy tính

Tầm nhìn máy tính là gì?

Các mô hình tầm nhìn hỗ trợ nhiều tác vụ tầm nhìn máy tính khác nhau

Phân loại hình ảnh

Phát hiện đối tượng

Phân đoạn ngữ nghĩa và trường hợp

Ước tính tư thế

Phát hiện đối tượng hộp giới hạn định hướng

Theo dõi đối tượng

Cái nhìn cuối cùng về tầm nhìn máy tính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Khám phá cách thức hoạt động của ứng dụng thị giác máy tính

Tầm nhìn máy tính là gì?

Các mô hình tầm nhìn hỗ trợ nhiều tác vụ tầm nhìn máy tính khác nhau

Phân loại hình ảnh

Phát hiện đối tượng

Phân đoạn ngữ nghĩa và trường hợp

Ước tính tư thế

Phát hiện đối tượng hộp giới hạn định hướng

Theo dõi đối tượng

Cái nhìn cuối cùng về tầm nhìn máy tính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai của AI cùng nhau!

Hãy xây dựng tương lai
của AI cùng nhau!