Thuật ngữ

Tích chập

Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tích chập là một hoạt động cơ bản trong nhiều ứng dụng thị giác máy tính và là một khối xây dựng chính của Mạng nơ-ron tích chập (CNN) . Nó bao gồm việc áp dụng một bộ lọc, còn được gọi là hạt nhân, vào một đầu vào, chẳng hạn như hình ảnh, để trích xuất các tính năng cụ thể. Quá trình này tạo ra một bản đồ tính năng làm nổi bật sự hiện diện của các tính năng đó trong đầu vào ban đầu. Tích chập giúp các mô hình xác định các mẫu như cạnh, kết cấu và hình dạng, rất cần thiết cho các tác vụ như phát hiện đối tượng , nhận dạng hình ảnhphân tích hình ảnh y tế .

Convolution hoạt động như thế nào

Quá trình tích chập bao gồm việc trượt một bộ lọc trên dữ liệu đầu vào. Tại mỗi vị trí, bộ lọc thực hiện phép nhân từng phần tử với phần tương ứng của đầu vào. Sau đó, kết quả của các phép nhân này được cộng lại để tạo ra một giá trị duy nhất trong bản đồ đặc trưng đầu ra. Bằng cách lặp lại quá trình này trên toàn bộ đầu vào, một biểu diễn mới được tạo ra, nhấn mạnh các đặc trưng cụ thể dựa trên thiết kế của bộ lọc. Ví dụ, một bộ lọc được thiết kế để phát hiện các cạnh dọc sẽ tạo ra một bản đồ đặc trưng trong đó các cạnh dọc được tô sáng. Bộ lọc có thể được thiết kế để phát hiện nhiều đặc trưng khác nhau, từ các cạnh đơn giản đến các mẫu phức tạp.

Các thành phần chính của phép tích chập

Một số thành phần chính xác định phép toán tích chập:

  • Bộ lọc (Kernel): Một ma trận nhỏ được sử dụng để trích xuất các tính năng từ dữ liệu đầu vào. Mỗi bộ lọc được thiết kế để phát hiện một loại tính năng cụ thể.
  • Bản đồ tính năng: Đầu ra của phép toán tích chập, làm nổi bật sự hiện diện của các tính năng được bộ lọc phát hiện. Bản đồ tính năng rất cần thiết cho các tác vụ hạ lưu trong mạng nơ-ron.
  • Bước tiến: Số lượng pixel mà bộ lọc di chuyển ở mỗi bước. Bước tiến lớn hơn sẽ tạo ra bản đồ tính năng nhỏ hơn.
  • Padding: Thêm các pixel bổ sung xung quanh đầu vào để kiểm soát kích thước của bản đồ tính năng. Padding đảm bảo rằng bộ lọc có thể được áp dụng cho các cạnh của đầu vào mà không làm giảm kích thước đầu ra.

Ứng dụng của phép tích chập

Tích chập được sử dụng rộng rãi trong nhiều ứng dụng AI và học máy, đặc biệt là trong thị giác máy tính. Sau đây là hai ví dụ đáng chú ý:

1. Phát hiện đối tượng

Trong phát hiện đối tượng , tích chập giúp xác định và định vị các đối tượng trong một hình ảnh. Các mô hình như Ultralytics YOLO sử dụng các lớp tích chập để trích xuất các đặc điểm phân cấp từ hình ảnh. Các đặc điểm này sau đó được sử dụng để phát hiện nhiều đối tượng và xác định vị trí của chúng bằng cách sử dụng các hộp giới hạn. Ví dụ, trong xe tự lái, tích chập cho phép phát hiện người đi bộ, biển báo giao thông và các phương tiện khác, điều này rất quan trọng để điều hướng an toàn. Bạn có thể tìm hiểu thêm về vai trò của Vision AI trong công nghệ tự lái .

2. Chụp ảnh y khoa

Tích chập đóng vai trò quan trọng trong việc phân tích hình ảnh y tế, chẳng hạn như X-quang và MRI. Bằng cách áp dụng các lớp tích chập, các mô hình AI có thể phát hiện các bất thường như khối u hoặc gãy xương với độ chính xác cao. Các kỹ thuật này được sử dụng trong phân tích hình ảnh y tế để hỗ trợ các bác sĩ X quang chẩn đoán bệnh nhanh hơn và chính xác hơn.

Convolution so với các khái niệm liên quan

Convolution thường được thảo luận cùng với các khái niệm liên quan như pooling và feature excerpting . Trong khi convolution trích xuất các đặc điểm bằng cách áp dụng các bộ lọc, pooling làm giảm chiều của bản đồ đặc điểm bằng cách lấy mẫu xuống, thường bằng cách lấy giá trị tối đa hoặc giá trị trung bình trong một vùng. Feature excerpt là một thuật ngữ rộng hơn bao gồm cả convolution và pooling, cùng với các kỹ thuật khác để có được thông tin có ý nghĩa từ dữ liệu thô.

Lợi ích trong thế giới thực

Tích chập đã trở nên không thể thiếu trong các ứng dụng AI hiện đại do tính hiệu quả và linh hoạt của nó. Các nền tảng như Ultralytics HUB cho phép người dùng đào tạo và triển khai các mô hình tận dụng tích chập cho các tác vụ như nhận dạng đối tượng theo thời gian thực và giám sát video. Ngoài ra, các tối ưu hóa như sử dụng GPU cho phép xử lý và khả năng mở rộng nhanh hơn cho các tập dữ liệu lớn, giúp tích chập trở nên thiết thực đối với các ứng dụng trong thế giới thực.

Đọc tất cả