Thuật ngữ

Tích chập

Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.

Tích chập là một phép toán cơ bản trong học sâu (DL) , đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Nó đóng vai trò là nền tảng chính cho Mạng nơ-ron tích chập (CNN) , cho phép các mô hình tự động và hiệu quả học các đặc điểm phân cấp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh. Quá trình này bao gồm việc trượt một bộ lọc nhỏ, được gọi là hạt nhân (kernel), trên một hình ảnh đầu vào để tạo ra các bản đồ đặc trưng làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc hình dạng. Phương pháp này được lấy cảm hứng từ tổ chức của vỏ não thị giác động vật và rất hiệu quả cho các tác vụ mà mối quan hệ không gian giữa các điểm dữ liệu là quan trọng.

Convolution hoạt động như thế nào

Về bản chất, tích chập là một phép toán học hợp nhất hai tập thông tin. Trong bối cảnh của CNN, nó kết hợp dữ liệu đầu vào (giá trị điểm ảnh của ảnh) với một hạt nhân (kernel). Hạt nhân là một ma trận nhỏ các trọng số hoạt động như một bộ phát hiện đặc trưng. Hạt nhân này trượt theo chiều cao và chiều rộng của ảnh đầu vào, và tại mỗi vị trí, nó thực hiện phép nhân từng phần tử với phần chồng lấn của ảnh. Các kết quả được cộng lại để tạo ra một điểm ảnh duy nhất trong bản đồ đặc trưng đầu ra. Quá trình trượt này được lặp lại trên toàn bộ ảnh.

Bằng cách sử dụng các hạt nhân khác nhau, CNN có thể học cách phát hiện một loạt các đặc điểm. Các lớp đầu tiên có thể học cách nhận dạng các mẫu đơn giản như cạnh và màu sắc, trong khi các lớp sâu hơn có thể kết hợp các đặc điểm cơ bản này để xác định các cấu trúc phức tạp hơn như mắt, bánh xe hoặc văn bản. Khả năng xây dựng hệ thống phân cấp các đặc điểm trực quan này chính là yếu tố mang lại sức mạnh cho CNN trong các tác vụ thị giác. Quá trình này được thực hiện hiệu quả về mặt tính toán thông qua hai nguyên tắc chính:

  • Chia sẻ Tham số : Cùng một hạt nhân được sử dụng trên toàn bộ hình ảnh, giúp giảm đáng kể tổng số tham số có thể học được so với mạng được kết nối đầy đủ. Khái niệm sử dụng tham số hiệu quả này cũng giúp mô hình tổng quát hóa tốt hơn.
  • Vị trí không gian : Hoạt động này giả định rằng các điểm ảnh gần nhau có mối liên hệ chặt chẽ hơn so với các điểm ảnh ở xa, một xu hướng cảm ứng mạnh mẽ có hiệu quả cao đối với hình ảnh tự nhiên.

Tầm quan trọng trong học sâu

Tích chập là nền tảng của thị giác máy tính hiện đại. Các mô hình như Ultralytics YOLO sử dụng rộng rãi các lớp tích chập trong kiến trúc xương sống của chúng để trích xuất đặc điểm mạnh mẽ. Điều này cho phép ứng dụng đa dạng, từ phát hiện đối tượngphân đoạn ảnh đến các tác vụ phức tạp hơn. Tính hiệu quả và hiệu suất của tích chập đã biến nó thành phương pháp được ưa chuộng để xử lý ảnh và dữ liệu không gian khác, tạo thành nền tảng cho nhiều kiến trúc tiên tiến được trình bày chi tiết trong các tài liệu như lịch sử các mô hình thị giác .

Ứng dụng trong thế giới thực

  • Phân tích hình ảnh y tế : Trong AI chăm sóc sức khỏe , CNN sử dụng phép tích chập để phân tích các hình ảnh quét y tế như MRI hoặc CT. Kernel có thể được huấn luyện để phát hiện các kết cấu và hình dạng cụ thể đặc trưng của khối u hoặc các bất thường khác, giúp các bác sĩ X quang chẩn đoán nhanh hơn và chính xác hơn. Bạn có thể tìm hiểu thêm về những tiến bộ này trên các tạp chí như Radiology: Artificial Intelligence .
  • Xe tự hành : Xe tự lái dựa vào mạng lưới CNN để nhận biết môi trường xung quanh. Tích chập xử lý dữ liệu đầu vào từ camera theo thời gian thực để nhận dạng người đi bộ, phương tiện khác, làn đường và biển báo giao thông. Điều này cho phép hệ thống của xe xây dựng khả năng hiểu biết toàn diện về môi trường xung quanh và điều hướng an toàn, như đã thấy trong công nghệ do các công ty như Waymo phát triển.

Tích chập so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt phép tích chập với các phép toán mạng nơ-ron khác:

  • Các lớp kết nối đầy đủ: Trong một lớp kết nối đầy đủ, mỗi nơ-ron được kết nối với tất cả các nơ-ron ở lớp trước đó. Đối với hình ảnh, điều này rất kém hiệu quả vì nó bỏ qua cấu trúc không gian và dẫn đến một lượng lớn tham số. Tích chập, với khả năng kết nối cục bộ và chia sẻ tham số, có khả năng mở rộng hơn nhiều và phù hợp hơn với dữ liệu hình ảnh.
  • Vision Transformers (ViT): Không giống như khả năng phát hiện đặc điểm cục bộ của CNN, Vision Transformers sử dụng cơ chế tự chú ý để mô hình hóa các mối quan hệ toàn cục giữa các mảng ảnh khác nhau. Mặc dù mạnh mẽ, ViT thường yêu cầu các tập dữ liệu lớn hơn để học các mối quan hệ này từ đầu, trong khi độ lệch quy nạp của phép tích chập giúp chúng hiệu quả hơn về mặt dữ liệu. Các mô hình lai, như RT-DETR , hướng đến việc kết hợp các điểm mạnh của cả hai phương pháp.

Công cụ và đào tạo

Việc triển khai và đào tạo các mô hình sử dụng tích chập được hỗ trợ bởi nhiều nền tảng học sâu khác nhau. Các thư viện như PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức của TensorFlow ) cung cấp các công cụ mạnh mẽ để xây dựng CNN. Các API cấp cao như Keras giúp đơn giản hóa quá trình phát triển hơn nữa.

Để có trải nghiệm liền mạch, các nền tảng như Ultralytics HUB cho phép người dùng quản lý tập dữ liệu , thực hiện huấn luyện mô hình và triển khai các mô hình mạnh mẽ như YOLO11 một cách dễ dàng. Việc hiểu các khái niệm cốt lõi như tích chập, kích thước hạt nhân , bước tiến , đệm và trường tiếp nhận kết quả là rất quan trọng để huấn luyện mô hình và thiết kế kiến trúc hiệu quả.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard