Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.
Tích chập là một phép toán cơ bản được sử dụng rộng rãi trong trí tuệ nhân tạo, đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Nó tạo thành khối xây dựng cốt lõi của Mạng nơ-ron tích chập (CNN) , cho phép các mạng này học hiệu quả các mẫu phân cấp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh. Quá trình này bao gồm việc áp dụng một bộ lọc nhỏ, thường được gọi là hạt nhân, trên một tín hiệu đầu vào hoặc hình ảnh để tạo ra đầu ra được gọi là bản đồ đặc điểm . Các bản đồ đặc điểm này làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc hình dạng được hạt nhân phát hiện.
Hãy tưởng tượng trượt một kính lúp nhỏ (hạt nhân) trên một hình ảnh lớn hơn (đầu vào). Tại mỗi vị trí, kính lúp tập trung vào một mảng nhỏ của hình ảnh. Hoạt động tích chập tính toán tổng có trọng số của các giá trị pixel trong mảng đó, sử dụng các trọng số do hạt nhân xác định. Giá trị được tính toán duy nhất này trở thành một pixel trong bản đồ đặc điểm đầu ra. Hạt nhân trượt một cách có hệ thống trên toàn bộ hình ảnh đầu vào, từng bước một (được xác định bởi một tham số gọi là 'bước tiến'), tạo ra một bản đồ đặc điểm hoàn chỉnh. Các hạt nhân khác nhau được thiết kế để phát hiện các đặc điểm khác nhau; ví dụ, một hạt nhân có thể phát hiện các cạnh ngang, trong khi hạt nhân khác phát hiện các góc. Bằng cách sử dụng nhiều hạt nhân trong một lớp duy nhất, CNN có thể trích xuất một tập hợp các đặc điểm phong phú từ đầu vào. Bạn có thể khám phá các giải thích trực quan về quy trình này trên các tài nguyên như ghi chú khóa học Stanford CS231n về CNN .
Các lớp tích chập rất cần thiết trong nhiều ứng dụng AI hiện đại:
Trong phát hiện đối tượng , CNN sử dụng phép tích chập để xác định đối tượng và vị trí của chúng trong hình ảnh bằng cách sử dụng hộp giới hạn . Các mô hình như Ultralytics YOLO phụ thuộc rất nhiều vào các lớp tích chập để trích xuất các đặc điểm ở các tỷ lệ khác nhau, cho phép phát hiện nhiều đối tượng một cách hiệu quả. Điều này rất quan trọng đối với các ứng dụng như xe tự hành , trong đó việc phát hiện người đi bộ, ô tô và biển báo giao thông theo thời gian thực là rất quan trọng đối với sự an toàn. Tìm hiểu thêm về AI trong các giải pháp ô tô .
Tích chập đóng vai trò quan trọng trong phân tích hình ảnh y khoa , giúp các bác sĩ X quang phân tích các hình ảnh quét như X-quang, CT và MRI. Các mô hình AI sử dụng CNN có thể phát hiện các bất thường tinh vi, chẳng hạn như khối u hoặc gãy xương, thường nhanh hơn và đôi khi chính xác hơn so với các chuyên gia con người. Ví dụ, sử dụng YOLOv11 để phát hiện khối u chứng minh khả năng này. Khám phá thêm về AI trong các giải pháp chăm sóc sức khỏe .
Tích chập thường được sử dụng cùng với các phép toán và khái niệm khác trong mạng nơ-ron:
Hiểu về tích chập là chìa khóa để nắm bắt được cách nhiều mô hình AI tiên tiến, bao gồm cả những mô hình có sẵn thông qua Ultralytics HUB , diễn giải thông tin trực quan. Các khuôn khổ như PyTorch và TensorFlow cung cấp các triển khai hiệu quả của các hoạt động tích chập. Các thư viện như OpenCV cũng sử dụng tích chập cho các tác vụ xử lý hình ảnh truyền thống như làm mờ và làm sắc nét.