Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.
Tích chập là một phép toán cơ bản được sử dụng rộng rãi trong trí tuệ nhân tạo, đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Nó đóng vai trò là khối xây dựng quan trọng cho Mạng nơ-ron tích chập (CNN) , trao quyền cho các mạng này tự động học các mẫu phức tạp, phân cấp trực tiếp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh hoặc video. Quá trình này bao gồm việc áp dụng một bộ lọc nhỏ, được gọi là hạt nhân , trên một tín hiệu đầu vào hoặc hình ảnh. Hoạt động này tạo ra một đầu ra được gọi là bản đồ đặc điểm , làm nổi bật các mẫu cụ thể (như cạnh, kết cấu hoặc hình dạng) mà hạt nhân được thiết kế để phát hiện.
Hãy nghĩ về quá trình tích chập như trượt một kính lúp nhỏ (hạt nhân hoặc bộ lọc) trên một hình ảnh lớn hơn (dữ liệu đầu vào). Tại mỗi vị trí, hạt nhân tập trung vào một mảng nhỏ của đầu vào. Sau đó, phép tích chập tính toán tổng có trọng số của các giá trị pixel trong mảng này, bằng cách sử dụng các trọng số được xác định trong hạt nhân. Giá trị được tính toán này trở thành một pixel duy nhất trong bản đồ đặc điểm đầu ra kết quả. Hạt nhân di chuyển có hệ thống trên toàn bộ hình ảnh đầu vào, từng bước một, với kích thước bước được xác định bởi một tham số gọi là ' sải chân '. Đôi khi, ' đệm ' (thêm pixel viền bổ sung) được sử dụng xung quanh hình ảnh đầu vào để kiểm soát kích thước đầu ra. Bằng cách áp dụng nhiều hạt nhân trong một lớp tích chập duy nhất, CNN có thể đồng thời trích xuất một tập hợp các đặc điểm đa dạng từ đầu vào. Các giải thích trực quan, chẳng hạn như những giải thích được tìm thấy trong ghi chú khóa học Stanford CS231n , có thể cung cấp trực giác sâu hơn.
Một số tham số xác định phép toán tích chập:
Tích chập thường được sử dụng cùng với các phép toán khác trong CNN, nhưng phục vụ cho một mục đích riêng biệt:
Các lớp tích chập là không thể thiếu trong nhiều ứng dụng AI hiện đại:
Trong phát hiện đối tượng , CNN sử dụng các lớp tích chập để trích xuất các đặc điểm từ hình ảnh, cho phép chúng xác định các đối tượng và xác định vị trí của chúng bằng các hộp giới hạn . Các mô hình tiên tiến như Ultralytics YOLO , bao gồm các phiên bản như YOLO11 , phụ thuộc rất nhiều vào tích chập để phân tích các đặc điểm ở nhiều quy mô khác nhau nhằm phát hiện hiệu quả và chính xác. Điều này rất quan trọng đối với AI trong các ứng dụng ô tô , chẳng hạn như cho phép xe tự lái ( xem công nghệ của Waymo ) nhận biết người đi bộ, phương tiện và biển báo giao thông để điều hướng an toàn, thường yêu cầu suy luận theo thời gian thực .
Tích chập đóng vai trò quan trọng trong phân tích hình ảnh y tế , hỗ trợ các chuyên gia chăm sóc sức khỏe trong việc giải thích các bản quét như X-quang, CT và MRI. Các mô hình AI được xây dựng bằng CNN có thể phát hiện các mẫu tinh tế chỉ ra bệnh tật, chẳng hạn như khối u hoặc gãy xương, đôi khi vượt qua tốc độ và độ chính xác của con người ( X quang học: Trí tuệ nhân tạo ). Ví dụ, các mô hình có thể được đào tạo cho các nhiệm vụ cụ thể như sử dụng YOLO11 để phát hiện khối u . Khám phá thêm về AI trong các giải pháp chăm sóc sức khỏe .
Ngoài ra, tích chập còn là nền tảng cho các tác vụ thị giác khác như nhận dạng hình ảnh và phân đoạn hình ảnh .
Tích chập là nền tảng của học sâu (DL) hiện đại, đặc biệt là đối với các tác vụ liên quan đến dữ liệu dạng lưới. Khả năng khai thác vị trí không gian (giả sử các pixel gần nhau có liên quan) và chia sẻ các tham số trên các vị trí khác nhau khiến CNN có hiệu quả cao trong việc học phân cấp trực quan so với các mạng được kết nối đầy đủ truyền thống.
Việc triển khai và đào tạo các mô hình sử dụng tích chập được tạo điều kiện thuận lợi bởi nhiều khuôn khổ học sâu khác nhau. Các thư viện như PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức TensorFlow ) cung cấp các công cụ mạnh mẽ để xây dựng CNN. Các nền tảng như Ultralytics HUB hợp lý hóa quy trình đào tạo mô hình , cho phép người dùng tận dụng các kiến trúc dựng sẵn kết hợp tích chập hoặc đào tạo các mô hình tùy chỉnh cho các ứng dụng cụ thể. Các API cấp cao như Keras đơn giản hóa hơn nữa quá trình phát triển.