Thuật ngữ

Tích chập

Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tích chập là một phép toán cơ bản được sử dụng rộng rãi trong trí tuệ nhân tạo, đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Nó đóng vai trò là khối xây dựng quan trọng cho Mạng nơ-ron tích chập (CNN) , trao quyền cho các mạng này tự động học các mẫu phức tạp, phân cấp trực tiếp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh hoặc video. Quá trình này bao gồm việc áp dụng một bộ lọc nhỏ, được gọi là hạt nhân , trên một tín hiệu đầu vào hoặc hình ảnh. Hoạt động này tạo ra một đầu ra được gọi là bản đồ đặc điểm , làm nổi bật các mẫu cụ thể (như cạnh, kết cấu hoặc hình dạng) mà hạt nhân được thiết kế để phát hiện.

Convolution hoạt động như thế nào

Hãy nghĩ về quá trình tích chập như trượt một kính lúp nhỏ (hạt nhân hoặc bộ lọc) trên một hình ảnh lớn hơn (dữ liệu đầu vào). Tại mỗi vị trí, hạt nhân tập trung vào một mảng nhỏ của đầu vào. Sau đó, phép tích chập tính toán tổng có trọng số của các giá trị pixel trong mảng này, bằng cách sử dụng các trọng số được xác định trong hạt nhân. Giá trị được tính toán này trở thành một pixel duy nhất trong bản đồ đặc điểm đầu ra kết quả. Hạt nhân di chuyển có hệ thống trên toàn bộ hình ảnh đầu vào, từng bước một, với kích thước bước được xác định bởi một tham số gọi là ' sải chân '. Đôi khi, ' đệm ' (thêm pixel viền bổ sung) được sử dụng xung quanh hình ảnh đầu vào để kiểm soát kích thước đầu ra. Bằng cách áp dụng nhiều hạt nhân trong một lớp tích chập duy nhất, CNN có thể đồng thời trích xuất một tập hợp các đặc điểm đa dạng từ đầu vào. Các giải thích trực quan, chẳng hạn như những giải thích được tìm thấy trong ghi chú khóa học Stanford CS231n , có thể cung cấp trực giác sâu hơn.

Các thành phần chính của phép tích chập

Một số tham số xác định phép toán tích chập:

  • Kernel/Filter: Một ma trận nhỏ chứa trọng số ( trọng số bộ lọc ) phát hiện các tính năng cụ thể. Kích thước của kernel xác định khu vực cục bộ được xử lý tại mỗi bước.
  • Bước tiến: Số lượng pixel mà hạt nhân dịch chuyển trên hình ảnh đầu vào ở mỗi bước. Bước tiến lớn hơn sẽ dẫn đến bản đồ tính năng đầu ra nhỏ hơn.
  • Padding: Thêm pixel (thường là giá trị bằng không) xung quanh đường viền của hình ảnh đầu vào. Điều này giúp kiểm soát kích thước không gian của đầu ra và cho phép các hạt nhân xử lý các pixel cạnh hiệu quả hơn.
  • Hàm kích hoạt: Thông thường, đầu ra của phép toán tích chập được truyền qua hàm kích hoạt phi tuyến tính, chẳng hạn như ReLU (Đơn vị tuyến tính chỉnh lưu) , để đưa tính phi tuyến tính vào mô hình, cho phép mô hình học các mẫu phức tạp hơn.

Convolution so với các phép toán liên quan

Tích chập thường được sử dụng cùng với các phép toán khác trong CNN, nhưng phục vụ cho một mục đích riêng biệt:

  • Pooling: Các hoạt động như pooling tối đa hoặc pooling trung bình được sử dụng để giảm kích thước không gian (chiều rộng và chiều cao) của bản đồ đặc điểm, giúp mô hình hiệu quả hơn về mặt tính toán và mạnh mẽ hơn đối với các biến thể về vị trí đặc điểm. Không giống như phép tích chập trích xuất các đặc điểm, pooling tóm tắt các đặc điểm trong một vùng. Bạn có thể tìm thấy tổng quan về các phương pháp pooling để biết thêm chi tiết.
  • Các lớp được kết nối đầy đủ: Trong khi các lớp tích chập xử lý các vùng cục bộ bằng cách sử dụng các trọng số được chia sẻ ( chia sẻ tham số ) dựa trên trường tiếp nhận , một lớp được kết nối đầy đủ kết nối mọi nơ-ron trong đầu vào của nó với mọi nơ-ron trong đầu ra của nó. Chúng thường được sử dụng ở cuối CNN trong cấu trúc Mạng nơ-ron (NN) chuẩn cho các tác vụ phân loại hoặc hồi quy cuối cùng.

Ứng dụng của phép tích chập

Các lớp tích chập là không thể thiếu trong nhiều ứng dụng AI hiện đại:

1. Phát hiện đối tượng

Trong phát hiện đối tượng , CNN sử dụng các lớp tích chập để trích xuất các đặc điểm từ hình ảnh, cho phép chúng xác định các đối tượng và xác định vị trí của chúng bằng các hộp giới hạn . Các mô hình tiên tiến như Ultralytics YOLO , bao gồm các phiên bản như YOLO11 , phụ thuộc rất nhiều vào tích chập để phân tích các đặc điểm ở nhiều quy mô khác nhau nhằm phát hiện hiệu quả và chính xác. Điều này rất quan trọng đối với AI trong các ứng dụng ô tô , chẳng hạn như cho phép xe tự lái ( xem công nghệ của Waymo ) nhận biết người đi bộ, phương tiện và biển báo giao thông để điều hướng an toàn, thường yêu cầu suy luận theo thời gian thực .

2. Phân tích hình ảnh y tế

Tích chập đóng vai trò quan trọng trong phân tích hình ảnh y tế , hỗ trợ các chuyên gia chăm sóc sức khỏe trong việc giải thích các bản quét như X-quang, CT và MRI. Các mô hình AI được xây dựng bằng CNN có thể phát hiện các mẫu tinh tế chỉ ra bệnh tật, chẳng hạn như khối u hoặc gãy xương, đôi khi vượt qua tốc độ và độ chính xác của con người ( X quang học: Trí tuệ nhân tạo ). Ví dụ, các mô hình có thể được đào tạo cho các nhiệm vụ cụ thể như sử dụng YOLO11 để phát hiện khối u . Khám phá thêm về AI trong các giải pháp chăm sóc sức khỏe .

Ngoài ra, tích chập còn là nền tảng cho các tác vụ thị giác khác như nhận dạng hình ảnhphân đoạn hình ảnh .

Tầm quan trọng trong học sâu

Tích chập là nền tảng của học sâu (DL) hiện đại, đặc biệt là đối với các tác vụ liên quan đến dữ liệu dạng lưới. Khả năng khai thác vị trí không gian (giả sử các pixel gần nhau có liên quan) và chia sẻ các tham số trên các vị trí khác nhau khiến CNN có hiệu quả cao trong việc học phân cấp trực quan so với các mạng được kết nối đầy đủ truyền thống.

Công cụ và đào tạo

Việc triển khai và đào tạo các mô hình sử dụng tích chập được tạo điều kiện thuận lợi bởi nhiều khuôn khổ học sâu khác nhau. Các thư viện như PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức TensorFlow ) cung cấp các công cụ mạnh mẽ để xây dựng CNN. Các nền tảng như Ultralytics HUB hợp lý hóa quy trình đào tạo mô hình , cho phép người dùng tận dụng các kiến trúc dựng sẵn kết hợp tích chập hoặc đào tạo các mô hình tùy chỉnh cho các ứng dụng cụ thể. Các API cấp cao như Keras đơn giản hóa hơn nữa quá trình phát triển.

Đọc tất cả