Thuật ngữ

Tích chập

Tìm hiểu cách tích chập hỗ trợ AI trong thị giác máy tính, cho phép thực hiện các tác vụ như phát hiện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế một cách chính xác.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Tích chập là một phép toán cơ bản được sử dụng rộng rãi trong trí tuệ nhân tạo, đặc biệt là trong lĩnh vực thị giác máy tính (CV) . Nó tạo thành khối xây dựng cốt lõi của Mạng nơ-ron tích chập (CNN) , cho phép các mạng này học hiệu quả các mẫu phân cấp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh. Quá trình này bao gồm việc áp dụng một bộ lọc nhỏ, thường được gọi là hạt nhân, trên một tín hiệu đầu vào hoặc hình ảnh để tạo ra đầu ra được gọi là bản đồ đặc điểm . Các bản đồ đặc điểm này làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc hình dạng được hạt nhân phát hiện.

Convolution hoạt động như thế nào

Hãy tưởng tượng trượt một kính lúp nhỏ (hạt nhân) trên một hình ảnh lớn hơn (đầu vào). Tại mỗi vị trí, kính lúp tập trung vào một mảng nhỏ của hình ảnh. Hoạt động tích chập tính toán tổng có trọng số của các giá trị pixel trong mảng đó, sử dụng các trọng số do hạt nhân xác định. Giá trị được tính toán duy nhất này trở thành một pixel trong bản đồ đặc điểm đầu ra. Hạt nhân trượt một cách có hệ thống trên toàn bộ hình ảnh đầu vào, từng bước một (được xác định bởi một tham số gọi là 'bước tiến'), tạo ra một bản đồ đặc điểm hoàn chỉnh. Các hạt nhân khác nhau được thiết kế để phát hiện các đặc điểm khác nhau; ví dụ, một hạt nhân có thể phát hiện các cạnh ngang, trong khi hạt nhân khác phát hiện các góc. Bằng cách sử dụng nhiều hạt nhân trong một lớp duy nhất, CNN có thể trích xuất một tập hợp các đặc điểm phong phú từ đầu vào. Bạn có thể khám phá các giải thích trực quan về quy trình này trên các tài nguyên như ghi chú khóa học Stanford CS231n về CNN .

Các thành phần chính của phép tích chập

  • Dữ liệu đầu vào: Thông thường là hình ảnh đa kênh (ví dụ: kênh RGB) hoặc bản đồ đặc trưng đầu ra từ lớp trước đó.
  • Kernel (Bộ lọc): Một ma trận nhỏ các trọng số xác định tính năng cần phát hiện. Các trọng số này được học trong quá trình đào tạo mô hình .
  • Bản đồ tính năng: Đầu ra của phép toán tích chập, biểu diễn sự hiện diện và vị trí không gian của các tính năng được phát hiện.
  • Bước tiến: Số lượng pixel mà hạt nhân dịch chuyển qua đầu vào ở mỗi bước.
  • Đệm: Thêm pixel (thường là số 0) xung quanh đường viền của hình ảnh đầu vào để kiểm soát kích thước không gian của bản đồ đặc điểm đầu ra.

Ứng dụng của phép tích chập

Các lớp tích chập rất cần thiết trong nhiều ứng dụng AI hiện đại:

1. Phát hiện đối tượng

Trong phát hiện đối tượng , CNN sử dụng phép tích chập để xác định đối tượng và vị trí của chúng trong hình ảnh bằng cách sử dụng hộp giới hạn . Các mô hình như Ultralytics YOLO phụ thuộc rất nhiều vào các lớp tích chập để trích xuất các đặc điểm ở các tỷ lệ khác nhau, cho phép phát hiện nhiều đối tượng một cách hiệu quả. Điều này rất quan trọng đối với các ứng dụng như xe tự hành , trong đó việc phát hiện người đi bộ, ô tô và biển báo giao thông theo thời gian thực là rất quan trọng đối với sự an toàn. Tìm hiểu thêm về AI trong các giải pháp ô tô .

2. Phân tích hình ảnh y tế

Tích chập đóng vai trò quan trọng trong phân tích hình ảnh y khoa , giúp các bác sĩ X quang phân tích các hình ảnh quét như X-quang, CT và MRI. Các mô hình AI sử dụng CNN có thể phát hiện các bất thường tinh vi, chẳng hạn như khối u hoặc gãy xương, thường nhanh hơn và đôi khi chính xác hơn so với các chuyên gia con người. Ví dụ, sử dụng YOLOv11 để phát hiện khối u chứng minh khả năng này. Khám phá thêm về AI trong các giải pháp chăm sóc sức khỏe .

Convolution so với các khái niệm liên quan

Tích chập thường được sử dụng cùng với các phép toán và khái niệm khác trong mạng nơ-ron:

  • Pooling: Trong khi convolution trích xuất các đặc điểm, các lớp pooling (như Max Pooling hoặc Average Pooling) làm giảm các chiều không gian (giảm mẫu) của các bản đồ đặc điểm. Điều này giúp giảm tải tính toán và làm cho biểu diễn đặc điểm mạnh mẽ hơn đối với các biến thể không gian nhỏ. Pooling tóm tắt các đặc điểm trong một vùng, trong khi convolution trích xuất chúng. Bạn có thể tìm thấy thêm thông tin chi tiết trong các tài nguyên giải thích về các lớp pooling trong CNN .
  • Trích xuất tính năng: Đây là thuật ngữ rộng hơn đề cập đến quá trình chuyển đổi dữ liệu thô thành các tính năng số có thể sử dụng cho máy học. Tích chập là một kỹ thuật cụ thể, hiệu quả cao để trích xuất tính năng tự động từ dữ liệu dạng lưới, đặc biệt là trong CNN.
  • Lớp kết nối đầy đủ: Không giống như lớp tích chập áp dụng hạt nhân cục bộ và chia sẻ trọng số, lớp kết nối đầy đủ kết nối mọi nơ-ron từ lớp trước với mọi nơ-ron trong lớp hiện tại. Chúng thường xuất hiện ở cuối kiến trúc CNN để thực hiện phân loại hoặc hồi quy dựa trên các tính năng cấp cao được trích xuất bởi lớp tích chập và lớp gộp. Tìm hiểu thêm về những điều cơ bản của Mạng nơ-ron (NN) .

Hiểu về tích chập là chìa khóa để nắm bắt được cách nhiều mô hình AI tiên tiến, bao gồm cả những mô hình có sẵn thông qua Ultralytics HUB , diễn giải thông tin trực quan. Các khuôn khổ như PyTorchTensorFlow cung cấp các triển khai hiệu quả của các hoạt động tích chập. Các thư viện như OpenCV cũng sử dụng tích chập cho các tác vụ xử lý hình ảnh truyền thống như làm mờ và làm sắc nét.

Đọc tất cả