Trường tiếp nhận là một khái niệm cơ bản trong Mạng nơ-ron tích chập (CNN) , đặc biệt liên quan đến thị giác máy tính (CV) . Nó đề cập đến vùng cụ thể của dữ liệu đầu vào (như hình ảnh hoặc bản đồ đặc điểm ) ảnh hưởng đến việc kích hoạt một nơ-ron hoặc đơn vị cụ thể trong lớp tiếp theo. Có nguồn gốc từ khoa học thần kinh , trong đó nó mô tả vùng không gian cảm giác có thể tạo ra phản ứng từ một nơ-ron cảm giác, khái niệm này được dịch trực tiếp thành cách các nơ-ron nhân tạo trong CNN "nhìn thấy" đầu vào. Hiểu được trường tiếp nhận là rất quan trọng để thiết kế các kiến trúc mạng hiệu quả cho nhiều nhiệm vụ khác nhau.
Tầm quan trọng trong mạng nơ-ron tích chập
Trong CNN, các lớp thường được xếp chồng lên nhau. Mỗi lớp tích chập áp dụng các bộ lọc (hạt nhân) trên đầu vào của nó. Một nơ-ron trong một lớp nhất định chỉ được kết nối với một vùng nhỏ của đầu ra của lớp trước đó - vùng này tương ứng với kích thước hạt nhân. Tuy nhiên, khi bạn đi sâu hơn vào mạng, hoạt động của một nơ-ron đơn lẻ sẽ bị ảnh hưởng bởi một vùng ngày càng lớn của hình ảnh đầu vào ban đầu. Điều này là do mỗi nơ-ron tích hợp thông tin từ các trường tiếp nhận của các nơ-ron trong lớp trước đó. Sự gia tăng theo thứ bậc trong kích thước trường tiếp nhận này cho phép CNN học các tính năng ở các thang độ khác nhau, bắt đầu từ các cạnh và kết cấu đơn giản trong các lớp đầu đến các đối tượng và mẫu phức tạp trong các lớp sâu hơn. Quản lý kích thước trường tiếp nhận một cách thích hợp là chìa khóa để đảm bảo mạng có thể nắm bắt được ngữ cảnh có liên quan đến nhiệm vụ, cho dù đó là nhận dạng một đối tượng nhỏ hay phân loại toàn bộ cảnh.
Các yếu tố ảnh hưởng đến kích thước trường tiếp nhận
Một số lựa chọn về kiến trúc ảnh hưởng đến kích thước trường tiếp nhận hiệu quả của các tế bào thần kinh trong CNN:
- Kích thước hạt: Hạt lớn hơn làm tăng trực tiếp trường tiếp nhận trong một lớp duy nhất.
- Bước tiến: Kích thước bước mà hạt nhân di chuyển qua đầu vào. Bước tiến lớn hơn làm tăng trường tiếp nhận nhanh hơn ở các lớp sâu hơn nhưng có thể làm giảm độ phân giải không gian.
- Các lớp gộp: Các hoạt động như gộp tối đa sẽ giảm mẫu bản đồ đặc điểm, tăng hiệu quả trường tiếp nhận của các lớp tiếp theo so với đầu vào ban đầu. Bạn có thể tìm thêm thông tin chi tiết về gộp tại đây .
- Dilated Convolutions (Atrous Convolutions): Chúng tạo ra khoảng cách giữa các phần tử kernel, cho phép kernel bao phủ một diện tích lớn hơn mà không làm tăng số lượng tham số hoặc chi phí tính toán. Kỹ thuật này được trình bày chi tiết trong nghiên cứu như DeepLab .
- Độ sâu mạng: Xếp chồng nhiều lớp hơn là cách phổ biến nhất để tăng kích thước trường tiếp nhận. Các mạng sâu hơn vốn có trường tiếp nhận lớn hơn ở các lớp cuối cùng của chúng.
Trường tiếp nhận trong các nhiệm vụ khác nhau
Kích thước trường tiếp nhận tối ưu phụ thuộc rất nhiều vào nhiệm vụ thị giác máy tính cụ thể:
- Phân loại hình ảnh : Thường đòi hỏi một trường tiếp nhận lớn ở các lớp cuối cùng, lý tưởng nhất là bao phủ toàn bộ hình ảnh, để đưa ra quyết định toàn cục dựa trên tất cả thông tin trực quan. Các mô hình có thể được đào tạo trên các tập dữ liệu như ImageNet .
- Phát hiện đối tượng : Cần các trường tiếp nhận có nhiều kích cỡ khác nhau để phát hiện các đối tượng ở các quy mô khác nhau. Các kiến trúc như Ultralytics YOLO thường sử dụng các kỹ thuật như Feature Pyramid Networks (FPN) để tạo bản đồ đặc điểm với nhiều trường tiếp nhận khác nhau. Phát hiện các đối tượng nhỏ đòi hỏi các trường tiếp nhận nhỏ hơn, trong khi các đối tượng lớn cần các trường tiếp nhận lớn hơn. Khám phá các so sánh giữa các mô hình YOLO khác nhau để xem các kiến trúc xử lý điều này như thế nào.
- Phân đoạn ngữ nghĩa : Yêu cầu dự đoán dày đặc ở cấp độ pixel. Trong khi cần có trường tiếp nhận lớn cho ngữ cảnh, việc duy trì độ phân giải không gian cũng rất quan trọng. Các phép tích chập giãn nở thường được sử dụng ở đây để tăng trường tiếp nhận mà không làm mất độ phân giải. Kiểm tra các tác vụ như phân đoạn vết nứt .
- Phân đoạn thể hiện : Kết hợp phát hiện đối tượng và phân đoạn ngữ nghĩa, do đó yêu cầu cả các trường tiếp nhận đa dạng để phát hiện và thông tin không gian chi tiết để che giấu các thể hiện riêng lẻ. Ultralytics YOLO11 hỗ trợ phân đoạn thể hiện .
Ví dụ về ứng dụng trong thế giới thực
- Xe tự hành : Hệ thống phát hiện vật thể trong xe tự lái, giống như những hệ thống do các công ty như Waymo phát triển, cần xác định người đi bộ, các phương tiện khác, đèn giao thông và vạch kẻ đường có nhiều kích thước và khoảng cách khác nhau. CNN với các trường tiếp nhận được thiết kế cẩn thận, có khả năng sử dụng các mô hình như YOLOv8 hoặc RT-DETR , cho phép hệ thống nhận biết cả các chướng ngại vật nhỏ ở gần (yêu cầu trường tiếp nhận nhỏ hơn) và các phương tiện lớn hoặc biển báo đường bộ ở xa (yêu cầu trường tiếp nhận lớn hơn) cùng một lúc. AI trong các giải pháp ô tô thường dựa vào khả năng này .
- Phân tích hình ảnh y tế : Khi phân tích các bản quét y tế (ví dụ: CT, MRI) để phát hiện các bất thường như khối u hoặc tổn thương ( xem ví dụ về phát hiện khối u ), kích thước trường tiếp nhận là rất quan trọng. Một trường tiếp nhận quá nhỏ có thể bỏ lỡ các cấu trúc lớn hơn hoặc thông tin theo ngữ cảnh, trong khi một trường tiếp nhận quá lớn có thể trung bình hóa các chi tiết cục bộ quan trọng. Các mô hình được sử dụng trong AI X quang phải cân bằng kích thước trường tiếp nhận để nắm bắt cả kết cấu tinh tế của một tổn thương nhỏ và bối cảnh giải phẫu rộng hơn. Đào tạo mô hình hiệu quả trên các tập dữ liệu như tập dữ liệu U não xem xét sự cân bằng này.