Khám phá cách trường tiếp nhận định hình những gì mạng lưới thần kinh nhìn thấy. Tìm hiểu cách thức Ultralytics YOLO26 tối ưu hóa ngữ cảnh không gian để detect có thể xử lý hiệu quả các vật thể ở mọi kích cỡ.
Trong lĩnh vực thị giác máy tính (CV) và học sâu, trường tiếp nhận đề cập đến vùng cụ thể của ảnh đầu vào mà một nơ-ron cụ thể trong mạng nơ-ron (NN) "nhìn thấy" hoặc phân tích. Về mặt khái niệm, nó hoạt động tương tự như trường nhìn của mắt người hoặc ống kính máy ảnh. Nó xác định mức độ ngữ cảnh không gian mà mô hình có thể nhận biết ở bất kỳ lớp nào. Khi dữ liệu được xử lý qua Mạng nơ-ron tích chập (CNN) , trường tiếp nhận thường mở rộng, cho phép hệ thống chuyển từ việc xác định các chi tiết nhỏ, cục bộ—như cạnh hoặc góc—sang hiểu các cấu trúc phức tạp, toàn cục như toàn bộ đối tượng hoặc cảnh.
Kích thước và độ sâu của trường tiếp nhận được quyết định bởi kiến trúc của mạng. Ở các lớp ban đầu, các nơ-ron thường có trường tiếp nhận nhỏ, tập trung vào một cụm pixel nhỏ để thu nhận các chi tiết tinh tế. Khi mạng sâu hơn, các thao tác như lớp gộp (pooling layers) và phép tích chập bước nhảy (strided convolutions) sẽ làm giảm kích thước bản đồ đặc trưng một cách hiệu quả. Quá trình này cho phép các nơ-ron tiếp theo tổng hợp thông tin từ một phần lớn hơn nhiều của đầu vào ban đầu.
Các kiến trúc hiện đại, bao gồm cả Ultralytics YOLO26 tiên tiến nhất, được thiết kế để cân bằng các trường này một cách tỉ mỉ. Nếu trường tiếp nhận quá hẹp, mô hình có thể không nhận dạng được các đối tượng lớn vì nó không thể nhận biết toàn bộ hình dạng. Ngược lại, nếu trường quá rộng mà không duy trì độ phân giải, mô hình có thể bỏ sót các đối tượng nhỏ. Để giải quyết vấn đề này, các kỹ sư thường sử dụng phép tích chập giãn nở (còn được gọi là phép tích chập co rút) để mở rộng trường tiếp nhận mà không làm giảm độ phân giải không gian, một kỹ thuật rất quan trọng đối với các tác vụ có độ chính xác cao như phân đoạn ngữ nghĩa .
Việc tối ưu hóa phạm vi tiếp nhận là yếu tố then chốt cho sự thành công của nhiều giải pháp trí tuệ nhân tạo .
Để hiểu đầy đủ về thiết kế mạng, cần phân biệt trường tiếp nhận với các thuật ngữ tương tự:
Các mô hình tiên tiến như YOLO26 mới hơn sử dụng Mạng Kim tự tháp Đặc trưng (FPN) để duy trì trường tiếp nhận hiệu quả cho các đối tượng có kích thước khác nhau. Ví dụ sau đây cho thấy cách tải mô hình và thực hiện phát hiện đối tượng , tự động tận dụng các tối ưu hóa kiến trúc nội bộ này. Người dùng muốn huấn luyện mô hình của riêng mình với kiến trúc được tối ưu hóa có thể sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và huấn luyện trên đám mây một cách liền mạch.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()