Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trường Tiếp Nhận

Khám phá cách trường tiếp nhận định hình những gì mạng lưới thần kinh nhìn thấy. Tìm hiểu cách thức Ultralytics YOLO26 tối ưu hóa ngữ cảnh không gian để detect có thể xử lý hiệu quả các vật thể ở mọi kích cỡ.

Trong lĩnh vực thị giác máy tính (CV) và học sâu, trường tiếp nhận đề cập đến vùng cụ thể của ảnh đầu vào mà một nơ-ron cụ thể trong mạng nơ-ron (NN) "nhìn thấy" hoặc phân tích. Về mặt khái niệm, nó hoạt động tương tự như trường nhìn của mắt người hoặc ống kính máy ảnh. Nó xác định mức độ ngữ cảnh không gian mà mô hình có thể nhận biết ở bất kỳ lớp nào. Khi dữ liệu được xử lý qua Mạng nơ-ron tích chập (CNN) , trường tiếp nhận thường mở rộng, cho phép hệ thống chuyển từ việc xác định các chi tiết nhỏ, cục bộ—như cạnh hoặc góc—sang hiểu các cấu trúc phức tạp, toàn cục như toàn bộ đối tượng hoặc cảnh.

Cơ chế hoạt động của trường tiếp nhận

Kích thước và độ sâu của trường tiếp nhận được quyết định bởi kiến trúc của mạng. Ở các lớp ban đầu, các nơ-ron thường có trường tiếp nhận nhỏ, tập trung vào một cụm pixel nhỏ để thu nhận các chi tiết tinh tế. Khi mạng sâu hơn, các thao tác như lớp gộp (pooling layers) và phép tích chập bước nhảy (strided convolutions) sẽ làm giảm kích thước bản đồ đặc trưng một cách hiệu quả. Quá trình này cho phép các nơ-ron tiếp theo tổng hợp thông tin từ một phần lớn hơn nhiều của đầu vào ban đầu.

Các kiến trúc hiện đại, bao gồm cả Ultralytics YOLO26 tiên tiến nhất, được thiết kế để cân bằng các trường này một cách tỉ mỉ. Nếu trường tiếp nhận quá hẹp, mô hình có thể không nhận dạng được các đối tượng lớn vì nó không thể nhận biết toàn bộ hình dạng. Ngược lại, nếu trường quá rộng mà không duy trì độ phân giải, mô hình có thể bỏ sót các đối tượng nhỏ. Để giải quyết vấn đề này, các kỹ sư thường sử dụng phép tích chập giãn nở (còn được gọi là phép tích chập co rút) để mở rộng trường tiếp nhận mà không làm giảm độ phân giải không gian, một kỹ thuật rất quan trọng đối với các tác vụ có độ chính xác cao như phân đoạn ngữ nghĩa .

Các Ứng dụng Thực tế

Việc tối ưu hóa phạm vi tiếp nhận là yếu tố then chốt cho sự thành công của nhiều giải pháp trí tuệ nhân tạo .

  • Lái xe tự động: Trong trí tuệ nhân tạo dành cho ô tô , các hệ thống nhận thức phải đồng thời... track Các chi tiết nhỏ nhất và các chướng ngại vật lớn. Một chiếc xe cần một trường nhận biết nhỏ để nhận diện đèn giao thông ở xa, đồng thời cần một trường nhận biết lớn để hiểu được quỹ đạo của một chiếc xe tải gần đó hoặc độ cong của làn đường. Khả năng nhận thức đa quy mô này đảm bảo an toàn và ra quyết định tốt hơn cho AI .
  • Chẩn đoán y khoa: Khi ứng dụng AI trong chăm sóc sức khỏe , các bác sĩ X quang dựa vào các mô hình để phát hiện những bất thường trong ảnh chụp. Để xác định khối u não , mạng lưới cần một trường tiếp nhận lớn để hiểu được sự đối xứng và cấu trúc tổng thể của não. Tuy nhiên, để detect Trong chụp nhũ ảnh, mô hình này dựa trên các lớp sớm với trường tiếp nhận nhỏ, nhạy cảm với những thay đổi cấu trúc tinh tế.

Phân biệt các khái niệm liên quan

Để hiểu đầy đủ về thiết kế mạng, cần phân biệt trường tiếp nhận với các thuật ngữ tương tự:

  • Vùng tiếp nhận so với kích thước bộ lọc : Kích thước bộ lọc (hoặc kernel) xác định kích thước của cửa sổ trượt (ví dụ: 3x3) cho một phép toán tích chập đơn lẻ. Vùng tiếp nhận là một thuộc tính phát sinh, biểu thị tổng diện tích đầu vào tích lũy ảnh hưởng đến một nơ-ron. Một chồng nhiều bộ lọc 3x3 sẽ tạo ra một vùng tiếp nhận lớn hơn nhiều so với 3x3.
  • Trường tiếp nhận so với bản đồ đặc trưng : Bản đồ đặc trưng là thể tích đầu ra được tạo ra bởi một lớp, chứa các biểu diễn đã học. Trường tiếp nhận mô tả mối quan hệ giữa một điểm duy nhất trên bản đồ đặc trưng đó và hình ảnh đầu vào gốc.
  • Trường tiếp nhận so với Cửa sổ ngữ cảnh : Mặc dù cả hai thuật ngữ đều đề cập đến phạm vi dữ liệu được nhận biết, "cửa sổ ngữ cảnh" thường được sử dụng trong Xử lý ngôn ngữ tự nhiên (NLP) hoặc phân tích video để chỉ một khoảng thời gian hoặc trình tự (ví dụ: giới hạn token). Trường tiếp nhận đề cập chính xác đến khu vực không gian trong dữ liệu dạng lưới (hình ảnh).

Ứng dụng thực tế trong mã nguồn

Các mô hình tiên tiến như YOLO26 mới hơn sử dụng Mạng Kim tự tháp Đặc trưng (FPN) để duy trì trường tiếp nhận hiệu quả cho các đối tượng có kích thước khác nhau. Ví dụ sau đây cho thấy cách tải mô hình và thực hiện phát hiện đối tượng , tự động tận dụng các tối ưu hóa kiến ​​trúc nội bộ này. Người dùng muốn huấn luyện mô hình của riêng mình với kiến ​​trúc được tối ưu hóa có thể sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và huấn luyện trên đám mây một cách liền mạch.

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay