Descubra cómo el campo receptivo define lo que ve una red neuronal. Aprenda cómo Ultralytics optimiza el contexto espacial para detect de todos los tamaños de forma eficaz.
En el ámbito de la visión por ordenador (CV) y el aprendizaje profundo , el campo receptivo se refiere a la región específica de una imagen de entrada que una neurona concreta de una red neuronal (NN) «ve» o analiza. Conceptualmente, funciona de manera similar al campo de visión del ojo humano o la lente de una cámara. Determina la cantidad de contexto espacial que un modelo puede percibir en una capa determinada. A medida que los datos avanzan a través de una red neuronal convolucional (CNN), el campo receptivo suele expandirse, lo que permite al sistema pasar de identificar pequeños detalles locales, como bordes o esquinas, a comprender estructuras globales complejas, como objetos o escenas completas.
El tamaño y la profundidad del campo receptivo vienen dictados por la arquitectura de la red. En las capas iniciales, las neuronas suelen tener un campo receptivo pequeño, centrándose en un pequeño grupo de píxeles para capturar texturas de grano fino. A medida que la red se profundiza, operaciones como las capas de agrupamiento y las convoluciones escalonadas reducen eficazmente la resolución de los mapas de características. Este proceso permite a las neuronas posteriores agregar información de una porción mucho mayor de la entrada original.
Las arquitecturas modernas, incluida la vanguardista Ultralytics , están diseñadas para equilibrar estos campos meticulosamente. Si el campo receptivo es demasiado estrecho, el modelo puede no reconocer objetos grandes porque no puede percibir la forma completa. Por el contrario, si el campo es excesivamente amplio sin mantener la resolución, el modelo podría pasar por alto objetos pequeños. Para solucionar esto, los ingenieros suelen utilizar convoluciones dilatadas (también conocidas como convoluciones atrous ) para ampliar el campo receptivo sin reducir la resolución espacial, una técnica vital para tareas de alta precisión como la segmentación semántica.
La optimización del campo receptivo es fundamental para el éxito de diversas soluciones de IA.
Para comprender plenamente el diseño de redes, resulta útil diferenciar el campo receptivo de términos similares:
Los modelos más avanzados, como el nuevo YOLO26, utilizan redes piramidales de características (FPN) para mantener campos receptivos eficaces para objetos de todos los tamaños. El siguiente ejemplo muestra cómo cargar un modelo y realizar la detección de objetos, aprovechando automáticamente estas optimizaciones arquitectónicas internas . Los usuarios que deseen entrenar sus propios modelos con arquitecturas optimizadas pueden utilizar la Ultralytics para una gestión fluida de los conjuntos de datos y el entrenamiento en la nube.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()