Глоссарий

Рецептивное поле

Открой для себя важность рецептивных полей в CNN для компьютерного зрения. Узнай, как они влияют на обнаружение объектов, сегментацию и оптимизацию ИИ.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Рецептивное поле - это фундаментальное понятие в конволюционных нейронных сетях (КНС), особенно актуальное в компьютерном зрении (КЗ). Оно обозначает конкретную область входных данных (например, изображения или карты признаков), которая влияет на активацию определенного нейрона или блока в последующем слое. Возникнув в нейронауке, где оно описывает область сенсорного пространства, которая может вызвать ответ у сенсорного нейрона, это понятие напрямую переводится на то, как искусственные нейроны в CNN "видят" входные данные. Понимание рецептивного поля крайне важно для проектирования эффективных сетевых архитектур для различных задач.

Важность в конволюционных нейронных сетях

В CNN слои, как правило, укладываются друг на друга. Каждый конволюционный слой применяет фильтры (ядра) к своему входу. Нейрон в данном слое подключен только к небольшой области выхода предыдущего слоя - эта область соответствует размеру ядра. Однако по мере того, как ты углубляешься в сеть, на активацию одного нейрона начинает влиять все большая область исходного входного изображения. Это происходит потому, что каждый нейрон интегрирует информацию из рецептивных полей нейронов предыдущего слоя. Такое иерархическое увеличение размера рецептивного поля позволяет CNN узнавать признаки в разных масштабах, начиная с простых краев и текстур в ранних слоях и заканчивая сложными объектами и паттернами в более глубоких слоях. Правильное управление размером рецептивного поля - ключ к тому, чтобы сеть могла улавливать контекст, относящийся к задаче, будь то распознавание маленького объекта или классификация целой сцены.

Факторы, влияющие на размер рецептивного поля

Несколько вариантов архитектуры влияют на эффективный размер рецептивного поля нейронов в CNN:

  • Размер ядра: Более крупные ядра напрямую увеличивают рецептивное поле в одном слое.
  • Stride: Размер шага, с которым ядро перемещается по входу. Больший страйд быстрее увеличивает рецептивное поле в более глубоких слоях, но может снизить пространственное разрешение.
  • Объединение слоев: Операции вроде max-pooling понижают дискретизацию карты признаков, эффективно увеличивая рецептивное поле последующих слоев по сравнению с исходным входом. Более подробную информацию о пулинге можно найти здесь.
  • Расширенные преобразования (Atrous Convolutions): Они вводят промежутки между элементами ядра, позволяя ядру покрывать большую площадь без увеличения количества параметров и вычислительных затрат. Эта техника подробно описана в таких исследованиях, как DeepLab.
  • Глубина сети: Укладка большего количества слоев - самый распространенный способ увеличить размер рецептивного поля. Глубокие сети по своей природе имеют более крупные рецептивные поля в своих последних слоях.

Рецептивное поле при выполнении различных заданий

Оптимальный размер рецептивного поля сильно зависит от конкретной задачи компьютерного зрения:

  • Классификация изображений: Часто требуется большое рецептивное поле в последних слоях, в идеале охватывающее все изображение, чтобы принять глобальное решение на основе всей визуальной информации. Модели могут быть обучены на наборах данных вроде ImageNet.
  • Обнаружение объектов: Для обнаружения объектов разного масштаба нужны рецептивные поля разных размеров. В таких архитектурах, как Ultralytics YOLO , часто используются техники вроде Feature Pyramid Networks (FPNs) для создания карт признаков с различными рецептивными полями. Для обнаружения мелких объектов требуются меньшие рецептивные поля, а для крупных - большие. Проведи сравнение между различными моделями YOLO , чтобы понять, как архитектуры справляются с этой задачей.
  • Семантическая сегментация: Требуются плотные предсказания на уровне пикселей. Хотя для контекста необходимы большие рецептивные поля, сохранение пространственного разрешения также критически важно. Здесь часто используются расширенные свертки, чтобы увеличить рецептивное поле без потери разрешения. Проверь такие задачи, как сегментация трещин.
  • Сегментация объектов: Сочетает в себе обнаружение объектов и семантическую сегментацию, поэтому требует как разнообразных рецептивных полей для обнаружения, так и мелкозернистой пространственной информации для маскировки отдельных экземпляров. Ultralytics YOLO11 поддерживает сегментацию экземпляров.

Примеры применения в реальном мире

  1. Автономные транспортные средства: Системы обнаружения объектов в самоуправляемых автомобилях, разработанные такими компаниями, как Waymo, должны идентифицировать пешеходов, другие транспортные средства, светофоры и разметку полосы движения различных размеров и расстояний. CNN с тщательно разработанными рецептивными полями, потенциально использующие такие модели, как YOLOv8 или RT-DETRпозволяют системе одновременно воспринимать как близкие небольшие препятствия (требующие меньшего рецептивного поля), так и удаленные крупные автомобили или дорожные знаки (требующие большего рецептивного поля). ИИ в автомобильных решениях часто опирается на эту способность.
  2. Анализ медицинских изображений: При анализе медицинских снимков (например, КТ, МРТ) для обнаружения аномалий, таких как опухоли или повреждения(см. пример с обнаружением опухоли), размер рецептивного поля имеет решающее значение. Слишком маленькое рецептивное поле может упустить более крупные структуры или контекстную информацию, а слишком большое - усреднить важные локальные детали. Модели, используемые в радиологическом ИИ, должны балансировать между размером рецептивного поля, чтобы улавливать как тонкую текстуру небольшого поражения, так и более широкий анатомический контекст. Эффективное обучение моделей на таких наборах данных, как Brain Tumor datasets, учитывает этот баланс.

Смежные понятия и инструменты

Понимание рецептивных полей тесно связано с такими понятиями, как размер ядра, страйд, паддинг и общая архитектура сети. В то время как ядро определяет локальный паттерн связей, рецептивное поле описывает совокупный эффект на вход. Различные фреймворки глубокого обучения, такие как PyTorch и TensorFlow реализуют эти концепции. Существуют инструменты, помогающие визуализировать рецептивные поля в CNN, что помогает при проектировании архитектуры и отладке. При работе с такими моделями, как Ultralytics YOLO11 через такие платформы, как Ultralytics HUB, осознание рецептивного поля помогает выбрать подходящие размеры или конфигурации модели для конкретных задач обнаружения или сегментации.

Читать полностью