Глоссарий

Capsule Networks (CapsNet)

Открой для себя Capsule Networks (CapsNets): Новаторская архитектура нейронных сетей, превосходно справляющаяся с пространственными иерархиями и взаимосвязями признаков.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Капсульные сети, часто называемые CapsNets, представляют собой новый тип нейросетевой архитектуры, призванной устранить некоторые ограничения традиционных конволюционных нейронных сетей (CNN), в частности в обработке пространственных иерархий и связей между признаками на изображениях. В отличие от CNN, которые используют скалярные результаты операций объединения, CapsNet используют векторы для представления признаков, что позволяет им улавливать более подробную информацию об ориентации и относительном пространственном положении объектов. Эта способность делает CapsNet особенно эффективными в таких задачах, как распознавание изображений, где понимание позы и пространственных отношений объектов имеет решающее значение.

Основные понятия

CapsNets вводит понятие "капсулы" - группы нейронов, вектор активности которых представляет собой различные свойства сущности определенного типа, например объекта или части объекта. Длина вектора активности представляет собой вероятность существования сущности, а его ориентация кодирует параметры инстанцирования (например, положение, размер, ориентацию). Активные капсулы одного уровня с помощью матриц преобразования делают предсказания параметров инстанса для капсул более высокого уровня. Когда несколько предсказаний совпадают, капсула более высокого уровня становится активной. Этот процесс известен как "маршрутизация по соглашению".

Основные отличия от конволюционных нейронных сетей (КНС)

Хотя и CapsNet, и Convolutional Neural Networks (CNN) используются в задачах компьютерного зрения (КЗ), они существенно отличаются друг от друга подходом к обработке пространственной информации:

  • Представление признаков: CNN используют скалярные значения для представления признаков, тогда как CapsNet - векторы, что позволяет им улавливать более подробную информацию о позе и свойствах объектов.
  • Операции пулинга: CNN часто используют max-pooling, что может привести к потере точной пространственной информации. CapsNet избегают этого, используя динамическую маршрутизацию, которая сохраняет пространственную иерархию.
  • Эквивариантность: CapsNet разработаны таким образом, чтобы быть эквивариантными к изменениям точки зрения, то есть они могут распознавать объекты даже при изменении их ориентации. CNN по своей сути не являются эквивариантными и для достижения подобных результатов требуют таких методов, как увеличение данных.

Преимущества капсульных сетей

CapsNet обладают рядом преимуществ по сравнению с традиционными CNN:

  • Улучшенная работа с пространственными иерархиями: Представляя признаки в виде векторов, CapsNets могут лучше понимать пространственные отношения между частями объекта.
  • Повышенная устойчивость к аффинным преобразованиям: CapsNets могут распознавать объекты при различных трансформациях (например, вращении, масштабировании) без необходимости обширного увеличения данных.
  • Лучшая генерализация при меньшем количестве данных: Благодаря способности улавливать детальную информацию о признаках, CapsNet часто могут достичь хорошей производительности на меньшем количестве обучающих примеров по сравнению с CNN.

Применение в реальном мире

Капсульные сети показали себя многообещающе в различных приложениях, продемонстрировав свой потенциал для развития области глубокого обучения (DL):

  • Медицинская визуализация: При анализе медицинских изображений CapsNet могут повысить точность диагностики заболеваний за счет лучшего понимания пространственных отношений между различными анатомическими структурами. Например, их можно использовать для более точного обнаружения и классификации опухолей, анализируя их форму, размер и относительное положение внутри органа.
  • Автономные транспортные средства: CapsNets могут улучшить системы восприятия автономных транспортных средств, улучшив обнаружение и распознавание объектов, особенно в сложных условиях, таких как меняющиеся точки обзора и окклюзии. Это может привести к более безопасной и надежной навигации.
  • Распознавание лиц: В системах распознавания лиц CapsNet могут обеспечить более надежную работу, точно улавливая пространственные связи между чертами лица даже при изменениях позы и выражения.

Проблемы и будущие направления

Несмотря на свои преимущества, капснеты сталкиваются и с проблемами, такими как более высокая вычислительная сложность по сравнению с CNN и необходимость дальнейших исследований для оптимизации их архитектуры и процедур обучения. Текущие исследования направлены на повышение эффективности динамической маршрутизации, изучение новых типов капч и применение CapsNet к более широкому кругу задач помимо распознавания образов.

Поскольку область искусственного интеллекта (ИИ) продолжает развиваться, капсульные сети представляют собой захватывающую область развития, предлагая новые возможности для создания более надежных и универсальных нейросетевых моделей. Их способность захватывать детальную пространственную информацию и обрабатывать трансформации делает их ценным инструментом для развития компьютерного зрения и других приложений ИИ. Для тех, кто заинтересован в изучении передовых моделей ИИ, модели Ultralytics YOLO предлагают самые современные архитектуры обнаружения объектов, которые включают в себя некоторые из последних достижений в этой области. Кроме того, Ultralytics HUB предоставляет платформу для обучения и развертывания этих моделей, что еще больше облегчает разработку и применение передовых решений в области ИИ.

Читать полностью