Глоссарий

Конволют

Узнай, как свертка помогает ИИ в компьютерном зрении, позволяя с точностью решать такие задачи, как обнаружение объектов, распознавание изображений и медицинская визуализация.

Конволюция - это фундаментальная математическая операция, широко используемая в искусственном интеллекте, особенно в области компьютерного зрения (КВ). Она служит важнейшим строительным блоком для конволюционных нейронных сетей (КНС), позволяя этим сетям автоматически изучать сложные иерархические паттерны непосредственно из данных, похожих на сетку, таких как изображения или видео. Процесс включает в себя применение небольшого фильтра, известного как ядро, к входному сигналу или изображению. На выходе получается карта признаков, которая выделяет определенные паттерны (например, края, текстуры или формы), которые ядро призвано обнаружить.

Как работает конволюция

Представь себе процесс свертки как скольжение маленького увеличительного стекла (ядра или фильтра) по большему изображению (входным данным). В каждой позиции ядро фокусируется на небольшом участке входных данных. Затем операция свертки вычисляет взвешенную сумму значений пикселей в пределах этого участка, используя веса, определенные в ядре. Это вычисленное значение становится одним пикселем в результирующей карте признаков на выходе. Ядро систематически перемещается по всему входному изображению, шаг за шагом, причем размер шага определяется параметром, называемым"stride". Иногда для управления размером выходного изображения используется"padding" (добавление дополнительных пикселей границы) вокруг входного изображения. Применяя несколько ядер в рамках одного конволюционного слоя, CNN может одновременно извлекать из входных данных разнообразный набор признаков. Визуальные объяснения, подобные тем, что можно найти в конспектах курса Stanford CS231n, могут дать дополнительную интуицию.

Основные компоненты конволюции

Несколько параметров определяют операцию свертки:

Ядро/фильтр: Небольшая матрица, содержащая веса(веса фильтра), которые определяют конкретные признаки. Размер ядра определяет локальную область, обрабатываемую на каждом шаге.
Stride (шаг): Количество пикселей, на которое ядро сдвигает входное изображение на каждом шаге. Больший страйд приводит к уменьшению выходной карты признаков.
Padding: Добавление пикселей (обычно с нулевым значением) по границе входного изображения. Это помогает контролировать пространственные размеры выходных данных и позволяет ядрам более эффективно обрабатывать краевые пиксели.
Функция активации: Обычно выход операции свертки пропускается через нелинейную функцию активации, например ReLU (Rectified Linear Unit), чтобы внести в модель нелинейность, позволяющую ей обучаться более сложным паттернам.

Конволюция и смежные операции

Конверсия часто используется наряду с другими операциями в CNN, но служит отдельной цели:

Пулинг: Такие операции, как max pooling или average pooling, используются для уменьшения пространственных размеров (ширины и высоты) карт признаков, что делает модель более эффективной с вычислительной точки зрения и устойчивой к изменениям в расположении признаков. В отличие от свертки, которая извлекает признаки, объединение суммирует признаки в пределах региона. Более подробно ты можешь ознакомиться с обзором методов пулинга.
Полностью подключенные слои: В то время как конволюционные слои обрабатывают локальные области, используя общие веса(разделение параметров) на основе рецептивного поля, полностью подключенный слой соединяет каждый нейрон на своем входе с каждым нейроном на своем выходе. Обычно они используются в конце CNN в стандартной структуре нейронной сети (NN) для окончательного решения задач классификации или регрессии.

Приложения конволюции

Конволюционные слои незаменимы в многочисленных современных приложениях ИИ:

1. Обнаружение объектов

При обнаружении объектов CNN используют конволюционные слои для извлечения признаков из изображений, что позволяет им идентифицировать объекты и определять их местоположение с помощью ограничительных рамок. Современные модели, такие как Ultralytics YOLO, включая такие версии, как YOLO11сильно зависят от сверток для анализа признаков в различных масштабах для эффективного и точного обнаружения. Это очень важно для применения ИИ в автомобильной промышленности, например, для того, чтобы самодвижущиеся автомобили(см. технологию Waymo) могли воспринимать пешеходов, транспортные средства и дорожные знаки для безопасной навигации, что часто требует умозаключений в реальном времени.

2. Анализ медицинских изображений

Свертка играет важную роль в анализе медицинских изображений, помогая медицинским работникам интерпретировать такие снимки, как рентгеновские, компьютерные и магнитно-резонансные. Модели искусственного интеллекта, построенные с помощью CNN, могут обнаруживать тонкие закономерности, указывающие на заболевания, такие как опухоли или переломы, иногда превосходя человеческую скорость и точность(Radiology: Artificial Intelligence). Например, модели могут быть обучены для выполнения конкретных задач, как , например, использование YOLO11 для обнаружения опухолей. Узнай больше о решениях ИИ в здравоохранении.

Помимо этого, свертка является основополагающей для других задач зрения, таких как распознавание образов и сегментация изображений.

Важность в глубоком обучении

Конверсия - краеугольный камень современного глубокого обучения (ГНО), особенно для задач с данными, похожими на сетку. Ее способность использовать пространственную локальность (предполагается, что близлежащие пиксели связаны между собой) и совместно использовать параметры в разных местах делает CNN очень эффективными и результативными в обучении визуальных иерархий по сравнению с традиционными полностью связанными сетями.

Инструменты и обучение

Реализовать и обучить модели, использующие свертку, помогают различные фреймворки глубокого обучения. Такие библиотеки, как PyTorch PyTorch официальный сайтPyTorch ) и TensorFlow TensorFlow официальный сайтTensorFlow ), предоставляют надежные инструменты для построения CNN. Платформы вроде Ultralytics HUB упрощают процесс обучения моделей, позволяя пользователям использовать готовые архитектуры, включающие свертки, или обучать пользовательские модели для конкретных приложений. Высокоуровневые API, такие как Keras, еще больше упрощают разработку.

Конволют

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает конволюция

Основные компоненты конволюции

Конволюция и смежные операции

Приложения конволюции

1. Обнаружение объектов

2. Анализ медицинских изображений

Важность в глубоком обучении

Инструменты и обучение

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Конволют

Обучай модели YOLO простос помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает конволюция

Основные компоненты конволюции

Конволюция и смежные операции

Приложения конволюции

1. Обнаружение объектов

2. Анализ медицинских изображений

Важность в глубоком обучении

Инструменты и обучение

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Обучай модели YOLO просто
с помощью Ultralytics HUB.