Улучшение оценки ключевых точек руки с помощью Ultralytics YOLO11

Познакомься с AI-ориентированной оценкой ключевых точек руки с помощью поддержки Ultralytics YOLO11 для оценки позы в таких приложениях, как распознавание жестов в реальном времени.

Written by

Абирами Вина

мин. чтения

5 марта 2025 года

3 апреля 2025 года

Понимание распознавания ключевых точек руки на основе искусственного интеллекта

Изучение YOLO11 для оценки позы

Обзор набора данных Hand Keypoints

Как обучить YOLO11 оценке позы руки

Оценка твоей настраиваемой модели

Области применения решений для отслеживания движения рук на основе искусственного интеллекта

Распознавание жестов в реальном времени с помощью YOLO11

Распознавание ключевых точек руки на основе искусственного интеллекта для распознавания языка жестов

Компьютерное зрение для отслеживания рук: Улучшение впечатлений от AR и VR

Основные выводы

В последнее время сурдопереводчики на Суперкубке привлекли к себе много внимания. Когда ты смотришь по телевизору, как они исполняют песню твоего любимого исполнителя, ты можешь понять их, если знаешь язык жестов, потому что твой мозг обрабатывает движения их рук. Но что, если бы компьютер мог делать то же самое? Благодаря решениям для отслеживания движений рук, основанным на искусственном интеллекте, машины могут отслеживать и интерпретировать движения рук с впечатляющей точностью.

В основе этих решений лежит компьютерное зрение- область искусственного интеллекта, которая позволяет машинам обрабатывать и понимать визуальную информацию. Анализируя изображения и видео, Vision AI помогает им обнаруживать объекты, отслеживать движения и распознавать сложные жесты с поразительной точностью.

Например, модели компьютерного зрения, такие как Ultralytics YOLO11 можно обучить обнаруживать и анализировать ключевые точки руки в реальном времени с помощью оценки позы. Таким образом, эти модели можно использовать в таких приложениях, как распознавание жестов, сурдоперевод и AR/VR-взаимодействие.

В этой статье мы расскажем, как YOLO11 позволяет отслеживать руки на основе ИИ, какие наборы данных используются для обучения и как настраивать модель для оценки позы руки. Также мы рассмотрим реальные приложения. Давай приступим!

Понимание распознавания ключевых точек руки на основе искусственного интеллекта

ИИ можно использовать для распознавания и отслеживания движений рук в визуальных данных, определяя такие ключевые точки, как запястье, кончики пальцев и суставы пальцев. Один из подходов, известный как оценка позы, помогает компьютерам понять движения человека, отображая ключевые точки и анализируя, как они меняются со временем. Это позволяет системам искусственного интеллекта с высокой точностью интерпретировать позу тела, жесты и паттерны движения.

Модели компьютерного зрения делают это возможным, анализируя изображения или видео, чтобы определить ключевые точки на руке и отследить их перемещение. Когда эти точки нанесены на карту, искусственный интеллект может распознавать жесты, анализируя пространственные отношения между ключевыми точками и то, как они меняются со временем.

Например, если расстояние между большим и указательным пальцами уменьшается, ИИ может интерпретировать это как щипковое движение. Аналогично, отслеживание того, как точки клавиш перемещаются в последовательностях, помогает идентифицировать сложные жесты рук и даже предсказывать будущие движения.

Рис. 1. Пример распознавания ключевых точек на руке с помощью компьютерного зрения.

‍

Интересно, что оценка позы для отслеживания рук открыла захватывающие возможности: от управления смарт-устройствами без рук до повышения точности роботов и помощи в медицинских приложениях. По мере дальнейшего развития ИИ и компьютерного зрения отслеживание рук, вероятно, будет играть все большую роль в том, чтобы сделать технологии более интерактивными, доступными и интуитивно понятными в повседневной жизни.

Изучение YOLO11 для оценки позы

Прежде чем мы погрузимся в создание решения для отслеживания рук на основе ИИ, давай подробнее рассмотрим оценку позы и то, как YOLO11 поддерживает эту задачу компьютерного зрения. В отличие от стандартного обнаружения объектов, которое идентифицирует целые объекты, оценка позы фокусируется на обнаружении ключевых ориентиров - таких как суставы, конечности или края - для анализа движения и позы.

В частности, Ultralytics YOLO11 предназначена для оценки позы в реальном времени. Используя нисходящие и восходящие методы, она эффективно обнаруживает людей и оценивает ключевые точки за один шаг, превосходя предыдущие модели по скорости и точности.

Из коробки YOLO11 поставляется предварительно обученным на наборе данных COCO-Pose и может распознавать ключевые точки на человеческом теле, включая голову, плечи, локти, запястья, бедра, колени и лодыжки.

Рис. 2. Использование YOLO11 для оценки позы человека.

‍

Помимо оценки позы человека, YOLO11 можно обучить определять ключевые точки на различных объектах, как одушевленных, так и неодушевленных. Такая гибкость делает YOLO11 отличным вариантом для широкого спектра приложений.

Обзор набора данных Hand Keypoints

Первым шагом в обучении модели на заказ является сбор данных и их аннотирование или поиск существующего набора данных, который соответствует потребностям проекта. Например, набор данных Hand Keypoints - это хорошая отправная точка для обучения моделей Vision AI для отслеживания рук и оценки позы. В нем 26 768 аннотированных изображений, что избавляет от необходимости вручную наносить метки.

Его можно использовать для обучения моделей вроде Ultralytics YOLO11 , чтобы быстро научиться обнаруживать и отслеживать движения рук. Набор данных включает 21 ключевую точку на каждую руку, охватывая запястье, пальцы и суставы. Кроме того, аннотации были созданы с помощью Google MediaPipe, инструмента для разработки решений на базе ИИ для обработки медиа в реальном времени, что обеспечивает точное и надежное определение ключевых точек.

Рис. 3. 21 ключевая точка, вошедшая в набор данных Hand Keypoints.

‍

Использование такого структурированного набора данных экономит время и позволяет разработчикам сосредоточиться на обучении и доработке своих моделей, а не на сборе и маркировке данных. Фактически, датасет уже разделен на тренировочный (18 776 изображений) и валидационный (7 992 изображения) подмножества, что позволяет легко оценить производительность модели.

Как обучить YOLO11 оценке позы руки

Обучение YOLO11 для оценки позы руки - несложный процесс, особенно с пакетомUltralytics Python , который упрощает настройку и обучение модели. Поскольку набор данных Hand Keypoints уже поддерживается в конвейере обучения, его можно сразу использовать без дополнительного форматирования, что экономит время и силы.

Вот как происходит процесс обучения:

Настрой окружение: Первым шагом будет установка пакета Ultralytics Python .
‍.
Загрузи набор данных Hand Keypoints: YOLO11 поддерживает этот набор данных нативно, поэтому его можно загрузить и подготовить автоматически.
‍.
Используй предварительно обученную модель: Ты можешь начать с предварительно обученной модели оценки позы YOLO11 , которая поможет повысить точность и ускорить процесс обучения.
‍
Обучи модель: Модель учится определять и отслеживать точки нажатия клавиш рукой, проходя несколько циклов обучения.
‍
Следи за производительностью: Пакет Ultralytics также содержит встроенные инструменты для отслеживания ключевых показателей, таких как точность и потери, помогая убедиться, что модель улучшается с течением времени.
‍
Сохрани и используй: После обучения модель можно экспортировать и использовать в приложениях для отслеживания рук в реальном времени.

Оценка твоей настраиваемой модели

Пройдя через все этапы создания пользовательской модели, ты заметишь, что мониторинг производительности очень важен. Наряду с отслеживанием прогресса во время тренировки, оценка модели после ее завершения крайне важна для того, чтобы убедиться, что она точно определяет и отслеживает ключевые точки рук.

Ключевые показатели эффективности, такие как точность, величина потерь и средняя точность (mAP), помогают оценить, насколько хорошо работает модель. Пакет Ultralytics Python предоставляет встроенные инструменты для визуализации результатов и сравнения предсказаний с реальными аннотациями, что облегчает выявление областей для улучшения.

Чтобы лучше понять работу модели, ты можешь проверить графики оценки, такие как кривые потерь, графики точности-отдачи и матрицы путаницы, которые автоматически генерируются в журналах обучения.

Эти графики помогают выявить такие проблемы, как чрезмерная подгонка (когда модель запоминает тренировочные данные, но с трудом справляется с новыми) или недостаточная подгонка (когда модель не может выучить паттерны достаточно хорошо для точной работы), и направить корректировки для повышения точности. Кроме того, тестирование модели на новых изображениях или видео важно для того, чтобы понять, насколько хорошо она работает в реальных условиях.

Области применения решений для отслеживания движения рук на основе искусственного интеллекта

Далее давай пройдемся по некоторым из наиболее впечатляющих применений оценки ключевых точек руки с помощью Ultralytics YOLO11.

Распознавание жестов в реальном времени с помощью YOLO11

Допустим, ты можешь регулировать громкость на своем телевизоре простым взмахом руки или управлять системой умного дома простым взмахом в воздухе. Распознавание жестов в реальном времени на базе YOLO11 делает эти бесконтактные взаимодействия возможными благодаря точному распознаванию движений рук в режиме реального времени.

Это работает за счет использования камер искусственного интеллекта, которые отслеживают ключевые точки на твоей руке и интерпретируют жесты как команды. Глубиночувствительные камеры, инфракрасные датчики или даже обычные веб-камеры фиксируют движения руки, а YOLO11 обрабатывает эти данные, чтобы распознать различные жесты. Например, такая система может отличить смахивание, чтобы сменить песню, щипок, чтобы увеличить масштаб, или круговое движение, чтобы отрегулировать громкость.

Распознавание ключевых точек руки на основе искусственного интеллекта для распознавания языка жестов

ИИ-решения для отслеживания рук могут поддерживать бесшовное общение между глухим человеком и тем, кто не знает языка жестов. Например, смарт-устройства, интегрированные с камерами и YOLO11 , можно использовать для мгновенного перевода языка жестов в текст или речь.

Благодаря таким достижениям, как YOLO11, инструменты сурдоперевода становятся все более точными и доступными. Это влияет на такие приложения, как вспомогательные технологии, службы живого перевода и образовательные платформы. ИИ может помочь устранить пробелы в общении и способствовать инклюзивности на рабочих местах, в школах и общественных местах.

Компьютерное зрение для отслеживания рук: Улучшение впечатлений от AR и VR

Ты когда-нибудь играл в игры виртуальной реальности (VR), где можно было бы хватать предметы без использования контроллера? Отслеживание рук с помощью компьютерного зрения делает это возможным, позволяя пользователям естественно взаимодействовать в средах дополненной реальности (AR) и VR.

Рис. 4. Отслеживание рук - ключевая часть AR- и VR-приложений.

‍

Благодаря оценке ключевых точек руки с помощью таких моделей, как Ultralytics YOLO11, ИИ отслеживает движения в реальном времени, позволяя выполнять такие жесты, как щипок, захват и смахивание. Это улучшает игры, виртуальное обучение и удаленное сотрудничество, делая взаимодействие более интуитивным. По мере совершенствования технологии отслеживания движений рук AR и VR будут казаться еще более захватывающими и реалистичными.

Основные выводы

Оценка ключевых точек руки с помощью Ultralytics YOLO11 делает решения по отслеживанию рук на основе ИИ более доступными и надежными. От распознавания жестов в реальном времени до сурдоперевода и AR/VR-приложений - компьютерное зрение открывает новые возможности в области взаимодействия человека и компьютера.

Кроме того, упрощенные процессы индивидуального обучения и тонкой настройки помогают разработчикам создавать эффективные модели для различных реальных применений. По мере развития технологии компьютерного зрения мы можем ожидать еще больше инноваций в таких областях, как здравоохранение, робототехника, игры и безопасность.

Взаимодействуй с нашим сообществом и изучай достижения в области ИИ в нашем репозитории GitHub. Открой для себя влияние ИИ в производстве и компьютерного зрения в здравоохранении на страницах наших решений. Изучи наши лицензионные планы и начни свой путь к ИИ уже сегодня!

Улучшение оценки ключевых точек руки с помощью Ultralytics YOLO11

Понимание распознавания ключевых точек руки на основе искусственного интеллекта

Изучение YOLO11 для оценки позы

Обзор набора данных Hand Keypoints

Как обучить YOLO11 оценке позы руки

Оценка твоей настраиваемой модели

Области применения решений для отслеживания движения рук на основе искусственного интеллекта

Распознавание жестов в реальном времени с помощью YOLO11

Распознавание ключевых точек руки на основе искусственного интеллекта для распознавания языка жестов

Компьютерное зрение для отслеживания рук: Улучшение впечатлений от AR и VR

Основные выводы

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Улучшение оценки ключевых точек руки с помощью Ultralytics YOLO11

Понимание распознавания ключевых точек руки на основе искусственного интеллекта

Изучение YOLO11 для оценки позы

Обзор набора данных Hand Keypoints

Как обучить YOLO11 оценке позы руки

Оценка твоей настраиваемой модели

Области применения решений для отслеживания движения рук на основе искусственного интеллекта

Распознавание жестов в реальном времени с помощью YOLO11

Распознавание ключевых точек руки на основе искусственного интеллекта для распознавания языка жестов

Компьютерное зрение для отслеживания рук: Улучшение впечатлений от AR и VR

Основные выводы

Читайте больше в этой категории

Давай вместе построим будущее искусственного интеллекта!

Давай вместе построим будущее
искусственного интеллекта!