Зелёная проверка
Ссылка копируется в буфер обмена

Обновления исследований в области искусственного интеллекта от Meta FAIR: SAM 2.1 и CoTracker3

Изучи новейшие модели ИИ от Meta FAIR - SAM 2.1 и CoTracker3, предлагающие расширенные возможности сегментации и отслеживания для различных реальных приложений.

Искусственный интеллект (ИИ) - это область исследований, которая в последнее время бурлит от волнения и энергии, а новые инновации и прорывы появляются быстрее, чем когда-либо прежде. За последние несколько недель команда Meta's Fundamental AI Research (FAIR) представила набор инструментов и моделей, направленных на решение задач в различных областях ИИ. Эти релизы включают обновления, которые могут повлиять на такие разные области, как здравоохранение, робототехника и дополненная реальность.

Например, обновленная модель SAM 2.1 улучшает сегментацию объектов, облегчая точную идентификацию и разделение объектов на изображениях и видео. Тем временем CoTracker3 фокусируется на отслеживании точек, помогая сохранять их в видеокадрах даже тогда, когда объекты перемещаются или частично заслоняются. 

Meta также представила более легкие и быстрые версии своей языковой модели Llama для эффективного использования на устройстве, а также новую технологию тактильного восприятия для робототехники. В этой статье мы разберем эти последние релизы от Meta FAIR, рассмотрим, что предлагает каждый инструмент. Приступим!

Расширенная модель сегмента Меты "Все": SAM 2.1

Сегментация объектов- ключевая задача компьютерного зрения- позволяет идентифицировать и разделять отдельные объекты на изображении или видео, облегчая анализ конкретных областей интереса. С момента своего выхода Segment Anything Model 2 (SAM 2 ) компании Meta использовалась для сегментации объектов в различных областях, таких как медицинская визуализация и метеорология. Опираясь на отзывы сообщества, Meta представила SAM 2.1 - улучшенную версию, призванную решить некоторые проблемы, возникшие при использовании оригинальной модели, и обеспечить более высокую производительность в целом.

Рис. 1. SAM 2.1 Бенчмаркинг производительности модели.

SAM 2.1 содержит обновления, позволяющие лучше справляться с визуально похожими и более мелкими объектами благодаря новым методам увеличения данных. Кроме того, модель лучше справляется с окклюзией (когда части объекта скрыты от глаз), обучаясь на более длинных видеопоследовательностях, что позволяет ей "запоминать" и распознавать объекты с течением времени, даже если они временно заблокированы. Например, если кто-то снимает видео с человеком, идущим за деревом, SAM 2.1 может отследить его появление с другой стороны, используя свою память о положении и движении объекта, чтобы заполнить пробелы, когда обзор ненадолго прерывается.

Вместе с этими обновлениями Meta выпустила SAM 2 Developer Suite, предоставляющий обучающий код с открытым исходным кодом и полную демонстрационную инфраструктуру, чтобы разработчики могли доработать SAM 2.1 с помощью собственных данных и интегрировать его в различные приложения.

CoTracker3: Модель трекинга Meta, ее особенности и обновления

Еще одна интересная задача компьютерного зрения - отслеживание точек. Она заключается в отслеживании определенных точек или особенностей на нескольких кадрах видео. Рассмотрим видео с велосипедистом, едущим по трассе, - отслеживание точек позволяет модели следить за точками на велосипедисте, например шлемом или колесами, даже если они на мгновение скрыты препятствиями.

Отслеживание точек необходимо для таких приложений, как 3D-реконструкция, робототехника и видеомонтаж. Традиционные модели часто опираются на сложные установки и большие синтетические наборы данных, что ограничивает их эффективность при применении в реальных сценариях. 

Модель отслеживания CoTracker3 от Meta устраняет эти ограничения, упрощая архитектуру модели. Она также представляеттехнику псевдомаркировки, которая позволяет модели обучаться на реальных, неаннотированных видео, что делает CoTracker3 более эффективной и масштабируемой для практического использования.

Рис. 2. Сравнение CoTracker3 с другими моделями трекинга.

Одна из особенностей, которая выделяет CoTracker3, - это то, что он хорошо справляется с окклюзиями. Используя кросс-трековое внимание - технику, которая позволяет модели обмениваться информацией по нескольким отслеживаемым точкам, - CoTracker3 может определять положение скрытых точек по ссылкам на видимые. Благодаря этому CoTracker3 может быть очень эффективен в динамичных средах, например, при слежении за человеком в толпе. 

Кроме того, CoTracker3 предлагает как онлайн, так и офлайн режимы. Онлайн-режим обеспечивает отслеживание в реальном времени. В то время как оффлайн-режим можно использовать для более полного отслеживания всего видеоряда, что идеально подходит для таких задач, как монтаж видео или анимация

Другие обновления и исследования от Meta FAIR

В то время как SAM 2.1 и CoTracker3 демонстрируют последние достижения Meta в области компьютерного зрения, есть захватывающие обновления и в других областях ИИ, таких как обработка естественного языка (NLP) и робототехника. Давай посмотрим на некоторые из этих последних разработок Meta FAIR.

Дух Меты LM: инновации ИИ в языковых и мультимодальных моделях

Spirit LM от Meta - это новая мультимодальная языковая модель, которая сочетает в себе возможности работы с текстом и речью , благодаря чему взаимодействие с ИИ становится более естественным. В отличие от традиционных моделей, которые работают только с текстом или только с речью, Spirit LM может плавно переключаться между ними. 

Spirit LM может понимать и генерировать язык так, чтобы чувствовать себя более похожим на человека. Например, он может улучшить виртуальных помощников, которые могут слушать и отвечать на устном или письменном языке, или поддерживать инструменты доступности, которые преобразуют речь в текст. 

Рис. 3. Пример преобразования текста в речь с помощью мета-спирита LM.

Кроме того, в Meta разработаны техники, позволяющие сделать большие языковые модели более эффективными. Одна из них, называемая Layer Skip, помогает снизить вычислительные потребности и энергозатраты, активируя только те слои, которые необходимы для решения конкретной задачи. Это особенно полезно для приложений на устройствах с ограниченной памятью и мощностью. 

Учитывая необходимость развертывания приложений ИИ на таких устройствах, Meta также выпустила квантованные версии своих моделей Llama. Эти модели сжаты, чтобы быстрее работать на мобильных устройствах без ущерба для точности

Взгляд на будущее оптимизации с помощью Meta Lingua

По мере того как модели ИИ растут в размерах и усложняются, оптимизация процесса их обучения приобретает решающее значение. Что касается оптимизации, то Meta представила Meta Lingua - гибкую и эффективную кодовую базу, которая упрощает обучение больших языковых моделей. Модульная конструкция Meta Lingua позволяет исследователям быстро настраивать и масштабировать свои эксперименты. 

Исследователи могут тратить меньше времени на техническую настройку и больше - на реальные исследования. Кроме того, кодовая база легка и проста в интеграции, что делает ее подходящей как для небольших экспериментов, так и для масштабных проектов. Устраняя эти технические препятствия, Meta Lingua помогает исследователям быстрее добиваться прогресса и с большей легкостью тестировать новые идеи.

Рис 4. Обзор Meta Lingua.

Усовершенствования Meta в области безопасности искусственного интеллекта

По мере развития технологии квантовых вычислений возникают новые проблемы с безопасностью данных. В отличие от современных компьютеров, квантовые компьютеры, скорее всего, смогут решать сложные вычисления гораздо быстрее. Это значит, что они потенциально могут взломать методы шифрования, которые сейчас используются для защиты конфиденциальной информации. Вот почему исследования в этой области становятся все более важными - разработка новых способов защиты данных необходима, поскольку мы готовимся к будущему квантовых вычислений.

Чтобы решить эту проблему, компания Meta разработала Salsa - инструмент, направленный на укрепление постквантовой криптографической безопасности. Salsa помогает исследователям тестировать атаки, управляемые ИИ, и выявлять потенциальные слабые места, что позволяет лучше понять и устранить уязвимости криптографических систем. Моделируя продвинутые сценарии атак, Salsa дает ценные сведения, которые могут направить разработку более сильных и устойчивых мер безопасности для квантовой эры.

ИИ на Мета: Последние инновации в робототехнике

Последние работы Meta в области робототехники направлены на то, чтобы помочь ИИ более естественно взаимодействовать с физическим миром, улучшая сенсорное восприятие, ловкость и взаимодействие с человеком. В частности, Meta Digit 360 - это продвинутый тактильный датчик, который наделяет роботов утонченным чувством осязания. Сенсоры помогают роботам определять такие детали, как текстура, давление и даже форма объектов. На основе этих данных роботы могут более точно управлять объектами, что крайне важно в таких областях, как здравоохранение и производство.

Вот некоторые ключевые особенности, которые включает в себя Meta Digit 360:

  • Он оснащен 18 отдельными чувствительными элементами, чтобы иметь возможность улавливать широкий спектр тактильных деталей.
  • Датчик может обнаруживать изменения давления размером всего в 1 миллиньютон, что позволяет роботам реагировать на тонкие текстуры и едва уловимые движения.
  • Он включает в себя более 8 миллионов такселей (крошечных чувствительных точек) по всей поверхности кончика пальца, обеспечивая карту сенсорной информации с высоким разрешением.

Продолжением Meta Digit 360 является Meta Digit Plexus - платформа, объединяющая различные сенсорные датчики на одной роботизированной руке. Такая установка позволяет роботам обрабатывать сенсорную информацию сразу из нескольких точек, подобно тому, как человеческие руки собирают сенсорные данные.

Рис. 5. Мета дигитальное сплетение.

Создание сцены для следующей главы ИИ

Последние обновления Meta в области ИИ, начиная с достижений в компьютерном зрении с помощью SAM 2.1 и CoTracker3 и заканчивая новыми разработками в области языковых моделей и робототехники, показывают, как ИИ неуклонно переходит от теории к практическим, эффективным решениям. 

Эти инструменты призваны сделать ИИ более адаптируемым и полезным в различных областях, помогая во всем: от сегментирования сложных изображений до понимания человеческого языка и даже работы рядом с нами в физических пространствах. 

Ставя во главу угла доступность и реальное применение, Meta FAIR приближает нас к будущему, в котором ИИ сможет решать реальные задачи и улучшать нашу повседневную жизнь значимыми способами. 

Тебе интересно узнать об искусственном интеллекте? Присоединяйся к нашему сообществу, чтобы узнавать о последних обновлениях и открытиях, и загляни в наш репозиторий на GitHub. Ты также можешь изучить, как компьютерное зрение может быть использовано в таких отраслях, как самодвижущиеся автомобили и сельское хозяйство!

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения