Усиление CV-проектов с помощью инструментов Hugging Face с открытым исходным кодом

Присоединяйся к нам, так как мы пересматриваем ключевой доклад YOLO Vision 2024, посвященный изучению того, как инструменты Hugging Faceс открытым исходным кодом способствуют развитию ИИ.

Written by

Абирами Вина

мин. чтения

11 февраля 2025 года

3 апреля 2025 года

Hugging Face Hub поддерживает более быструю разработку искусственного интеллекта

Исследование моделей Hugging Face для приложений компьютерного зрения

Модели Hugging Face для обнаружения объектов

Как использовать модели Hugging Face

Оптимизация рабочих процессов ИИ с помощью Hugging Face

Оптимальная и Torch компиляция

Развертывание моделей с помощью инструментов Hugging Face

Преимущества Hugging Face

Основные выводы

Выбор правильных алгоритмов - это лишь одна часть создания эффективных решений в области компьютерного зрения. Инженеры ИИ часто работают с большими наборами данных, точно настраивают модели для конкретных задач и оптимизируют системы ИИ для работы в реальном мире. По мере того как приложения ИИ внедряются все быстрее, растет и потребность в инструментах, упрощающих эти процессы.

На YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, организованном компанией Ultralytics, эксперты в области ИИ и технологические энтузиасты собрались вместе, чтобы изучить последние инновации в области компьютерного зрения. Мероприятие вызвало дискуссии на различные темы, например о способах ускорить разработку приложений для ИИ.

Главным событием мероприятия стал ключевой доклад о Hugging Face, платформе ИИ с открытым исходным кодом, которая упрощает обучение, оптимизацию и развертывание моделей. Павел Лакубовский, инженер по машинному обучению в Hugging Face, рассказал, как его инструменты улучшают рабочие процессы для задач компьютерного зрения, таких как обнаружение объектов на изображениях, категоризация изображений на различные группы и составление прогнозов без предварительного обучения на конкретных примерах (обучение с нулевым результатом).

Hugging Face Hub размещает и предоставляет доступ к различным моделям ИИ и компьютерного зрения, таким как Ultralytics YOLO11. В этой статье мы вспомним основные моменты из выступления Павла и расскажем, как разработчики могут использовать инструменты Hugging Faceс открытым исходным кодом для быстрого создания и развертывания моделей ИИ.

‍

Hugging Face Hub поддерживает более быструю разработку искусственного интеллекта

Павел начал свое выступление с представления Hugging Face как платформы ИИ с открытым исходным кодом, предлагающей предварительно обученные модели для различных приложений. Эти модели предназначены для различных отраслей ИИ, включая обработку естественного языка (NLP), компьютерное зрение и мультимодальный ИИ, позволяя системам обрабатывать различные типы данных, такие как текст, изображения и аудио.

Павел упомянул, что на Hugging Face Hub уже размещено более 1 миллиона моделей, и разработчики могут легко найти модели, подходящие для их конкретных проектов. Hugging Face стремится упростить разработку ИИ, предлагая инструменты для обучения, тонкой настройки и развертывания моделей. Когда разработчики могут экспериментировать с различными моделями, это упрощает процесс интеграции ИИ в реальные приложения.

Изначально Hugging Face был известен благодаря NLP, но с тех пор он расширился до компьютерного зрения и мультимодального ИИ, позволяя разработчикам решать более широкий спектр задач ИИ. Кроме того, у него есть сильное сообщество, где разработчики могут сотрудничать, делиться идеями и получать поддержку через форумы, Discord и GitHub.

Исследование моделей Hugging Face для приложений компьютерного зрения

Более подробно Павел рассказал о том, как инструменты Hugging Faceупрощают создание приложений для компьютерного зрения. Разработчики могут использовать их для таких задач, как классификация изображений, обнаружение объектов и приложения на языке зрения.

Он также отметил, что со многими из этих задач компьютерного зрения можно справиться с помощью предварительно обученных моделей, доступных на хабе Hugging Face , что позволяет сэкономить время за счет сокращения необходимости обучения с нуля. На самом деле Hugging Face предлагает более 13 000 предварительно обученных моделей для задач классификации изображений, включая модели для классификации еды, домашних животных и определения эмоций.

Подчеркивая доступность этих моделей, он сказал: "Возможно, тебе даже не придется обучать модель для своего проекта - ты можешь найти на хабе ту, которую уже обучил кто-то из сообщества".

Модели Hugging Face для обнаружения объектов

Приводя другой пример, Павел подробно рассказал о том, как Hugging Face может помочь в обнаружении объектов- ключевой функции компьютерного зрения, которая используется для идентификации и определения местоположения объектов на изображениях. Даже при ограниченном количестве помеченных данных предварительно обученные модели, доступные на Hugging Face Hub, могут сделать обнаружение объектов более эффективным.

Он также сделал краткий обзор нескольких моделей, созданных для этой задачи, которые ты можешь найти на Hugging Face:

Модели обнаружения объектов в реальном времени: Для динамичных сред, где скорость имеет решающее значение, такие модели, как Detection Transformer (DETR), предлагают возможности обнаружения объектов в реальном времени. DETR обучен на наборе данных COCO и предназначен для эффективной обработки разномасштабных признаков, что делает его подходящим для приложений, чувствительных ко времени.
‍
Модели языка зрения: Эти модели объединяют обработку изображений и текстов, позволяя системам ИИ сопоставлять изображения с описаниями или распознавать объекты за пределами обучающих данных. Примерами могут служить CLIP и SigLIP, которые улучшают поиск по изображениям, связывая текст с визуальными образами, и позволяют ИИ-решениям идентифицировать новые объекты, понимая их контекст.
‍
Модели обнаружения объектов с нулевого выстрела: Они могут идентифицировать объекты, которых раньше не видели, благодаря пониманию взаимосвязи между изображениями и текстом. В качестве примера можно привести OwlVit, GroundingDINO и OmDet, которые используют обучение с нулевого выстрела для обнаружения новых объектов, не нуждаясь в маркированных обучающих данных.

Как использовать модели Hugging Face

Затем Павел переключил внимание на практическую работу с моделями Hugging Face , объяснив три способа, которыми разработчики могут их использовать: изучение моделей, их быстрое тестирование и дальнейшая настройка.

Он продемонстрировал, как разработчики могут просматривать модели прямо на Hugging Face Hub без написания какого-либо кода, что упрощает мгновенное тестирование моделей через интерактивный интерфейс. "Ты можешь попробовать ее, не написав даже строчки кода и не загрузив модель на свой компьютер", - добавил Павел. Поскольку некоторые модели имеют большой размер, запуск их на хабе помогает избежать ограничений на хранение и обработку данных.

Рис 2. Как использовать модели Hugging Face .

‍

Кроме того, Hugging Face Inference API позволяет разработчикам запускать модели ИИ с помощью простых вызовов API. Это отлично подходит для быстрого тестирования, проектов proof-of-concept и быстрого создания прототипов без необходимости сложной настройки.

Для более сложных случаев разработчики могут использовать фреймворк Hugging Face Transformers - инструмент с открытым исходным кодом, который предоставляет предварительно обученные модели для текстовых, зрительных и аудиозадач, поддерживая PyTorch и TensorFlow. Павел объяснил, что с помощью всего двух строк кода разработчики могут получить модель из Hugging Face Hub и связать ее с инструментом предварительной обработки, например с процессором изображений, чтобы проанализировать данные изображения для приложений Vision AI.

Оптимизация рабочих процессов ИИ с помощью Hugging Face

Далее Павел рассказал, как Hugging Face может оптимизировать рабочие процессы ИИ. Одна из ключевых тем, которую он затронул, - оптимизация механизма внимания в трансформерах, основной функции моделей глубокого обучения, которая помогает им фокусироваться на наиболее значимых частях входных данных. Это повышает точность задач, связанных с обработкой языка и компьютерным зрением. Однако это может быть ресурсоемким.

Оптимизация механизма внимания может значительно снизить потребление памяти и одновременно повысить скорость работы. Павел отметил: "Например, переключившись на более эффективную реализацию внимания, ты можешь увидеть увеличение производительности до 1,8 раза".

Hugging Face обеспечивает встроенную поддержку более эффективных реализаций внимания в рамках фреймворка Transformers. Разработчики могут включить эти оптимизации, просто указав альтернативную реализацию внимания при загрузке модели.

Оптимальная и Torch компиляция

Он также рассказал о квантовании - технике, которая позволяет сделать модели ИИ меньше за счет снижения точности используемых в них чисел без сильного влияния на производительность. Это помогает моделям использовать меньше памяти и работать быстрее, что делает их более подходящими для устройств с ограниченной вычислительной мощностью, таких как смартфоны и встраиваемые системы.

Чтобы еще больше повысить эффективность, Павел представил библиотеку Hugging Face Optimum - набор инструментов, предназначенных для оптимизации и развертывания моделей. С помощью всего нескольких строк кода разработчики могут применять методы квантования и конвертировать модели в эффективные форматы вроде ONNX (Open Neural Network Exchange), что позволяет им бесперебойно работать на различных типах оборудования, включая облачные серверы и пограничные устройства.

Рис. 3. Павел рассказал о библиотеке Optimum и ее возможностях.

‍

Наконец, Павел упомянул о преимуществах Torch Compile - функции в PyTorch , которая оптимизирует обработку данных в моделях ИИ, заставляя их работать быстрее и эффективнее. Hugging Face интегрирует Torch Compile в свои библиотеки Transformers и Optimum, позволяя разработчикам воспользоваться преимуществами этих улучшений производительности с минимальными изменениями кода.

Оптимизируя структуру вычислений модели, Torch Compile может ускорить время вывода и увеличить частоту кадров с 29 до 150 в секунду без ущерба для точности и качества.

Развертывание моделей с помощью инструментов Hugging Face

Двигаясь дальше, Павел вкратце коснулся того, как разработчики могут расширять и разворачивать модели Vision AI с помощью инструментов Hugging Face после выбора подходящей модели и оптимального подхода к разработке.

Например, разработчики могут развернуть интерактивные ИИ-приложения с помощью Gradio и Streamlit. Gradio позволяет разработчикам создавать веб-интерфейсы для моделей машинного обучения, а Streamlit помогает создавать интерактивные приложения для работы с данными с помощью простых скриптов Python .

Павел также отметил: "Тебе не нужно начинать писать все с нуля", - имея в виду руководства, учебные тетради и примеры скриптов, которые предоставляет Hugging Face . Эти ресурсы помогают разработчикам быстро приступить к работе без необходимости создавать все с нуля.

Рис. 4. Павел обсуждает возможности Hugging Face на YV24.

‍

Преимущества Hugging Face

Завершая свой доклад, Павел подытожил преимущества использования Hugging Face Hub. Он подчеркнул, как он упрощает управление моделями и совместную работу. Также он обратил внимание на наличие руководств, блокнотов и туториалов, которые могут помочь как новичкам, так и экспертам понять и реализовать ИИ-модели.

"На Хабе уже есть множество крутых пространств. Ты можешь найти похожие, клонировать общий код, изменить несколько строк, заменить модель на свою и вытолкнуть ее обратно", - объяснил он, призывая разработчиков воспользоваться гибкостью платформы.

Основные выводы

Во время своего выступления на YV24 Павел рассказал о том, как Hugging Face предоставляет инструменты, поддерживающие обучение, оптимизацию и развертывание ИИ-моделей. Например, такие инновации, как Transformers, Optimum и Torch Compile, помогут разработчикам повысить производительность моделей.

По мере того как модели ИИ становятся все более эффективными, усовершенствования в квантовании и краевом развертывании упрощают их запуск на устройствах с ограниченными ресурсами. Эти усовершенствования в сочетании с такими инструментами, как Hugging Face , и продвинутыми моделями компьютерного зрения, такими как Ultralytics YOLO11, являются ключом к созданию масштабируемых, высокопроизводительных приложений Vision AI.

Присоединяйся к нашему растущему сообществу! Изучи наш репозиторий GitHub, чтобы узнать об искусственном интеллекте, и проверь наши лицензииyolo , чтобы начать свои проекты Vision AI. Интересуют такие инновации, как компьютерное зрение в здравоохранении или компьютерное зрение в сельском хозяйстве? Заходи на страницы наших решений, чтобы узнать больше!

Усиление CV-проектов с помощью инструментов Hugging Face с открытым исходным кодом

Hugging Face Hub поддерживает более быструю разработку искусственного интеллекта

Исследование моделей Hugging Face для приложений компьютерного зрения

Модели Hugging Face для обнаружения объектов

Как использовать модели Hugging Face

Оптимизация рабочих процессов ИИ с помощью Hugging Face

Оптимальная и Torch компиляция

Развертывание моделей с помощью инструментов Hugging Face

Преимущества Hugging Face

Основные выводы

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Усиление CV-проектов с помощью инструментов Hugging Face с открытым исходным кодом

Hugging Face Hub поддерживает более быструю разработку искусственного интеллекта

Исследование моделей Hugging Face для приложений компьютерного зрения

Модели Hugging Face для обнаружения объектов

Как использовать модели Hugging Face

Оптимизация рабочих процессов ИИ с помощью Hugging Face

Оптимальная и Torch компиляция

Развертывание моделей с помощью инструментов Hugging Face

Преимущества Hugging Face

Основные выводы

Читайте больше в этой категории

Давай вместе построим будущее искусственного интеллекта!

Давай вместе построим будущее
искусственного интеллекта!