Полуконтрольное обучение

Узнайте, как в технологии Semi-Supervised Learning сочетаются меченые и немеченые данные для улучшения моделей ИИ, снижения затрат на маркировку и повышения точности.

Полуподконтрольное обучение (SSL) - это метод машинного обучения (ML), который преодолевает разрыв между контролируемым и неконтролируемым обучением. Для повышения точности обучения используется небольшой объем меченых данных и большой объем немеченых данных. Во многих реальных сценариях получение немаркированных данных обходится недорого, но процесс маркировки данных требует больших затрат и времени. SSL решает эту проблему, позволяя моделям обучаться на огромном количестве немаркированных примеров, руководствуясь структурой и информацией, предоставляемой меньшим набором маркированных данных. Этот подход особенно эффективен в глубоком обучении (DL), где для достижения высокой производительности моделям требуются огромные наборы данных.

Как работает полуконтрольное обучение

Основная идея SSL заключается в том, чтобы использовать помеченные данные для построения начальной модели, а затем использовать эту модель для предсказаний на немеченых данных. Наиболее уверенные прогнозы модели затем рассматриваются как "псевдометки" и добавляются в обучающий набор. Затем модель переобучается на этой комбинации исходных меток и псевдометок с высокой степенью достоверности. Этот итерационный процесс позволяет модели изучить базовую структуру всего набора данных, а не только небольшой помеченной части.

К распространенным методам SSL относятся:

Регуляризация согласованности: Этот метод реализует идею о том, что предсказания модели должны оставаться последовательными даже при незначительном изменении входных данных. Например, изображение с незначительным увеличением данных должно давать ту же классификацию.
Генеративные модели: Такие методы, как генеративные адверсарные сети (GAN), позволяют научиться генерировать данные, которые напоминают истинное распределение данных, что помогает лучше определить границы принятия решений между классами.
Методы на основе графов: Эти методы представляют точки данных как узлы в графе и передают метки от помеченных узлов к немеченым на основе их близости или сходства. Технический обзор можно найти в академических обзорах.

Применение в реальном мире

SSL очень эффективен в доменах, где маркировка является узким местом. Два ярких примера включают:

Анализ медицинских изображений: Маркировка медицинских снимков, таких как МРТ или КТ, для обнаружения опухолей требует привлечения экспертов-радиологов и стоит очень дорого. С помощью SSL модель можно обучить на нескольких сотнях меченых сканов, а затем уточнить ее на тысячах немеченых сканов из больничных архивов. Это позволяет разрабатывать надежные модели классификации и сегментации изображений с гораздо меньшими затратами ручного труда.
Классификация веб-контента и документов: Ручная классификация миллиардов веб-страниц, новостных статей или отзывов клиентов нецелесообразна. SSL может использовать небольшой набор документов, классифицированных вручную, для обучения начального текстового классификатора. Затем модель классифицирует огромный массив немаркированных документов, используя собственные прогнозы для улучшения со временем таких задач, как анализ настроения или категоризация тем.

Сравнение с другими парадигмами обучения

Важно отличать SSL от родственных концепций искусственного интеллекта (ИИ):

Самоконтролируемое обучение (SSL): Несмотря на общую аббревиатуру, самоконтролируемое обучение отличается от других. Это тип несамостоятельного обучения, в котором метки генерируются из самих данных с помощью предтекстовых задач (например, предсказание замаскированного слова в предложении). При этом не используются данные, помеченные вручную, в то время как для полуподконтрольного обучения требуется небольшой набор данных с явными метками, чтобы направлять процесс обучения модели.
Активное обучение: Эта техника также направлена на снижение затрат на маркировку. Однако вместо того, чтобы использовать все неразмеченные данные, модель активного обучения интеллектуально запрашивает человека-аннотатора для маркировки наиболее информативных точек данных. SSL, напротив, обычно использует неразмеченные данные без прямого взаимодействия с человеком во время обучения.
Трансферное обучение: Это предполагает использование модели, предварительно обученной на большом наборе данных (например, ImageNet), а затем ее тонкую настройку на меньшем наборе данных, специфичном для конкретной задачи. Хотя оба метода используют существующие знания, SSL учится на немаркированных данных самой целевой задачи, в то время как трансферное обучение использует знания из другой (хотя часто смежной) задачи.

Инструменты и обучение

Многие современные фреймворки Deep Learning (DL), включая PyTorch (официальный сайт PyTorch) и TensorFlow (официальный сайт TensorFlow), предлагают функции или могут быть адаптированы для реализации алгоритмов SSL. Библиотеки вроде Scikit-learn предоставляют некоторые методы SSL. Платформы, такие как Ultralytics HUB, упрощают этот процесс, облегчая управление наборами данных, которые могут содержать смеси меченых и немеченых данных, упрощая обучение и развертывание моделей, разработанных для использования таких структур данных. Исследования в области SSL продолжают развиваться, и их результаты часто представляются на крупных конференциях по ИИ, таких как NeurIPS и ICML.

Полуконтрольное обучение

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Простое обучение моделям YOLO с помощью Ultralytics HUB

Как работает полуконтрольное обучение

Применение в реальном мире

Сравнение с другими парадигмами обучения

Инструменты и обучение

Подробнее в этой категории

FastVLM: Apple представила новую быструю языковую модель зрения

Машинное обучение по принципу "человек в контуре" (HITL) - объяснение

Автоматизация производства с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics