Глоссарий

Полууправляемое обучение

Узнай, как полуподчиненное обучение объединяет меченые и немеченые данные, чтобы улучшить модели ИИ, снизить затраты на маркировку и повысить точность.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Полуподконтрольное обучение (SSL) представляет собой мощное промежуточное звено в машинном обучении (ML), объединяющее небольшое количество меченых данных с большим количеством немеченых данных во время обучения. Этот подход особенно ценен в сценариях, где получение меченых данных дорого, требует много времени или нецелесообразно, а немеченых данных много. SSL нацелен на использование структуры, лежащей в основе немеченых данных, для улучшения работы модели сверх того, что можно было бы достичь, используя только ограниченное количество меченых данных, что делает его практичной техникой для решения многих реальных задач искусственного интеллекта (ИИ).

Как работает полуконтрольное обучение

Алгоритмы SSL работают, делая определенные предположения об отношениях между мечеными и немечеными данными. К общим предположениям относятся "предположение о гладкости" (точки, расположенные близко друг к другу, скорее всего, будут иметь общую метку) или "предположение о кластере" (данные имеют тенденцию формировать отдельные кластеры, и точки внутри одного кластера, скорее всего, имеют общую метку). Методы часто включают в себя обучение первоначальной модели на помеченных данных, а затем использование ее для создания псевдометок для немеченых данных на основе высокодостоверных предсказаний. Затем модель переобучается как на исходных меченых данных, так и на новых псевдомеченых. Другой подход - регуляризация согласованности, когда модель поощряется выдавать один и тот же результат для немеченого примера, даже если ее входные данные немного возмущены, что часто достигается путем увеличения данных. Эти методы позволяют модели обучаться на основе закономерностей и распределений, присущих большому количеству немаркированных примеров. Более продвинутые техники рассматриваются на таких ресурсах, как посты в блогеGoogle AI Blog, посвященные SSL.

Сравнение с другими парадигмами обучения

Полуподконтрольное обучение занимает уникальное пространство между другими основными типами обучения:

  • Супервизорное обучение: Полностью полагается на помеченные обучающие данные. SSL отличается тем, что включает в себя немеченые данные для потенциального улучшения производительности, когда меченых данных не хватает.
  • Неподконтрольное обучение: Использует только немеченые данные для поиска закономерностей или структур, например кластеризация или уменьшение размерности. SSL использует немеченые данные, но направляет процесс обучения с помощью небольшого набора меченых примеров для выполнения таких задач, как классификация или регрессия.
  • Самоконтролируемое обучение (SSL): Тип несамостоятельного обучения, в котором метки автоматически генерируются из самих входных данных (например, предсказание замаскированной части изображения). Хотя в нем используются немеченые данные, механизм генерации надзора отличается от типичных полуподконтрольных методов, которые явно объединяют предварительно помеченные и немеченые данные.

Применение в реальном мире

SSL очень эффективен в доменах, где маркировка является узким местом:

  1. Классификация веб-страниц: Вручную можно пометить небольшое количество сайтов (например, "спорт", "новости", "технологии"), но непрактично пометить миллиарды. SSL может использовать огромное количество немаркированных веб-сайтов для повышения точности и надежности классификатора, обучаясь на текстовом контенте и структуре ссылок(обзор по добыче веб-контента).
  2. Распознавание речи: Транскрибирование аудио требует значительных человеческих усилий. SSL позволяет системам тренироваться на небольшом количестве транскрибированного аудио наряду с большими объемами не транскрибированных аудиоданных, улучшая распознавание различных акцентов и стилей речи(исследования в области обработки речи).
  3. Анализ медицинских изображений: Экспертное аннотирование медицинских снимков (например, МРТ или КТ для выявления опухолей) стоит дорого и требует специальных знаний. SSL может использовать множество немаркированных сканов для повышения производительности диагностических моделей, обученных на ограниченном наборе аннотированных изображений, что потенциально может привести к созданию лучших ИИ-решений в здравоохранении.
  4. Обнаружение объектов в компьютерном зрении (CV): Создание точных ограничительных рамок для объектов на тысячах изображений - трудоемкое занятие(сбор данных и руководство по аннотированию). Методы SSL могут использовать большое количество неразмеченных изображений или видеокадров наряду с небольшим набором меченых данных, чтобы улучшить производительность детектора для таких моделей, как Ultralytics YOLO.

Преимущества и проблемы

Основным преимуществом SSL является его способность уменьшить зависимость от больших наборов меченых данных, что позволяет сэкономить время и ресурсы, связанные с маркировкой данных. Это часто приводит к лучшему обобщению модели по сравнению с чисто супервизорными моделями, обученными на ограниченных данных, за счет использования информации из немеченых образцов. Однако успех SSL во многом зависит от правильности базовых предположений о данных. Если эти предположения не выполняются (например, распределение немеченых данных сильно отличается от меченых), то методы SSL могут даже ухудшить производительность. Тщательный выбор и реализация методов SSL имеют решающее значение и часто требуют опыта в практике MLOps.

Инструменты и обучение

Многие современные фреймворки для глубокого обучения (Deep Learning, DL), включая PyTorchPyTorch официальный сайтPyTorch ) и TensorFlowTensorFlow официальный сайтTensorFlow ), предлагают функционал или могут быть адаптированы для реализации SSL-алгоритмов. Библиотеки вроде Scikit-learn предоставляют некоторые методы SSL. Такие платформы, как Ultralytics HUB, упрощают этот процесс, облегчая управление наборами данныхUltralytics документацияUltralytics HUB Datasets), которые могут содержать смеси меченых и немеченых данных, упрощая обучениеUltralytics HUB Cloud Training) и развертывание(руководство по вариантам развертывания моделей) моделей, разработанных с использованием таких структур данных. Исследования в области SSL продолжают развиваться, и их результаты часто представляются на таких крупных конференциях по ИИ, как NeurIPS и ICML.

Читать полностью