Узнай, как полуподчиненное обучение объединяет меченые и немеченые данные, чтобы улучшить модели ИИ, снизить затраты на маркировку и повысить точность.
Полуподконтрольное обучение (SSL) представляет собой мощное промежуточное звено в машинном обучении (ML), объединяющее небольшое количество меченых данных с большим количеством немеченых данных во время обучения. Этот подход особенно ценен в сценариях, где получение меченых данных дорого, требует много времени или нецелесообразно, а немеченых данных много. SSL нацелен на использование структуры, лежащей в основе немеченых данных, для улучшения работы модели сверх того, что можно было бы достичь, используя только ограниченное количество меченых данных, что делает его практичной техникой для решения многих реальных задач искусственного интеллекта (ИИ).
Алгоритмы SSL работают, делая определенные предположения об отношениях между мечеными и немечеными данными. К общим предположениям относятся "предположение о гладкости" (точки, расположенные близко друг к другу, скорее всего, будут иметь общую метку) или "предположение о кластере" (данные имеют тенденцию формировать отдельные кластеры, и точки внутри одного кластера, скорее всего, имеют общую метку). Методы часто включают в себя обучение первоначальной модели на помеченных данных, а затем использование ее для создания псевдометок для немеченых данных на основе высокодостоверных предсказаний. Затем модель переобучается как на исходных меченых данных, так и на новых псевдомеченых. Другой подход - регуляризация согласованности, когда модель поощряется выдавать один и тот же результат для немеченого примера, даже если ее входные данные немного возмущены, что часто достигается путем увеличения данных. Эти методы позволяют модели обучаться на основе закономерностей и распределений, присущих большому количеству немаркированных примеров. Более продвинутые техники рассматриваются на таких ресурсах, как посты в блогеGoogle AI Blog, посвященные SSL.
Полуподконтрольное обучение занимает уникальное пространство между другими основными типами обучения:
SSL очень эффективен в доменах, где маркировка является узким местом:
Основным преимуществом SSL является его способность уменьшить зависимость от больших наборов меченых данных, что позволяет сэкономить время и ресурсы, связанные с маркировкой данных. Это часто приводит к лучшему обобщению модели по сравнению с чисто супервизорными моделями, обученными на ограниченных данных, за счет использования информации из немеченых образцов. Однако успех SSL во многом зависит от правильности базовых предположений о данных. Если эти предположения не выполняются (например, распределение немеченых данных сильно отличается от меченых), то методы SSL могут даже ухудшить производительность. Тщательный выбор и реализация методов SSL имеют решающее значение и часто требуют опыта в практике MLOps.
Многие современные фреймворки для глубокого обучения (Deep Learning, DL), включая PyTorchPyTorch официальный сайтPyTorch ) и TensorFlowTensorFlow официальный сайтTensorFlow ), предлагают функционал или могут быть адаптированы для реализации SSL-алгоритмов. Библиотеки вроде Scikit-learn предоставляют некоторые методы SSL. Такие платформы, как Ultralytics HUB, упрощают этот процесс, облегчая управление наборами данныхUltralytics документацияUltralytics HUB Datasets), которые могут содержать смеси меченых и немеченых данных, упрощая обучениеUltralytics HUB Cloud Training) и развертывание(руководство по вариантам развертывания моделей) моделей, разработанных с использованием таких структур данных. Исследования в области SSL продолжают развиваться, и их результаты часто представляются на таких крупных конференциях по ИИ, как NeurIPS и ICML.