Глоссарий

Самостоятельное обучение

Узнай, как самоконтролируемое обучение использует немаркированные данные для эффективного обучения, преобразуя ИИ в компьютерном зрении, NLP и других областях.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Самоконтролируемое обучение - это подход к машинному обучению, который использует немеченые данные для тренировки моделей. В отличие от контролируемого обучения, которое требует наборов меченых данных, самоконтролируемое обучение создает свои собственные метки на основе структуры, присущей самим немеченым данным. Этот метод особенно ценен в таких областях, как компьютерное зрение (CV) и обработка естественного языка (NLP), где огромные объемы немеченых данных легко доступны, но ручная маркировка является дорогостоящей и отнимает много времени.

Как работает самоконтролируемое обучение

Основная идея самоподдерживающегося обучения заключается в разработке "предтекстовой задачи", которая позволяет модели изучать полезные представления из немеченых данных. Эта предтекстовая задача формулируется таким образом, что ее решение требует понимания значимых паттернов в данных. Например, в обработке изображений предтекстовой задачей может быть предсказание поворота, примененного к фрагменту изображения, или колоризация полутонового изображения. В обработке языка распространенной предтекстовой задачей является моделирование языка по маске, когда модель предсказывает маскированные слова в предложении.

После того как модель обучена на предтекстовой задаче с использованием большого количества неразмеченных данных, она учится общим характеристикам и представлениям данных. Затем эти представления могут быть перенесены и отлажены для решения последующих задач, таких как обнаружение объектов, классификация изображений или их сегментация, причем зачастую с гораздо меньшим количеством помеченных данных, чем это потребовалось бы для чисто контролируемого обучения. Такая возможность переноса обучения является ключевым преимуществом самоконтролируемого обучения.

Области применения самоконтролируемого обучения

Самостоятельное обучение нашло применение в различных областях, особенно там, где меченых данных мало или их дорого получить:

  • Компьютерное зрение: В анализе медицинских изображений самоконтролируемое обучение позволяет предварительно обучать модели на больших массивах данных немаркированных медицинских изображений (например, рентгеновских снимков или снимков МРТ). Затем эти предварительно обученные модели можно точно настроить для решения конкретных диагностических задач, используя ограниченное количество помеченных данных, что повышает точность и эффективность интерпретации медицинских изображений. Например, такие модели, как Ultralytics YOLOv8 могут извлечь выгоду из самостоятельного предварительного обучения, чтобы повысить свою производительность при обнаружении аномалий на медицинских изображениях.
  • Обработка естественного языка: Большие языковые модели (LLM), такие как GPT-4, часто предварительно обучаются с помощью методов самоконтроля на огромных массивах текстовых данных. Такое предварительное обучение позволяет им научиться общим возможностям понимания и генерации языка, которые затем настраиваются для конкретных задач НЛП, таких как резюмирование текста, перевод или анализ настроения. Такие техники, как оперативная настройка, позволяют использовать эти предварительно обученные модели для эффективной адаптации к новым задачам.

Самостоятельное обучение против схожих концепций

Важно отличать самоконтролируемое обучение от других родственных парадигм машинного обучения:

  • Неподконтрольное обучение: Хотя оба они используют немеченые данные, самоконтролируемое обучение направлено на поиск присущих данным структур или закономерностей без какой-либо конкретной задачи (например, кластеризация, уменьшение размерности). Самостоятельное обучение, с другой стороны, формулирует предварительную задачу, чтобы выучить представления, которые пригодятся для последующих задач.
  • Полуконтрольное обучение: Полусамостоятельное обучение использует комбинацию меченых и немеченых данных, но при этом все равно опирается на некоторое количество меченых данных для обучения. Самостоятельное обучение в первую очередь направлено на обучение на немаркированных данных, а затем на потенциальную тонкую настройку с помощью небольшого количества маркированных данных.

Самостоятельное обучение представляет собой значительный прогресс в машинном обучении, позволяя эффективно использовать огромные объемы немаркированных данных и снижая зависимость от дорогостоящих наборов данных с метками. Поскольку такие модели, как Ultralytics YOLO11 продолжают развиваться, методы самоконтроля, вероятно, будут играть все более важную роль в повышении их производительности и применимости в различных приложениях ИИ для технического зрения.

Читать полностью