Глоссарий

Неподконтрольное обучение

Открой для себя, как неконтролируемое обучение использует кластеризацию, снижение размерности и обнаружение аномалий для выявления скрытых закономерностей в данных.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Неподконтрольное обучение - это категория машинного обучения (ML), в которой алгоритмы обучаются на данных, не имеющих заранее заданных меток или категорий. В отличие от контролируемого обучения, цель не в том, чтобы предсказать известный результат на основе входных характеристик. Вместо этого система пытается самостоятельно изучить структуру, закономерности и взаимосвязи внутри данных. Это все равно что дать компьютеру большую коллекцию неотсортированных предметов и попросить его найти естественные группировки или интересные особенности, не указывая ему, что искать. Такой подход крайне важен для изучения сложных наборов данных и обнаружения открытий, которые могут быть неочевидны заранее, и является ключевой частью современного искусственного интеллекта (ИИ).

Как работает неконтролируемое обучение

При неконтролируемом обучении алгоритм рассматривает точки входных данных и пытается выявить сходства, различия или корреляции между ними. На этапе обучения нет "правильных" ответов или целевых результатов. Алгоритмы должны сделать вывод о присущей данным структуре. Часто это включает в себя организацию точек данных в группы(кластеризация), уменьшение сложности данных(снижение размерности) или выявление необычных точек данных(обнаружение аномалий). Успех несамостоятельных методов часто зависит от того, насколько хорошо алгоритм может уловить внутренние свойства набора данных без внешних подсказок.

Ключевые техники и концепции

Под зонтик неконтролируемого обучения попадает несколько техник:

  • Кластеризация: Это предполагает группировку похожих точек данных по определенным признакам. Цель - создать кластеры, в которых элементы внутри кластера будут очень похожи, а элементы в разных кластерах - несхожи. К распространенным алгоритмам относятся K-Means Clustering и DBSCAN. Это полезно для таких задач, как сегментация клиентов или организация больших коллекций документов.
  • Снижение размерности: Эти методы направлены на то, чтобы уменьшить количество входных переменных (признаков) в наборе данных, сохранив при этом важную информацию. Это упрощает модели, снижает вычислительные затраты и может помочь с визуализацией данных. Среди популярных методов - анализ главных компонент (PCA) и t-Distributed Stochastic Neighbor Embedding (t-SNE).
  • Обучение правилам ассоциаций: Это позволяет обнаружить интересные взаимосвязи или правила ассоциации между переменными в больших массивах данных. Классический пример - анализ рыночной корзины, выявляющий товары, которые часто покупают вместе. Здесь обычно используются алгоритмы вроде Apriori. Узнай больше о добыче ассоциативных правил.
  • Обнаружение аномалий: Эта методика направлена на выявление точек данных, которые значительно отклоняются от большинства данных. Она широко используется для обнаружения мошенничества, сетевой безопасности и выявления дефектов в производстве.
  • Генеративные модели: Некоторые неконтролируемые модели, например генеративные адверсарные сети (GAN) или автоэнкодеры, могут изучать базовое распределение данных, чтобы генерировать новые образцы данных, которые похожи на исходные.

Применение в реальном мире

Неподконтрольное обучение находит применение в различных областях:

Сравнение с другими парадигмами обучения

Неподконтрольное обучение существенно отличается от других подходов ML:

Неподконтрольное обучение - это мощный инструмент для изучения данных, обнаружения скрытых структур и извлечения ценных характеристик, который часто служит критически важным первым шагом в сложных конвейерах анализа данных или дополняет другие методы ML. Платформы вроде Ultralytics HUB предоставляют среду, в которой можно разрабатывать и управлять различными ML-моделями, потенциально включающими в себя методы подготовки или анализа данных без контроля. Такие фреймворки, как PyTorch и TensorFlow предлагают обширные библиотеки, поддерживающие реализацию алгоритмов без контроля.

Читать полностью