Глоссарий

t-распределенное стохастическое встраивание соседей (t-SNE)

Изучи t-SNE, мощную технику для визуализации высокоразмерных данных. Узнай о ее использовании, преимуществах и применении в AI и ML.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

t-distributed Stochastic Neighbor Embedding (t-SNE) - это популярная техника снижения размерности, особенно хорошо подходящая для визуализации высокоразмерных наборов данных в низкоразмерном пространстве, как правило, двух- или трехмерном. Разработанная Лоренсом ван дер Маатеном и Джеффри Хинтоном, она отлично раскрывает базовую структуру данных, такую как кластеры и многообразия, делая сложные данные более понятными с помощью визуального осмотра. Он широко используется в областях машинного обучения (ML) и анализа данных.

Понимание t-SNE

Основная идея t-SNE заключается в сохранении локальной структуры данных. Он моделирует сходство между высокоразмерными точками данных как условные вероятности, а затем пытается найти низкоразмерное вложение, которое дает схожее распределение вероятностей между сопоставленными точками. В отличие от линейных методов, таких как анализ главных компонент (PCA), t-SNE является нелинейным и вероятностным. Это позволяет ему улавливать сложные взаимосвязи, которые PCA может упустить, особенно когда данные лежат на искривленных многообразиях. Однако PCA лучше сохраняет глобальную структуру и дисперсию данных.

Алгоритм вычисляет попарное сходство между точками как в высоких, так и в низких измерениях. Он использует гауссово распределение в высокоразмерном пространстве и t-распределение (в частности, t-распределение Стьюдента с одной степенью свободы) в низкоразмерном пространстве. Использование t-распределения помогает облегчить "проблему скученности" (когда точки стремятся сгрудиться в центре карты) и более эффективно разделяет разнородные точки на низкоразмерной карте. Процесс заключается в минимизации расхождения между этими двумя распределениями с помощью градиентного спуска. За подробным техническим объяснением обращайся к оригинальной статье о t-SNE.

Приложения в искусственном интеллекте и ML

t-SNE - это прежде всего техника визуализации, неоценимая для изучения и понимания высокоразмерных данных, генерируемых моделями ИИ. Вот несколько примеров:

Основные соображения

Несмотря на свою мощь, t-SNE обладает характеристиками, которые пользователи должны понимать:

  • Вычислительные затраты: t-SNE может потребовать больших вычислительных затрат, особенно для очень больших наборов данных, так как требует вычисления парного сходства.
  • Чувствительность к гиперпараметрам: Результаты чувствительны к гиперпараметрам, в частности к параметру "perplexity", который влияет на количество локальных соседей, учитываемых для каждой точки. Часто требуется правильная настройка гиперпараметров. Реализации, подобные той, что есть в scikit-learn, предлагают регуляторы для этих параметров.
  • Интерпретация: Размеры кластеров и расстояния между ними на графике t-SNE не всегда напрямую соответствуют реальным размерам кластеров или разделениям в исходном высокомерном пространстве. В первую очередь он выявляет локальные сходства и группировки. Это инструмент для исследования, а не для окончательного анализа кластеризации, как K-Means.

В общем, t-SNE - это ценный инструмент в наборе средств искусственного интеллекта (ИИ) для визуализации и получения интуиции о сложных, высокоразмерных наборах данных, дополняющий другие аналитические методы.

Читать полностью