Глоссарий

Вкрапления

Узнай, что такое вкрапления и как они помогают искусственному интеллекту, фиксируя семантические связи в данных для NLP, рекомендаций и компьютерного зрения.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В сфере машинного обучения (ML) и искусственного интеллекта (AI) вкрапления - это фундаментальная техника для представления сложных данных - слов, предложений, изображений или других элементов - в виде плотных числовых векторов в многомерном пространстве. Этому преобразованию учатся на основе данных, что позволяет алгоритмам улавливать семантический смысл, контекст или основные характеристики входных данных. Главное преимущество заключается в том, что элементы, которые считаются похожими на основе обучающих данных, отображаются на близлежащие точки в этом "пространстве вкраплений", что позволяет машинам понимать сложные взаимосвязи и закономерности гораздо эффективнее, чем традиционные разреженные представления вроде одноточечного кодирования.

Что такое эмбеддинги?

Эмбеддинги - это выученные, относительно низкоразмерные векторные представления дискретных переменных (например, слов) или сложных объектов (например, изображений или профилей пользователей). В отличие от таких методов, как одноточечное кодирование, которые создают очень высокоразмерные разреженные векторы, где каждое измерение соответствует одному объекту и не содержит информации о присущих ему отношениях, эмбеддинги - это плотные векторы (обычно с десятками и тысячами измерений), где каждое измерение вносит свой вклад в представление характеристик объекта. Очень важно, что положение этих векторов в пространстве вкраплений отражает семантические отношения. Например, при встраивании слов слова с похожими значениями или используемые в похожих контекстах, такие как "король" и "королева" или "идти" и "бежать", будут иметь векторы, которые математически близки (например, с помощью косинусного сходства). Эта близость отражает семантическое сходство, полученное из данных.

Как работают эмбеддинги

Обычно вкрапления генерируются с помощью нейросетевых (NN) моделей, обученных на больших наборах данных с помощью таких методов, как самоподчиненное обучение. Например, распространенная техника создания вкраплений слов, примером которой является Word2Vec, предполагает обучение модели предсказания слова на основе окружающих его слов (его контекста) в большом текстовом корпусе. В процессе обучения сеть настраивает свои внутренние параметры, включая векторы вкраплений для каждого слова, чтобы минимизировать ошибки предсказания с помощью таких методов, как обратное распространение. Полученные векторы неявно кодируют синтаксическую и семантическую информацию. Количество измерений в пространстве встраивания - критический гиперпараметр, влияющий на способность модели улавливать детали в сравнении с вычислительными затратами и риском переборщить с подгонкой. Визуализация этих высокоразмерных пространств данных часто требует применения методов снижения размерности, таких как t-SNE или PCA, которые можно изучить с помощью таких инструментов, как TensorFlow Projector.

Применение вкраплений

Встраивания являются важнейшими компонентами многих современных систем искусственного интеллекта в различных областях:

  • Обработка естественного языка (NLP): Вкрапления представляют собой слова, предложения или целые документы. Такие модели, как архитектуры BERT и Transformer, в значительной степени опираются на вкрапления для понимания языковых нюансов в таких задачах, как машинный перевод, анализ настроения, ответы на вопросы и эффективный семантический поиск. Пример: Чатбот службы поддержки использует вкрапления предложений, чтобы найти наиболее релевантный ответ в своей базе знаний, даже если в запросе пользователя не используются точные ключевые слова.
  • Системы рекомендаций: Вкрапления могут представлять пользователей и предметы (например, фильмы, продукты или статьи). Обучая вкрапления так, чтобы пользователи и предметы, которые им нравятся, были близки в пространстве вкраплений, системы могут рекомендовать новые предметы, похожие на те, с которыми пользователь взаимодействовал ранее или которые понравились похожим пользователям(коллаборативная фильтрация). Такие компании, как Netflix и Amazon, широко используют эту технологию.
  • Компьютерное зрение (КВ): Изображения или фрагменты изображений можно преобразовать во вкрапления, которые фиксируют визуальные особенности. Это является основой для таких задач, как поиск изображений (нахождение визуально похожих изображений), классификация изображений, а также служит основой для более сложных задач, таких как обнаружение объектов и сегментация изображений, выполняемых такими моделями, как Ultralytics YOLO. Пример: Платформа электронной коммерции использует встраивание изображений, чтобы пользователи могли загрузить фотографию предмета одежды и найти похожие товары в своем каталоге. Платформы вроде Ultralytics HUB облегчают обучение и развертывание таких моделей.
  • Графовая аналитика: Вкрапления могут представлять узлы и ребра в графах, захватывая структуру сети и отношения между узлами для таких задач, как предсказание связей или обнаружение сообществ, часто используя нейронные сети графов (GNN).

Вкрапления против смежных понятий

Полезно отличать вкрапления от родственных терминов:

  • Эмбеддинги против извлечения признаков: Эмбеддинги - это сложная, часто автоматизированная форма извлечения признаков, достигаемая с помощью глубокого обучения. В то время как традиционное извлечение признаков может включать в себя ручное определение признаков (например, цветовых гистограмм для изображений), эмбеддинги изучают соответствующие признаки непосредственно из данных во время обучения.
  • Эмбеддинги против векторного поиска / векторных баз данных: Эмбеддинги - это векторные представления элементов данных. Векторный поиск - это процесс обращения к коллекции эмбеддингов для поиска наиболее похожих (близких) на вектор запроса, часто использующий алгоритмы приближенных ближайших соседей (ANN) для повышения эффективности. Векторные базы данных (например, Pinecone или Milvus) - это специализированные базы данных, оптимизированные для хранения, индексации и выполнения быстрого векторного поиска по большим объемам эмбеддингов.

Вкрапления - это мощный способ представления данных для моделей машинного обучения, позволяющий им понимать семантические сходства и сложные закономерности в различных типах данных, от текста до изображений. Они являются краеугольной технологией, обеспечивающей прогресс во многих приложениях ИИ, и неотъемлемой частью возможностей современных ML-фреймворков, таких как PyTorch и TensorFlow.

Читать полностью