Глоссарий

Семантический поиск

Открой для себя силу семантического поиска! Узнай, как ИИ, NLP и ML повышают точность поиска за счет понимания намерений и контекста пользователя.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Семантический поиск представляет собой значительное достижение в области информационного поиска, выходящее за рамки простого подбора ключевых слов и позволяющее понять намерение и контекстуальный смысл, стоящий за запросами пользователей. Вместо того чтобы просто искать дословные вхождения слов, семантический поиск использует методы искусственного интеллекта (ИИ), в частности обработку естественного языка (NLP), чтобы понять нюансы языка, связи между словами и основную цель пользователя. Это позволяет поисковым системам выдавать более релевантные и точные результаты, интерпретируя то, что пользователь хочет найти, а не просто конкретные термины, которые он набрал. Это основной компонент, позволяющий сделать взаимодействие с информационными системами, от веб-поиска до внутренних баз знаний, более естественным и интуитивно понятным, что в корне повышает эффективность поиска информации.

Как работает семантический поиск

По своей сути семантический поиск использует концепции из NLP и машинного обучения (ML) для расшифровки смысла, заложенного в текст или другие типы данных. Этот процесс часто включает в себя преобразование данных (таких как слова, предложения, документы или даже изображения) в числовые представления, называемые вкраплениями. Эти вкрапления, как правило, высокоразмерные векторы, отражают семантическую сущность данных. Элементы с похожими значениями, концепциями или контекстами располагаются ближе друг к другу в этом векторном пространстве.

Когда пользователь выполняет поиск, его запрос (это может быть текст на естественном языке, изображение и т. д.) также преобразуется во вкрапление с помощью той же модели ML. Затем система использует методы векторного поиска, часто на основе специализированных векторных баз данных, таких как Pinecone или Milvus, чтобы эффективно найти в своем индексе элементы, чьи вкрапления наиболее близки (наиболее похожи) к вкраплениям запроса. Это сходство обычно измеряется с помощью метрик расстояния, таких как косинусное сходство или евклидово расстояние. Для генерации этих мощных, учитывающих контекст вкраплений часто используются продвинутые модели глубокого обучения (DL), включая такие архитектуры, как трансформаторы (например, BERT). Крупнейшие поисковые системы, такие как Google Search, уже много лет используют семантическое понимание, чтобы улучшить качество результатов, не ограничиваясь простой частотой ключевых слов.

Области применения семантического поиска

Семантический поиск улучшает различные приложения, где понимание намерений пользователя или контекста данных имеет решающее значение:

  • Расширенный веб-поиск: Выходишь за рамки ключевых слов, чтобы понять тему и намерение поиска (например, поиск "лучшее место для наблюдения северного сияния зимой" дает результаты о конкретных местах и идеальном времени, а не просто страницы, содержащие именно эти слова).
  • E-commerce Product Discovery: Позволяет пользователям искать товары, используя описательный, естественный язык (например, найти "удобную обувь, в которой можно стоять целый день", вместо того чтобы знать конкретные бренды или названия продуктов). Это часто интегрируется с рекомендательными системами.
  • Управление внутренними знаниями: Позволяет сотрудникам организации находить нужные документы, отчеты или экспертные заключения с помощью поиска по понятиям и смыслу, улучшая доступ к информации с помощью таких инструментов, как Ultralytics HUB.
  • Чат-боты для поддержки клиентов: Задействуй чат-боты и виртуальных помощников, чтобы они лучше понимали вопросы пользователей и предоставляли более точные ответы или релевантные справочные статьи, часто используя большие языковые модели (LLM).
  • Рекомендация контента: Предложение статей, видео или музыки на основе семантического сходства с контентом, с которым пользователь взаимодействовал ранее. Платформы вроде Spotify используют похожие концепции.
  • Исследование данных: Такие инструменты, как Ultralytics Explorer Dashboard, могут использовать семантическое сходство, чтобы помочь пользователям ориентироваться и понимать большие наборы данных, включая наборы изображений, используемые в компьютерном зрении (CV). Например, поиск изображений, семантически схожих с выбранным изображением в таком наборе данных, как COCO.

Семантический поиск против смежных понятий

Полезно отличать семантический поиск от смежных терминов:

  • Поиск по ключевым словам: Этот традиционный подход сопоставляет буквальные слова или фразы в запросе с документами, содержащими именно эти термины. В нем нет понимания синонимов, контекста или намерений пользователя. Семантический поиск призван преодолеть эти ограничения.
  • Векторный поиск: Это метод, используемый для поиска похожих элементов на основе близости их векторных вкраплений. Хотя векторный поиск является основным компонентом многих современных реализаций семантического поиска (справляется с эффективной поисковой частью), семантический поиск - это более широкое понятие, включающее в себя понимание смысла и контекста запроса и данных в первую очередь, часто с помощью сложных моделей NLP.
  • Граф знаний: Граф знаний структурирует информацию в виде сущностей и отношений. Хотя он может значительно расширить возможности семантического поиска, предоставляя структурированный контекст и позволяя проводить сложные рассуждения( здесь часто используютсязапросы SPARQL ), семантический поиск также может работать непосредственно с неструктурированными данными, используя вкрапления без явной структуры графа. Это взаимодополняющие технологии.
  • Распознавание именованных сущностей (NER): NER идентифицирует конкретные сущности (например, имена, места, организации) в тексте. Это может быть одним из этапов NLP-конвейера, который используется для семантического поиска путем извлечения ключевых понятий, но это не семантический поиск как таковой, который фокусируется на общем значении и сходстве.

Семантический поиск играет важную роль в создании более интеллектуальных и удобных систем искусственного интеллекта, преодолевая разрыв между человеческим языком и машинным пониманием для более эффективного доступа к информации и взаимодействия в различных областях, от повседневного веб-поиска до специализированных приложений искусственного интеллекта, подобных тем, что созданы с помощью Ultralytics YOLO модели для визуального поиска или анализа в Ultralytics HUB.

Читать полностью