Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Понимание естественного языка (NLU)

Изучите технологию понимания естественного языка (NLU) и то, как она позволяет машинам интерпретировать намерения и эмоции. Научитесь соединять человеческий язык с искусственным интеллектом в области зрения.

Понимание естественного языка (NLU) — это специализированное подразделение искусственного интеллекта (AI), которое сосредоточено на понимании прочитанного и интерпретации человеческого языка машинами. В то время как более широкие технологии позволяют компьютерам обрабатывать текстовые данные, NLU специально позволяет системам улавливать смысл, намерение и настроение за словами, ориентируясь в сложностях грамматики, сленга и контекста. Используя передовые архитектуры глубокого обучения (DL), NLU преобразует неструктурированный текст в структурированную, машиночитаемую логику, выступая в качестве моста между человеческим общением и вычислительными действиями.

Основные механизмы NLU

Чтобы понять язык, алгоритмы NLU разбивают текст на составные части и анализируют их взаимосвязи. Этот процесс включает в себя несколько ключевых лингвистических концепций:

  • Токенизация: базовый этап, на котором исходный текст сегментируется на более мелкие единицы, такие как слова или подслова. Это подготавливает данные для числового представления в нейронной сети.
  • Распознавание именованных сущностей (NER): Модели NLU идентифицируют конкретные сущности в предложении, такие как люди, места, даты или организации. Например, в фразе «Забронировать рейс в Лондон» «Лондон» извлекается как сущность-место.
  • Классификация намерений: важная функция для интерактивных систем, которая определяет цель пользователя. Классификация намерений анализирует такие фразы, как «У меня не работает интернет», чтобы понять, что пользователь сообщает о технической проблеме, а не задает общий вопрос.
  • Семантический анализ: помимо простых ключевых слов, этот процесс оценивает значение структур предложений. Исследователи из Stanford NLP Group давно стали пионерами в области методов устранения многозначности слов на основе контекста, обеспечивая правильное толкование слова «банк» как финансового учреждения или берега реки в зависимости от окружающего текста.

НЛУ и смежные дисциплины

Важно отличать NLU от близко связанных областей в рамках компьютерных наук:

  • Обработка естественного языка (NLP): NLP — это общий термин, который включает в себя NLU. В то время как NLP охватывает весь процесс обработки языковых данных, включая перевод и простой синтаксический анализ, NLU касается исключительно аспекта понимания. Другой подраздел, генерация естественного языка (NLG), занимается созданием новых текстовых ответов.
  • Компьютерное зрение (CV): Традиционно CV обрабатывает визуальные данные, а NLU — текстовые. Однако современные мультимодальные модели объединяют эти дисциплины. NLU анализирует текстовый запрос (например, «найди красную машину»), а CV выполняет визуальный поиск на основе этого понимания.
  • Распознавание речи: также известная как «речь в текст», эта технология преобразует аудиосигналы в письменные слова. NLU включается только после того, как речь была преобразована в текст, чтобы интерпретировать сказанное.

Применение в реальном мире

NLU обеспечивает работу многих интеллектуальных систем, на которые ежедневно полагаются предприятия и потребители.

  1. detect теллектуальная поддержка клиентов: современные чат-боты используют NLU для решения запросов в службу поддержки без участия человека. Используя анализ настроения, эти агенты могут обнаружить разочарование в сообщении клиента и автоматически передать проблему менеджеру-человеку.
  2. Семантические поисковые системы: в отличие от традиционного поиска по ключевым словам, системы на основе NLU понимают контекст запроса. Организации используют семантический поиск, чтобы сотрудники могли запрашивать внутренние базы данных, используя естественные вопросы, такие как «Покажи мне отчеты о продажах за последний четвертый квартал», получая точные документы, а не список слабо связанных файлов.
  3. Интеграция зрения и языка: в области искусственного интеллекта, связанного со зрением, NLU позволяет осуществлять «обнаружение объектов с открытым словарем». Вместо того, чтобы ограничиваться фиксированными категориями (такими как 80 классов в стандартных наборах данных), модели, подобные YOLO, используют NLU для понимания пользовательских текстовых подсказок и нахождения этих объектов на изображениях.

Пример кода: Обнаружение объектов на основе NLU

Следующий пример демонстрирует, как концепции NLU интегрируются в рабочие процессы компьютерного зрения с использованием ultralytics пакета. Здесь мы используем модель, которая объединяет текстовый кодировщик (NLU) с базовой структурой видения для detect , определенных исключительно с помощью описаний на естественном языке.

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
# This model uses NLU to interpret text prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language descriptions
# The NLU component parses "person in red shirt" to guide detection
model.set_classes(["person in red shirt", "blue bus"])

# Run inference on an image
results = model.predict("city_street.jpg")

# Display the results
results[0].show()

Инструменты и будущие тенденции

Разработка NLU опирается на надежные фреймворки. Библиотеки, такие как PyTorch предоставляют tensor , необходимые для построения моделей глубокого обучения, а spaCy предлагает инструменты промышленного уровня для лингвистической обработки.

В перспективе отрасль движется в направлении унифицированных мультимодальных систем. Ultralytics упрощает эту эволюцию, предлагая комплексную среду для управления наборами данных, аннотирования изображений и обучения моделей, которые могут быть развернуты на периферии. В то время как большие языковые модели (LLM) обрабатывают сложные рассуждения, их интеграция с высокоскоростными моделями видения, такими как YOLO26, создает мощные агенты, способные видеть, понимать и взаимодействовать с миром в режиме реального времени. Эта синергия представляет собой следующую границу в приложениях машинного обучения (ML).

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас