Глоссарий

Обработка естественного языка (NLP)

Открой для себя концепции, техники и приложения обработки естественного языка (NLP), такие как чат-боты, анализ настроения и машинный перевод.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Обработка естественного языка (Natural Language Processing, NLP) - это динамично развивающаяся область искусственного интеллекта (AI) и машинного обучения (ML), посвященная тому, чтобы дать компьютерам возможность понимать, обрабатывать, интерпретировать и генерировать человеческий язык - как текст, так и речь. Она объединяет принципы вычислительной лингвистики со статистическим моделированием, ML и моделями глубокого обучения (DL), чтобы преодолеть разрыв между человеческим общением и компьютерным пониманием. Конечная цель - позволить машинам взаимодействовать с языком так, чтобы это было осмысленно и полезно, автоматизируя задачи, которые традиционно требуют лингвистических способностей человека.

Ключевые понятия в НЛП

НЛП включает в себя несколько основных задач, которые разбивают сложность языка на компоненты, которые машины могут анализировать и действовать на их основе:

  • Токенизация: Начальный этап разбиения текста на более мелкие единицы, такие как слова или подслова (лексемы).
  • Named Entity Recognition (NER): Identifying and categorizing key entities in text, such as names of people, organizations, locations, dates, and monetary values.
  • Анализ настроения: Определение эмоционального тона или субъективного мнения, выраженного в фрагменте текста (например, позитивный, негативный, нейтральный).
  • Машинный перевод: Автоматический перевод текста или речи с одного языка на другой, как в таких инструментах, как Google Translate.
  • Языковое моделирование: Построение моделей, предсказывающих вероятность появления последовательности слов, крайне важно для таких задач, как создание текста и распознавание речи.

Как работает НЛП

Системы NLP обычно используют конвейерный подход. Сырые текстовые данные сначала проходят предварительную обработку, которая включает такие задачи, как очистка текста (удаление нерелевантных символов или форматирование), токенизация, а иногда и нормализация (приведение слов к базовой форме). После предварительной обработки извлекаются признаки, имеющие отношение к задаче. Затем эти признаки вводятся в ML- или DL-модели для анализа или генерации.

Современное НЛП в значительной степени опирается на нейронные сети (НС), особенно на такие сложные архитектуры, как рекуррентные нейронные сети (РНС) для работы с последовательными данными, а в последнее время - на трансформеры. Трансформаторы, отличающиеся мощными механизмами внимания, оказались исключительно эффективными для улавливания дальних зависимостей и контекста в языке. Эта архитектура лежит в основе многих современных моделей, включая варианты BERT и модели GPT, такие как GPT-4. На исследовательских платформах, таких как ACL Anthology, размещено множество работ, в которых подробно описываются эти достижения.

Применение НЛП

НЛП обеспечивает работу огромного количества приложений, которые трансформируют отрасли и улучшают повседневное взаимодействие. Вот два ярких примера:

  1. Виртуальные помощники и чат-боты: Такие системы, как Siri от Apple и Amazon Alexa, а также бесчисленные чат-боты для обслуживания клиентов широко используют NLP. Они используют распознавание речи для преобразования произнесенных слов в текст, понимание естественного языка (NLU) для понимания намерений пользователя, а иногда и генерацию текста для формулирования ответов.
  2. Фильтрация спама по электронной почте: Методы NLP анализируют содержимое электронной почты, чтобы выявить закономерности, характерные для спама или попыток фишинга. Алгоритмы классифицируют письма на основе ключевых слов, репутации отправителя и лингвистической структуры, помогая сохранить почтовые ящики чистыми и безопасными.

Среди других распространенных применений - резюмирование текста для сжатия длинных документов, семантические поисковые системы, которые понимают смысл запроса, не ограничиваясь простым подбором ключевых слов, и инструменты для исправления грамматики/стиля, такие как Grammarly. Многие инновационные варианты использования ИИ в значительной степени опираются на НЛП.

НЛП против смежных концепций

Несмотря на свою родственность, НЛП отличается от некоторых похожих терминов:

  • Понимание естественного языка (Natural Language Understanding, NLU): NLU - это подмножество NLP, специально сфокусированное на аспекте понимания - извлечении смысла, намерения и контекста из языка. НЛП шире и также включает в себя такие задачи, как генерация текста и синтез речи.
  • Генерация текста: Это специфическая возможность или задача в рамках НЛП, которая фокусируется на создании человекоподобного текста. Хотя она является основной частью многих приложений НЛП (например, чатботов или переводчиков), она не охватывает аспекты понимания или анализа НЛП.
  • Компьютерное зрение (КВ): КВ занимается интерпретацией и пониманием информации из визуальных данных, таких как изображения и видео, фокусируясь на таких задачах, как обнаружение объектов или сегментация изображений. НЛП, наоборот, фокусируется на языковых данных. Однако эти области все чаще пересекаются в мультимодальных моделях, которые обрабатывают как текст, так и изображения, что позволяет создавать такие приложения, как автоматические подписи к изображениям. Ты можешь прочитать больше о том, как соединить НЛП и CV. Ultralytics специализируется на CV, предлагая такие модели, как Ultralytics YOLO11 для задач, требующих высокой точности и скорости.

Инструменты и платформы

Разработка и развертывание NLP-приложений часто предполагает использование специализированных библиотек и платформ:

  • Библиотеки: Библиотеки с открытым исходным кодом, такие как spaCy и NLTK, предоставляют инструменты для таких распространенных задач НЛП, как токенизация, синтаксический анализ и распознавание сущностей.
  • Платформы: Hugging Face предлагает обширный репозиторий предварительно обученных моделей (особенно трансформеров), наборов данных и инструментов, которые значительно ускоряют разработку. Для управления сквозным жизненным циклом ML-моделей, в том числе используемых в NLP или комбинированных CV-NLP конвейерах, платформы вроде Ultralytics HUB предоставляют надежные возможности MLOps, оптимизируя обучение, развертывание и мониторинг. Изучи документациюUltralytics , чтобы найти больше ресурсов по разработке и развертыванию моделей.
Читать полностью