Глоссарий

Распознавание именованных сущностей (NER)

Открой для себя новые знания с помощью технологии распознавания именованных сущностей (NER). Узнай, как ИИ превращает неструктурированный текст в действенные данные для различных приложений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Распознавание именованных сущностей (NER) - важнейший компонент современных систем искусственного интеллекта (AI) и машинного обучения (ML), особенно в области обработки естественного языка (NLP). Он позволяет компьютерам автоматически определять и классифицировать ключевую информацию в неструктурированном тексте, преобразуя ее в формат, который машины могут легко понять и использовать. Этот процесс включает в себя определение "именованных сущностей" - слов или фраз, которые представляют собой конкретные фрагменты информации, - и их классификацию по заранее определенным категориям, таким как люди, организации, места, даты и многое другое. Извлекая эти сущности, NER извлекает ценные сведения из текстовых данных, что делает его незаменимым для широкого спектра приложений.

Как работает распознавание именованных сущностей

Системы NER работают, анализируя лингвистическую структуру текста, чтобы найти и классифицировать сущности. Обычно это включает в себя несколько этапов:

  • Токенизация: Разбиение текста на отдельные слова или лексемы.
  • Метки части речи (Part-of-Speech Tagging): Определение грамматической роли каждого слова (например, существительное, глагол, прилагательное).
  • Обнаружение сущностей: Распознавание потенциальных именованных сущностей на основе контекста и закономерностей. Например, слова, написанные заглавными буквами, часто указывают на именованные сущности.
  • Классификация организаций: Категоризация обнаруженных сущностей в заранее определенные типы с помощью моделей машинного обучения, обученных на огромных объемах аннотированных текстовых данных. К общим категориям относятся:
    • Персоны: Имена отдельных людей (например, "Гленн Джочер").
    • Организация: Названия компаний, учреждений или групп (например, "Ultralytics").
    • Расположение: Географические места (например, "Мадрид").
    • Дата: Календарные даты (например, "29 ноября 2024 года").
    • Время: Точки во времени (например, "3 PM").
    • Числовые значения: Числа с конкретным значением (например, "20 000 звезд").

Например, в предложении "Ultralytics YOLO11 was launched at YOLO Vision 2024" система NER определит "Ultralytics" как организацию, "YOLO11" как продукт, а "YOLO Vision 2024" как событие. Современные системы NER часто используют архитектуры глубокого обучения, в частности трансформаторы, которые отлично справляются с пониманием контекста и сложных паттернов в языке.

Актуальность и применение

NER - это краеугольная технология для многочисленных приложений, основанных на искусственном интеллекте, в самых разных отраслях. Его способность автоматически извлекать структурированную информацию из текста делает его бесценным для:

  • Извлечение информации: NER имеет фундаментальное значение для автоматического извлечения ключевых деталей из документов, например, для идентификации условий договора в юридических документах или извлечения информации о пациенте из отчетов об анализе медицинских изображений.
  • Поисковые машины и рекомендательные системы: Поисковые системы используют NER для более эффективного понимания намерений, стоящих за пользовательскими запросами. Например, если пользователь ищет "события в Мадриде", NER может определить "события" как тип искомой информации и "Мадрид" как местоположение, тем самым уточняя результаты поиска. Аналогично, рекомендательные системы могут использовать NER для анализа пользовательских отзывов и предпочтений, чтобы предоставлять более релевантные предложения.
  • Поддержка клиентов: Анализ отзывов клиентов и заявок в службу поддержки с помощью NER может помочь компаниям выявить общие проблемы, отследить упоминания о конкретных продуктах или услугах и направить запросы в соответствующие отделы, улучшая качество обслуживания клиентов.
  • Финансовый анализ: В финансовой сфере NER можно использовать для извлечения названий компаний, биржевых тикеров и деталей сделок из новостных статей и финансовых отчетов, что помогает в исследовании рынка и управлении рисками.
  • Рекомендация контента: Новостные агрегаторы и контент-платформы используют NER для категоризации статей и предложения пользователям связанного контента на основе идентифицированных сущностей, что улучшает обнаружение контента и вовлеченность пользователей, подобно технологиям семантического поиска.

Например, в контексте электронной коммерции NER может анализировать описания товаров, чтобы автоматически помечать их соответствующими категориями и атрибутами. В компьютерном зрении в сельском хозяйстве NER можно применить для анализа отчетов о состоянии урожая, извлекая такие сущности, как названия болезней или пораженные регионы, чтобы упростить анализ данных и принятие решений.

Основные отличия от родственных концепций

Хотя NER тесно связан с другими задачами НЛП, у него есть отдельные функции:

  • NER против анализа настроения: В то время как NER идентифицирует и классифицирует сущности, анализ настроения фокусируется на определении эмоционального тона или мнения, выраженного в тексте. NER может идентифицировать название продукта, а анализ настроения определит, выражает ли текст положительное, отрицательное или нейтральное отношение к этому продукту.
  • NER против суммирования текста: Резюмирование текста направлено на то, чтобы сжать большие объемы текста в более короткие, связные резюме. NER, наоборот, фокусируется на извлечении конкретных фрагментов информации (сущностей) из текста, не обязательно обобщая весь контент.
  • NER и понимание естественного языка (NLU): NER является компонентом Natural Language Understanding (NLU). NLU - это более широкая область, цель которой - дать возможность компьютерам понимать человеческий язык во всей его полноте, включая намерение, контекст и нюансы. NER вносит свой вклад в NLU, предоставляя структурированную информацию на уровне сущностей, которая помогает в общем языковом понимании.

Технологии и инструменты

Несколько инструментов и платформ облегчают разработку и развертывание систем NER. Hugging Face предоставляет широкий набор предварительно обученных моделей-трансформеров и библиотек, которые очень эффективны для задач NER. Платформы вроде Ultralytics HUB предлагают инструменты и инфраструктуру для обучения, развертывания и управления моделями ИИ, в том числе используемыми для NER, что упрощает интеграцию возможностей NER в более широкие решения ИИ. Ultralytics YOLO Модели, известные в первую очередь обнаружением объектов, могут быть интегрированы с конвейерами NLP для создания комплексных систем, которые понимают как визуальные, так и текстовые данные, что еще больше повышает универсальность NER в мультимодальных приложениях.

Читать полностью