명명된 개체 인식(NER)으로 인사이트를 확보하세요. AI가 어떻게 비정형 텍스트를 다양한 애플리케이션을 위한 실행 가능한 데이터로 변환하는지 알아보세요.
명명된 개체 인식(NER)은 자연어 처리(NLP) 의 기본 작업이자 최신 인공 지능(AI)의 핵심 구성 요소입니다. 여기에는 비정형 텍스트 내에서 '명명된 개체'라고 하는 특정 정보를 자동으로 식별하고 분류하는 작업이 포함됩니다. 이러한 엔티티는 일반적으로 사람, 조직, 위치, 날짜, 제품 이름, 금전적 가치 등과 같은 실제 개체를 나타냅니다. NER의 주요 목표는 원시 텍스트를 구조화된 데이터로 변환하여 기계가 다양한 AI 사용 사례를 위한 가치 있는 인사이트를 쉽게 이해하고, 처리하고, 추출할 수 있도록 하는 것입니다.
NER 시스템은 텍스트의 언어 구조와 문맥을 분석하여 개체를 찾고 분류합니다. 초기 시스템은 문법 규칙과 사전( 기호적 AI의 한 형태)에 크게 의존했지만, 최신 접근 방식은 머신 러닝(ML), 특히 딥 러닝(DL)을 활용합니다. 트랜스포머와 같은 모델은 다음과 같은 플랫폼에서 흔히 볼 수 있습니다. Hugging Face와 같은 플랫폼에서 흔히 볼 수 있는 트랜스포머와 같은 모델은 문맥과 미묘한 언어 패턴을 이해하는 데 탁월하여 정확도를 높입니다. 이 프로세스에는 일반적으로 토큰화와 관련된 기술을 사용하여 잠재적 엔티티(단어 또는 구문)를 식별한 다음 미리 정의된 범주(예: 사람, 조직, 위치, 날짜, 오타)로 분류하는 작업이 포함됩니다. 이 분류는 대규모 데이터 세트에 대한 학습 중에 학습된 특징에 의존하며, 종종 NER 작업을 위해 특별히 주석을 달기도 합니다.
예를 들어, "7월 4일에 사라 존스는 에펠탑을 방문했다."라는 문장에서 NER 시스템은 에펠탑이 Acme Corp의 대표임을 식별할 수 있습니다:
이 구조화된 출력물은 원본 텍스트만 사용하는 것보다 데이터 분석이나 지식 그래프 채우기와 같은 다운스트림 작업에 훨씬 더 유용합니다. 더 깊은 기술적 인사이트를 얻으려면 NER 기술에 대한 설문조사를 살펴보세요.
NER은 텍스트 정보를 구조화하여 다양한 영역에 걸쳐 수많은 애플리케이션을 가능하게 하는 초석 기술입니다:
데이터 주석 및 모델 배포를 포함한 NER 모델의 ML 수명 주기를 관리하는 것은 Ultralytics HUB와 같은 플랫폼을 통해 용이하게 할 수 있습니다.
NER은 다른 NLP 작업과 함께 사용되는 경우가 많지만 그 초점이 뚜렷합니다:
이러한 차이점을 이해하는 것은 컴퓨터 비전 프로젝트의 단계와 같은 가이드에 설명된 대로 주어진 문제에 적합한 NLP 기술을 선택하는 데 매우 중요합니다(CV에 중점을 두지만 원칙은 동일하게 적용됨).