용어집

자연어 처리(NLP)

챗봇, 감성 분석, 기계 번역과 같은 자연어 처리(NLP) 개념, 기술 및 애플리케이션에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

자연어 처리(NLP)는 컴퓨터가 텍스트와 음성 등 인간의 언어를 이해, 처리, 해석, 생성할 수 있도록 지원하는 인공 지능(AI)머신 러닝(ML) 내의 역동적인 분야입니다. 컴퓨터 언어학의 원리를 통계적 모델링, ML, 딥러닝(DL) 모델과 결합하여 인간의 의사소통과 컴퓨터 이해력 사이의 간극을 메웁니다. 궁극적인 목표는 기계가 의미 있고 유용한 방식으로 언어와 상호 작용할 수 있도록 하여 전통적으로 인간의 언어 능력이 필요했던 작업을 자동화하는 것입니다.

NLP의 주요 개념

NLP는 언어의 복잡성을 기계가 분석하고 조치할 수 있는 구성 요소로 분해하는 몇 가지 핵심 작업을 포함합니다:

  • 토큰화: 텍스트를 단어 또는 하위 단어(토큰)와 같은 작은 단위로 분해하는 초기 단계입니다.
  • 명명된 개체 인식(NER): 사람, 조직, 위치, 날짜, 금전적 가치와 같은 텍스트의 주요 개체를 식별하고 분류하는 기능입니다.
  • 감정 분석: 텍스트에 표현된 감정 어조 또는 주관적인 의견(예: 긍정, 부정, 중립)을 결정합니다.
  • 기계 번역: Google 번역과 같은 도구에서 볼 수 있듯이 텍스트나 음성을 한 언어에서 다른 언어로 자동으로 번역하는 기능입니다.
  • 언어 모델링: 텍스트 생성 및 음성 인식과 같은 작업에 중요한 일련의 단어가 나올 확률을 예측하는 모델을 구축합니다.

NLP 작동 방식

NLP 시스템은 일반적으로 파이프라인 접근 방식을 사용합니다. 원시 텍스트 데이터는 먼저 텍스트 정리(관련 없는 문자나 서식 제거), 토큰화, 때로는 정규화(단어를 기본 형식으로 변환) 등의 작업을 포함하는 데이터 전처리를 거칩니다. 전처리 후에는 작업과 관련된 특징이 추출됩니다. 그런 다음 이러한 특징은 분석 또는 생성을 위해 ML 또는 DL 모델에 입력됩니다.

최신 NLP는 신경망(NN), 특히 순차적 데이터를 위한 순환 신경망(RNN) 과 같은 정교한 아키텍처와 최근에는 트랜스포머에 크게 의존하고 있습니다. 강력한 주의 메커니즘으로 구별되는 트랜스포머는 언어 내에서 장거리 종속성과 맥락을 포착하는 데 매우 효과적임이 입증되었습니다. 이 아키텍처는 BERT의 변형과 GPT-4와 같은 GPT 모델을 비롯한 많은 최신 모델을 뒷받침합니다. ACL 선집과 같은 연구 플랫폼에서는 이러한 발전을 자세히 설명하는 수많은 논문을 호스팅하고 있습니다.

NLP의 응용

NLP는 산업을 혁신하고 일상적인 상호 작용을 향상시키는 다양한 애플리케이션을 지원합니다. 다음은 두 가지 대표적인 예입니다:

  1. 가상 어시스턴트챗봇: 수많은 고객 서비스 챗봇과 함께 Apple의 Siri, Amazon Alexa와 같은 시스템에서는 NLP를 광범위하게 사용합니다. 이러한 시스템은 음성 인식을 통해 음성을 텍스트로 변환하고, 자연어 이해(NLU) 를 통해 사용자의 의도를 파악하며, 때로는 텍스트 생성을 통해 응답을 공식화하기도 합니다.
  2. 이메일 스팸 필터링: NLP 기술은 이메일 콘텐츠를 분석하여 스팸 또는 피싱 시도의 특징적인 패턴을 식별합니다. 알고리즘은 키워드, 발신자 평판, 언어 구조에 따라 이메일을 분류하여 받은 편지함을 깨끗하고 안전하게 유지하도록 도와줍니다.

그 밖에도 긴 문서를 압축하기 위한 텍스트 요약, 단순한 키워드 매칭을 넘어 쿼리 의미를 이해하는 시맨틱 검색 엔진, 문법/스타일 교정 도구( Grammarly 등) 등이 일반적으로 활용되고 있습니다. 많은 혁신적인 AI 사용 사례는 NLP에 크게 의존하고 있습니다.

NLP와 관련 개념

관련성이 있지만 NLP는 일부 유사한 용어와 다릅니다:

  • 자연어 이해(NLU): NLU는 언어에서 의미, 의도, 문맥을 추출하는 이해 측면에 특별히 초점을 맞춘 NLP의 하위 집합입니다. NLP는 더 광범위하며 텍스트 생성 및 음성 합성과 같은 작업도 포함합니다.
  • 텍스트 생성: 이는 인간과 유사한 텍스트를 생성하는 데 중점을 둔 NLP 내의 특정 기능 또는 작업입니다. 챗봇이나 번역과 같은 많은 NLP 애플리케이션의 핵심 부분이지만, NLP의 이해나 분석 측면은 다루지 않습니다.
  • 컴퓨터 비전(CV): CV는 이미지 및 비디오와 같은 시각적 입력에서 정보를 해석하고 이해하는 작업을 처리하며, 물체 감지 또는 이미지 분할과 같은 작업에 중점을 둡니다. 반대로 NLP는 언어 데이터에 중점을 둡니다. 그러나 텍스트와 이미지를 모두 처리하는 멀티모달 모델에서 이 두 분야가 점점 더 교차하고 있으며, 자동 이미지 캡션과 같은 애플리케이션을 가능하게 합니다. NLP와 CV의 연결에 대해 자세히 알아보세요. Ultralytics CV를 전문으로 하며 다음과 같은 모델을 제공합니다. Ultralytics YOLO11 과 같은 모델을 제공합니다.

도구 및 플랫폼

NLP 애플리케이션을 개발 및 배포하려면 종종 전문 라이브러리와 플랫폼을 활용해야 합니다:

  • 라이브러리: spaCyNLTK와 같은 오픈 소스 라이브러리는 토큰화, 구문 분석 및 엔티티 인식과 같은 일반적인 NLP 작업을 위한 도구를 제공합니다.
  • 플랫폼 Hugging Face 는 개발을 크게 가속화하는 사전 학습된 모델(특히 트랜스포머), 데이터 세트 및 도구의 방대한 리포지토리를 제공합니다. NLP 또는 결합된 CV-NLP 파이프라인에 사용되는 모델을 포함하여 ML 모델의 엔드투엔드 수명 주기를 관리하기 위해 Ultralytics HUB와 같은 플랫폼은 강력한 MLOps 기능을 제공하여 교육, 배포 및 모니터링을 간소화합니다. 모델 개발 및 배포에 대한 더 많은 리소스는 Ultralytics 설명서를 참조하세요.
모두 보기