Yolo 비전 선전
선전
지금 참여하기
용어집

언어 모델링

언어 모델링의 기초와 자연어 처리(NLP)에서의 역할을 탐구하세요. Ultralytics 다중 모달 AI가 텍스트와 비전 간의 격차를 어떻게 해소하는지 알아보세요.

언어 모델링은 컴퓨터가 인간 언어를 이해하고 생성하며 예측하도록 훈련시키는 핵심 통계 기법이다. 가장 기본적인 수준에서 언어 모델은 문장 내에서 특정 단어 순서가 나타날 확률을 결정한다. 이 능력은 자연어 처리(NLP) 분야 전체의 중추 역할을 하여 기계가 단순한 키워드 매칭을 넘어 문맥, 문법, 의도를 이해할 수 있게 한다. 방대한 양의 훈련 데이터를 분석함으로써, 이러한 시스템은 어떤 단어가 일반적으로 다른 단어 뒤에 오는지에 대한 통계적 가능성을 학습하여, 일관된 문장을 구성하거나 음성 인식 작업에서 모호한 오디오를 해독할 수 있게 합니다.

기전과 진화

언어 모델링의 역사는 인공지능(AI) 자체의 진화를 추적한다. 초기 모델들은 "n-그램"에 의존했는데, 이는 단순히 직접 앞선 $n$개의 단어를 기반으로 한 단어의 통계적 확률을 계산하는 방식이었다. 그러나 현대적 접근법은 딥 러닝(DL) 을 활용하여 훨씬 더 복잡한 관계를 포착한다.

현대 모델은 임베딩을 활용하여 단어를 고차원 벡터로 변환함으로써 시스템이 "왕"과 "여왕"이 의미적으로 관련됨을 이해할 수 있게 합니다. 이러한 진화는 트랜스포머 아키텍처로 정점에 달했는데, 이는 자체 주의 메커니즘을 활용하여 텍스트 전체 시퀀스를 병렬로 처리합니다. 이를 통해 모델은 단락 내에서 단어 간 거리와 무관하게 각 단어의 중요도를 가중할 수 있으며, 이는 장문 텍스트 생성 시 맥락을 유지하는 데 핵심적인 기능입니다.

실제 애플리케이션

언어 모델링은 학술 연구에서 벗어나 산업 전반에 걸쳐 일상적인 디지털 상호작용을 가능케 하는 핵심 기술로 자리매김했습니다:

  • 기계 번역: Google 같은 서비스는 고급 시퀀스-투-시퀀스 모델을 사용하여 한 언어의 텍스트를 다른 언어로 변환합니다. 이 모델은 원본 언어 시퀀스를 주어진 조건으로 대상 언어 시퀀스의 확률을 예측하여 문법적 정확성을 보장합니다.
  • 지능형 코딩 어시스턴트: GitHub Copilot과 같은 도구는 코드 저장소를 기반으로 훈련된 전문 언어 모델로 작동합니다. 이들은 구문과 논리를 예측하여 코드 블록을 자동 완성함으로써 소프트웨어 개발 속도를 크게 향상시킵니다.
  • 예측 입력 및 자동 수정: 모바일 기기에서 경량 모델은 로컬에서 추론을 수행하여 메시지의 다음 단어를 제안하며, 시간이 지남에 따라 사용자의 특정 입력 스타일에 적응합니다.
  • 비전-언어 통합: 컴퓨터 비전(CV) 분야에서 언어 모델은 시각 인코더와 결합됩니다. 이를 통해 사용자가 사전 정의된 범주가 아닌 자연어 설명을 사용하여 객체를 검색할 수 있는 "개방형 어휘" 탐지가 가능해집니다.

텍스트와 비전을 잇다

언어 모델링은 주로 텍스트를 다루지만, 그 원리는 점차 다중 모달 AI에 적용되고 있습니다. YOLO 같은 모델은 언어적 기능을 통합하여 사용자가 텍스트 프롬프트를 통해 탐지 클래스를 동적으로 정의할 수 있게 합니다. 이로써 새로운 객체를 탐색할 때 재훈련이 필요하지 않습니다.

다음 사항 Python 이 스니펫은 사용 방법을 보여줍니다. ultralytics 객체 탐지를 위해 언어 설명을 활용하는 패키지:

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions via the language model encoder
# The model uses internal embeddings to map 'text' to 'visual features'
model.set_classes(["person in red shirt", "blue car"])

# Run inference to detect these specific text-defined objects
results = model.predict("street_scene.jpg")

# Display the results
results[0].show()

관련 개념 구분하기

언어 모델링을 종종 혼용되는 관련 용어들과 구분하는 것이 도움이 됩니다:

  • 언어 모델링 대 대규모 언어 모델(LLM): 언어 모델링은 근본적인 작업 또는 수학적 기법입니다. GPT 시리즈와 같은 대규모 언어 모델(LLM)은 이 작업을 수행하도록 설계된 모델의 특정 대규모 인스턴스로, 페타바이트 단위의 데이터로 훈련되었으며 수십억 개의 매개변수를 가집니다.
  • 언어 모델링 대 생성형 AI: 생성형 AI는 새로운 콘텐츠(이미지, 오디오, 코드)를 생성하는 모든 AI를 포괄하는 광범위한 범주입니다. 언어 모델링은 생성형 AI의 텍스트 기반 하위 집합을 가능하게 하는 특정 메커니즘입니다.
  • 언어 모델링 대 객체 탐지: YOLO26과 같은 기존 탐지 모델은 고정된 시각적 라벨로 훈련됩니다. 언어 모델은 텍스트 내 시퀀스 확률을 다룹니다. 그러나 CLIP과 같은 기술은 시각적 개념을 언어적 설명과 연관시키는 법을 학습함으로써 이 간극을 메웁니다.

과제 및 향후 전망

언어 모델은 유용함에도 불구하고 AI 편향성 문제에 직면해 있습니다. 훈련 데이터셋에 존재하는 편견을 의도치 않게 재생산할 수 있기 때문입니다. 또한 이러한 모델 훈련에는 막대한 컴퓨팅 자원이 필요합니다. Ultralytics 같은 솔루션은 데이터셋 관리 및 훈련 워크플로우를 간소화하여 특정 애플리케이션에 맞게 모델을 미세 조정하는 것을 용이하게 합니다. 향후 연구는 모델 양자화를 통해 이러한 모델의 효율성을 높이는 데 초점을 맞추고 있습니다. 이를 통해 클라우드 연결에 의존하지 않고도 강력한 언어 이해 기능을 에지 AI 장치에서 직접 실행할 수 있게 됩니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기