기초 모델은 방대한 규모와 방대하고 다양한 데이터 세트에 대한 학습을 특징으로 하는 인공지능(AI)의 중요한 패러다임 전환을 나타냅니다. 특정 작업을 위해 설계된 기존의 머신러닝(ML) 모델과 달리, 기초 모델은 광범위한 데이터에 대해 사전 학습되므로 상대적으로 적은 작업별 데이터로도 다양한 다운스트림 애플리케이션에 맞게 조정하거나 미세 조정할수 있습니다. 전이 학습을 활용하는 이 접근 방식은 AI 개발을 가속화하고 강력한 기능을 더 쉽게 이용할 수 있게 해줍니다. 이 용어는 스탠포드 인간 중심 인공 지능 연구소(HAI)에서 대중화되었습니다.
파운데이션 모델의 핵심 특성
기초 모델은 규모, 일반성, 적응성이라는 세 가지 주요 특성으로 정의됩니다.
- 규모: 텍스트, 이미지, 코드 및 기타 데이터 유형이 포함된 웹 규모의 데이터 세트에 대해 학습되며, 종종 수십억 개 또는 수조 개의 데이터 포인트가 포함됩니다. 일반적으로 수십억 개의 파라미터를 포함하므로 상당한 계산 리소스가 필요합니다(GPU)를 필요로 합니다.
- 일반성: 광범위한 사전 학습을 통해 학습 데이터 내의 패턴, 구문, 의미, 컨텍스트에 대한 폭넓은 이해를 모델에 불어넣습니다. 이를 통해 제로 샷 학습이나 소수 샷 학습을 통해 명시적으로 학습되지 않은 작업도 잘 수행할 수 있습니다.
- 적응력: 이 모델의 핵심 강점은 미세 조정을 통해 특정 작업에 맞게 조정할 수 있다는 점입니다. 여기에는 소규모의 작업별 데이터 세트에 대한 추가 학습이 포함되므로 모델을 처음부터 학습하는 것에 비해 필요한 데이터와 시간이 크게 줄어듭니다. 순차적 데이터를 처리하고 장거리 종속성을 포착하는 것으로 알려진 Transformer와 같은 아키텍처는 특히 자연어 처리(NLP) 에서 일반적으로 사용되며, 컴퓨터 비전(CV)에서도 점점 더 많이 사용되고 있습니다.
애플리케이션 및 예시
파운데이션 모델의 다양성은 다양한 분야에서 혁신을 주도합니다.
- 자연어 처리: GPT-4 및 BERT와 같은 모델은 텍스트 생성, 번역, 요약, 정교한 챗봇 구동과 같은 작업에 탁월합니다. 예를 들어 고객 서비스 회사는 지원 티켓에 대해 BERT와 같은 사전 학습된 언어 모델을 미세 조정하여 매우 정확한 내부 질문 답변 시스템을 구축할 수 있습니다.
- 컴퓨터 비전: CLIP (대비 언어-이미지 사전 훈련) 및 SAM(Segment Anything Model) 과 같은 비전 기반 모델은 이미지 분류, 물체 감지, 이미지 분할과 같은 작업을 처리합니다. 예를 들어, 농업 기술 회사는 드론 이미지에서 SAM 미세 조정하여 다양한 작물 유형을 정밀하게 분류하거나 질병의 영향을 받는 지역을 식별할 수 있으며, 기존의 지도 학습 접근 방식보다 훨씬 적은 레이블 데이터가 필요합니다.
- 멀티모달 애플리케이션: 여러 데이터 유형(예: 텍스트 및 이미지)에 대해 모델을 학습시켜 텍스트 설명에서 이미지를 생성하거나(텍스트 대 이미지) 이미지에 대한 질문에 답하는 등의 작업을 가능하게 하는 경우가 점점 더 많아지고 있습니다.
기초 모델과 기존 모델 비교
가장 큰 차이점은 범위와 재사용성에 있습니다. 기존의 ML 모델은 일반적으로 맞춤형 데이터 세트를 사용하여 단일의 특정 작업에 대해 학습됩니다. 새로운 작업이 발생하면 새로운 모델을 처음부터 구축하고 학습시켜야 하는 경우가 많습니다. 하지만 파운데이션 모델은 재사용 가능한 기반을 제공합니다. 광범위한 사전 학습을 통해 일반적인 지식을 파악한 다음 효율적으로 전문화할 수 있습니다.
이 패러다임은 새로운 작업마다 광범위한 데이터 수집과 주석이 필요 없고 모델 배포 속도가 빨라지는 등의 이점을 제공합니다. 하지만 사전 학습에 필요한 막대한 계산 비용과 에너지, 학습 데이터에 존재하는 편향성을 계승하고 증폭시킬 위험, 잠재적인 오용 및 사회적 영향과 관련된 중대한 윤리적 고려 사항 등의 과제가 있습니다. Ultralytics HUB와 같은 플랫폼은 고급 AI 모델에 액세스하고, 훈련하고, 배포하는 프로세스를 간소화하여 사용자가 이러한 강력한 기술을 효과적으로 활용할 수 있도록 지원합니다.