녹색 확인
링크가 클립보드에 복사됨

메타의 라마 3 알아보기

Meta의 라마 3는 최근 출시되어 AI 커뮤니티의 큰 관심을 받았습니다. 메타 AI의 최신 버전인 라마 3에 대해 자세히 알아보세요.

2024년 1분기의 인공지능 (AI) 혁신을 정리했을 때, 다양한 조직에서 대규모 언어 모델인 LLM을 출시하고 있다는 사실을 확인할 수 있었습니다. 이러한 추세를 이어 2024년 4월 18일, Meta는 차세대 최첨단 오픈 소스 LLM인 Llama 3를 출시했습니다. 

이렇게 생각할 수도 있습니다: 또 하나의 LLM일 뿐이라고 생각할 수도 있습니다. AI 커뮤니티가 왜 이토록 열광할까요?

맞춤형 응답을 위해 GPT-3 또는 Gemini와 같은 모델을 미세 조정할 수는 있지만 학습 데이터, 모델 파라미터 또는 알고리즘과 같은 내부 작동에 대한 완전한 투명성을 제공하지는 않습니다. 이에 비해 Meta의 Llama 3는 아키텍처와 가중치를 다운로드할 수 있어 더욱 투명합니다. 이는 AI 커뮤니티에게 더 큰 실험의 자유를 의미합니다.

이 글에서는 라마 3가 무엇을 할 수 있는지, 어떻게 탄생하게 되었는지, 그리고 AI 분야에 미치는 영향에 대해 알아보세요. 바로 시작하겠습니다!

메타의 라마 모델의 진화

라마 3에 대해 자세히 알아보기 전에 이전 버전을 되돌아보겠습니다.

메타는 2023년 2월에 70억에서 640억 사이의 매개 변수를 가진 네 가지 변형으로 구성된 라마 1을 출시했습니다. 머신 러닝에서 '파라미터'는 학습 데이터로부터 학습되는 모델의 요소를 의미합니다. 파라미터 수가 적기 때문에 라마 1은 때때로 미묘한 차이를 이해하지 못하고 일관성 없는 응답을 제공하기도 했습니다.

라마 1이 출시된 직후 메타는 2023년 7월에 라마 2를 출시했습니다. 이 모델은 2조 개의 토큰으로 학습되었습니다. 토큰은 단어 또는 단어의 일부와 같은 텍스트 조각을 나타내며, 모델에서 처리하기 위한 데이터의 기본 단위로 사용됩니다. 이 모델은 또한 긴 구절을 이해하기 위해 두 배로 늘어난 4096개의 토큰 컨텍스트 창과 오류를 줄이기 위한 100만 개 이상의 인간 주석과 같은 향상된 기능을 갖추고 있습니다. 이러한 개선에도 불구하고 라마 2는 여전히 많은 컴퓨팅 파워가 필요했으며, 메타는 라마 3에서 이를 해결하고자 했습니다.

메타의 라마 3 소개

라마 3에는 무려 15조 개의 토큰을 대상으로 학습한 네 가지 변종이 포함되어 있습니다. 학습 데이터의 5% 이상(약 8억 개의 토큰)은 30개 언어로 된 데이터를 나타냅니다. 모든 Llama 3 변형은 다양한 유형의 소비자 하드웨어에서 실행할 수 있으며 컨텍스트 길이는 8천 토큰입니다. 

그림 1. 라마 3 대 라마 2.

모델 변형은 두 가지 크기로 제공됩니다: 각각 80억 개와 700억 개의 파라미터를 나타내는 8B와 70B입니다. 또한 베이스와 인스트럭트의 두 가지 버전이 있습니다. '기본'은 사전 학습된 표준 버전을 의미합니다. 'Instruct'는 관련 데이터에 대한 추가 학습을 통해 특정 애플리케이션이나 도메인에 최적화된 미세 조정 버전입니다.

다음은 라마 3 모델 변형입니다:

  • 메타-라마-3-8b: 기본 8B 모델은 기본적인 AI 기능을 제공하며, 고객 서비스 챗봇 개발과 같은 일반적인 작업에 이상적입니다.
  • 메타-라마-3-8b-인스트럭트: 특정 작업에 최적화된 8B 모델의 미세 조정된 버전입니다. 예를 들어 복잡한 주제를 설명하는 교육 도구를 만드는 데 사용할 수 있습니다.
  • Meta-Llama-3-70b: 기본 70B 모델은 고성능 AI 애플리케이션을 위해 설계되었습니다. 이 모델은 신약 개발을 위한 방대한 생물의학 문헌 처리와 같은 애플리케이션에 적합합니다.
  • Meta-Llama-3-70b-instruct: 이 버전은 정확성이 중요한 법률 또는 의료 문서 분석과 같은 매우 정밀한 애플리케이션을 위해 70B 모델에서 미세 조정된 버전입니다.

메타의 라마 3 모델 아키텍처

다른 메타 AI의 발전과 마찬가지로, 데이터 무결성을 유지하고 편견을 최소화하기 위해 엄격한 품질 관리 조치를 취해 라마 3를 개발했습니다. 따라서 최종 제품은 책임감 있게 만들어진 강력한 모델입니다. 

라마 3 모델 아키텍처는 자연어 처리 작업의 효율성과 성능에 중점을 둔 것이 특징입니다. 트랜스포머 기반 프레임워크를 기반으로 구축된 이 모델은 특히 텍스트 생성 시 디코더 전용 아키텍처를 사용하여 계산 효율성을 강조합니다. 

이 모델은 입력을 인코딩하는 인코더 없이 앞의 컨텍스트만을 기반으로 출력을 생성하므로 훨씬 빠릅니다.

그림 2. 라마 3 책임 모델 아키텍처.

라마 3 모델에는 128K 토큰 어휘를 갖춘 토큰라이저가 탑재되어 있습니다. 어휘가 많다는 것은 모델이 텍스트를 더 잘 이해하고 처리할 수 있다는 뜻입니다. 또한, 이제 모델은 추론 효율성을 향상시키기 위해 그룹화된 쿼리 주의(GQA)를 사용합니다. GQA는 모델이 입력 데이터의 관련 부분에 집중하여 더 빠르고 정확한 응답을 생성하도록 돕는 스포트라이트와 같은 기술이라고 생각하시면 됩니다.

다음은 라마 3의 모델 아키텍처에 대한 몇 가지 흥미로운 세부 정보입니다:

  • 경계 인식 문서 처리: Llama 3는 요약과 같은 작업의 핵심인 문서 경계를 명확하게 유지합니다.
  • 코드 이해력 향상: 라마 3의 학습 데이터에는 4배 더 많은 코드 샘플이 포함되어 있어 코딩 능력이 향상됩니다.
  • 강력한 품질 관리: 휴리스틱 필터와 NSFW 제거를 포함한 엄격한 조치로 데이터 무결성을 보장하고 편견을 최소화합니다.

모델 훈련 접근 방식을 혁신하는 Llama 3

가장 큰 규모의 라마 3 모델을 훈련하기 위해 데이터 병렬화, 모델 병렬화, 파이프라인 병렬화 등 세 가지 유형의 병렬화가 결합되었습니다. 

데이터 병렬화는 훈련 데이터를 여러 GPU로 나누고, 모델 병렬화는 모델 아키텍처를 분할하여 각 GPU 의 계산 능력을 사용합니다. 파이프라인 병렬화는 훈련 프로세스를 순차적인 단계로 나누어 계산과 통신을 최적화합니다.

가장 효율적인 구현은 16,000개의 GPU에서 동시에 훈련할 때 GPU 당 400 TFLOPS를 초과하는 놀라운 컴퓨팅 활용도를 달성했습니다. 이러한 훈련은 각각 24,000개의 GPU로 구성된 두 개의 맞춤형 클러스터( GPU )에서 수행되었습니다. 이러한 대규모 컴퓨팅 인프라는 대규모 라마 3 모델을 효율적으로 훈련하는 데 필요한 성능을 제공했습니다.

GPU 가동 시간을 극대화하기 위해 오류 감지, 처리, 유지보수를 자동화하는 새로운 고급 교육 스택이 개발되었습니다. 하드웨어 안정성과 탐지 메커니즘이 크게 개선되어 조용한 데이터 손상 위험을 완화했습니다. 또한, 체크포인트와 롤백 오버헤드를 줄이기 위해 확장 가능한 새로운 스토리지 시스템을 개발했습니다. 

이러한 개선으로 전체 훈련 시간이 95% 이상 단축되었습니다. 이를 모두 합치면 라마 3의 훈련 효율성은 라마 2에 비해 약 3배 향상되었습니다. 이러한 효율성은 단순히 인상적인 것뿐만 아니라 AI 훈련 방법의 새로운 가능성을 열어주고 있습니다. 

라마 3으로 문 열기

라마 3는 오픈 소스이므로 연구자와 학생은 코드를 연구하고, 실험을 수행하고, 윤리적 문제와 편견에 대한 토론에 참여할 수 있습니다. 하지만 라마 3는 학계만 위한 것이 아닙니다. 실제 응용 분야에서도 큰 파장을 일으키고 있습니다. 메타 AI 채팅 인터페이스의 중추가 되어 Facebook, Instagram, WhatsApp, Messenger와 같은 플랫폼에 원활하게 통합되고 있습니다. 메타 AI를 통해 사용자는 자연어 대화에 참여하고, 개인화된 추천에 액세스하고, 작업을 수행하고, 다른 사람들과 쉽게 연결할 수 있습니다.

그림 3. 메타 AI: Llama 3 기반.

라마 3와 다른 LLM 비교하기

Llama 3는 복잡한 언어 이해와 추론 능력을 평가하는 여러 주요 벤치마크에서 뛰어난 성능을 발휘합니다. 다음은 Llama 3의 다양한 기능을 테스트하는 몇 가지 벤치마크입니다:

  • 대규모 멀티태스크 언어 이해(MMLU) - 다양한 영역에 걸친 지식을 측정합니다. 
  • 범용 질문 답변(GPQA) - 광범위한 일반 지식 질문에 대해 일관성 있고 정확한 답변을 생성하는 모델의 능력을 평가합니다.
  • HumanEval - 코딩 및 문제 해결 작업에 중점을 두고 함수형 프로그래밍 코드를 생성하고 알고리즘 문제를 해결하는 모델의 능력을 테스트합니다.

이러한 테스트에서 Llama 3의 뛰어난 결과는 Google의 Gemma 7B, Mistral의 미스트랄 7B, Anthropic의 클로드 3 소넷과 같은 경쟁 제품과 분명하게 차별화됩니다. 공개된 통계에 따르면, 특히 70B 모델의 경우, Llama 3는 위의 모든 벤치마크에서 이들 모델보다 성능이 뛰어납니다.

그림 4. 라마 3와 다른 LLM 비교.

메타 라마 3의 폭넓은 접근성 제공

Meta는 일반 사용자와 개발자 모두를 위해 다양한 플랫폼에서 사용할 수 있도록 함으로써 Llama 3의 범위를 확장하고 있습니다. 일반 사용자를 위해 라마 3는 WhatsApp, Instagram, Facebook, Messenger와 같은 Meta의 인기 플랫폼에 통합되어 있습니다. 사용자는 이러한 앱 내에서 실시간 검색 및 크리에이티브 콘텐츠 생성 기능과 같은 고급 기능을 바로 이용할 수 있습니다. 

라마 3는 레이밴 메타 스마트 안경과 메타 퀘스트 VR 헤드셋과 같은 웨어러블 기술에도 통합되어 인터랙티브한 경험을 선사합니다.

Llama 3는 AWS, 데이터브릭스, Google 클라우드, Hugging Face, 캐글, IBM 왓슨X, Microsoft Azure, NVIDIA NIM 및 스노우플레이크 등 개발자를 위한 다양한 플랫폼에서 사용할 수 있습니다. Meta에서 이러한 모델에 직접 액세스할 수도 있습니다. 다양한 옵션 덕분에 개발자는 Meta에서 직접 작업하든 다른 인기 플랫폼을 통해 작업하든 관계없이 이러한 고급 AI 모델 기능을 프로젝트에 쉽게 통합할 수 있습니다.

테이크아웃

머신러닝의 발전은 우리가 매일 기술과 상호작용하는 방식을 계속해서 변화시키고 있습니다. Meta의 Llama 3는 LLM이 더 이상 텍스트 생성에만 국한되지 않는다는 것을 보여줍니다. LLM은 복잡한 문제를 해결하고 여러 언어를 처리하고 있습니다. 전반적으로 라마 3는 AI의 적응력과 접근성을 그 어느 때보다 향상시키고 있습니다. 앞으로 예정된 Llama 3의 업그레이드를 통해 여러 모델을 처리하고 더 큰 맥락을 이해하는 등 더 많은 기능을 제공할 예정입니다. 

GitHub 리포지토리를 확인하고 커뮤니티에 참여하여 AI에 대해 자세히 알아보세요. 솔루션 페이지를 방문하여 제조농업과 같은 분야에서 AI가 어떻게 적용되고 있는지 살펴보세요.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기