녹색 확인
링크가 클립보드에 복사됨

OpenAI o1: AI 추론을 위한 새로운 OpenAI 모델 시리즈

새로 출시된 OpenAI o1 모델에 대해 알아보고 이 모델이 특별한 이유를 알아보세요. 또한 작동 방식과 AI의 미래에 미치는 영향에 대해서도 살펴봅니다.

AI 커뮤니티는 OpenAI의 GPT 모델의 다음 단계에 대한 추측으로 들썩이고 있으며, 많은 사람들이 이를 "프로젝트 스트로베리"라고 부르고 있습니다. 그 이유는 GPT-4o에 "딸기"라는 단어에 몇 개의 R이 있는지 물어보면"딸기"라는 단어에 두 개의 R이 있다고 대답하기 때문입니다. GPT-4o의 강력한 성능을 고려하면 이상하게 보일 수 있습니다. 하지만 이 모델은 정확한 단어가 아닌 하위 텍스트를 처리하도록 만들어졌습니다. 다음 모델에서는 이 문제를 해결하는 것이 목표라는 소문이 돌았습니다. Sam 알트만은 자신의 X(이전의 트위터) 계정에 딸기 사진을 게시하여 이러한 소문에 더욱 불을 지폈습니다.

9월 12일 목요일, OpenAI의 최신 발표를 통해 드디어 그 궁금증에 대한 해답을 얻었습니다! 응답하기 전에 천천히 생각하도록 설계된 새로운 AI 모델 시리즈인 OpenAI o1이 출시되었습니다. 흥미롭게도 OpenAI o1은 딸기에 대한 질문을 더 잘 추론하고 정확하게 대답할 수 있습니다! 이 글에서는 OpenAI o1이 무엇인지, 어떻게 작동하는지, 어디에 사용할 수 있는지, 그리고 AI의 미래에 어떤 의미가 있는지 살펴보겠습니다. 그럼 시작해 보겠습니다!

그림 1. 딸기에 대해 OpenAI o1에 질문하는 예제.

OpenAI의 새로운 AI 발전

2024년 7월, OpenAI 경영진은 OpenAI의 연구가 인간 수준의 문제 해결 능력, 즉 AI의 레벨 2에 근접하고 있다고 밝혔습니다. 이 수준은 OpenAI가 새로운 모델 시리즈인 OpenAI o1을 소개하면서 대답하기 전에 생각하는 것으로 추론에 초점을 맞추고 있음을 알 수 있습니다. OpenAI o1은 방대한 양의 언어 데이터에서 패턴을 학습하여 인간과 유사한 텍스트를 이해하고 생성하는 AI 모델인 새로운 LLM(대규모 언어 모델)입니다. 심층적인 추론이 필요한 복잡한 문제를 처리하도록 설계되었습니다. 

그림 2. AI의 단계에 대한 OpenAI의 관점.

이 모델은 자신의 행동에 대한 보상이나 벌칙을 받음으로써 시행착오를 통해 더 나은 결정을 내리는 방법을 배우는 기술인 강화 학습을 사용하여 훈련되었습니다. 강화 학습 알고리즘은 모델이 일련의 사고를 통해 보다 효과적으로 사고할 수 있도록 도와줍니다. 또한 OpenAI는 훈련 중에 강화 학습을 더 많이 하고 문제 해결 중에 '사고'에 더 많은 시간을 할애할수록 o1의 성능이 계속 향상되며, 확장된 훈련과 신중한 처리가 모두 모델의 능력을 향상시키는 데 도움이 된다는 것을 보여주었습니다.

OpenAI o1은 복잡한 추론에 있어 상당한 발전을 이루었지만, 아직 초기 모델이며 웹 검색이나 파일 및 이미지 업로드와 같이 ChatGPT 을 유용하게 만드는 일부 기능이 부족합니다. 많은 일반적인 작업의 경우 현재로서는 여전히 GPT-4o가 더 나은 성능을 발휘할 수 있습니다. 그러나 OpenAI o1은 복잡한 추론을 처리하는 AI의 능력에서 큰 진전을 이루었기 때문에 OpenAI는 새로운 시리즈를 시작하며 이를 OpenAI o1이라고 부릅니다.

새로운 OpenAI 모델이 AI 추론을 강화하는 방법

OpenAI o1은 암호 해독, 프로그래밍 문제 풀이, 수학 문제 풀이, 십자말풀이, 과학, 안전의료 분야의 복잡한 주제 처리와 같은 작업에 사용할 수 있습니다. 프로젝트의 코드명을 재미있게 표현한 OpenAI는 "딸기에는 세 개의 R이 있다"라는 메시지를 나타내는 암호를 해독하여 모델의 추론 능력을 보여주었습니다. 

OpenAI o1은 암호를 푸는 것 외에도 코딩에도 능숙합니다. 프로그래머가 제한된 조건에서 복잡한 코딩 문제를 푸는 플랫폼인 Codeforces와 같은 경쟁 프로그래밍 챌린지에서 우수한 성능을 발휘합니다. 이러한 챌린지에서 이 모델은 높은 Elo 등급(다른 경쟁자 대비 성능을 기반으로 기술 수준을 측정하는 점수 시스템)을 획득하고 이전 모델보다 뛰어난 성능을 발휘합니다. 또한 수학에 뛰어나 미국 초청 수학 시험(AIME)과 같은 시험에서도 우수한 성적을 거둡니다. 

그림 3. o1의 코딩 능력 벤치마킹.

이러한 발전으로 OpenAI o1은 GPT-4o와 같은 이전 모델에서 크게 업그레이드된 버전으로 자리매김했습니다. 비즈니스, 개발, 연구, 의료 등의 분야에서 AI의 새로운 가능성을 열어줍니다. 예를 들어, 유전학 연구에서 OpenAI o1은 수많은 연구 논문을 빠르게 검토하여 유전자 마커와 질병 사이의 주요 결과와 연관성을 찾아낼 수 있습니다. 복잡한 과학적 언어를 이해하고 중요한 요점을 요약하여 연구자가 가장 관련성이 높은 정보에 집중할 수 있도록 도와줍니다. 

생각의 사슬 자세히 살펴보기

앞서 OpenAI o1이 "생각의 연쇄" 추론 프로세스를 도입한다는 것을 살펴봤습니다. 이 프로세스를 통해 모델은 인간의 인지 전략과 유사한 방식으로 복잡한 문제를 해결할 수 있습니다. 이 모델은 문제를 관리하기 쉬운 작은 단계로 세분화하고 반복적으로 접근 방식을 개선할 수 있습니다. 즉각적인 패턴 인식에 의존했던 이전 모델과 달리, o1은 강화 학습을 통해 성공과 실수를 모두 학습하면서 여러 추론 경로를 탐색하여 의사 결정을 최적화합니다.

OpenAI는 이러한 사고의 원시 사슬을 사용자에게 숨기는 대신 모든 단계를 노출하지 않고 모델의 추론에 대한 인사이트를 제공하는 요약을 제공하기로 결정했습니다. 이러한 결정은 모델의 사고 과정이 오용되는 것을 방지하는 동시에 개발자가 AI의 안전성과 정확성을 모니터링하고 개선할 수 있도록 돕습니다. 개발자는 내부적으로 숨겨진 체인을 관찰함으로써 o1이 윤리적 지침을 준수하고 유해한 행동을 피할 수 있습니다.

OpenAI 벤치마킹 o1

추론 및 문제 해결 능력을 테스트하는 여러 벤치마크에서 OpenAI o1은 GPT-4o에 비해 크게 향상된 성능을 보여주었습니다. 상위권 고등학생을 대상으로 하는 고난도 수학 시험인 미국 수학능력시험(AIME) 2024에서 o1은 문제당 단 하나의 샘플로 74%의 정확도를 달성한 반면, GPT-4o는 12%에 그쳤습니다. 64개의 샘플에 대한 합의를 통해 정확도를 83%로 높였고, 1,000개의 샘플을 사용한 정교한 재순위화 방법을 통해 93%에 도달하여 전국 상위 500명의 학생 중 상위권에 올랐습니다. 

o1은 수학 외에도 화학, 물리학, 생물학 분야의 박사급 문제를 다루는 GPQA 다이아몬드와 같은 과학 지식을 테스트하는 벤치마크에서도 뛰어난 성적을 거두었습니다. 놀랍게도 이 테스트에서 o1은 박사 학위를 가진 인간 전문가보다 우수한 성적을 거두었으며, 이는 AI 모델로는 최초의 기록입니다. 또한 역사, 법률, 과학 등 다양한 과목에 대한 이해도를 테스트하는 MMLU 벤치마크에서는 57개 항목 중 54개 항목에서 GPT-4o를 앞섰습니다.

그림 4. OpenAI 벤치마킹 o1.

OpenAI o1 체험하기

OpenAI는 o1 시리즈에 o1-preview와 o1-mini라는 두 가지 새로운 AI 모델을 도입했습니다. o1-preview 모델은 응답하기 전에 더 깊이 생각하도록 설계되어 과학, 코딩, 수학의 복잡한 추론 작업에 탁월합니다. 까다로운 프로젝트를 수행하는 사용자에게 고급 문제 해결 기능을 제공합니다. 반면, o1-mini는 더 작고 빠르며 비용 효율적인 모델로 특히 수학 및 코딩과 같은 STEM 추론에 최적화되어 있습니다. o1-mini는 광범위한 세계 지식은 부족할 수 있지만, AIME 수학 경시대회 및 Codeforces 코딩 챌린지와 같은 주요 평가에서 o1-preview의 성능과 거의 일치하며 비용은 80% 더 저렴합니다.

그림 5. OpenAI 모델 비교.

다양한 OpenAI 플랫폼을 통해 이러한 모델을 사용해 볼 수 있습니다. ChatGPT Plus 및 Team 사용자는 모델 선택기를 통해 o1-preview 및 o1-mini에 모두 액세스하여 ChatGPT 에서 직접 향상된 추론 기능을 체험해 볼 수 있습니다. API 사용 티어 5 액세스 권한을 가진 개발자는 일부 고급 기능은 아직 개발 중이지만 이 모델을 사용하여 프로토타이핑을 시작할 수 있습니다. 또한 OpenAI는 곧 모든 ChatGPT 무료 사용자에게 o1-mini를 제공할 계획입니다. 이러한 모델을 살펴봄으로써 AI 추론의 발전을 직접 경험하고 필요에 가장 적합한 모델을 선택할 수 있습니다.

OpenAI의 윤리적 AI 고려 사항

OpenAI는 o1 모델 시리즈를 개발하면서 윤리와 안전에 중점을 두었습니다. o1-프리뷰와 o1-미니 모델을 출시하기 전에 허용되지 않는 콘텐츠, 환각, 편견 등의 위험에 대해 외부 테스트와 내부 점검을 포함한 철저한 평가를 수행했습니다. 이 모델들은 안전 규칙을 더 잘 이해하고 준수할 수 있도록 고도의 추론 능력을 갖추도록 설계되었습니다. 

또한 OpenAI는 위험을 관리하기 위해 차단 목록 및 안전 분류기와 같은 안전 장치를 구현했습니다. o1 모델은 전반적인 위험 등급이 중간입니다. 사이버 보안 및 모델 자율성과 같은 영역에서는 위험이 낮고, 화학, 생물학, 방사능, 핵(CBRN) 콘텐츠 및 설득과 같은 영역에서는 위험이 중간입니다. OpenAI의 안전 자문 그룹과 이사회는 이러한 안전 조치를 검토하여 모델이 안전하고 윤리적으로 사용 가능한지 확인했습니다.

그림 6. OpenAI o1 스코어카드.

소문에서 현실로: OpenAI o1, 무대에 오르다

OpenAI o1은 AI 추론의 큰 진전으로, 초기 소문 중 일부를 현실로 바꾸어 놓았습니다. GPT-4o와 달리 o1 시리즈는 복잡한 문제를 더 작은 단계로 세분화하여 더 나은 응답을 제공하는 "생각의 사슬" 접근 방식을 사용하여 더 깊이 사고합니다. 현재 ChatGPT 및 API에서 초기 프리뷰로 사용할 수 있으며, OpenAI는 웹 브라우징, 파일 및 이미지 업로드와 같은 기능을 추가할 계획입니다. 또한 OpenAI는 새로운 OpenAI o1 시리즈와 함께 GPT 시리즈의 모델을 계속 개발 및 출시할 계획이라고 밝혔습니다. AI가 계속 발전함에 따라 이와 같은 발전은 인간의 요구를 더 잘 지원하고 이해할 수 있는 더욱 강력하고 직관적이며 다재다능한 AI 시스템을 위한 길을 열어가고 있습니다.

커뮤니티에 가입하여 최신 AI 소식을 받아보세요! GitHub 리포지토리에서 제조의료 등의 분야에서 어떻게 AI 솔루션을 개척하고 있는지 알아보세요. 🚀

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기