OpenAI o1: 새로운 AI 추론 모델 - 내부 살펴보기

AI 커뮤니티는 OpenAI의 GPT 모델의 다음 단계에 대한 추측으로 들썩이고 있으며, 많은 사람들이 이를 "프로젝트 스트로베리"라고 부르고 있습니다. 그 이유는 GPT-4o에 "딸기"라는 단어에 몇 개의 R이 있는지 물어보면"딸기"라는 단어에 두 개의 R이 있다고 대답하기 때문입니다. GPT-4o의 강력한 성능을 고려하면 이상하게 보일 수 있습니다. 하지만 이 모델은 정확한 단어가 아닌 하위 텍스트를 처리하도록 만들어졌습니다. 다음 모델에서는 이 문제를 해결하는 것이 목표라는 소문이 돌았습니다. Sam 알트먼은 자신의 X(이전의 트위터) 계정에 딸기 사진을 올리면서 이러한 소문에 더욱 불을 지폈습니다.

9월 12일 목요일, OpenAI의 최신 발표를 통해 추측에 대한 답을 드디어 얻었습니다! 응답하기 전에 속도를 늦추고 생각하도록 설계된 새로운 AI 모델 시리즈인 OpenAI o1이 출시되었습니다. 흥미롭게도 OpenAI o1은 추론 능력이 뛰어나 딸기에 대한 질문에 올바르게 답변할 수 있습니다! 이 기사에서는 OpenAI o1이 무엇인지, 작동 방식, 사용처, 그리고 AI의 미래에 어떤 의미를 갖는지 논의합니다. 시작해 보겠습니다!

__wf_reserved_inherit — Fig 1. OpenAI o1에 딸기에 대해 프롬프팅하는 예입니다.

‍

OpenAI의 새로운 AI 발전

2024년 7월, OpenAI 임원진은 OpenAI의 연구가 인간 수준의 문제 해결 능력에 거의 도달했으며, 이를 AI 2단계라고 칭한다고 밝혔습니다. OpenAI가 답변하기 전에 사고하는 새로운 모델 시리즈인 OpenAI o1을 소개함에 따라, 이 단계가 추론에 중점을 두고 있다는 것은 분명합니다. OpenAI o1은 대량의 언어 데이터에서 패턴을 학습하여 인간과 유사한 텍스트를 이해하고 생성하는 새로운 LLM(대규모 언어 모델)입니다. 이는 심층적인 추론이 필요한 복잡한 문제를 처리하도록 설계되었습니다.

‍

이 모델은 강화 학습을 사용하여 학습되었습니다. 강화 학습은 모델이 행동에 대한 보상 또는 페널티를 받아 시행착오를 통해 더 나은 결정을 내리는 기술입니다. 강화 학습 알고리즘은 사고의 흐름을 따라 모델이 보다 효과적으로 생각하도록 돕습니다. OpenAI는 또한 o1의 성능이 학습 중 더 많은 강화 학습과 문제 해결 중 더 많은 시간을 "생각"하는 데 소비할수록 계속 향상된다는 사실을 공유했는데, 이는 확장된 학습과 사려 깊은 처리가 모두 모델의 능력을 향상시키는 데 도움이 된다는 것을 보여줍니다.

OpenAI o1은 복잡한 추론에 있어 상당한 발전을 이루었지만, 아직 초기 모델이며 웹 검색이나 파일 및 이미지 업로드와 같이 ChatGPT 유용하게 만드는 일부 기능이 부족합니다. 많은 일반적인 작업의 경우 현재로서는 여전히 GPT-4o가 더 나은 성능을 발휘할 수 있습니다. 그러나 OpenAI o1은 복잡한 추론을 처리하는 AI의 능력에서 큰 진전을 이루었기 때문에 OpenAI는 새로운 시리즈를 시작하며 이를 OpenAI o1이라고 부릅니다.

새로운 OpenAI 모델이 AI 추론을 향상시키는 방법

OpenAI o1은 암호 해독, 프로그래밍 문제 해결, 수학 문제 풀이, 크로스워드 해결, 심지어 과학, 안전 및 의료 분야의 복잡한 주제 처리와 같은 작업에 사용할 수 있습니다. 프로젝트 코드 이름에 대한 재미있는 언급으로 OpenAI는 "THERE ARE THREE R’S IN STRAWBERRY."라는 메시지를 해독하여 모델의 추론 능력을 보여주었습니다.

암호 해독 외에도 OpenAI o1은 코딩에도 능숙합니다. 프로그래머가 시간 제한 조건에서 복잡한 코딩 문제를 해결하는 플랫폼인 Codeforces와 같은 경쟁 프로그래밍 챌린지에서 좋은 성적을 거둡니다. 이러한 챌린지에서 모델은 높은 Elo 등급(다른 경쟁자와의 성과를 기반으로 기술 수준을 측정하는 점수 시스템)을 달성하고 이전 모델보다 뛰어난 성능을 보입니다. 또한 수학에도 뛰어나며 미국 초대 수학 시험(AIME)과 같은 시험에서도 좋은 성적을 거둡니다.

‍

이러한 발전은 OpenAI o1을 GPT-4o와 같은 이전 모델에서 크게 업그레이드된 것으로 자리매김합니다. 이는 비즈니스, 개발, 연구 및 의료와 같은 분야에서 AI의 새로운 가능성을 열어줍니다. 예를 들어, 유전학 연구에서 OpenAI o1은 많은 수의 연구 논문을 빠르게 검토하여 유전 표지자와 질병 간의 주요 결과 및 연관성을 찾아낼 수 있습니다. 이는 복잡한 과학적 언어를 이해하고 중요한 포인트를 요약하여 연구자가 가장 관련성이 높은 정보에 집중할 수 있도록 돕습니다.

사고 사슬(Chain of Thought) 자세히 알아보기

앞서 OpenAI o1이 "사고의 사슬(Chain of Thought)" 추론 프로세스를 도입한 것을 확인했습니다. 이를 통해 모델은 인간의 인지 전략과 유사한 방식으로 복잡한 문제를 해결할 수 있습니다. 모델은 문제를 더 작고 관리하기 쉬운 단계로 나누고 반복적으로 접근 방식을 개선할 수 있습니다. 즉각적인 패턴 인식에 의존했던 이전 모델과 달리 o1은 강화 학습을 통해 성공과 실수로부터 학습하여 여러 추론 경로를 탐색함으로써 의사 결정을 최적화합니다.

OpenAI는 이러한 원시적인 사고의 흐름을 사용자에게 숨기고, 대신 모든 단계를 노출하지 않고 모델의 추론에 대한 통찰력을 제공하는 요약본을 제공하기로 결정했습니다. 이 결정은 모델의 사고 과정의 오용을 방지하는 동시에 개발자가 AI 안전 및 정렬을 모니터링하고 개선할 수 있도록 돕습니다. 개발자는 내부적으로 숨겨진 체인을 관찰함으로써 o1이 윤리적 지침을 준수하고 유해한 행동을 피하도록 할 수 있습니다.

OpenAI o1 벤치마킹

OpenAI o1은 추론 및 문제 해결 능력을 테스트하는 여러 벤치마크에서 GPT-4o보다 크게 개선되었습니다. 최고의 고등학생을 위한 어려운 수학 시험인 American Invitational Mathematics Examination (AIME) 2024에서 o1은 문제당 샘플 하나만으로 74%의 정확도를 달성한 반면 GPT-4o는 12%였습니다. 64개 샘플에서 합의를 통해 정확도는 83%로 증가했으며, 1,000개 샘플로 개선된 재순위 지정 방법을 사용하여 93%에 도달하여 전국 상위 500명 학생에 속했습니다.

수학 외에도 o1은 화학, 물리학 및 생물학에서 박사 수준의 질문을 다루는 GPQA Diamond와 같은 과학적 지식을 테스트하는 벤치마크에서도 뛰어난 성능을 보였습니다. 놀랍게도 o1은 이 테스트에서 박사 학위를 가진 인간 전문가보다 뛰어난 성능을 보여 최초의 AI 모델이 되었습니다. 또한 역사, 법률 및 과학을 포함한 다양한 주제에 대한 이해도를 테스트하는 MMLU 벤치마크에서 57개 범주 중 54개에서 GPT-4o를 능가했습니다.

‍

OpenAI o1을 직접 사용해 보세요.

OpenAI는 o1 시리즈에 o1-preview와 o1-mini라는 두 개의 새로운 AI 모델을 도입했습니다. o1-preview 모델은 응답하기 전에 더 깊이 생각하도록 설계되었으며 과학, 코딩 및 수학 분야의 복잡한 추론 작업에 탁월합니다. 어려운 프로젝트를 해결하는 사용자에게 고급 문제 해결 기능을 제공합니다. 대조적으로 o1-mini는 STEM 추론, 특히 수학 및 코딩에 최적화된 더 작고 빠르며 비용 효율적인 모델입니다. o1-mini는 더 넓은 세계 지식을 가지고 있지는 않지만 AIME 수학 경시대회 및 Codeforces 코딩 챌린지와 같은 주요 평가에서 o1-preview의 성능에 거의 근접하며, 이 모든 것이 80% 더 저렴한 비용으로 가능합니다.

‍

다양한 OpenAI 플랫폼을 통해 이러한 모델을 사용해 볼 수 있습니다. ChatGPT 플러스 및 팀 사용자는 모델 선택기를 통해 o1-preview와 o1-mini에 모두 액세스하여 ChatGPT 직접 향상된 추론 기능을 경험할 수 있습니다. 일부 고급 기능은 아직 개발 중이지만 API 사용 티어 5 액세스 권한을 가진 개발자는 이 모델을 사용하여 프로토타이핑을 시작할 수 있습니다. 또한, OpenAI는 곧 모든 ChatGPT 무료 사용자에게 o1-mini를 제공할 계획입니다. 이러한 모델을 살펴봄으로써 AI 추론의 발전을 직접 경험하고 필요에 가장 적합한 모델을 선택할 수 있습니다.

OpenAI에서 고려한 윤리적 AI 고려 사항

OpenAI는 o1 모델 시리즈를 개발하는 동안 윤리 및 안전에 중점을 두었습니다. o1-preview 및 o1-mini 모델을 출시하기 전에 금지된 콘텐츠, 환각 및 편향과 같은 위험에 대한 외부 테스트 및 내부 점검을 포함한 철저한 평가를 수행했습니다. 이 모델은 안전 규칙을 더 잘 이해하고 따르도록 고급 추론 능력을 갖추고 설계되었습니다.

OpenAI는 위험 관리를 위해 차단 목록 및 안전 분류기와 같은 안전 장치도 구현했습니다. o1 모델은 전반적으로 중간 수준의 위험 등급을 가지고 있습니다. 사이버 보안 및 모델 자율성과 같은 영역에서는 위험이 낮고, CBRN(화학, 생물학, 방사능 및 핵) 콘텐츠 및 설득과 같은 영역에서는 중간 수준의 위험을 가지고 있습니다. OpenAI의 안전 자문 그룹과 이사회는 모델이 안전하고 윤리적으로 사용될 수 있도록 이러한 안전 조치를 검토했습니다.

‍

소문에서 현실로: OpenAI o1, 무대에 오르다

OpenAI o1은 AI 추론의 큰 진전으로, 초기 소문 중 일부를 현실로 바꾸어 놓았습니다. GPT-4o와 달리 o1 시리즈는 "생각의 사슬" 접근 방식을 사용하여 복잡한 문제를 더 작은 단계로 세분화하여 더 깊이 사고하고 더 나은 응답을 제공합니다. 현재 ChatGPT API에서 초기 프리뷰로 제공되고 있는 OpenAI는 웹 브라우징, 파일 및 이미지 업로드와 같은 기능을 추가할 계획입니다. 또한 OpenAI는 새로운 OpenAI o1 시리즈와 함께 GPT 시리즈의 모델을 계속 개발하여 출시할 계획이라고 밝혔습니다. AI가 계속 발전함에 따라 이와 같은 발전은 인간의 요구를 더 잘 지원하고 이해할 수 있는 더욱 강력하고 직관적이며 다재다능한 AI 시스템을 위한 길을 열어가고 있습니다.

커뮤니티에 가입하여 최신 AI 소식을 받아보세요! GitHub 저장소에서 제조 및 헬스케어와 같은 분야에서 AI 솔루션을 어떻게 개척하고 있는지 확인하세요. 🚀

OpenAI o1: AI 추론을 위한 새로운 OpenAI 모델 시리즈

OpenAI의 새로운 AI 발전

새로운 OpenAI 모델이 AI 추론을 향상시키는 방법

사고 사슬(Chain of Thought) 자세히 알아보기

OpenAI o1 벤치마킹

OpenAI o1을 직접 사용해 보세요.

OpenAI에서 고려한 윤리적 AI 고려 사항

소문에서 현실로: OpenAI o1, 무대에 오르다

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

의료 진단을 위한 비전 AI 도구

데이터에서 의사결정으로: 기업 전략을 위한 비전 AI 활용

함께 미래의 AI를 만들어 갑시다!