X
Ultralytics YOLOv8.2 릴리스Ultralytics YOLOv8.2 릴리스Ultralytics YOLOv8.2 릴리스 화살표
녹색 확인
링크가 클립보드에 복사됨

AI의 잠재력을 보여주는 OpenAI의 GPT-4o

기술과 소통하는 방식을 변화시키는 실제와 같은 상호 작용을 지원하는 고급 AI를 갖춘 OpenAI의 새로운 GPT-4o를 살펴보세요. 획기적인 기능을 살펴보세요!

2024년 5월 13일(월), OpenAI는 새로운 플래그십 모델인 GPT-4o(여기서 'o'는 '옴니'를 의미)의 출시를 발표했습니다. GPT-4o는 실시간 텍스트, 오디오, 시각 상호작용을 위한 고급 멀티모달 AI 모델로, 더 빠른 처리, 다국어 지원, 향상된 안전성을 제공합니다.

이전에는 볼 수 없었던 제너레이티브 AI 기능을 제공합니다. ChatGPT 의 대화형 강점을 기반으로 한 GPT-4o의 기능은 사람들이 AI를 인식하는 방식에서 상당한 진전을 이루었습니다. 이제 우리는 마치 실제 사람처럼 GPT-4o와 대화할 수 있습니다. GPT-4o가 어떤 기능을 제공하는지 자세히 알아보세요!

GPT-4o에 대해 알아보기

OpenAI의 봄 업데이트에서 GPT-4o는 GPT-4와 마찬가지로 지능적이지만 데이터를 더 빠르게 처리할 수 있고 텍스트, 시각, 오디오를 더 잘 처리할 수 있는 것으로 밝혀졌습니다. 모델을 더 똑똑하게 만드는 데 중점을 두었던 이전 릴리스와 달리, 이번 릴리스는 일반 사용자들이 AI를 더 쉽게 사용할 수 있도록 하는 데 중점을 두고 개발되었습니다. 

그림 1. OpenAI의 봄 업데이트

ChatGPT의 음성 모드는 작년 말에 출시된 세 가지 모델이 함께 음성 입력을 전사하고, 서면 응답을 이해하여 생성하며, 사용자가 응답을 들을 수 있도록 텍스트를 음성으로 변환하는 방식이었습니다. 이 모드는 대기 시간 문제가 있었고 자연스럽지 못했습니다. GPT-4o는 기본적으로 텍스트, 시각, 오디오를 한 번에 처리하여 사용자가 자연스러운 대화에 참여하고 있다는 인상을 줄 수 있습니다. 

또한 음성 모드와 달리 이제 GPT-4o가 말하는 도중에 중단할 수 있으며, 사람처럼 반응합니다. 잠시 멈춰서 듣고 있다가 사용자가 말한 내용에 따라 실시간으로 응답합니다. 또한 목소리를 통해 감정을 표현하고 사용자의 어조도 이해할 수 있습니다. 

흥미로운 GPT-4o 기능

GPT-4o의 모델 평가는 이 기술이 얼마나 발전했는지 보여줍니다. 가장 흥미로운 결과 중 하나는 모든 언어, 특히 덜 자주 사용되는 언어에서 GPT-4o가 Whisper-v3에 비해 음성 인식 성능이 크게 향상되었다는 점입니다. 

오디오 ASR(자동 음성 인식) 성능은 모델이 음성 언어를 텍스트로 얼마나 정확하게 전사하는지를 측정합니다. GPT-4o의 성능은 잘못 전사된 단어의 비율을 나타내는 단어 오류율(WER)로 추적됩니다(WER이 낮을수록 품질이 좋다는 의미). 아래 차트는 다양한 지역에서 GPT-4o의 낮은 WER을 보여 주며, 자원이 부족한 언어에 대한 음성 인식 개선 효과를 입증합니다.

그림 2. GPT-4o는 여러 언어로 뛰어난 음성 인식 기능을 제공합니다.

GPT-4o의 고유한 기능 몇 가지를 더 살펴보세요:

  • 더 빨라짐 - GPT-4 터보보다 두 배 더 빠릅니다. 사람의 대화 응답 시간과 비슷한 232밀리초 만에 오디오 입력에 응답할 수 있습니다.
  • 비용 효율적 - GPT-4o의 API 버전은 GPT-4 터보보다 50% 저렴합니다.
  • 메모리 - GPT-4o는 여러 대화에서 인식을 유지할 수 있는 기능이 있습니다. 여러 채팅에서 사용자가 어떤 이야기를 하고 있는지 기억할 수 있습니다.
  • 다국어 - GPT-4o는 50개 언어로 속도와 품질이 향상되도록 훈련되었습니다.

GPT-4o가 할 수 있는 일의 예

이제 휴대폰에서 GPT-4o를 꺼내 카메라를 켜고 친구처럼 GPT-4o에게 내 얼굴 표정을 보고 기분을 추측해달라고 요청할 수 있습니다. GPT-4o는 카메라를 통해 사용자를 보고 대답할 수 있습니다.

그림 3. GPT-4o 영상을 통해 사람의 기분 파악하기.

여러분이 쓰고 있는 내용을 GPT-4o에게 동영상으로 보여줌으로써 수학 문제를 푸는 데 도움을 줄 수도 있습니다. 또는 화면을 공유하여 아래 그림과 같이 기하학에서 삼각형의 다른 부분을 지적해 달라고 요청하는 등 칸 아카데미에서 유용한 튜터가 될 수 있습니다.

그림 4. 칸 아카데미에서 튜터로 활동하는 GPT-4o.

아이들의 수학 학습을 돕는 것 외에도 개발자는 GPT-4o와 대화를 나누며 코드를 디버깅할 수 있습니다. 이는 데스크톱 앱으로 ChatGPT 을 도입한 덕분에 가능합니다. 데스크톱 GPT-4o 음성 앱과 대화하는 동안 CTRL "C"를 사용하여 코드를 강조 표시하고 복사하면 코드를 읽을 수 있습니다. 또는 다른 언어를 사용하는 개발자 간의 대화를 번역하는 데 사용할 수도 있습니다. 

GPt-4o의 가능성은 무궁무진해 보입니다. OpenAI의 가장 흥미로운 데모 중 하나는 두 대의 휴대폰을 사용하여 GPt-4o가 서로 다른 인스턴스와 대화하고 함께 노래하는 모습을 보여줬습니다.

그림 5. 인공지능과 대화하고 노래하는 인공지능.

GPT-4o 애플리케이션

데모에서 볼 수 있듯이 GPT-4o는 시각 장애가 있는 사람들의 세상 접근성을 높일 수 있습니다. 시각 장애인이 보다 안전하고 독립적으로 상호 작용하고 이동할 수 있도록 도와줍니다. 예를 들어, 사용자는 비디오를 켜고 GPT-4o에게 거리의 모습을 보여줄 수 있습니다. 그러면 GPT-4o는 장애물을 식별하거나 도로 표지판을 읽거나 특정 위치로 안내하는 등 주변 환경에 대한 실시간 설명을 제공할 수 있습니다. 심지어 택시가 다가올 때 알려주어 택시를 호출하는 데 도움을 줄 수도 있습니다.

그림 6. 택시의 접근을 경고하는 GPT-4o.

마찬가지로 GPT-4o는 고급 기능으로 다양한 산업을 혁신할 수 있습니다. 소매업에서는 실시간 지원, 문의에 대한 답변, 온라인과 오프라인 매장에서 고객이 제품을 찾을 수 있도록 지원하여 고객 서비스를 개선할 수 있습니다. 제품 진열대를 보고 있는데 원하는 제품을 고를 수 없는 경우 GPT-4o가 도움을 줄 수 있습니다. 

의료 분야에서 GPT-4o는 환자 데이터를 분석하고 증상에 따라 가능한 상태를 제안하며 치료 옵션에 대한 지침을 제공함으로써 진단을 지원할 수 있습니다. 또한 환자 기록을 요약하고, 의학 문헌에 빠르게 액세스하며, 다른 언어를 사용하는 환자와 소통할 수 있도록 실시간 언어 번역을 제공하여 의료 전문가를 지원할 수도 있습니다. 이는 몇 가지 예에 불과합니다. GPT-4o의 애플리케이션은 상황에 맞는 맞춤형 지원을 제공하고 정보 및 커뮤니케이션의 장벽을 허물어 일상생활을 더욱 편리하게 만들어 줍니다.

GPT-4o 및 모델 안전

수억 명의 삶에 영향을 미친 이전 버전의 GPT와 마찬가지로, GPT-4o는 전 세계적으로 실시간 오디오 및 비디오와 상호 작용할 가능성이 높기 때문에 이러한 애플리케이션에서 안전이 중요한 요소가 될 것입니다. OpenAI는 잠재적인 위험을 완화하는 데 중점을 두고 GPT-4o를 구축하는 데 매우 신중을 기했습니다.

안전성과 신뢰성을 보장하기 위해 OpenAI는 엄격한 안전 조치를 구현했습니다. 여기에는 훈련 데이터 필터링, 훈련 후 모델의 행동 개선, 음성 출력 관리를 위한 새로운 안전 시스템 통합 등이 포함됩니다. 또한 GPT-4o는 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 분야에서 70명 이상의 외부 전문가로부터 광범위한 테스트를 거쳤습니다. 외부 테스트를 통해 새로운 기능으로 인해 발생하거나 증폭되는 모든 위험을 식별하고 해결합니다.

높은 안전 기준을 유지하기 위해 OpenAI는 향후 몇 주에 걸쳐 GPT-4o의 기능을 점진적으로 공개할 예정입니다. 단계적 출시를 통해 OpenAI는 성능을 모니터링하고, 문제를 해결하고, 사용자 피드백을 수집할 수 있습니다. 신중한 접근 방식을 통해 GPT-4o는 최고 수준의 안전과 윤리적 사용 기준을 유지하면서 고급 기능을 제공할 수 있습니다.

GPT-4o 직접 체험하기

GPT-4o는 무료로 이용할 수 있습니다. 위에서 언급한 실시간 대화 기능을 사용해 보려면 구글 플레이 스토어 또는 애플 앱스토어에서 ChatGPT 앱을 휴대폰에 직접 다운로드할 수 있습니다. 

로그인한 후 화면 오른쪽 상단에 있는 점 3개를 탭하여 표시되는 목록에서 GPT-4o를 선택할 수 있습니다. GPT-4o가 활성화된 채팅으로 이동한 후 화면 왼쪽 하단에 있는 더하기 기호를 탭하면 여러 입력 옵션이 표시됩니다. 화면 오른쪽 하단에 헤드폰 아이콘이 표시됩니다. 헤드폰 아이콘을 선택하면 핸즈프리 버전의 GPT-4o를 체험할 것인지 묻는 메시지가 표시됩니다. 동의하면 아래와 같이 GPT-4o를 사용해 볼 수 있습니다.

그림 7. ChatGPT 모바일 앱에서 GPT-4o 체험하기.

GPT-4o의 고급 기능을 자체 프로젝트에 통합하려는 경우 개발자용 API로 사용할 수 있습니다. 이를 통해 GPT-4o의 강력한 음성 인식, 다국어 지원, 실시간 대화 기능을 애플리케이션에 통합할 수 있습니다. API를 사용하면 사용자 경험을 개선하고, 더 스마트한 앱을 구축하고, 다양한 분야에 최첨단 AI 기술을 도입할 수 있습니다.

GPT-4o: 아직 인간은 아닙니다

GPT-4o는 이전 AI 모델보다 훨씬 더 발전했지만, GPT-4o에는 자체적인 한계가 있다는 점을 기억하는 것이 중요합니다. OpenAI는 대화 중에 English 에서 프랑스어와 같이 임의로 언어를 전환할 수 있다고 언급했습니다. 또한 GPT-4o가 언어 간 번역을 잘못하는 경우도 있었습니다. 더 많은 사람들이 이 모델을 사용해 보면 GPT-4o의 뛰어난 점과 개선이 필요한 부분을 파악할 수 있을 것입니다.

결론

OpenAI의 GPT-4o는 고급 텍스트, 시각 및 오디오 처리 기능을 통해 사람과 같은 자연스러운 상호작용을 제공함으로써 AI의 새로운 가능성을 열어줍니다. 속도, 비용 효율성, 다국어 지원 측면에서 탁월합니다. GPT-4o는 교육, 접근성, 실시간 지원을 위한 다목적 툴입니다. 사용자가 GPT-4o의 기능을 탐색하면서 피드백을 통해 발전해 나갈 것입니다. GPT-4o는 AI가 진정으로 세상을 변화시키고 일상 생활의 일부가 되고 있음을 증명합니다. 

GitHub 리포지토리를 살펴보고 커뮤니티에 참여하여 AI에 대해 더 자세히 알아보세요. 솔루션 페이지를 방문하여 AI가 제조농업과 같은 산업을 어떻게 혁신하고 있는지 살펴보세요.

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기