녹색 확인
링크가 클립보드에 복사됨

더 스마트한 로봇을 만드는 Google 제미니 로보틱스 모델

Google 제미니 로보틱스가 멀티모달 인텔리전스로 AI 기반 로봇의 적응력, 민첩성, 원활한 인간 상호 작용을 향상시키는 방법을 살펴보세요.

수십 년 동안 로봇은 연구실, 공상과학 영화, 첨단 산업 시제품 쇼케이스에 등장하며 미래를 상징해 왔습니다. 이제 최근 인공지능(AI)의 발전 덕분에 이러한 프로토타입은 통제된 환경을 넘어 실제 응용 분야로 나아가고 있습니다. 

특히 제미니 로보틱스를 통해 Google 더 똑똑한 로봇을 만드는 데 필요한 기술에 한 걸음 더 다가서고 있습니다. 2025년 3월 12일에 출시된 Gemini Robotics 모델과 그 동반 모델인 Gemini Robotics-ER(구현된 추론)은 Google DeepMind의 최신 혁신 기술입니다. 

텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 처리하고 생성할 수 있는 멀티모달 대형 언어 모델(LLM)인 Gemini 2.0을 기반으로 구축되어 더욱 다양하고 자연스러운 상호 작용이 가능합니다. 이러한 모델은 Gemini 2.0의 멀티모달 기능을 실제 세계에 적용하여 더욱 민첩하고 인터랙티브하며 지능적인 로봇을 구현할 수 있게 해줍니다.

예를 들어, 고정된 지시를 따르는 기존 로봇과 달리 제미니 로보틱스 모델과 통합된 로봇은 시각과 언어를 처리할 수 있습니다. 따라서 실시간으로 의사 결정을 내리고 변화하는 환경에 적응할 수 있습니다.

이 문서에서는 Gemini Robotics와 Gemini Robotics-ER의 작동 방식과 주요 기능 및 애플리케이션에 대해 살펴봅니다. 시작해 보겠습니다!

그림 1. 제미니 로보틱스는 로봇이 여러 작업을 효율적으로 수행할 수 있도록 지원합니다.

Google 제미니 로보틱스 소개

Google제미니 로보틱스는 로봇이 실제 세계를 인식하고 추론하며 상호 작용할 수 있도록 설계된 고급 AI 모델입니다. 시각-언어-행동(VLA) 모델로서 로봇이 명령을 처리하고 환경을 해석하며 복잡한 작업을 높은 정밀도로 실행할 수 있도록 지원합니다.

한편 제미니 로보틱스-ER 모델은 물체의 위치, 이동 방식, 상호 작용 방식에 대한 공간 관계를 이해하는 로봇의 능력을 향상시킵니다. 이를 통해 로봇은 행동을 예측하고 그에 따라 움직임을 조정할 수 있습니다. 

예를 들어 로봇이 헤드폰에 와이어를 감아야 하는 작업을 생각해 보세요. 제미니 로보틱스-ER은 장면을 이해하고, 와이어의 모양과 유연성을 인식하고, 헤드폰의 구조를 파악하고, 와이어가 움직일 때 어떻게 구부러질지 예측하는 데 도움을 줍니다. 그런 다음 Gemini Robotics는 이러한 이해를 행동으로 전환하여 양손을 조정하여 와이어를 원활하게 조작하고 엉키지 않도록 그립을 조정하며 안전하게 감싸줍니다.

지각과 동작을 결합하여 Gemini Robotics와 Gemini Robotics-ER은 로봇이 역동적인 환경에서 능숙하게 작업을 수행할 수 있는 지능형 시스템을 구축합니다.

그림 2. Gemini Robotics 모델 제품군 개요.

로봇 공학에서의 AI: 제미니 로보틱스의 작동 방식 살펴보기

다음으로 각 모델을 자세히 살펴보고 Gemini Robotics와 Gemini Robotics-ER이 어떻게 함께 작동하여 유연성과 빠른 조치의 균형을 맞추는지 더 잘 이해해 보겠습니다. 

한편으로 Gemini Robotics-ER은 제로 샷 코드 생성과 소수 샷 인컨텍스트 학습(ICL)이라는 두 가지 핵심 메커니즘을 활용합니다. 제로 샷 코드 생성을 통해 모델은 추가 교육 없이도 작업 지침, 이미지 및 실시간 데이터를 기반으로 로봇을 제어하는 코드를 생성할 수 있습니다. 

마찬가지로, 소수 학습을 사용하면 모델이 몇 가지 예제만 학습하여 새로운 작업에 적응하므로 광범위한 훈련의 필요성이 줄어듭니다. 이러한 방법을 함께 사용하면 로봇이 복잡한 작업을 빠르게 수행하고 최소한의 노력으로 새로운 과제에 적응할 수 있습니다.

반면 제미니 로보틱스는 속도와 효율성을 위해 제작되었습니다. 클라우드 기반 백본과 온보드 액션 디코더로 구성된 하이브리드 시스템을 사용합니다. 클라우드 기반 백본은 160밀리초 미만의 쿼리-응답 대기 시간으로 정보를 빠르게 처리합니다. 

그런 다음 온보드 디코더가 이 데이터를 실시간 동작으로 변환하는 데 도움을 줍니다. 이렇게 결합된 시스템은 초당 50개의 액션을 제어하는 속도로 약 250밀리초의 전체 응답 시간을 달성합니다.

그림 3. 제미니 로보틱스가 실시간 로봇 제어를 지원하는 방식 이해.

제미니 로보틱스의 주요 기능 

Gemini Robotics의 주요 기능을 간략히 소개합니다:

  • 일반성: 조명, 배경, 사물의 변화에 적응하면서도 정확성을 유지할 수 있습니다. 또한 의역 또는 다국어 명령을 이해하고 다양한 조건에 맞게 동작을 조정할 수 있습니다.

  • 상호 작용: 이 모델은 다양한 자연어 명령을 처리하고 직관적으로 반응할 수 있습니다. 또한 환경의 실시간 변화에 따라 동작을 조정하므로 인간과 로봇의 협업에 이상적입니다.

  • 손재주: 이 모델로 구동되는 로봇은 종이접기나 섬세한 물체 취급과 같은 복잡하고 정밀한 작업을 수행할 수 있습니다. 단계별 프로세스든 빠른 작업이든 이 모델은 효율적으로 실행하는 데 도움을 줄 수 있습니다.
  • 다양한 실시 예: 양팔 시스템 및 휴머노이드 로봇과 같은 다양한 로봇 플랫폼에서 약간의 미세 조정만으로 작동합니다. 높은 성능을 유지하면서 새로운 작업에 빠르게 적응할 수 있습니다.
그림 4. Google 제미니 로보틱스는 다양한 로봇 플랫폼에서 작동합니다.

제미니 로보틱스의 주요 기능 - ER

로봇이 세상을 이해하고 상호 작용할 수 있도록 도와주는 Gemini Robotics-ER의 주요 기능 몇 가지를 살펴보세요:

  • 물체 감지 및 추적: 2D 및 3D 공간 모두에서 물체를 식별하고 추적하는 데 사용할 수 있습니다. 자연어 쿼리를 사용하여 로봇이 유형, 위치 또는 기능에 따라 사물을 찾고 위치를 예측할 수 있도록 도와줍니다.

  • 포인팅: 이 기능을 사용하면 모델이 정확한 좌표를 사용하여 이미지 내에서 특정 물체나 부품을 정확히 찾아낼 수 있습니다. 로봇이 전체 물체, 물체의 일부 또는 빈 공간의 위치를 찾는 데 사용할 수 있습니다.
  • 예측 파악: 제미니 로보틱스-ER은 물체의 모양과 기능에 따라 물체를 잡는 가장 좋은 방법을 결정하는 데 사용할 수 있습니다. 바나나나 컵 손잡이 등 잡을 위치를 예측하여 로봇이 조심스럽게 물건을 다룰 수 있도록 도와줍니다.

  • 궤적 추론: 이 모델은 일련의 동작을 예측하여 이동 경로를 계획하는 데 사용할 수 있습니다. 예를 들어 로봇 손을 도구 쪽으로 안내하거나 특정 작업의 웨이포인트를 정의하여 로봇이 작업을 효율적으로 완료하도록 도울 수 있습니다.

  • 다중 뷰 대응: 이 기능은 모델이 다양한 각도에서 물체가 어떻게 보이는지 비교하여 3D 구조를 이해하는 데 도움이 됩니다. 공간 추론을 향상시켜 로봇이 동적인 환경에서 물체와 더 잘 상호 작용할 수 있도록 하는 데 사용할 수 있습니다.
그림 5. 제미니 로보틱스-ER은 다양한 작업을 처리할 수 있습니다.

Google 제미니 로보틱스 모델의 애플리케이션

이제 Gemini Robotics와 Gemini Robotics-ER의 주요 기능에 대해 살펴봤으니, 다양한 산업 분야에서 실제 적용 사례에 대해 알아보겠습니다.

Google 제미니 로보틱스는 제조업에서 사용할 수 있습니다.

제조 분야에서는 정밀도와 속도도 중요하지만 모든 것을 원활하게 작동하게 하는 것은 적응력입니다. 예를 들어, Gemini-구동 산업용 로봇은 올바른 부품을 식별하고 올바르게 배치하며 유연한 고무 밴드를 정밀한 힘으로 처리하여 풀리 시스템을 조립할 수 있습니다. 

밴드를 늘리고 풀리에 감아 끊어지거나 정렬이 틀어지지 않도록 고정할 수 있습니다. 설정이 변경되거나 작업이 달라지는 경우에도 로봇은 광범위한 재프로그래밍 없이도 적응할 수 있습니다. 이 스마트 자동화는 오류를 줄이고 효율성을 개선하며 제조 공정을 원활하게 운영합니다.

그림 6. 양팔 산업용 로봇이 풀리 시스템에 고무 밴드를 정밀하게 장착하고 있습니다.

제미니 로보틱스가 구현하는 스마트 홈

바쁜 일정으로 인해 집안일을 따라잡기가 어려울 수 있습니다. 스마트 로봇이 청소, 식료품 분류, 식사 준비와 같은 작업을 대신 처리하여 일상 생활을 더 쉽게 만들어줍니다. 

로봇이 도시락 가방을 포장하면서 과일이나 캔처럼 깨지기 쉬운 물건을 보호하기 위해 그립을 조정하면서 음식물을 신중하게 선택하고 그 안에 넣는 것처럼 보일 수 있습니다. 배치가 변경되더라도 로봇은 스스로 적응할 수 있어 최소한의 감독만으로 일상적인 집안일을 쉽게 처리할 수 있습니다.

그림 7. 도시락을 조심스럽게 포장하는 휴머노이드 로봇.

제미니 로보틱스 활용의 장단점 

제미니 로보틱스는 정밀한 제조부터 스마트 홈 지원까지 로봇이 할 수 있는 일을 확장하고 있습니다. 다양한 애플리케이션에서 Gemini Robotics를 사용하면 얻을 수 있는 몇 가지 주요 이점은 다음과 같습니다: 

  • 최소 교육 요구 사항: 기존 로봇과 달리 Gemini Robotics의 로봇은 몇 번의 시연을 통해 학습할 수 있으므로 교육 비용이 절감되고 배포가 더 쉬워집니다.

  • 안전 강화: 위험한 환경에서 제미니 로보틱스와 통합된 로봇은 위험한 작업을 수행하여 작업자의 부상 위험을 줄일 수 있습니다.
    ↪cf_200D↩
  • 맞춤형 기능: Gemini Robotics의 유연성은 다양한 산업 또는 개별 비즈니스의 특정 요구 사항을 충족하도록 맞춤화할 수 있어 특화된 애플리케이션과 고유한 솔루션을 제공할 수 있다는 것을 의미합니다.

Gemini Robotics는 여러 가지 이점을 제공하지만 다음과 같은 제한 사항도 해결해야 합니다:

  • 공간 관계 문제: 이러한 모델은 긴 비디오 시퀀스에서 공간 관계를 추적하는 데 어려움을 겪을 수 있으며, 이는 시간 경과에 따른 객체 추적 및 이해 능력에 영향을 미칩니다.
    ↪f_200D↩
  • 수치 정밀도 부족: 점이나 경계 상자 같은 모델의 예측이 섬세한 로봇 작업과 같이 정밀한 제어가 필요한 작업에는 충분히 정확하지 않을 수 있습니다.
    ↪cf_200D↩
  • 복잡한 작업: 제미니 로보틱스는 특히 새롭거나 익숙하지 않은 상황에서 다단계 추론과 정밀한 움직임이 필요한 복잡한 작업을 처리하는 데 어려움을 겪을 수 있습니다. 

로봇 공학에서 AI의 미래

AI가 계속 발전함에 따라 Gemini Robotics 및 Gemini Robotics-ER과 같은 모델이 로봇의 미래를 주도하고 있습니다. 향후 개선 사항은 다단계 추론 기능을 강화하여 로봇이 작업을 논리적 단계로 나누어 더 정밀하게 처리할 수 있도록 하는 데 초점을 맞출 것입니다.

Google 딥마인드가 계획하고 있는 또 다른 핵심 개발 분야는 시뮬레이션 기반 훈련입니다. 실제 환경에 배치하기 전에 가상 환경에서 학습함으로써 로봇은 의사 결정과 움직임을 개선하여 실제 적용 시 오류를 최소화할 수 있습니다.

이러한 기술이 발전함에 따라 로봇이 더욱 자율적이고 적응력이 뛰어나며 일상 생활에서 인간과 함께 원활하게 작업할 수 있는 미래로 나아갈 수 있는 기반을 마련할 수 있습니다.

주요 요점

제미니 로보틱스는 디지털 인텔리전스와 실제 물리적 작업을 연결하는 AI 기반 자동화의 큰 진전입니다. 이 로봇은 시각, 언어, 행동 기반 학습을 결합하여 복잡한 작업을 정밀하고 적응력 있게 처리할 수 있습니다. 

로봇이 계속 더 똑똑해짐에 따라 로봇은 일상 생활에서 더 큰 역할을 담당하며 인간과 기계가 함께 일하는 방식을 변화시킬 것입니다. 이러한 발전은 AI 기반 자동화가 산업과 일상 업무를 모두 향상시키는 지능적이고 더욱 연결된 세상에 더 가까워지고 있습니다.

성장하는 커뮤니티의 일원이 되어보세요! GitHub 리포지토리를 방문하여 AI에 대해 자세히 알아보세요. 나만의 컴퓨터 비전 프로젝트를 시작하고 싶으신가요? 라이선스 옵션을 살펴보세요. 유니티의 솔루션 페이지에서 제조업의 AI와 자동차 산업의 비전 AI에 대해 자세히 알아보세요!

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기