객체 감지, 이미지 캡션, 비전 AI 솔루션용 OCR과 같은 컴퓨터 비전 작업을 위해 Google Gemini 2.5를 직접 사용해 보는 방법을 알아보세요.
AI의 발전은 거의 매일 새로운 혁신이 헤드라인을 장식하며 빠르게 진행되고 있습니다. 3월 26일에 출시된 Google 딥마인드의 최신 멀티모달 모델인 Gemini 2.5는 이러한 최근의 혁신 중 하나입니다. 기존의 대규모 언어 모델(LLM)은 방대한 양의 데이터를 학습하여 인간과 유사한 텍스트를 생성할 수 있지만, Gemini 2.5는 그 이상의 기능을 제공합니다.
이미지, 오디오, 비디오를 처리할 수 있는 '사고 모델'로 설계되었습니다. 추론과 코딩 능력이 향상되었습니다. 흥미롭게도 물체 감지, 이미지 캡션, 광학 문자 인식(OCR) 등 기계가 시각 데이터를 해석하고 분석하는 컴퓨터 비전 작업에서도 뛰어난 성능을 발휘합니다.
이 글에서는 Gemini 2.5의 컴퓨터 비전 기능을 직접 사용해 볼 수 있는 Ultralytics노트북 중 하나를 살펴보겠습니다. 또한 Gemini 2.5의 주요 기능을 자세히 살펴보고 실제 애플리케이션을 위한 컴퓨터 비전 솔루션을 구축하는 데 어떻게 사용할 수 있는지 보여드리겠습니다. 시작해 보겠습니다!
이번에 출시된 Gemini 2.5 모델 시리즈의 첫 번째 버전은 Gemini 2.5 Pro의 실험적 버전입니다. 이 버전은 복잡한 문제를 처리하기 위해 답을 제시하기 전에 스스로 생각하여 답을 찾도록 설계되었습니다. 이 모델은 강화 학습(모델이 피드백을 통해 학습하는 방식) 및 연쇄적 사고 프롬프트(문제 해결을 위한 단계별 접근 방식)와 같은 방법을 사용합니다.
주요 기능 중 하나는 100만 개의 토큰(약 100만 개의 단어 또는 단어 부분)을 저장할 수 있는 거대한 컨텍스트 창이며, 이는 200만 개까지 늘어날 것으로 예상됩니다. 이는 모델이 한 번에 많은 정보를 받아들일 수 있어 보다 상세하고 정확한 결과를 도출할 수 있음을 의미합니다.
처리 언어 외에도 Gemini 2.5는 다음과 같은 컴퓨터 비전 작업에 사용할 수 있습니다:
현재 AI 분야에는 여러 가지 멀티모달 모델이 있으므로 Gemini 2.5 Pro가 이러한 모델과 어떻게 비교되는지 이해하는 것이 중요합니다. Google 딥마인드에서 공유한 벤치마킹 결과에 따르면 Gemini 2.5 Pro는 다양한 작업에서 인상적인 성능을 보여줍니다.
예를 들어, 여러 과목을 아우르는 고난도 시험을 시뮬레이션하고 고급 추론과 일반 지식을 테스트하는 '인류의 마지막 시험'이라는 테스트에서 Gemini 2.5 Pro는 약 18.8%의 점수를 기록하여 약 14%의 점수를 얻은 OpenAI의 o3-mini와 같은 모델보다 우수한 성능을 보였습니다.
또한 수학 및 코딩 과제에서 매우 우수한 성능을 발휘하며, 종종 OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta, DeepSeek R1과 같은 모델의 성능과 비슷하거나 그 이상의 성능을 발휘하여 복잡한 작업을 처리하고 대량의 데이터를 처리하는 능력을 입증했습니다.
Gemini 2.5 Pro는 여러 플랫폼에서 사용할 수 있습니다. Google AI Studio에서 실험해 볼 수 있으며 Gemini 고급 사용자는 Gemini 앱을 통해 액세스할 수 있습니다. Google 딥마인드는 출시 발표에서 이 모델이 곧 버텍스 AI에서도 지원될 것이라고 언급했습니다. 이러한 액세스 포인트를 통해 개발자는 실제 AI 애플리케이션에 Gemini 2.5 Pro를 쉽게 사용할 수 있습니다.
하지만 복잡한 설정 없이 단 몇 분 만에 Google Gemini API를 사용하고 싶고 컴퓨터 비전 기능을 더 잘 이해하고자 한다면 Gemini 2.5 Pro를 사용하여 물체 감지 및 이미지 캡션과 같은 작업을 보여주는 Ultralytics 노트북을 확인해 보세요. 노트북에서 기대할 수 있는 기능을 자세히 살펴보겠습니다.
Ultralytics 노트북을 시작하고 Google Gemini 2.5를 사용하려면 먼저 Google AI Studio를 통해 API 키를 생성해야 합니다. 이 키를 통해 Gemini API에 액세스할 수 있으므로 모델을 사용할 수 있습니다.
API 키를 받으면 환경에 필요한 라이브러리가 설치되어 있는지 확인합니다(여기에는 다음 패키지가 포함됩니다. Ultralytics 및 GoogleAI 툴킷 패키지가 포함됩니다. 이 단계는 노트북에 명확하게 설명되어 있으므로 지침에 따라 워크스페이스를 쉽게 설정할 수 있습니다.
모든 구성이 완료되면 API 키(아래 표시)를 입력하여 Gemini API에 연결하면 작업 공간과 모델 간에 링크가 생성됩니다. 그런 다음 이미지와 텍스트 프롬프트를 Gemini 2.5로 보낼 준비가 된 것입니다.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
기본적으로 이미지와 간단한 명령어("이 이미지에서 물체 감지" 또는 "보이는 것 설명" 등)를 모델에 제공하면 필요한 결과를 반환합니다. 이 간단한 프로세스를 통해 Gemini 2.5의 컴퓨터 비전 기능을 쉽게 탐색할 수 있습니다.
노트북의 주요 예제 중 하나는 Gemini 2.5 Pro를 사용한 물체 감지입니다. 이 예제에서는 모델에 이미지와 간단한 프롬프트를 제공하여 물체를 감지하도록 합니다.
모델은 이미지를 처리하고 찾은 각 객체에 대한 좌표와 레이블 세트를 반환하며, 이러한 좌표는 정규화된 형태로 제공됩니다. 그런 다음, 아래 그림과 같이 Ultralytics Python 패키지의 함수를 사용하여 이러한 정규화된 값을 이미지의 실제 치수와 일치하도록 변환하고 각 객체 주위에 명확한 경계 상자를 그립니다.
노트북의 또 다른 흥미로운 예는 Gemini 2.5 Pro를 사용한 이미지 캡션입니다. 이 예에서는 모델에 이미지와 함께 이미지의 내용을 설명하는 자세한 캡션을 생성하라는 메시지를 제공합니다.
그런 다음 모델은 시각적 콘텐츠를 분석하여 이미지의 내용과 맥락을 모두 파악할 수 있는 여러 문장으로 구성된 내러티브를 반환합니다. 이 기능은 접근성을 개선하고 시각적 정보를 요약하며 창의적인 스토리텔링을 강화하는 데 유용합니다.
Gemini 2.5 Pro의 이미지 텍스트 판독 기능을 사용하는 컴퓨터 비전 작업은 OCR입니다. 노트북에서 모델에 텍스트가 포함된 이미지와 함께 해당 텍스트를 추출하라는 메시지를 제공할 수 있습니다. 모델은 이미지를 처리하고 아래 그림과 같이 감지된 텍스트와 텍스트가 위치한 좌표를 모두 반환합니다.
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
그런 다음, 이러한 정규화된 좌표를 이미지의 실제 치수로 변환하고 텍스트 영역 주위에 경계 상자를 그리기 위해 Ultralytics Python 패키지의 함수를 사용합니다. 이 주석이 달린 출력은 텍스트의 위치를 명확하게 보여주므로 문서를 디지털화하고 데이터 입력을 자동화하며 접근성을 개선하는 데 유용합니다.
이제 Google Gemini 2.5 Pro를 다양한 컴퓨터 비전 작업에 사용하는 방법을 살펴봤으니 이러한 기능을 사용할 수 있는 실제 애플리케이션 몇 가지를 살펴보겠습니다.
예를 들어, Gemini 2.5 Pro의 물체 감지 기능은 대규모 이미지 세트에 자동으로 라벨을 지정하고 정리하여 데이터 세트 생성이나 콘텐츠 관리와 같은 작업을 훨씬 빠르게 처리할 수 있도록 도와줍니다. 또한 진열대에 있는 제품을 감지하거나 농장 사진에서 작물의 스트레스 징후를 식별하는 등 소매업이나 농업과 같은 분야의 이미지를 분석하는 데에도 사용할 수 있습니다.
한편, 모델의 이미지 캡션 기능은 시각 장애가 있는 사용자가 이미지의 내용을 이해하는 데 도움을 줄 수 있습니다. 예를 들어, 번화한 거리의 사진이 있는 경우 모델은 차량의 종류, 보행자의 활동, 조명 신호를 기반으로 한 시간대까지 언급하며 장면을 자세히 설명하는 캡션을 생성할 수 있습니다.
이 외에도 Gemini 2.5의 OCR 기능은 다양한 애플리케이션에서 사용할 수 있습니다. 예를 들어, 페이지나 영수증을 스캔하여 인쇄된 문서를 디지털화할 수 있습니다. 이 기능은 데이터 입력 작업 자동화, 양식 처리, 명함 및 간판의 텍스트 판독에 이상적입니다.
전반적으로 Google 제미니 2.5 프로는 다양한 실용적인 AI 애플리케이션의 문을 열어줍니다.
Google Gemini 2.5 Pro는 텍스트 생성 및 분석을 넘어 물체 감지, 이미지 캡션, OCR과 같은 컴퓨터 비전 작업에도 사용할 수 있습니다. 방대한 컨텍스트 창과 향상된 추론 기능을 통해 실제 시나리오에서 잘 작동하는 상세한 컨텍스트 인식 결과를 생성합니다.
AI 모델이 계속 발전함에 따라 Gemini 2.5 Pro와 같은 도구는 산업 전반의 복잡한 문제를 더 쉽게 해결할 수 있도록 돕고 있습니다. 시각적 이해부터 언어 처리까지 다양한 작업을 처리할 수 있는 유연한 멀티모달 솔루션을 찾는 조직이 늘어나면서 AI가 더욱 광범위하게 도입될 것으로 예상됩니다.
유니티 커뮤니티의 일원이 되어 GitHub 리포지토리에서 최첨단 AI 프로젝트에 대해 알아보세요. 솔루션 페이지에서 농업에서의 비전 AI 적용 사례와 제조업에서의 AI 역할에 대해 알아보세요. 라이선스 플랜을 살펴보고 지금 바로 컴퓨터 비전 솔루션을 구축하세요!