용어집

접지

AI를 기반으로 추상적인 개념을 실제 데이터에 연결하여 동적 애플리케이션의 컨텍스트, 정확성 및 신뢰를 향상시키는 방법을 알아보세요.

접지란 자연어로 표현된 개념을 다른 형식의 데이터, 가장 일반적으로 이미지나 동영상과 같은 시각적 데이터에 연결하는 작업, 즉 '접지'를 포함하는 인공 지능의 작업입니다. 간단히 말해, 특정 사진에서 "원반을 잡는 개"와 같은 문구가 무엇을 의미하는지 기계가 이해하도록 가르치는 것입니다. 이는 언어적 설명을 지각 세계의 특정 대상, 속성 및 관계와 연결하여 단순한 인식을 넘어서는 것입니다. 접지는 추상적인 언어와 구체적인 감각 입력 사이의 간극을 메워 보다 인간과 유사한 방식으로 세상과 상호작용할 수 있는 AI 시스템을 만드는 데 중요한 기능입니다. 이는 자연어 처리(NLP)컴퓨터 비전(CV)을 모두 통합하는 고급 멀티모달 모델의 핵심 구성 요소입니다.

접지의 작동 방식

접지 모델은 이미지와 텍스트 설명을 결합한 대규모 데이터 세트에 대해 학습됩니다. 이러한 설명에는 종종 이미지 내의 특정 영역이나 객체에 연결된 세부 문구가 포함되며, 때로는 바운딩 박스로 정의되기도 합니다. 일반적으로 Transformer 기반 아키텍처를 사용하는 이 모델은 텍스트와 이미지 모두에 대해 풍부한 숫자 표현 또는 임베딩을 생성하는 방법을 학습합니다. 그런 다음 이러한 임베딩을 정렬하여 "오른쪽에 있는 높은 건물"이라는 문구의 표현이 이미지의 해당 픽셀 영역의 표현과 밀접하게 일치하도록 학습합니다. 이 프로세스는 기호(단어)가 의미를 얻는 방식과 관련된 철학적, 기술적 과제인 기호 접지 문제의 기본입니다. YOLO-World와 같은 최신 모델은 접지 원리의 실용적인 적용인 개방형 어휘 감지를 개척하고 있습니다.

실제 애플리케이션

접지를 사용하면 시각적 장면에 대한 미묘한 이해가 필요한 정교한 애플리케이션을 구현할 수 있습니다.

  • 대화형 로봇 공학: 로봇 공학에서 접지는 로봇이 자연어 명령을 따를 수 있게 해줍니다. 예를 들어 사용자가 창고 로봇에게 "큰 파란색 상자 뒤에 있는 작은 빨간색 상자를 집어"라고 지시할 수 있습니다. 로봇의 AI는 이 전체 문구를 접지하여 물체, 속성(작은, 빨간색, 큰, 파란색), 공간 관계(뒤)를 이해해야 작업을 올바르게 실행할 수 있습니다. 이는 제조 자동화부터 의료 분야의 보조 로봇에 이르기까지 다양한 애플리케이션에 매우 중요합니다.
  • 시각적 질문 답변(VQA) 및 이미지 검색: "소화전 옆에 주차된 차는 어떤 색인가요?"라고 시스템에 질문하면 먼저 '차'와 '소화전'이라는 문구를 이미지에서 찾아내야 합니다. 그래야만 자동차의 색상을 식별하고 질문에 답할 수 있습니다. 이를 통해 더욱 직관적이고 강력한 시맨틱 검색 도구가 제공되며 더욱 유용한 가상 비서를 개발하는 데 도움이 됩니다.

관련 개념과의 차이점

접지를 다른 컴퓨터 비전 작업과 구별하는 것이 중요합니다.

  • 객체 감지: 표준 개체 감지는 고정 어휘에서 미리 정의된 클래스(예: '사람', '자전거')의 인스턴스를 식별합니다. 이와는 대조적으로 접지는 개방형 어휘 작업입니다. 표준 감지기가 처리할 수 없는 '화창한 날 자전거를 타는 사람'과 같은 자유 형식의 설명적인 자연어를 기반으로 객체를 찾습니다.
  • 시맨틱 세분화: 이 작업은 이미지의 모든 픽셀에 클래스 레이블을 할당합니다(예: 모든 픽셀을 '하늘', '도로' 또는 '나무'로 레이블 지정). 접지는 텍스트 프롬프트에서 설명하는 특정 물체 또는 영역만 분리하는 보다 집중적인 작업입니다. 이는 인스턴스 분할의 한 형태인 참조 표현식 분할이라는 하위 작업과 더 밀접한 관련이 있습니다.

과제 및 향후 방향

강력한 접지 모델을 개발하는 데는 몇 가지 어려움이 있습니다. 인간 언어의 고유한 모호성과 풍부함은 모델링하기 어렵습니다. 필요한 대규모의 정확한 주석이 달린 데이터 세트를 생성하는 데는 많은 비용과 노동력이 소요되며, RefCOCO와 같은 데이터 세트가 그 예입니다. 또한 이러한 복잡한 모델을 학습시키는 데 필요한 컴퓨팅 리소스는 상당할 수 있으며, 분산 학습이나 광범위한 클라우드 학습이 필요한 경우가 많습니다. 실시간 추론을 위해 모델이 효율적으로 작동할 수 있도록 보장하는 것도 또 다른 주요 장애물입니다.

arXiv와 같은 플랫폼에 종종 게시되는 미래 연구는 제로 샷 학습과 같은 기술을 통해 보이지 않는 객체 설명에 더 잘 일반화하여 성능을 개선하는 데 중점을 둡니다. Allen Institute for AI(AI2) 와 같은 조직에서 이러한 분야를 활발히 연구하고 있습니다. 접지 기술이 성숙해짐에 따라 인간과 AI의 협업이 더욱 자연스러워지고 AI 시스템이 세상을 진정으로 이해하고 실행할 수 있게 될 것입니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨