YOLO Vision 2024의 패널 강연에서 흥미로운 인사이트를 알아보세요. 제너레이티브 AI가 실시간 비전 AI 모델의 미래를 어떻게 만들어가고 있는지 살펴보세요.
생성형 AI는 기존 데이터에서 패턴을 학습하여 이미지, 텍스트 또는 오디오와 같은 새로운 콘텐츠를 만드는 인공지능(AI)의 한 분야입니다. 최근의 발전 덕분에 이제는 인간의 창의력을 모방한 매우 사실적인 콘텐츠를 제작하는 데 사용할 수 있습니다.
그러나 제너레이티브 AI의 영향력은 단순히 콘텐츠를 제작하는 데 그치지 않습니다. Ultralytics YOLO 모델과 같은 실시간 컴퓨터 비전 모델이 계속 발전함에 따라 제너레이티브 AI는 시각 데이터의 처리 및 증강 방식을 재정의하여 실제 시나리오에서 혁신적인 애플리케이션의 기반을 마련하고 있습니다.
이 새로운 기술 변화는 Ultralytics 주최하는 연례 하이브리드 행사인 YOLO Vision 2024(YV24 )에서 흥미로운 대화의 주제였습니다. YV24에서는 AI 애호가와 업계 리더들이 한자리에 모여 컴퓨터 비전의 최신 혁신에 대해 논의했습니다. 이 행사는 혁신, 효율성, 실시간 AI 솔루션의 미래에 초점을 맞추었습니다.
이번 행사의 주요 하이라이트 중 하나는 '생성적 AI 시대의YOLO '에 대한 패널 토크였습니다. 이 패널에는 Ultralytics 창립자 겸 CEO인 글렌 조처, Ultralytics 수석 머신러닝 엔지니어인 징 치우, 칭화대학교의 아오 왕이 참여했습니다. 이들은 제너레이티브 AI가 컴퓨터 비전에 미치는 영향과 실용적인 AI 모델 구축의 과제에 대해 논의했습니다.
이 글에서는 토론에서 얻은 주요 인사이트를 다시 살펴보고 제너레이티브 AI가 비전 AI를 어떻게 혁신하고 있는지 자세히 살펴보겠습니다.
글렌 조처와 함께 많은 숙련된 엔지니어들이 Ultralytics YOLO 모델을 개발하는 데 중요한 역할을 담당했습니다. 그 중 한 명인 징 치우는 예상치 못한 YOLO 시작에 대해 이야기했습니다. 그는 대학 시절부터 AI에 대한 열정이 시작되었다고 설명했습니다. 그는 이 분야에 대해 탐구하고 배우는 데 상당한 시간을 보냈습니다. 징 치우는 GitHub에서 글렌 조처와 인연을 맺고 다양한 AI 프로젝트에 참여하게 된 과정을 회상했습니다.
글렌 조처는 Jing Qiu의 말에 덧붙여 "한 번도 만난 적 없는 사람들이 모여 서로를 돕고 서로의 작업에 기여하는 놀라운 공유 방법"이라고 GitHub를 설명했습니다. 훌륭한 커뮤니티이자 AI를 시작하기에 정말 좋은 방법입니다."
Jing Qiu의 AI에 대한 관심과 그의 작업은 Ultralytics YOLOv5 모델을 개선하는 데 도움을 주었습니다. 이후, 그는 개발 과정에서 핵심적인 역할을 담당했습니다. Ultralytics YOLOv8을 개발하는 데 핵심적인 역할을 담당했습니다. 그는 이를 놀라운 여정이라고 표현했습니다. 현재 Jing Qiu는 다음과 같은 모델을 지속적으로 개선하고 작업하고 있습니다. Ultralytics YOLO11.
중국에서 원격으로 패널 토크에 참여한 아오 왕은 자신을 박사 과정 학생이라고 소개했습니다. 처음에는 소프트웨어 공학을 전공했지만 AI에 대한 열정으로 컴퓨터 비전과 딥러닝으로 전공을 바꾸게 되었다고 합니다.
그는 다양한 AI 기술과 모델을 실험하던 중 유명한 YOLO 모델을 처음 접했습니다. 그는 이 모델의 속도와 정확성에 깊은 인상을 받았고, 이를 계기로 물체 감지와 같은 컴퓨터 비전 작업에 더 깊이 뛰어들게 되었습니다. 최근 아오 왕은 YOLO 모델의 최신 버전인 YOLOv10에 기여했습니다. 그의 연구는 모델을 더 빠르고 정확하게 최적화하는 데 중점을 두었습니다.
그런 다음 패널은 제너레이티브 AI에 대해 논의하기 시작했고, 징 치우는 제너레이티브 AI와 비전 AI의 목적이 매우 다르다는 점을 지적했습니다. 제너레이티브 AI는 텍스트, 이미지, 동영상과 같은 것을 생성하거나 생성하는 반면, 비전 AI는 주로 이미지와 같이 이미 존재하는 것을 분석합니다.
글렌 조처는 규모도 큰 차이점이라고 강조했습니다. 생성형 AI 모델은 방대하며, 종종 수십억 개의 매개변수(모델이 데이터를 학습하는 데 도움이 되는 내부 설정)를 포함합니다. 컴퓨터 비전 모델은 훨씬 더 작습니다. 그는 "우리가 보유한 가장 작은 YOLO 모델은 가장 작은 LLM(대규모 언어 모델)보다 약 천 배 더 작습니다. 즉, 30억 개의 매개변수에 비해 300만 개의 매개변수가 있는 셈입니다."
징 치우는 제너레이티브 AI와 컴퓨터 비전 훈련 및 배포 프로세스도 매우 다르다고 덧붙였습니다. 제너레이티브 AI를 실행하려면 거대하고 강력한 서버가 필요합니다. 반면에 YOLO 같은 모델은 효율성을 위해 구축되었으며 표준 하드웨어에서 훈련 및 배포할 수 있습니다. 따라서 Ultralytics YOLO 모델은 실제 사용에 더 실용적입니다.
서로 다른 분야이지만 이 두 분야는 서로 얽히기 시작했습니다. 글렌 조처는 제너레이티브 AI가 비전 AI에 새로운 발전을 가져와 모델을 더 스마트하고 효율적으로 만들고 있다고 설명했습니다.
생성 AI는 빠르게 발전해 왔으며, 이러한 혁신은 컴퓨터 비전을 비롯한 다른 많은 인공지능 분야에 영향을 미치고 있습니다. 이제 이에 대한 패널의 흥미로운 인사이트를 살펴보겠습니다.
패널 초반에 글렌 조처는 머신러닝 아이디어는 오랫동안 존재해 왔지만 컴퓨터가 이를 실현할 만큼 강력하지 않았다고 설명했습니다. AI 아이디어를 현실화하려면 더 강력한 하드웨어가 필요했습니다.
지난 20년 동안 병렬 처리 기능을 갖춘 GPU(그래픽 처리 장치)의 등장으로 모든 것이 바뀌었습니다. AI 모델을 훨씬 더 빠르고 효율적으로 학습할 수 있게 되면서 딥러닝이 빠른 속도로 발전할 수 있었습니다.
오늘날 TPU(Tensor 처리 장치) 및 최적화된 GPU와 같은 AI 칩은 더 크고 복잡한 모델을 처리하면서도 전력을 적게 사용합니다. 덕분에 AI는 실제 애플리케이션에서 더 쉽게 접근하고 유용하게 사용할 수 있게 되었습니다.
새로운 하드웨어가 개선될 때마다 제너레이티브 AI와 컴퓨터 비전 애플리케이션 모두 더욱 강력해지고 있습니다. 이러한 발전으로 실시간 AI는 더 빠르고 효율적이며 더 많은 산업에서 사용할 수 있게 되었습니다.
제너레이티브 AI가 컴퓨터 비전에 어떤 영향을 미치고 있느냐는 질문에 Jing Qiu는 AI가 이미지의 가장 중요한 부분에 집중하도록 돕는 모델인 트랜스포머가 AI가 이미지를 이해하고 처리하는 방식을 변화시켰다고 답했습니다. 첫 번째 큰 단계는 물체 감지에 이 새로운 접근 방식을 사용한 DETR(Detection Transformer)이었습니다. 정확도는 향상되었지만 경우에 따라 속도가 느려지는 성능 문제가 있었습니다.
이를 해결하기 위해 연구원들은 RT-DETR 같은 하이브리드 모델을 만들었습니다. 이 모델은 컨볼루션 신경망(CNN, 이미지에서 자동으로 학습하고 특징을 추출하는 딥러닝 모델)과 트랜스포머를 결합하여 속도와 정확성의 균형을 맞춥니다. 이 접근 방식은 트랜스포머의 장점을 활용하면서 물체를 더 빠르게 감지할 수 있습니다.
흥미롭게도 YOLOv10은 트랜스포머 기반 주의 레이어(이미지에서 가장 중요한 부분을 강조하고 관련성이 낮은 세부 사항은 무시하는 스포트라이트와 같은 역할을 하는 모델의 일부)를 사용하여 성능을 향상시킵니다.
아오 왕은 또한 제너레이티브 AI가 모델 학습 방식을 어떻게 변화시키고 있는지에 대해서도 언급했습니다. 마스킹 이미지 모델링과 같은 기술은 AI가 이미지에서 더 효율적으로 학습할 수 있도록 도와주며, 수동으로 레이블이 지정된 대규모 데이터 세트의 필요성을 줄여줍니다. 이를 통해 컴퓨터 비전 학습은 더 빠르고 리소스 집약적입니다.
패널이 논의한 또 다른 핵심 아이디어는 제너레이티브 AI와 비전 AI를 결합하여 더 뛰어난 모델을 구축하는 방법에 관한 것이었습니다. 글렌 조처는 이 두 가지 접근 방식은 서로 다른 강점을 가지고 있지만, 이를 결합하면 새로운 가능성을 열 수 있다고 설명했습니다.
예를 들어, YOLO 같은 비전 AI 모델은 종종 이미지를 그리드로 분할하여 물체를 식별합니다. 이 그리드 기반 방법은 언어 모델이 세부 사항을 정확히 찾아내고 설명하는 능력을 향상시키는 데 도움이 될 수 있으며, 이는 오늘날 많은 언어 모델이 직면하고 있는 과제입니다. 본질적으로 이러한 기술을 병합하면 보이는 것을 정확하게 감지하고 명확하게 설명할 수 있는 시스템을 만들 수 있습니다.
제너레이티브 AI와 컴퓨터 비전은 함께 발전하고 있습니다. 제너레이티브 AI는 이미지와 동영상을 생성하는 동시에 비전 AI 모델을 더 정확하고 효율적으로 만들 수 있는 새롭고 혁신적인 아이디어를 제공함으로써 이미지와 동영상 분석을 개선합니다.
이 통찰력 있는 YV24 패널 토크에서 Glenn Jocher, Jing Qiu, Ao Wang은 이러한 기술이 어떻게 미래를 만들어가고 있는지에 대한 생각을 공유했습니다. 더 나은 AI 하드웨어를 통해 제너레이티브 AI와 비전 AI는 계속 진화하여 더 큰 혁신을 이끌어낼 것입니다. 이 두 분야는 일상 생활에 더 스마트하고, 더 빠르고, 더 유용한 AI를 만들기 위해 협력하고 있습니다.
커뮤니티에 가입하고 GitHub 리포지토리를 살펴보고 Vision AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작하려면 라이선스 옵션을 확인하세요. 제조 분야의 AI 또는 자율 주행 분야의 컴퓨터 비전과 같은 혁신에 관심이 있으신가요? 솔루션 페이지를 방문하여 자세히 알아보세요.