컨볼루션이 어떻게 컴퓨터 비전에서 AI를 강화하여 물체 감지, 이미지 인식, 의료 영상과 같은 작업을 정밀하게 수행할 수 있도록 지원하는지 알아보세요.
컨볼루션은 인공 지능, 특히 컴퓨터 비전(CV) 분야에서 널리 사용되는 기본적인 수학적 연산입니다. 컨볼루션은 합성곱 신경망(CNN)의 중요한 구성 요소로, 이러한 네트워크가 이미지나 동영상과 같은 그리드형 데이터에서 직접 복잡한 계층적 패턴을 자동으로 학습할 수 있게 해줍니다. 이 과정에는 입력 신호나 이미지에 커널이라고 하는 작은 필터를 적용하는 작업이 포함됩니다. 이 작업은 커널이 감지하도록 설계된 특정 패턴(예: 가장자리, 텍스처 또는 모양)을 강조하는 피처 맵이라는 출력을 생성합니다.
컨볼루션 프로세스는 작은 돋보기(커널 또는 필터)를 큰 이미지(입력 데이터) 위로 밀어 올리는 것과 같다고 생각하면 됩니다. 각 위치에서 커널은 입력 데이터의 작은 부분에 초점을 맞춥니다. 그런 다음 컨볼루션 연산은 커널에 정의된 가중치를 사용하여 이 패치 내의 픽셀 값의 가중치 합계를 계산합니다. 이렇게 계산된 값은 결과 출력 피처 맵에서 단일 픽셀이 됩니다. 커널은 전체 입력 이미지를 단계별로 체계적으로 이동하며, 단계 크기는'보폭'이라는 매개변수에 의해 결정됩니다. 때로는 출력 크기를 제어하기 위해 입력 이미지 주위에'패딩'(테두리 픽셀 추가)을 사용하기도 합니다. 단일 컨볼루션 레이어 내에 여러 개의 커널을 적용함으로써 CNN은 입력에서 다양한 특징 집합을 동시에 추출할 수 있습니다. 스탠포드 CS231n 강의 노트에 있는 것과 같은 시각적 설명은 더 많은 직관력을 제공할 수 있습니다.
컨볼루션 연산을 정의하는 매개변수는 여러 가지가 있습니다:
컨볼루션은 종종 CNN 내에서 다른 연산과 함께 사용되지만, 뚜렷한 목적을 가지고 있습니다:
컨볼루션 레이어는 수많은 최신 AI 애플리케이션에서 없어서는 안 될 필수 요소입니다:
객체 감지 분야에서 CNN은 컨볼루션 레이어를 사용하여 이미지에서 특징을 추출하고, 경계 상자를 사용하여 객체를 식별하고 위치를 결정할 수 있습니다. 다음과 같은 최첨단 모델 Ultralytics YOLO와 같은 버전을 포함한 YOLO11와 같은 모델은 효율적이고 정확한 감지를 위해 다양한 규모의 특징을 분석하기 위해 컨볼루션에 크게 의존합니다. 이는 자율주행차(Waymo의 기술 참조)가 보행자, 차량, 교통 표지판을 인식하여 안전하게 주행할 수 있도록 하는 등 자동차 애플리케이션의 AI에 필수적인 요소로, 실시간 추론이 필요한 경우가 많습니다.
컨볼루션은 의료 이미지 분석에서 중요한 역할을 하며 의료 전문가가 엑스레이, CT 스캔, MRI와 같은 스캔을 해석하는 데 도움을 줍니다. CNN으로 구축된 AI 모델은 종양이나 골절과 같은 질병을 나타내는 미묘한 패턴을 감지할 수 있으며, 때로는 인간의 속도와 정확성을 능가하기도합니다(방사선학: 인공 지능). 예를 들어 종양 감지를 위해 YOLO11 사용하는 것과 같은 특정 작업을 위해 모델을 학습시킬 수 있습니다. 의료 솔루션의 AI에 대해 자세히 알아보세요.
컨볼루션은 최신 딥러닝(DL)의 초석으로, 특히 그리드형 데이터와 관련된 작업에 적합합니다. 공간적 위치(인근 픽셀이 서로 연관되어 있다고 가정)를 활용하고 여러 위치에서 매개변수를 공유하는 능력 덕분에 CNN은 기존의 완전히 연결된 네트워크에 비해 시각적 계층 구조를 학습하는 데 매우 효율적이고 효과적입니다.
컨볼루션을 사용하는 모델을 구현하고 훈련하는 것은 다양한 딥러닝 프레임워크를 통해 용이하게 이루어집니다. 다음과 같은 라이브러리 PyTorchPyTorch 공식 사이트) 및 TensorFlowTensorFlow 공식 사이트)와 같은 라이브러리는 CNN을 구축하기 위한 강력한 도구를 제공합니다. Ultralytics HUB와 같은 플랫폼은 모델 훈련 프로세스를 간소화하여 사용자가 컨볼루션을 통합한 사전 구축된 아키텍처를 활용하거나 특정 애플리케이션을 위한 맞춤형 모델을 훈련할 수 있게 해줍니다. Keras와 같은 고급 API는 개발을 더욱 간소화합니다.