모델 가중치가 AI의 지식 역할을 하는 방식을 알아보세요. Ultralytics 최적화된 가중치를 활용하여 더 빠르고 정확한 훈련 및 추론을 수행하는 방법을 살펴보세요.
모델 가중치는 입력 데이터를 예측된 출력으로 변환하는 머신러닝 모델 내 학습 가능한 매개변수입니다. 신경망에서 이러한 가중치는 서로 다른 계층에 걸쳐 뉴런 간 연결의 강도를 나타냅니다. 모델이 초기화될 때, 이러한 가중치는 일반적으로 무작위적이고 작은 값으로 설정되며, 이는 모델이 아무것도 "알지 못한다"는 것을 의미합니다. 훈련이라는 과정을 통해 모델은 발생하는 오류를 기반으로 이러한 가중치를 반복적으로 조정하며, 점차 데이터 내 패턴, 특징, 관계를 인식하는 법을 학습합니다. 모델 가중치는 AI의 "기억" 또는 "지식"으로 생각할 수 있습니다. 이들은 시스템이 훈련 데이터로부터 학습한 내용을 저장합니다.
신경망 훈련의 주요 목표는 모델의 예측값과 실제 기준값 간의 오차를 최소화하는 최적의 모델 가중치 집합을 찾는 것이다. 이 과정은 데이터를 네트워크를 통과시키는 단계(전방전파)와 특정 손실 함수를 사용한 손실 값 계산으로 이루어집니다. 예측이 부정확할 경우, 확률적 경사 하강법(SGD)이나 YOLO26에서 사용된 최신 뮤온 최적화 알고리즘과 같은 최적화 알고리즘이 각 가중치가 오차에 기여한 정도를 계산합니다.
역전파( backpropagation)라는 기법을 통해 알고리즘은 다음 번 오류를 줄이기 위해 가중치를 미세하게 조정합니다. 이 과정은 모델 가중치가 안정화되고 시스템이 높은 정확도를 달성할 때까지 수천 번 또는 수백만 번 반복됩니다. 훈련이 완료되면 가중치는 "고정"되어 저장되며, 이를 통해 모델은 새로운 미확인 데이터에 대한 추론을 위해 배포될 수 있습니다.
weights and biases 구분하는 것이 중요합니다. 둘은 함께 작동하지만 서로 다른 목적을 수행하기 때문입니다. 모델 가중치는 뉴런 간 연결의 강도와 방향(활성화 함수의 기울기 제어)을 결정하는 반면, 바이어스는 활성화 함수를 좌우로 이동시킬 수 있게 합니다. 이러한 오프셋 덕분에 모든 입력 특징값이 0인 경우에도 모델이 데이터를 더 잘 맞출 수 있습니다. 가중치와 편향은 함께 컨볼루션 신경망(CNN)과 같은 아키텍처의 동작을 정의하는 학습 가능한 매개변수를 구성합니다.
모델 가중치는 다양한 산업 분야에서 AI 시스템이 작동하도록 하는 핵심 구성 요소입니다. 다음은 이를 적용하는 두 가지 구체적인 사례입니다:
실제 작업에서는 모델 가중치 작업이 학습된 매개변수를 파일에 저장하고 나중에 예측이나 미세 조정Ultral Ultralytics
생태계에서는 일반적으로 다음과 같이 저장됩니다. .pt (PyTorch) 파일들.
YOLO 모델에 사전 훈련된 가중치를 로드하고 예측을 실행하는 간단한 예시는 다음과 같습니다:
from ultralytics import YOLO
# Load a model with pre-trained weights (e.g., YOLO26n)
model = YOLO("yolo26n.pt")
# Run inference on an image using the loaded weights
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")
모델 가중치의 가장 강력한 측면 중 하나는 이들의 이동성입니다. 방대한 데이터셋과 상당한 컴퓨팅 파워가 필요한 모델을 처음부터 훈련하는 대신, 개발자들은 종종 전이 학습을 활용합니다. 이는 대규모 데이터셋(예: COCO 이나 ImageNet 과 같은 대규모 데이터셋에서 사전 훈련된 가중치를 가진 모델을 가져와 특정 작업에 맞게 조정하는 것입니다.
예를 들어, 일반 객체 탐지기의 가중치를 가져와 태양광 패널과 같은 더 작은 데이터셋에서 미세 조정할 수 있습니다. 사전 훈련된 가중치는 이미 경계선, 형태, 질감을 이해하고 있기 때문에 모델이 훨씬 빠르게 수렴하며 라벨링된 데이터도 덜 필요합니다. Ultralytics 같은 도구는 이 과정을 간소화하여 팀이 데이터셋을 관리하고, 클라우드에서 모델을 훈련하며, 최적화된 가중치를 에지 디바이스에 원활하게 배포할 수 있게 합니다.
현대 AI 연구는 성능 저하 없이 모델 가중치의 파일 크기를 줄이는 데 자주 초점을 맞추는데, 이를 모델 양자화라고 합니다. 가중치의 정밀도를 낮춤으로써(예: 32비트 부동소수점에서 8비트 정수로), 개발자는 메모리 사용량을 크게 줄이고 추론 속도를 향상시킬 수 있습니다. 이는 휴대폰이나 라즈베리 파이 같은 리소스 제약 하드웨어에 모델을 배포할 때 매우 중요합니다. 또한, 프루닝 같은 기법은 출력에 거의 기여하지 않는 가중치를 제거하여 실시간 애플리케이션을 위해 모델을 더욱 간소화합니다.