머신 러닝에서 모델 가중치의 중요성, 예측에서 모델 가중치의 역할, 그리고 Ultralytics YOLO 에서 AI 작업에 가중치를 사용하는 방법을 알아보세요.
모델 가중치는 머신러닝(ML) 모델이 학습 과정에서 학습하는 핵심 매개변수입니다. 이 수치 값은 학습 데이터에서 얻은 지식을 나타내며, 모델이 보이지 않는 새로운 데이터를 예측하거나 의사 결정을 내리는 데 기본이 됩니다. 기본적으로 가중치는 신경망(NN)의 뉴런 간 연결과 같이 모델 내에서 연결의 강도와 중요성을 결정합니다. 가중치는 모델이 학습한 패턴을 포착하는 조정 가능한 '노브'입니다.
조절 가능한 손잡이가 많은 복잡한 기계를 상상해 보세요. 모델 가중치는 이러한 손잡이처럼 작동합니다. 모델 학습 과정에서 모델은 데이터 세트의 예시를 보고 초기 예측을 하게 됩니다. 이러한 예측과 실제 정답(기준 진실)의 차이는 손실 함수로 측정됩니다. 그런 다음 확률적 경사 하강(SGD) 또는 Adam과 같은 최적화 알고리즘이 이 손실을 최소화하기 위해 역전파 같은 기술을 사용하여 이러한 가중치를 체계적으로 조정합니다. 이 과정은 여러 번의 반복, 즉 에포크에 걸쳐 반복되며 점차적으로 가중치를 세분화합니다.
처음에는 가중치가 작은 임의의 값으로 설정되는 경우가 많지만, 학습을 통해 데이터의 기본 패턴을 포착하는 값으로 수렴하게 됩니다. 가중치를 학습 속도나 배치 크기와 같은 하이퍼파라미터와 구별하는 것이 중요합니다. 하이퍼파라미터는 학습을 시작하기 전에 설정하는 구성 설정으로 학습 프로세스 자체를 안내하는 반면, 가중치는 학습 중에 학습하는 매개변수입니다. NN에서 가중치와 함께 자주 사용되는 또 다른 유형의 학습 매개변수인 바이어스는 입력과 무관하게 뉴런의 기본 활성화 수준을 나타냅니다. 가중치가 입력의 영향력을 조절하는 반면, 편향은 활성화 함수의 출력을 변화시킵니다.
모델 가중치는 학습 데이터에서 학습된 패턴과 관계를 직접 인코딩하기 때문에 매우 중요합니다. 가중치를 잘 최적화하면 모델이 이전에 접해보지 못한 데이터에 대해 정확한 예측을 수행하여 우수한 일반화를 달성할 수 있습니다. 가중치의 품질은 정확도, 정밀도, 리콜, 견고성 등 모델의 성능 지표에 직접적인 영향을 미치며, 이는 종종 mAP와 같은 지표로 요약됩니다. 데이터 부족, 부적절한 학습 시간, 과적합 (모델이 노이즈를 포함하여 학습 데이터를 너무 잘 학습하는 경우) 등의 문제로 인해 제대로 학습되지 않은 가중치는 새로운 데이터에 대한 신뢰할 수 없는 예측으로 이어집니다.
많은 최신 AI 애플리케이션, 특히 컴퓨터 비전(CV)에서 모델은 ImageNet이나 COCO와 같은 대규모의 일반 데이터 세트에 대해 사전 학습되는 경우가 많습니다. 그 결과 가중치는 많은 작업에 적용할 수 있는 광범위한 시각적 특징을 포착합니다. 이렇게 사전 학습된 가중치(예: Ultralytics YOLO 모델에 사용할 수 있는 가중치)는 추론에 직접 사용하거나 특정 작업 또는 사용자 지정 데이터 세트에 대한 미세 조정을 위한 시작점으로 사용할 수 있습니다. 전이 학습으로 알려진 이 기술은 학습 속도를 크게 높여주며, 특히 사용자 지정 데이터가 제한되어 있는 경우 더 나은 성능을 이끌어내는 경우가 많습니다. 사용자는 데이터 세트를 관리하고, 모델을 훈련하고, 결과 모델 가중치를 효율적으로 처리할 수 있는 Ultralytics HUB와 같은 플랫폼을 사용할 수 있습니다.
모델 가중치는 수많은 AI 애플리케이션의 엔진입니다:
모델이 더욱 복잡해짐에 따라 가중치와 이를 생성하는 실험을 관리하는 것은 재현성과 협업을 위해 매우 중요해졌습니다. 가중치 Weights & Biases (W&B) 과 같은 도구는 팀이 각 실험에 대한 하이퍼파라미터, 메트릭, 코드 버전 및 결과 모델 가중치를 추적할 수 있는 MLOps 전용 플랫폼을 제공합니다. '가중치Weights & Biases 편향'은 신경망 내의 매개변수인 '가중치'와 '편향'의 개념과는 구별되며, 이 플랫폼은 최적의 weights and biases 찾는 프로세스를 관리하는 데 도움이 된다는 점에 유의하는 것이 중요합니다. 문서에서 Ultralytics W&B의 통합에 대해 자세히 알아볼 수 있습니다. 하이퍼파라미터 튜닝부터 다음과 같은 프레임워크를 사용한 모델 배포에 이르기까지 다양한 작업에서 효율적인 관리가 핵심입니다. PyTorch 또는 TensorFlow.