용어집

t-분산 확률적 이웃 임베딩(t-SNE)

t-SNE로 고차원 데이터를 손쉽게 시각화하세요. 지금 바로 패턴을 발견하고, 클러스터를 탐색하고, 머신 러닝 인사이트를 강화하세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

t 분산 확률 이웃 임베딩(t-SNE)은 머신 러닝에서 고차원 데이터를 저차원 공간(일반적으로 2차원 또는 3차원)에서 시각화하는 데 사용되는 강력한 기법입니다. 이 방법은 원래의 고차원 공간에서는 명확하지 않을 수 있는 기본 패턴과 구조를 드러내어 복잡한 데이터 세트를 탐색하고 이해하는 데 특히 효과적입니다. 데이터 포인트 간의 로컬 관계를 유지하면서 차원을 줄임으로써 t-SNE는 직관적인 시각화와 분석을 가능하게 하여 탐색적 데이터 분석 및 머신 러닝 워크플로우에서 유용한 도구로 활용됩니다.

t-SNE 작동 방식

t-SNE는 유사한 객체에는 더 높은 확률을 할당하고 서로 다른 객체에는 더 낮은 확률을 할당하는 방식으로 고차원 객체 쌍에 대한 확률 분포를 구성하는 방식으로 작동합니다. 그런 다음 저차원 맵의 포인트에 대해 유사한 확률 분포를 정의하고 맵의 포인트 위치에 대한 두 분포 사이의 쿨백-라이블러 차이를 최소화합니다. 이 방법은 로컬 이웃을 보존하도록 설계되었기 때문에 고차원 공간에서 서로 가까운 점은 저차원 표현에서도 서로 가까운 경향이 있습니다.

차원 축소의 관련 개념과 이것이 머신 러닝을 어떻게 지원하는지 자세히 알아보세요.

다른 기술과의 주요 차이점

t-SNE는 차원 축소 기법이지만, 주성분 분석(PCA)과 같은 다른 방법과는 크게 다릅니다. PCA는 분산을 최대화하여 데이터의 전체 구조를 보존하는 데 중점을 두는 반면, t-SNE는 로컬 이웃을 보존하는 데 중점을 둡니다. 이러한 차이점 때문에 t-SNE는 클러스터를 시각화하고 데이터 내의 숨겨진 구조를 발견하는 데 특히 유용합니다. 또 다른 관련 기법으로는 데이터를 클러스터로 분할하는 데 사용되는 K-평균 클러스터링이 있습니다. 둘 다 함께 사용할 수 있지만, t-SNE는 주로 시각화 도구인 반면, K-Means는 클러스터링 알고리즘입니다.

실제 애플리케이션

게놈 분석

생물정보학에서 t-SNE는 복잡한 게놈 데이터를 시각화하는 데 널리 사용됩니다. 예를 들어, 연구자들이 단일 세포 RNA 시퀀싱 데이터에서 별개의 세포 집단을 식별하는 데 도움을 줄 수 있습니다. 고차원적인 유전자 발현 프로파일을 2차원 지도로 축소함으로써, t-SNE는 유사한 발현 패턴을 가진 세포의 클러스터를 밝혀내어 새로운 세포 유형이나 상태를 발견하는 데 도움을 줄 수 있습니다.

머신 러닝으로 게놈 분석에 미치는 AI의 영향에 대해 알아보세요.

이미지 인식

t-SNE는 이미지 인식에도 적용되어 딥 러닝 모델에서 학습한 특징 공간을 시각화할 수 있습니다. 예를 들어, 이미지 분류를 위해 컨볼루션 신경망(CNN) 을 훈련할 때 t-SNE를 사용하면 네트워크가 특징 공간에서 서로 다른 클래스를 어떻게 구분하는지 시각화할 수 있습니다. 이를 통해 모델의 의사 결정 과정에 대한 인사이트를 제공하고 개선이 필요한 잠재적 영역을 파악할 수 있습니다.

고급 이미지 감지 시스템에 Ultralytics YOLO 에 대해 알아보세요.

기술 인사이트

t-SNE에는 확률적 프로세스가 포함되며, 이는 결과를 얻기 위해 무작위성을 사용한다는 의미입니다. 이 알고리즘은 가우스 분포를 사용하여 고차원 공간에서 데이터 포인트 간의 쌍별 유사도를 계산하는 것으로 시작합니다. 그런 다음 이러한 점을 저차원 공간에 매핑하고 t 분포를 사용하여 유사성을 계산합니다. 최적화 프로세스는 두 확률 분포 사이의 차이를 최소화하기 위해 저차원 공간에서 점의 위치를 반복적으로 조정합니다.

AI/ML에서 사용

시각화 외에도 t-SNE는 딥 러닝 모델의 특징 공간 구조에 대한 인사이트를 얻는 데 사용할 수 있습니다. 특히 모델이 서로 다른 클래스나 카테고리를 어떻게 구분하는지 이해하는 데 유용합니다. 연구자들은 신경망의 중간 계층을 시각화함으로써 모델 동작을 진단하고, 잠재적인 문제를 파악하고, 모델 아키텍처를 개선할 수 있습니다.

AI의 특징 추출 기법과 그 중요성에 대해 자세히 알아보세요.

결론

t-SNE는 머신 러닝에서 고차원 데이터를 시각화하고 해석하는 데 매우 유용한 도구입니다. 로컬 구조를 보존하는 기능 덕분에 복잡한 데이터 세트 내에서 클러스터와 패턴을 발견하는 데 특히 효과적입니다. 게놈 데이터 탐색, 딥 러닝 모델 이해, 자연어 처리 결과 시각화 등 어떤 용도로 사용하든 t-SNE는 데이터의 기본 구조에 대한 인사이트를 얻을 수 있는 강력한 수단을 제공합니다.

Ultralytics ' 비전 AI 도구가 이러한 고급 기술을 통합하여 AI 프로젝트를 더욱 향상시키는 방법을 살펴보세요.

모두 보기