Khám phá học không giám sát để tìm ra các mẫu ẩn trong dữ liệu chưa được gắn nhãn. Tìm hiểu về phân cụm, phát hiện bất thường và cách chúng thúc đẩy các giải pháp AI hiện đại.
Học không giám sát là một loại học máy trong đó thuật toán học các mẫu từ dữ liệu chưa được gắn nhãn mà không cần sự can thiệp của con người. Không giống như học có giám sát, dựa vào các cặp đầu vào-đầu ra được gắn nhãn để huấn luyện mô hình, học không giám sát xử lý dữ liệu không có nhãn lịch sử. Về cơ bản, hệ thống cố gắng tự học bằng cách khám phá các cấu trúc, mẫu hoặc mối quan hệ ẩn trong dữ liệu đầu vào. Phương pháp này đặc biệt có giá trị vì phần lớn dữ liệu được tạo ra ngày nay—hình ảnh, video, văn bản và nhật ký cảm biến—đều không có cấu trúc và không được gắn nhãn.
Trong các kịch bản không giám sát, thuật toán được để tự vận hành để khám phá các cấu trúc thú vị trong dữ liệu. Mục tiêu thường là mô hình hóa phân bố cơ bản của dữ liệu hoặc tìm hiểu thêm về chính dữ liệu đó. Bởi vì không có "câu trả lời chính xác" nào được cung cấp trong quá trình huấn luyện, mô hình không thể được đánh giá về độ chính xác theo nghĩa truyền thống. Thay vào đó, hiệu suất thường được đo bằng mức độ hiệu quả của mô hình trong việc giảm chiều dữ liệu hoặc nhóm các điểm dữ liệu tương tự lại với nhau.
Phương pháp này phản ánh cách con người thường học các khái niệm mới. Ví dụ, một đứa trẻ có thể phân biệt giữa chó và mèo bằng cách quan sát hình dạng và hành vi khác nhau của chúng mà không nhất thiết phải biết tên "chó" và "mèo" ngay từ đầu. Tương tự, các thuật toán không giám sát nhóm thông tin dựa trên những điểm tương đồng vốn có. Khả năng này là nền tảng cho sự phát triển của trí tuệ nhân tạo tổng quát (AGI) , vì nó cho phép các hệ thống thích ứng với môi trường mới mà không cần sự giám sát liên tục của con người.
Học không giám sát bao gồm một số kỹ thuật khác nhau, mỗi kỹ thuật phù hợp với các loại bài toán phân tích dữ liệu khác nhau:
Điều quan trọng là phải phân biệt giữa học không giám sát và học có giám sát . Sự khác biệt chính nằm ở dữ liệu được sử dụng. Học có giám sát yêu cầu một tập dữ liệu được gán nhãn , nghĩa là mỗi ví dụ huấn luyện được ghép nối với một đầu ra chính xác (ví dụ: hình ảnh một con mèo được gán nhãn "mèo"). Mô hình học cách ánh xạ đầu vào đến đầu ra để giảm thiểu lỗi.
Ngược lại, học không giám sát sử dụng dữ liệu không được gắn nhãn. Không có vòng phản hồi nào cho mô hình biết liệu đầu ra của nó có chính xác hay không. Một giải pháp trung gian gọi là học bán giám sát , kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn để cải thiện độ chính xác của quá trình học, thường được sử dụng khi việc gắn nhãn dữ liệu tốn kém hoặc mất nhiều thời gian.
Học không giám sát là nền tảng của nhiều công nghệ mà chúng ta gặp hàng ngày. Dưới đây là hai ví dụ cụ thể:
Trong khi Ultralytics YOLO26 Về cơ bản, đây là một framework phát hiện đối tượng có giám sát, nhưng các kỹ thuật không giám sát thường được sử dụng trong các bước tiền xử lý, chẳng hạn như phân tích phân bố hộp neo hoặc phân cụm các đặc trưng của tập dữ liệu. Dưới đây là một ví dụ đơn giản sử dụng sklearn Để thực hiện phân cụm K-Means, một kỹ thuật cơ bản không giám sát.
import numpy as np
from sklearn.cluster import KMeans
# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (no labels provided!)
kmeans.fit(X)
# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)
Học sâu (DL) hiện đại ngày càng tích hợp các nguyên tắc không giám sát. Các kỹ thuật như Học tự giám sát (SSL) cho phép các mô hình tự tạo ra tín hiệu giám sát từ dữ liệu. Ví dụ, trong Xử lý ngôn ngữ tự nhiên (NLP) , các mô hình như GPT-4 được huấn luyện trước trên một lượng lớn văn bản để dự đoán từ tiếp theo trong câu, từ đó học được cấu trúc ngôn ngữ mà không cần nhãn rõ ràng.
Tương tự, trong thị giác máy tính (CV) , các bộ mã hóa tự động (autoencoder) được sử dụng để học các mã hóa dữ liệu hiệu quả. Các mạng nơ-ron này nén hình ảnh thành dạng biểu diễn có chiều thấp hơn và sau đó tái tạo lại chúng. Quá trình này dạy cho mạng những đặc điểm nổi bật nhất của dữ liệu hình ảnh, điều này hữu ích cho các tác vụ như khử nhiễu ảnh và mô hình tạo sinh.
Đối với những ai muốn quản lý tập dữ liệu để huấn luyện, Nền tảng Ultralytics cung cấp các công cụ để trực quan hóa phân bố dữ liệu, giúp xác định các cụm hoặc bất thường trước khi quá trình huấn luyện có giám sát bắt đầu. Hiểu cấu trúc dữ liệu của bạn thông qua khám phá không giám sát thường là bước đầu tiên để xây dựng các giải pháp AI mạnh mẽ.