Khám phá cách các bản đồ đặc trưng hoạt động như "đôi mắt" của mạng CNN. Tìm hiểu cách thức Ultralytics YOLO26 sử dụng các biểu diễn nội bộ này để detect Các mẫu và sức mạnh của thị giác máy tính.
Bản đồ đặc trưng là đầu ra cơ bản được tạo ra khi bộ lọc tích chập xử lý hình ảnh đầu vào hoặc lớp trước đó trong mạng nơ-ron. Trong bối cảnh thị giác máy tính (CV) , các bản đồ này đóng vai trò là biểu diễn nội bộ của dữ liệu, làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc các hình dạng hình học phức tạp mà mô hình đã học được cách nhận biết. Về cơ bản, bản đồ đặc trưng hoạt động như "đôi mắt" của Mạng nơ-ron tích chập (CNN) , chuyển đổi các giá trị pixel thô thành các trừu tượng có ý nghĩa, hỗ trợ các tác vụ như phát hiện và phân loại đối tượng .
Việc tạo ra bản đồ đặc trưng được thực hiện bằng phép toán tích chập . Trong quá trình này, một ma trận nhỏ gồm các tham số có thể học được, được gọi là kernel hoặc filter, sẽ trượt trên dữ liệu đầu vào. Tại mỗi vị trí, kernel thực hiện phép nhân và phép cộng từng phần tử, tạo ra một giá trị duy nhất trong lưới đầu ra.
Bản đồ đặc trưng là động lực chính cho các ứng dụng trí tuệ nhân tạo hiện đại, cho phép các hệ thống diễn giải dữ liệu trực quan với khả năng hiểu biết giống như con người.
Mặc dù bản đồ đặc trưng là cấu trúc bên trong, việc hiểu kích thước của chúng rất quan trọng khi thiết kế kiến trúc. Ví dụ PyTorch sau đây minh họa cách một lớp tích chập đơn lẻ biến đổi hình ảnh đầu vào thành bản đồ đặc trưng.
import torch
import torch.nn as nn
# Define a convolution layer: 1 input channel, 1 output filter, 3x3 kernel
conv_layer = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, bias=False)
# Create a random dummy image (Batch Size=1, Channels=1, Height=5, Width=5)
input_image = torch.randn(1, 1, 5, 5)
# Pass the image through the layer to generate the feature map
feature_map = conv_layer(input_image)
print(f"Input shape: {input_image.shape}")
# The output shape will be smaller (3x3) due to the kernel size and no padding
print(f"Feature Map shape: {feature_map.shape}")
Việc phân biệt các bản đồ đặc trưng từ các thuật ngữ tương tự rất hữu ích để tránh nhầm lẫn trong quá trình huấn luyện mô hình :
Trong các kiến trúc tiên tiến như YOLO26 , bản đồ đặc trưng đóng vai trò then chốt trong "xương sống" và "đầu" của mô hình. Xương sống trích xuất các đặc trưng ở các tỷ lệ khác nhau (kim tự tháp đặc trưng), đảm bảo mô hình có thể... detect Cả các đối tượng nhỏ và lớn đều có thể được nhận diện hiệu quả. Người dùng sử dụng Nền tảng Ultralytics để huấn luyện có thể hình dung được hiệu suất của các mô hình này, gián tiếp quan sát hiệu quả của các bản đồ đặc trưng cơ bản thông qua các chỉ số như độ chính xác và độ thu hồi. Việc tối ưu hóa các bản đồ này bao gồm huấn luyện chuyên sâu trên các tập dữ liệu được chú thích, thường sử dụng các kỹ thuật như trích xuất đặc trưng để chuyển giao kiến thức từ các mô hình đã được huấn luyện trước đó sang các nhiệm vụ mới.