Khám phá vai trò của xương sống trong học sâu, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT và tìm hiểu các ứng dụng AI thực tế của chúng.
Trong học sâu, đặc biệt là trong lĩnh vực thị giác máy tính (CV) , "xương sống" đề cập đến tập hợp các lớp nền tảng ban đầu trong mô hình mạng nơ-ron (NN) . Mục đích chính của nó là trích xuất đặc điểm : xử lý dữ liệu đầu vào thô, như hình ảnh và chuyển đổi nó thành biểu diễn thông tin nhỏ gọn. Biểu diễn này, thường được gọi là bản đồ đặc điểm , nắm bắt các mẫu, kết cấu và hình dạng thiết yếu từ đầu vào. Hãy coi xương sống như đôi mắt của AI, thực hiện diễn giải ban đầu trước khi diễn ra lý luận cấp cao hơn. Quá trình xử lý nền tảng này rất quan trọng đối với khả năng hiểu và diễn giải thông tin trực quan tổng thể của mô hình cho các tác vụ tiếp theo.
Một xương sống điển hình bao gồm một chuỗi các lớp, thường bao gồm các lớp tích chập , các lớp gộp (làm giảm chiều không gian) và các hàm kích hoạt (làm tăng tính phi tuyến tính). Khi dữ liệu đầu vào đi qua các lớp này, mạng sẽ dần dần học được các tính năng phân cấp. Các lớp đầu có thể phát hiện các thành phần đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp các tính năng đơn giản hơn này để nhận dạng các cấu trúc phức tạp hơn, các bộ phận của đối tượng và cuối cùng là toàn bộ đối tượng. Đầu ra do xương sống tạo ra là một tập hợp các bản đồ tính năng cấp cao tóm tắt thông tin quan trọng từ đầu vào ban đầu. Quá trình này làm giảm hiệu quả tính đa chiều của dữ liệu trong khi vẫn giữ nguyên ý nghĩa ngữ nghĩa của nó, tạo thành cơ sở cho nhiều mô hình học sâu thành công.
Trong các mô hình thị giác máy tính tinh vi được thiết kế cho các tác vụ như phát hiện đối tượng , phân đoạn thể hiện hoặc ước tính tư thế , xương sống cung cấp biểu diễn tính năng thiết yếu. Các thành phần tiếp theo, thường được gọi là "cổ" (tinh chỉnh và tổng hợp các tính năng) và "đầu" (thực hiện dự đoán tác vụ cuối cùng), xây dựng dựa trên các tính năng được xương sống trích xuất. Ví dụ, đầu phát hiện sử dụng các tính năng tinh chỉnh này để dự đoán các hộp giới hạn xung quanh các đối tượng được phát hiện và các lớp tương ứng của chúng. Xương sống khác biệt với các giai đoạn sau này; trọng tâm duy nhất của nó là tạo ra một biểu diễn tính năng mạnh mẽ, thường là mục đích chung, từ dữ liệu đầu vào. Một thông lệ phổ biến là sử dụng xương sống được đào tạo trước trên các tập dữ liệu quy mô lớn như ImageNet và sau đó tinh chỉnh chúng cho các tác vụ hạ lưu cụ thể bằng cách sử dụng học chuyển giao , giúp tăng tốc đáng kể quá trình đào tạo .
Một số kiến trúc mạng nơ-ron thần kinh đã được thiết lập tốt thường được sử dụng làm xương sống do tính hiệu quả đã được chứng minh của chúng trong việc trích xuất tính năng:
Việc lựa chọn xương sống ảnh hưởng đáng kể đến các đặc điểm hiệu suất của mô hình, bao gồm tốc độ, chi phí tính toán ( FLOP ) và độ chính xác, như được nêu bật trong nhiều so sánh mô hình khác nhau. Các khuôn khổ như PyTorch và TensorFlow , cùng với các thư viện như OpenCV , là những công cụ thiết yếu để triển khai và sử dụng các xương sống này. Các nền tảng như Ultralytics HUB đơn giản hóa hơn nữa quá trình sử dụng các mô hình với các xương sống khác nhau.
Điều quan trọng là không được nhầm lẫn xương sống với toàn bộ mạng nơ-ron hoặc các thành phần cụ thể khác:
Xương sống là thành phần cơ bản trong vô số ứng dụng AI: