Thuật ngữ

Xương sống

Khám phá vai trò của xương sống trong học sâu, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT và tìm hiểu các ứng dụng AI thực tế của chúng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong học sâu, đặc biệt là trong lĩnh vực thị giác máy tính (CV) , "xương sống" đề cập đến tập hợp các lớp nền tảng ban đầu trong mô hình mạng nơ-ron (NN) . Mục đích chính của nó là trích xuất đặc điểm : xử lý dữ liệu đầu vào thô, như hình ảnh và chuyển đổi nó thành biểu diễn thông tin nhỏ gọn. Biểu diễn này, thường được gọi là bản đồ đặc điểm , nắm bắt các mẫu, kết cấu và hình dạng thiết yếu từ đầu vào. Hãy coi xương sống như đôi mắt của AI, thực hiện diễn giải ban đầu trước khi diễn ra lý luận cấp cao hơn. Quá trình xử lý nền tảng này rất quan trọng đối với khả năng hiểu và diễn giải thông tin trực quan tổng thể của mô hình cho các tác vụ tiếp theo.

Chức năng cốt lõi

Một xương sống điển hình bao gồm một chuỗi các lớp, thường bao gồm các lớp tích chập , các lớp gộp (làm giảm chiều không gian) và các hàm kích hoạt (làm tăng tính phi tuyến tính). Khi dữ liệu đầu vào đi qua các lớp này, mạng sẽ dần dần học được các tính năng phân cấp. Các lớp đầu có thể phát hiện các thành phần đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp các tính năng đơn giản hơn này để nhận dạng các cấu trúc phức tạp hơn, các bộ phận của đối tượng và cuối cùng là toàn bộ đối tượng. Đầu ra do xương sống tạo ra là một tập hợp các bản đồ tính năng cấp cao tóm tắt thông tin quan trọng từ đầu vào ban đầu. Quá trình này làm giảm hiệu quả tính đa chiều của dữ liệu trong khi vẫn giữ nguyên ý nghĩa ngữ nghĩa của nó, tạo thành cơ sở cho nhiều mô hình học sâu thành công.

Vai trò trong các mô hình thị giác máy tính

Trong các mô hình thị giác máy tính tinh vi được thiết kế cho các tác vụ như phát hiện đối tượng , phân đoạn thể hiện hoặc ước tính tư thế , xương sống cung cấp biểu diễn tính năng thiết yếu. Các thành phần tiếp theo, thường được gọi là "cổ" (tinh chỉnh và tổng hợp các tính năng) và "đầu" (thực hiện dự đoán tác vụ cuối cùng), xây dựng dựa trên các tính năng được xương sống trích xuất. Ví dụ, đầu phát hiện sử dụng các tính năng tinh chỉnh này để dự đoán các hộp giới hạn xung quanh các đối tượng được phát hiện và các lớp tương ứng của chúng. Xương sống khác biệt với các giai đoạn sau này; trọng tâm duy nhất của nó là tạo ra một biểu diễn tính năng mạnh mẽ, thường là mục đích chung, từ dữ liệu đầu vào. Một thông lệ phổ biến là sử dụng xương sống được đào tạo trước trên các tập dữ liệu quy mô lớn như ImageNet và sau đó tinh chỉnh chúng cho các tác vụ hạ lưu cụ thể bằng cách sử dụng học chuyển giao , giúp tăng tốc đáng kể quá trình đào tạo .

Kiến trúc xương sống phổ biến

Một số kiến trúc mạng nơ-ron thần kinh đã được thiết lập tốt thường được sử dụng làm xương sống do tính hiệu quả đã được chứng minh của chúng trong việc trích xuất tính năng:

  • ResNet (Mạng dư thừa) : Giới thiệu các kết nối dư thừa để cho phép đào tạo các mạng sâu hơn nhiều, giải quyết vấn đề độ dốc biến mất. ( Bài báo: arXiv:1512.03385 ).
  • VGG: Được biết đến với kiến trúc đơn giản và đồng nhất sử dụng các bộ lọc tích chập nhỏ (3x3). ( Bài báo: arXiv:1409.1556 ).
  • MobileNet: Được thiết kế cho các ứng dụng thị giác di động và nhúng, tập trung vào hiệu quả và độ trễ thấp. ( Bài báo: arXiv:1704.04861 ).
  • EfficientNet: Sử dụng phương pháp chia tỷ lệ hợp chất để chia tỷ lệ độ sâu, chiều rộng và độ phân giải của mạng một cách đồng đều nhằm đạt hiệu quả tối ưu. ( Bài báo: arXiv:1905.11946 ).
  • Vision Transformers (ViT) : Áp dụng kiến trúc Transformer , ban đầu thành công trong NLP , trực tiếp vào chuỗi các bản vá hình ảnh. ( Bài báo: arXiv:2010.11929 ).
  • CSPDarknet: Một biến thể của Darknet kết hợp các mạng Cross Stage Partial, được sử dụng hiệu quả trong các mô hình như Ultralytics YOLOv5 và các phiên bản mới hơn, cân bằng giữa tốc độ và độ chính xác .

Việc lựa chọn xương sống ảnh hưởng đáng kể đến các đặc điểm hiệu suất của mô hình, bao gồm tốc độ, chi phí tính toán ( FLOP ) và độ chính xác, như được nêu bật trong nhiều so sánh mô hình khác nhau. Các khuôn khổ như PyTorchTensorFlow , cùng với các thư viện như OpenCV , là những công cụ thiết yếu để triển khai và sử dụng các xương sống này. Các nền tảng như Ultralytics HUB đơn giản hóa hơn nữa quá trình sử dụng các mô hình với các xương sống khác nhau.

Phân biệt Backbone với các thuật ngữ liên quan

Điều quan trọng là không được nhầm lẫn xương sống với toàn bộ mạng nơ-ron hoặc các thành phần cụ thể khác:

  • Toàn bộ mạng nơ-ron: Xương sống chỉ là một phần, thường là phần trích xuất tính năng ban đầu, của một kiến trúc mạng lớn hơn. Toàn bộ mạng cũng bao gồm phần cổ và đầu chịu trách nhiệm cho các dự đoán cụ thể cho từng nhiệm vụ.
  • Đầu phát hiện: Đây là phần cuối cùng của mô hình phát hiện đối tượng, lấy các đặc điểm (thường được xử lý bởi cả backbone và neck) và đưa ra tọa độ hộp giới hạn và xác suất lớp. Nó dành riêng cho từng nhiệm vụ, không giống như backbone có mục đích chung hơn.
  • Feature Extractor: Trong khi backbone một feature extractor, thuật ngữ "feature extractor" đôi khi có thể ám chỉ bất kỳ phần nào của mạng trích xuất các feature, hoặc thậm chí là các thuật toán trích xuất feature độc lập bên ngoài deep learning (như SIFT hoặc HOG). Trong bối cảnh của các kiến trúc deep learning hiện đại như Ultralytics YOLO , "backbone" ám chỉ cụ thể đến cơ sở tích chập ban đầu.

Ứng dụng trong thế giới thực

Xương sống là thành phần cơ bản trong vô số ứng dụng AI:

  1. Lái xe tự động: Các hệ thống trong xe tự lái phụ thuộc rất nhiều vào xương sống mạnh mẽ (ví dụ, các biến thể ResNet hoặc EfficientNet) để xử lý dữ liệu đầu vào từ camera và cảm biến LiDAR. Các tính năng được trích xuất cho phép phát hiện và phân loại xe cộ, người đi bộ, đèn giao thông và vạch làn đường, điều này rất quan trọng đối với việc điều hướng an toàn và ra quyết định, như được thấy trong các hệ thống do các công ty như Waymo phát triển.
  2. Phân tích hình ảnh y tế: Trong các giải pháp AI chăm sóc sức khỏe, xương sống được sử dụng để phân tích các bản quét y tế như X-quang, CT hoặc MRI. Ví dụ, một xương sống như DenseNet có thể trích xuất các đặc điểm từ X-quang ngực để giúp phát hiện các dấu hiệu của bệnh viêm phổi hoặc từ CT để xác định các khối u tiềm ẩn ( nghiên cứu có liên quan trong X quang: AI ). Điều này hỗ trợ các bác sĩ X quang trong việc chẩn đoán và lập kế hoạch điều trị. Ultralytics các mô hình như YOLO11 có thể được điều chỉnh cho các nhiệm vụ như phát hiện khối u bằng cách tận dụng các xương sống mạnh mẽ.
Đọc tất cả