Thuật ngữ

Xương sống

Khám phá vai trò của xương sống trong học sâu, tìm hiểu các kiến trúc hàng đầu như ResNet & ViT và tìm hiểu các ứng dụng AI thực tế của chúng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Trong lĩnh vực học sâu, đặc biệt là trong thị giác máy tính, thuật ngữ "xương sống" dùng để chỉ một phần quan trọng của mạng nơ-ron chịu trách nhiệm trích xuất đặc điểm. Hãy coi đó là nền tảng mà phần còn lại của mạng được xây dựng trên đó. Xương sống lấy dữ liệu đầu vào thô, chẳng hạn như hình ảnh, và chuyển đổi nó thành định dạng có cấu trúc, được gọi là bản đồ đặc điểm, có thể được sử dụng hiệu quả bởi các phần tiếp theo của mạng. Các bản đồ đặc điểm này nắm bắt thông tin cần thiết về đầu vào, chẳng hạn như các cạnh, kết cấu và hình dạng, cho phép mô hình hiểu và diễn giải dữ liệu trực quan phức tạp. Đối với người dùng quen thuộc với các khái niệm học máy cơ bản, xương sống có thể được hiểu là các lớp ban đầu của mạng nơ-ron học các biểu diễn phân cấp của dữ liệu đầu vào.

Vai trò và tầm quan trọng của xương sống

Xương sống đóng vai trò quan trọng trong việc xác định hiệu suất và hiệu quả tổng thể của mô hình học sâu. Nó thường bao gồm nhiều lớp hoạt động tích chập, gộp và kích hoạt. Các lớp tích chập chịu trách nhiệm trích xuất các đặc điểm từ dữ liệu đầu vào, trong khi các lớp gộp làm giảm chiều không gian của bản đồ đặc điểm, giúp mô hình hiệu quả hơn về mặt tính toán. Các hàm kích hoạt đưa tính phi tuyến tính vào mạng, cho phép nó học các mẫu phức tạp. Đầu ra của xương sống, bản đồ đặc điểm, sau đó được đưa vào các phần tiếp theo của mạng, chẳng hạn như đầu phát hiện để phát hiện đối tượng hoặc mô-đun phân đoạn để phân đoạn hình ảnh . Chất lượng của các đặc điểm được xương sống trích xuất ảnh hưởng trực tiếp đến khả năng thực hiện chính xác nhiệm vụ dự định của mô hình.

Kiến trúc xương sống phổ biến

Một số kiến trúc xương sống đã trở nên phổ biến trong thị giác máy tính do tính hiệu quả của chúng trong nhiều tác vụ khác nhau. Một số ví dụ đáng chú ý bao gồm:

  • Residual Networks (ResNet): ResNet giới thiệu khái niệm kết nối residual, cho phép đào tạo các mạng rất sâu bằng cách giảm thiểu vấn đề gradient biến mất. Kiến trúc ResNet đã cho thấy hiệu suất đáng chú ý trong phân loại hình ảnh, phát hiện đối tượng và phân đoạn nhiệm vụ.
  • Vision Transformers (ViT): Kiến trúc ViT áp dụng mô hình Transformer, ban đầu được phát triển để xử lý ngôn ngữ tự nhiên, vào các tác vụ thị giác máy tính. ViT chia hình ảnh thành các bản vá và xử lý chúng dưới dạng chuỗi, cho phép mô hình nắm bắt các phụ thuộc tầm xa trong hình ảnh.

Ứng dụng thực tế của Backbones

Xương sống là nền tảng cho nhiều ứng dụng AI trong thế giới thực, cho phép máy móc "nhìn thấy" và diễn giải dữ liệu trực quan theo cách tương tự như con người. Sau đây là hai ví dụ cụ thể:

Xe tự hành

Trong xe tự lái , xương sống được sử dụng để xử lý dữ liệu hình ảnh từ camera và các cảm biến khác, cho phép xe nhận biết môi trường xung quanh. Ví dụ, các mô hình YOLO Ultralytics sử dụng xương sống hiệu quả để phát hiện các vật thể như người đi bộ, các phương tiện khác và biển báo giao thông theo thời gian thực. Thông tin này rất quan trọng để hệ thống dẫn đường của xe đưa ra quyết định sáng suốt và đảm bảo lái xe an toàn.

Chăm sóc sức khỏe

Trong phân tích hình ảnh y tế , xương sống được sử dụng để trích xuất các đặc điểm từ hình ảnh y tế như X-quang, MRI và CT. Các đặc điểm này sau đó có thể được sử dụng cho các nhiệm vụ như chẩn đoán bệnh, phát hiện dị thường và phân đoạn các cấu trúc giải phẫu. Ví dụ, xương sống có thể được đào tạo trên một tập dữ liệu hình ảnh khối u não, chẳng hạn như tập dữ liệu phát hiện khối u não , để tìm hiểu các đặc điểm có liên quan giúp xác định và định vị khối u.

Những cân nhắc khi lựa chọn Backbone

Việc lựa chọn xương sống phù hợp cho một ứng dụng cụ thể phụ thuộc vào một số yếu tố, bao gồm độ phức tạp của tác vụ, tài nguyên tính toán khả dụng và độ chính xác mong muốn. Đối với các môi trường hạn chế về tài nguyên, chẳng hạn như thiết bị di động hoặc ứng dụng AI biên , xương sống nhẹ hơn với ít tham số hơn có thể được ưu tiên. Mặt khác, đối với các tác vụ đòi hỏi độ chính xác cao, xương sống sâu hơn và phức tạp hơn có thể là cần thiết.

Xương sống so với các thành phần khác

Điều quan trọng là phải phân biệt xương sống với các thành phần khác của mạng nơ-ron. Trong khi xương sống trích xuất các đặc điểm, các phần khác của mạng, chẳng hạn như đầu phát hiện hoặc mô-đun phân đoạn, có trách nhiệm đưa ra dự đoán dựa trên các đặc điểm đó. Xương sống giống như đôi mắt của mạng, cung cấp thông tin hình ảnh thô, trong khi các thành phần khác giống như bộ não, diễn giải thông tin đó để thực hiện các nhiệm vụ cụ thể. Ngoài ra, khái niệm học chuyển giao thường được áp dụng cho xương sống, trong đó xương sống được đào tạo trước trên một tập dữ liệu lớn như ImageNet được sử dụng làm điểm khởi đầu để đào tạo một nhiệm vụ mới. Điều này cho phép mô hình tận dụng kiến thức học được từ tập dữ liệu đào tạo trước, cải thiện hiệu suất và giảm thời gian đào tạo. Các công cụ như Ultralytics HUB đơn giản hóa quá trình thử nghiệm với các xương sống khác nhau và đào tạo các mô hình tùy chỉnh.

Đọc tất cả