Thuật ngữ

Mạng nơ-ron tích chập (CNN)

Khám phá cách Mạng nơ-ron tích chập (CNN) cách mạng hóa thị giác máy tính, hỗ trợ AI trong chăm sóc sức khỏe, xe tự lái, v.v.

Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron (NN) chuyên biệt, đặc biệt hiệu quả trong việc xử lý dữ liệu dạng lưới, chẳng hạn như hình ảnh và video. Không giống như các mạng nơ-ron truyền thống xử lý dữ liệu đầu vào dưới dạng các vectơ phẳng, CNN được thiết kế để tự động và thích ứng học các phân cấp không gian của các đặc điểm trực tiếp từ dữ liệu đầu vào. Điều này đạt được chủ yếu thông qua việc áp dụng phép toán tích chập , khiến chúng trở thành nền tảng của thị giác máy tính (CV) hiện đại và thúc đẩy những tiến bộ đáng kể trong Trí tuệ nhân tạo (AI) . Khả năng nắm bắt các mối quan hệ không gian và phụ thuộc cục bộ của chúng khiến chúng rất phù hợp cho các tác vụ mà sự sắp xếp các điểm ảnh là quan trọng.

Các thành phần cốt lõi và chức năng

CNN thường được xây dựng từ một số lớp chính xử lý và chuyển đổi thông tin hình ảnh:

Convolutional Layers: Đây là các lớp nền tảng của CNN. Chúng áp dụng một tập hợp các bộ lọc có thể học được (kernel) trên hình ảnh đầu vào. Mỗi bộ lọc phát hiện các đặc điểm cụ thể như cạnh, góc hoặc kết cấu. Khi bộ lọc trượt (convolutions) trên đầu vào, nó tạo ra các bản đồ đặc điểm làm nổi bật vị trí và cường độ của các đặc điểm được phát hiện. Mạng tự động học các bộ lọc này trong quá trình đào tạo mô hình .
Lớp kích hoạt: Sau các lớp tích chập, các hàm kích hoạt như ReLU (Đơn vị tuyến tính chỉnh lưu) hoặc ReLU rò rỉ đưa vào tính phi tuyến tính. Điều này cho phép mạng học các mẫu phức tạp hơn vượt ra ngoài các kết hợp tuyến tính đơn giản.
Các lớp gộp: Các lớp này làm giảm kích thước không gian (chiều rộng và chiều cao) của bản đồ đặc điểm, giảm tải tính toán và kiểm soát tình trạng quá khớp . Các phương pháp phổ biến bao gồm Max Pooling, lấy giá trị tối đa trong một vùng cục bộ, giúp mạng trở nên mạnh mẽ hơn trước các biến thể về vị trí của các đặc điểm. Tổng quan về các phương pháp gộp có thể cung cấp thêm chi tiết.
Các lớp được kết nối đầy đủ: Thường được tìm thấy gần cuối mạng, các lớp này kết nối mọi nơ-ron từ lớp trước với mọi nơ-ron trong lớp hiện tại, tương tự như mạng nơ-ron truyền thẳng truyền thống. Chúng sử dụng các tính năng cấp cao được trích xuất bởi các lớp tích chập và lớp gộp để thực hiện các tác vụ phân loại hoặc hồi quy, như gán nhãn cuối cùng cho hình ảnh.

Sự khác biệt chính so với các mạng nơ-ron khác

CNN có những đặc điểm riêng biệt giúp phân biệt chúng với các loại mạng khác:

Phân cấp không gian: Không giống như NN cơ bản, CNN mô hình hóa rõ ràng các mối quan hệ không gian. Các lớp đầu phát hiện các đặc điểm đơn giản (cạnh), trong khi các lớp sâu hơn kết hợp chúng để nhận dạng các mẫu phức tạp hơn (hình dạng, vật thể). Cấu trúc phân cấp này mô phỏng các khía cạnh của quá trình xử lý thị giác của con người.
Chia sẻ tham số: Một bộ lọc duy nhất được áp dụng trên các phần khác nhau của hình ảnh đầu vào, làm giảm đáng kể tổng số tham số so với mạng được kết nối đầy đủ xử lý cùng một hình ảnh. Điều này làm cho CNN hiệu quả hơn và ít bị quá khớp, đặc biệt là với hình ảnh lớn. Khu vực mà bộ lọc bao phủ tại bất kỳ điểm nào được gọi là trường tiếp nhận của nó.
Bất biến dịch chuyển: Nhờ vào việc gộp chung và chia sẻ tham số, CNN có thể nhận dạng một vật thể ngay cả khi vị trí của nó thay đổi đôi chút trong hình ảnh.
so với Mạng nơ-ron hồi quy (RNN): Trong khi CNN vượt trội trong việc xử lý dữ liệu không gian như hình ảnh, Mạng nơ-ron hồi quy (RNN) được thiết kế cho dữ liệu tuần tự, khiến chúng phù hợp với các tác vụ như Xử lý ngôn ngữ tự nhiên (NLP) và phân tích chuỗi thời gian .

Ứng dụng trong thế giới thực

CNN là động lực thúc đẩy nhiều đột phá trong nhiều lĩnh vực khác nhau:

Phân tích hình ảnh y tế: Trong AI trong chăm sóc sức khỏe , CNN phân tích các bản quét y tế như X-quang, CT và MRI. Chúng hỗ trợ các bác sĩ X quang phát hiện các bất thường tinh vi như khối u, gãy xương hoặc bệnh võng mạc tiểu đường. Nghiên cứu được công bố trên các tạp chí như Radiology: Artificial Intelligence cho thấy CNN xác định các mô hình chỉ ra bệnh tật, thường đạt độ chính xác cao. Ví dụ, các mô hình như Ultralytics YOLO có thể được điều chỉnh cho các nhiệm vụ như phát hiện khối u trong hình ảnh y tế , chứng minh ứng dụng thực tế của các kiến trúc dựa trên CNN trong phân tích hình ảnh y tế .
Xe tự hành: CNN rất quan trọng đối với AI trong xe tự lái . Chúng cung cấp năng lượng cho các hệ thống nhận thức thực hiện phát hiện vật thể theo thời gian thực để xác định người đi bộ, phương tiện, biển báo giao thông và vạch kẻ đường bằng dữ liệu từ camera và LiDAR. Điều này cho phép xe hiểu được môi trường của mình và đưa ra quyết định lái xe an toàn. Các công ty như Waymo rất tin tưởng vào CNN cho các hệ thống tự hành của họ. CNN cũng góp phần vào phân đoạn hình ảnh , cho phép xe phân biệt các khu vực có thể lái được với các chướng ngại vật.

Công cụ và khung

Việc phát triển và triển khai CNN được hỗ trợ bởi các công cụ và khuôn khổ học sâu (DL) mạnh mẽ:

Thư viện: Các thư viện phổ biến như PyTorch , TensorFlow và Keras cung cấp API cấp cao để xây dựng, đào tạo và đánh giá CNN. Ultralytics cung cấp các trang thuật ngữ cho PyTorch , TensorFlow và Keras .
Nền tảng: Các nền tảng như Ultralytics HUB hợp lý hóa quy trình quản lý tập dữ liệu, đào tạo các mô hình như YOLOv8 và YOLO11 và triển khai chúng. Đào tạo mô hình hiệu quả thường đòi hỏi phải điều chỉnh siêu tham số cẩn thận và được hưởng lợi từ các mẹo đào tạo mô hình toàn diện.

Mạng nơ-ron tích chập (CNN)

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Các thành phần cốt lõi và chức năng

Sự khác biệt chính so với các mạng nơ-ron khác

Ứng dụng trong thế giới thực

Công cụ và khung

Đọc thêm blog

Tham gia Ultralytics cộng đồng