Thuật ngữ

Mạng nơ-ron tích chập (CNN)

Khám phá cách Mạng nơ-ron tích chập (CNN) cách mạng hóa thị giác máy tính, hỗ trợ AI trong chăm sóc sức khỏe, xe tự lái, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Mạng nơ-ron tích chập (CNN) là một loại mô hình học sâu đặc biệt phù hợp để phân tích dữ liệu trực quan như hình ảnh và video. Không giống như các mạng nơ-ron truyền thống, CNN được thiết kế để tự động và thích ứng học các phân cấp không gian của các tính năng từ dữ liệu đầu vào. Điều này đạt được thông qua các lớp thực hiện các phép toán, chẳng hạn như tích chập, để phát hiện các mẫu như cạnh, kết cấu và các hình dạng phức tạp hơn. CNN đã cách mạng hóa lĩnh vực thị giác máy tính (CV) , cho phép có những tiến bộ đáng kể trong cách máy móc diễn giải và hiểu thông tin trực quan.

Thành phần cốt lõi và chức năng

CNN bao gồm một số loại lớp, mỗi lớp có mục đích riêng biệt trong việc xử lý dữ liệu hình ảnh:

  • Convolutional Layers: Các lớp này sử dụng bộ lọc để quét hình ảnh đầu vào và tạo bản đồ đặc điểm làm nổi bật các mẫu cụ thể. Mỗi bộ lọc có trách nhiệm phát hiện một đặc điểm cụ thể, chẳng hạn như cạnh dọc hoặc đường cong. Để hiểu sâu hơn về quy trình convolution, bạn có thể khám phá convolution .
  • Các lớp gộp: Thường được sử dụng sau các lớp tích chập, các lớp gộp làm giảm kích thước không gian của bản đồ đặc điểm, giảm tải tính toán và giúp ngăn ngừa quá khớp. Các loại phổ biến bao gồm gộp tối đa và gộp trung bình.
  • Chức năng kích hoạt: Chức năng kích hoạt đưa tính phi tuyến tính vào mạng, cho phép mạng học các mẫu phức tạp. Các lựa chọn phổ biến bao gồm ReLU (Đơn vị tuyến tính chỉnh lưu) và các biến thể của nó, chẳng hạn như Leaky ReLU .
  • Các lớp được kết nối đầy đủ: Các lớp này kết nối mọi neuron từ lớp trước với lớp tiếp theo, tương tự như các mạng neuron truyền thống. Chúng thường được đặt ở cuối mạng và chịu trách nhiệm phân loại hoặc dự đoán cuối cùng dựa trên các đặc điểm được trích xuất bởi các lớp tích chập.
  • Lớp Dropout : Các lớp này giúp ngăn ngừa tình trạng quá khớp bằng cách ngẫu nhiên đặt một phần đơn vị đầu vào thành 0 tại mỗi lần cập nhật trong thời gian đào tạo, giúp ngăn ngừa tình trạng quá khớp.

Sự khác biệt chính so với các mạng nơ-ron khác

Trong khi tất cả các mạng nơ-ron đều có chung khái niệm cơ bản là các nút được kết nối với nhau, thì CNN lại khác biệt đáng kể so với các loại khác như Mạng nơ-ron hồi quy (RNN) hoặc mạng truyền thẳng cơ bản:

  • Phân cấp không gian: CNN rất giỏi trong việc nắm bắt phân cấp không gian trong dữ liệu, điều này rất quan trọng đối với phân tích hình ảnh và video. Mặt khác, RNN được thiết kế cho dữ liệu tuần tự, khiến chúng phù hợp hơn với các tác vụ như xử lý ngôn ngữ tự nhiên (NLP)phân tích chuỗi thời gian .
  • Chia sẻ tham số: Trong CNN, các bộ lọc được chia sẻ trên không gian đầu vào, giảm đáng kể số lượng tham số so với các mạng được kết nối đầy đủ. Điều này không chỉ làm cho CNN hiệu quả hơn mà còn giúp chúng khái quát hóa tốt hơn về các tác vụ trực quan.
  • Trường tiếp nhận cục bộ: Các neuron trong CNN chỉ được kết nối với một vùng cục bộ của đầu vào, được gọi là trường tiếp nhận , cho phép chúng phát hiện các mẫu cục bộ một cách hiệu quả. Điều này trái ngược với các mạng được kết nối đầy đủ, trong đó mỗi neuron được kết nối với tất cả các neuron trong lớp trước đó.

Ứng dụng trong thế giới thực

CNN đã chứng minh được khả năng đáng chú ý trên nhiều lĩnh vực khác nhau. Sau đây là hai ví dụ cụ thể về ứng dụng thực tế của chúng:

  1. Phân tích hình ảnh y tế : CNN được sử dụng rộng rãi trong chăm sóc sức khỏe để phân tích hình ảnh y tế như chụp X-quang, chụp CT và chụp MRI. Chúng có thể phát hiện các bất thường, phân loại bệnh và phân đoạn các cơ quan với độ chính xác cao. Ví dụ, CNN có thể xác định khối u, gãy xương và các tình trạng khác, hỗ trợ bác sĩ trong việc chẩn đoán và lập kế hoạch điều trị. Khả năng học các mẫu phức tạp từ hình ảnh của CNN khiến chúng trở nên vô cùng hữu ích trong việc cải thiện kết quả điều trị cho bệnh nhân. Đọc thêm về AI trong chăm sóc sức khỏe .
  2. Xe tự hành: Xe tự lái phụ thuộc rất nhiều vào CNN để phát hiện vật thể , phân đoạn hình ảnh và hiểu bối cảnh. CNN xử lý dữ liệu hình ảnh từ camera để xác định người đi bộ, phương tiện khác, biển báo giao thông và ranh giới đường bộ. Thông tin này rất quan trọng để đưa ra quyết định lái xe theo thời gian thực, đảm bảo an toàn và hiệu quả của xe tự hành . Tìm hiểu thêm về AI trong xe tự lái .

Công cụ và Khung

Việc phát triển và triển khai CNN trở nên dễ dàng hơn nhờ nhiều công cụ và khuôn khổ cung cấp các lớp dựng sẵn, thuật toán tối ưu hóa và khả năng tăng tốc phần cứng:

  • PyTorch : Một nền tảng học sâu mã nguồn mở được biết đến với tính linh hoạt và dễ sử dụng. PyTorch cho phép tạo đồ thị tính toán động, khiến nó trở nên phổ biến trong giới nghiên cứu và nhà phát triển.
  • TensorFlow : Được phát triển bởi Google , TensorFlow là một khuôn khổ được sử dụng rộng rãi khác hỗ trợ cả môi trường nghiên cứu và sản xuất. Nó cung cấp một hệ sinh thái toàn diện gồm các công cụ, thư viện và tài nguyên cộng đồng.
  • Keras : Một thư viện mạng nơ-ron thân thiện với người dùng có thể chạy trên TensorFlow hoặc PyTorch . Keras đơn giản hóa quá trình xây dựng và đào tạo các mô hình học sâu.
  • Ultralytics YOLO : Lần đầu tiên sử dụng " YOLO ", Ultralytics YOLO mô hình là mô hình phát hiện đối tượng tiên tiến tận dụng kiến trúc CNN để đạt được độ chính xác và tốc độ cao. Các mô hình này có sẵn thông qua Ultralytics HUB , cung cấp các công cụ để đào tạo, triển khai và quản lý mô hình hiệu quả.

Bằng cách hiểu được sự phức tạp của CNN, người dùng có thể đánh giá cao hơn tầm quan trọng của chúng trong việc thúc đẩy AI và học máy. Các mạng này tiếp tục thúc đẩy sự đổi mới trong các ngành công nghiệp, biến chúng thành nền tảng của các ứng dụng thị giác máy tính hiện đại.

Đọc tất cả