U-Net là một kiến trúc Mạng nơ-ron tích chập (CNN) chuyên biệt ban đầu được phát triển cho các tác vụ phân đoạn hình ảnh y sinh. Cấu trúc hình chữ U đặc biệt của nó cho phép định vị và phân đoạn chính xác các đối tượng trong hình ảnh, ngay cả với dữ liệu đào tạo hạn chế. Được giới thiệu bởi Olaf Ronneberger, Philipp Fischer và Thomas Brox trong bài báo năm 2015 của họ " U-Net: Mạng tích chập để phân đoạn hình ảnh y sinh ", U-Net nhanh chóng trở nên có ảnh hưởng vượt ra ngoài phạm vi ban đầu của nó do tính hiệu quả của nó trong nhiều ứng dụng thị giác máy tính (CV) yêu cầu phân loại ở cấp độ pixel.
Kiến trúc cốt lõi
Kiến trúc U-Net bao gồm hai đường dẫn chính được kết nối theo cách giống với chữ 'U': đường dẫn co lại (còn gọi là bộ mã hóa) và đường dẫn mở rộng (còn gọi là bộ giải mã).
- Con đường thu hẹp (Bộ mã hóa): Con đường này tuân theo kiến trúc điển hình của CNN. Nó bao gồm các ứng dụng lặp lại của hai phép tích chập 3x3 (các phép tích chập không đệm), mỗi phép theo sau là một hàm kích hoạt Đơn vị tuyến tính chỉnh lưu (ReLU) , và sau đó là một hoạt động gộp tối đa 2x2 với bước 2 để lấy mẫu xuống. Tại mỗi bước lấy mẫu xuống, số kênh đặc điểm được nhân đôi. Con đường này nắm bắt bối cảnh của hình ảnh đầu vào, giảm dần độ phân giải không gian trong khi tăng thông tin đặc điểm.
- Đường mở rộng (Bộ giải mã): Đường này bao gồm các bước lặp lại của việc lấy mẫu lại bản đồ đặc trưng theo sau là tích chập 2x2 ("tích chập lên") làm giảm một nửa số kênh đặc trưng, một phép nối với bản đồ đặc trưng được cắt tương ứng từ đường thu hẹp và hai tích chập 3x3, mỗi tích chập theo sau là một ReLU. Việc cắt xén là cần thiết do mất các điểm ảnh đường viền trong mỗi tích chập. Lớp cuối cùng sử dụng tích chập 1x1 để ánh xạ từng vectơ đặc trưng thành số lớp mong muốn. Đường này cho phép định vị chính xác bằng cách tăng dần độ phân giải của đầu ra và kết hợp nó với các đặc trưng có độ phân giải cao từ đường thu hẹp thông qua các kết nối bỏ qua. Các kiến trúc mã hóa-giải mã như U-Net phổ biến trong các tác vụ phân đoạn.
- Kết nối bỏ qua: Đổi mới chính kết nối hai đường dẫn này là sử dụng kết nối bỏ qua . Các kết nối này sao chép bản đồ đặc điểm từ các lớp trong đường dẫn thu gọn và nối chúng với các bản đồ đặc điểm được lấy mẫu tương ứng trong đường dẫn mở rộng. Điều này cho phép bộ giải mã truy cập trực tiếp vào các đặc điểm có độ phân giải cao được bộ mã hóa học được, điều này rất quan trọng để tạo ra các bản đồ phân đoạn với các chi tiết chính xác.
Các tính năng và lợi thế chính
Thiết kế của U-Net mang lại một số lợi thế, đặc biệt đối với các tác vụ phân đoạn:
- Xác định vị trí chính xác: Đường dẫn mở rộng kết hợp với các kết nối bỏ qua cho phép mạng tạo ra các mặt nạ phân đoạn với chi tiết cực kỳ chi tiết.
- Hiệu quả với các tập dữ liệu nhỏ: U-Net có thể được đào tạo hiệu quả ngay cả với các tập dữ liệu đào tạo tương đối nhỏ, điều này thường gặp trong phân tích hình ảnh y tế . Việc sử dụng tăng cường dữ liệu mở rộng thường được sử dụng cùng với U-Net để dạy mạng các bất biến mong muốn.
- Đào tạo toàn diện: Toàn bộ mạng có thể được đào tạo trực tiếp từ hình ảnh đầu vào đến bản đồ phân đoạn đầu ra, giúp đơn giản hóa quy trình đào tạo.
- Tổng quát hóa tốt: Nó cho thấy hiệu suất mạnh mẽ không chỉ trong hình ảnh y tế mà còn trong các lĩnh vực khác đòi hỏi phân đoạn chính xác.
Ứng dụng trong thế giới thực
Mặc dù ban đầu được thiết kế cho mục đích chụp ảnh y sinh, kiến trúc của U-Net rất linh hoạt và đã được điều chỉnh cho nhiều ứng dụng:
Phân biệt U-Net với các khái niệm tương tự
U-Net tập trung chủ yếu vào phân đoạn ngữ nghĩa , gán nhãn lớp (ví dụ: 'khối u', 'đường', 'tòa nhà') cho mỗi pixel trong hình ảnh. Điều này khác với:
- Phân đoạn thể hiện : Nhiệm vụ này không chỉ phân loại pixel mà còn phân biệt giữa các thể hiện riêng lẻ của các đối tượng thuộc cùng một lớp (ví dụ: dán nhãn car_1, car_2, car_3 một cách riêng biệt). Trong khi U-Net có thể được điều chỉnh để phân đoạn thể hiện, các mô hình như Mask R-CNN thường phù hợp trực tiếp hơn cho mục đích này.
- Phát hiện đối tượng : Điều này liên quan đến việc xác định các đối tượng và vẽ các hộp giới hạn xung quanh chúng, thay vì phân loại từng pixel. Các mô hình như Ultralytics YOLO là công nghệ tiên tiến nhất để phát hiện đối tượng, được biết đến với tốc độ và độ chính xác của chúng.
- Các mô hình phân đoạn hiện đại: Trong khi U-Net vẫn có sức ảnh hưởng, các kiến trúc mới hơn, bao gồm các biến thể phân đoạn của các mô hình như Ultralytics YOLOv8 và YOLO11 , cung cấp khả năng phân đoạn mạnh mẽ, thường được tối ưu hóa để suy luận thời gian thực nhanh hơn và tận dụng những tiến bộ trong học sâu như khối biến áp hoặc thiết kế không có mỏ neo .