U-Net là một kiến trúc Mạng nơ-ron tích chập (CNN) chuyên biệt ban đầu được phát triển cho các nhiệm vụ phân đoạn hình ảnh y sinh. Cấu trúc hình chữ U đặc biệt của nó cho phép định vị và phân đoạn chính xác các đối tượng trong hình ảnh, ngay cả với dữ liệu đào tạo hạn chế. Được giới thiệu bởi Olaf Ronneberger, Philipp Fischer và Thomas Brox vào năm 2015, U-Net nhanh chóng trở nên có ảnh hưởng vượt ra ngoài phạm vi ban đầu của nó do tính hiệu quả của nó trong nhiều ứng dụng thị giác máy tính (CV) yêu cầu phân loại cấp độ pixel.
Kiến trúc cốt lõi
Kiến trúc U-Net bao gồm hai đường dẫn chính: đường dẫn co lại (bộ mã hóa) và đường dẫn mở rộng (bộ giải mã), tạo thành hình chữ 'U' đặc trưng của nó.
- Con đường thu hẹp (Bộ mã hóa): Con đường này tuân theo cấu trúc CNN điển hình. Nó bao gồm việc áp dụng lặp lại các phép tích chập, tiếp theo là các hàm kích hoạt ReLU (Đơn vị tuyến tính chỉnh lưu) và các hoạt động gộp tối đa. Con đường này nắm bắt bối cảnh của hình ảnh đầu vào bằng cách giảm dần độ phân giải không gian trong khi tăng số lượng bản đồ đặc điểm , mã hóa hiệu quả hình ảnh thành một biểu diễn nhỏ gọn. Khái niệm này là cơ bản đối với nhiều kiến trúc bộ mã hóa-giải mã .
- Đường dẫn mở rộng (Bộ giải mã): Đường dẫn này mở rộng đối xứng các bản đồ đặc điểm trở lại độ phân giải hình ảnh gốc. Nó bao gồm các phép tích chập ngược (hoặc phép tích chập chuyển vị) làm tăng độ phân giải, tiếp theo là các phép tích chập chuẩn. Quan trọng là, mỗi bước trong đường dẫn mở rộng sẽ nối bản đồ đặc điểm đã tích chập ngược với bản đồ đặc điểm có độ phân giải cao tương ứng từ đường dẫn thu hẹp thông qua các kết nối bỏ qua.
- Kết nối bỏ qua: Đây là đặc điểm nổi bật của U-Net. Chúng liên kết trực tiếp các bản đồ đặc điểm từ bộ mã hóa đến các lớp tương ứng trong bộ giải mã. Điều này cho phép bộ giải mã tái sử dụng thông tin không gian có độ phân giải cao do bộ mã hóa học được, điều này rất quan trọng để đạt được vị trí chính xác trong bản đồ phân đoạn cuối cùng. Giải thích về kết nối bỏ qua có thể cung cấp thêm ngữ cảnh.
Các tính năng và lợi thế chính
Thiết kế của U-Net mang lại một số lợi thế, đặc biệt đối với các tác vụ phân đoạn:
- Định vị chính xác: Kết nối bỏ qua cho phép mạng kết hợp thông tin ngữ cảnh sâu (từ các lớp dưới cùng của bộ mã hóa) với các chi tiết không gian chi tiết (từ các lớp trước đó của bộ mã hóa).
- Hiệu quả với dữ liệu hạn chế: Hoạt động tốt ngay cả với các tập dữ liệu nhỏ hơn, một tình huống phổ biến trong phân tích hình ảnh y tế khi dữ liệu chú thích có thể khan hiếm.
- Đào tạo toàn diện: Toàn bộ mạng có thể được đào tạo trực tiếp từ hình ảnh đầu vào đến bản đồ phân đoạn đầu ra.
Ứng dụng trong thế giới thực
Mặc dù ban đầu được thiết kế cho mục đích chụp ảnh y sinh, kiến trúc của U-Net rất linh hoạt:
- Phân đoạn hình ảnh y tế: Ứng dụng chính của nó, được sử dụng cho các nhiệm vụ như phân đoạn tế bào trong hình ảnh kính hiển vi, xác định khối u trong quét CT hoặc MRI và định vị các cơ quan. Bài báo gốc của U-Net nêu chi tiết về thành công của nó trong các thử thách theo dõi tế bào. Bạn có thể tìm thêm ví dụ trong các bài đánh giá phân đoạn hình ảnh y sinh học .
- Phân tích hình ảnh vệ tinh: U-Net được sử dụng trong phân tích hình ảnh vệ tinh để lập bản đồ lớp phủ đất, phát hiện đường sá hoặc tòa nhà và theo dõi những thay đổi về môi trường. Nhiều ứng dụng cảm biến từ xa tận dụng các biến thể U-Net.
Phân biệt U-Net với các khái niệm tương tự
U-Net tập trung chủ yếu vào phân đoạn ngữ nghĩa , gán nhãn lớp cho mỗi pixel. Điều này khác với phân đoạn thể hiện , phân biệt các thể hiện riêng lẻ của các đối tượng thuộc cùng một lớp. Trong khi U-Net có thể được điều chỉnh để phân đoạn thể hiện, các mô hình như Mask R-CNN thường phù hợp hơn với nhiệm vụ đó. Các mô hình hiện đại như Ultralytics YOLOv8 cũng cung cấp khả năng phân đoạn mạnh mẽ, thường được tối ưu hóa cho tốc độ và hiệu suất thời gian thực, có khả năng sử dụng các phương pháp tiếp cận kiến trúc khác nhau chịu ảnh hưởng của những tiến bộ trong học sâu .
Đào tạo và Công cụ
Đào tạo U-Net yêu cầu dữ liệu chú thích ở cấp độ pixel, trong đó mỗi pixel trong hình ảnh đào tạo được gắn nhãn với lớp tương ứng. Quá trình này, được gọi là chú thích dữ liệu , thường tốn nhiều công sức. Các mô hình U-Net thường được triển khai và đào tạo bằng các khuôn khổ học sâu phổ biến như PyTorch và TensorFlow .