Thuật ngữ

Mạng U

Khám phá U-Net, kiến trúc CNN mạnh mẽ cho phân đoạn ngữ nghĩa. Tìm hiểu ứng dụng của nó trong y tế, vệ tinh và hình ảnh tự động.

U-Net là kiến trúc mạng nơ-ron tích chập (CNN) được thiết kế để phân đoạn hình ảnh nhanh chóng và chính xác. Ban đầu được phát triển cho phân đoạn hình ảnh y sinh, cấu trúc hình chữ U sáng tạo của nó đã trở thành mô hình nền tảng trong lĩnh vực thị giác máy tính (CV) . Kiến trúc này đặc biệt hiệu quả vì có thể được huấn luyện từ đầu đến cuối trên một số lượng hình ảnh tương đối nhỏ mà vẫn tạo ra mặt nạ phân đoạn có độ chính xác cao, lý tưởng cho các lĩnh vực khan hiếm dữ liệu. Bạn có thể tìm hiểu thêm về các khái niệm cốt lõi của nó trong hướng dẫn của chúng tôi về kiến trúc U-Net và các ứng dụng của nó .

Cách thức hoạt động của U-Net

Kiến trúc U-Net lấy tên từ hình chữ U đặc trưng. Nó bao gồm hai đường dẫn chính: một đường dẫn co lại (bộ mã hóa) để nắm bắt ngữ cảnh và một đường dẫn mở rộng đối xứng (bộ giải mã) cho phép định vị chính xác. Thiết kế này cho phép kết hợp hiệu quả thông tin ngữ cảnh cấp cao với các chi tiết không gian chi tiết.

  • Đường dẫn thu gọn (Bộ mã hóa): Đây là một mạng nơ-ron tích chập điển hình. Nó bao gồm các khối lặp lại của phép tích chập và phép gộp. Bộ mã hóa dần dần giảm mẫu hình ảnh, giảm kích thước không gian đồng thời tăng số lượng kênh đặc trưng. Quá trình này cho phép mạng học các đặc trưng phân cấp và nắm bắt bối cảnh rộng hơn của hình ảnh.

  • Đường dẫn mở rộng (Bộ giải mã): Nhiệm vụ của bộ giải mã là lấy biểu diễn đặc trưng đã nén từ bộ mã hóa và tái tạo bản đồ phân đoạn có độ phân giải cao. Bộ giải mã thực hiện việc này thông qua một loạt các phép "phép tích chập lên" (hoặc phép tích chập chuyển vị) giúp tăng kích thước không gian đồng thời giảm các kênh đặc trưng.

  • Kết nối bỏ qua: Cải tiến quan trọng nhất của U-Net là việc sử dụng kết nối bỏ qua. Các kết nối này liên kết trực tiếp các bản đồ đặc trưng từ bộ mã hóa đến các lớp tương ứng trong bộ giải mã. Điều này cho phép bộ giải mã tái sử dụng các đặc trưng có độ phân giải cao từ các lớp mã hóa ban đầu, giúp khôi phục các chi tiết tinh tế thường bị mất trong quá trình hạ mẫu. Sự kết hợp giữa các đặc trưng nông và sâu này là chìa khóa cho khả năng định vị chính xác của U-Net. Bài báo gốc của U-Net cung cấp phân tích kỹ thuật chi tiết.

Ứng dụng trong thế giới thực

Khả năng phân đoạn chính xác của U-Net với dữ liệu hạn chế đã giúp công nghệ này được áp dụng trong nhiều lĩnh vực ngoài mục tiêu y tế ban đầu.

  • Phân tích hình ảnh y tế: U-Net được sử dụng rộng rãi cho các nhiệm vụ như phân đoạn khối u trong ảnh chụp não, nhận dạng tế bào trong ảnh hiển vi và phác thảo các cơ quan để lập kế hoạch phẫu thuật. Ví dụ, trong AI trong chăm sóc sức khỏe , mô hình U-Net có thể được đào tạo trên tập dữ liệu quét MRI để tự động phác thảo khối u não, giúp các bác sĩ X quang chẩn đoán nhanh hơn và chính xác hơn. Bạn có thể khám phá các tập dữ liệu hình ảnh y tế công cộng để xem loại dữ liệu được sử dụng.

  • Phân tích ảnh vệ tinh: Trong hệ thống thông tin địa lý (GIS), các mô hình U-Net được sử dụng để phân tích ảnh vệ tinh. Một mô hình có thể được đào tạo để xác định và phân đoạn các loại hình đất khác nhau (rừng, thủy vực, khu vực đô thị) hoặc để lập bản đồ mạng lưới đường bộ từ ảnh chụp trên không. Điều này rất quan trọng đối với quy hoạch đô thị, giám sát môi trường và các ứng dụng trong nông nghiệp thông minh . Các dự án như sáng kiến Earthdata của NASA đều dựa trên các công nghệ này.

U-Net so với các mô hình khác

Mặc dù mạnh mẽ, nhưng điều quan trọng là phải phân biệt U-Net với các mô hình thị giác máy tính khác.

  • U-Net so với YOLO trong Phân đoạn: Các mô hình như Ultralytics YOLO cũng thực hiện phân đoạn hình ảnh . Tuy nhiên, các kiến trúc như YOLO11 chủ yếu được thiết kế để đạt hiệu suất thời gian thực trong các tác vụ như phát hiện đối tượngphân đoạn thực thể . U-Net là một kiến trúc cổ điển được biết đến với độ chính xác cao trong phân đoạn ngữ nghĩa , trong đó mỗi pixel đều được phân loại, nhưng có thể không đạt được tốc độ của các mô hình hiện đại, được tối ưu hóa cao. Bạn có thể so sánh hiệu suất của các mô hình khác nhau để hiểu những đánh đổi này.

  • Phân đoạn ngữ nghĩa so với phân đoạn thể hiện: U-Net về cơ bản là một mô hình phân đoạn ngữ nghĩa. Nó gán một nhãn lớp cho mỗi pixel (ví dụ: "ô tô", "đường", "tòa nhà"). Ngược lại, phân đoạn thể hiện phân biệt các thể hiện khác nhau của cùng một lớp (ví dụ: "ô tô 1", "ô tô 2"). Mặc dù kiến trúc U-Net cơ bản dành cho phân đoạn ngữ nghĩa, các nguyên tắc của nó đã được điều chỉnh thành các mô hình phức tạp hơn, chẳng hạn như Mask R-CNN, để thực hiện phân đoạn thể hiện.

Di sản và sự phát triển của U-Net

U-Net vẫn là một cột mốc quan trọng trong học sâu . Thành công của nó chứng minh rằng các kiến trúc tinh vi có thể đạt được kết quả tuyệt vời ngay cả khi không có bộ dữ liệu khổng lồ. Khái niệm kết nối bỏ qua (skip connections) đã có ảnh hưởng rất lớn và hiện là một tính năng phổ biến trong nhiều kiến trúc mạng tiên tiến, bao gồm cả các kiến trúc dựa trên Transformers .

Mặc dù U-Net vẫn là một nền tảng cơ sở vững chắc, nhiều giải pháp phân đoạn hiện đại được xây dựng dựa trên ý tưởng của nó. Đối với các nhà phát triển muốn xây dựng ứng dụng thị giác của riêng mình, các nền tảng như PyTorchTensorFlow cung cấp các công cụ để triển khai U-Net và các mô hình tương tự. Để có trải nghiệm tích hợp, không cần viết mã, bạn có thể sử dụng Ultralytics HUB để đào tạo các mô hình phân đoạn tùy chỉnh trên dữ liệu của riêng mình.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard