Khám phá cách ResNet cách mạng hóa việc học sâu bằng cách giải quyết vấn đề gradient biến mất, cho phép mạng siêu sâu phân tích hình ảnh, NLP, v.v.
Residual Networks, thường được gọi là ResNets, đại diện cho một bước tiến đáng kể trong lĩnh vực học sâu, đặc biệt là trong thiết kế mạng nơ-ron tích chập sâu. Chúng được giới thiệu để giải quyết một thách thức quan trọng trong việc đào tạo các mạng rất sâu: vấn đề độ dốc biến mất. Khi các mạng trở nên sâu hơn, chúng thường trở nên khó đào tạo hơn và hiệu suất của chúng có thể giảm xuống. ResNets đã cách mạng hóa kiến trúc mạng bằng cách cho phép đào tạo các mạng có độ sâu chưa từng có, dẫn đến những cải tiến đáng kể trong nhiều tác vụ thị giác máy tính khác nhau.
Cốt lõi của kiến trúc ResNet là khái niệm "kết nối còn lại", còn được gọi là "kết nối bỏ qua". Các mạng sâu truyền thống học các ánh xạ trực tiếp từ đầu vào đến đầu ra. Ngược lại, ResNet được thiết kế để học các ánh xạ còn lại. Thay vì cố gắng học trực tiếp một hàm phức tạp, một khối còn lại học "phần còn lại" - sự khác biệt giữa đầu vào và đầu ra mong muốn. Điều này đạt được bằng cách thêm đầu vào ban đầu của một khối vào đầu ra của nó, tạo ra một lối tắt hoặc kết nối bỏ qua.
Sự thay đổi có vẻ đơn giản này có những hàm ý sâu sắc. Kết nối bỏ qua cho phép các gradient chảy dễ dàng hơn qua mạng, giảm thiểu vấn đề gradient biến mất. Bằng cách cho phép mạng học các ánh xạ danh tính (trong đó đầu ra giống với đầu vào) khi có lợi, ResNet có thể bỏ qua các lớp một cách hiệu quả nếu chúng không đóng góp vào hiệu suất, điều này rất quan trọng trong các mạng rất sâu. Sự đổi mới này cho phép đào tạo các mạng sâu hơn nhiều, chẳng hạn như ResNet-50, ResNet-101 và thậm chí ResNet-152, có lần lượt 50, 101 và 152 lớp, vượt trội hơn đáng kể so với các kiến trúc nông hơn trước đây.
ResNet đã trở thành kiến trúc nền tảng trong thị giác máy tính và được sử dụng rộng rãi trong nhiều ứng dụng:
Phân loại hình ảnh : ResNet đã đạt được kết quả tiên tiến nhất về các chuẩn phân loại hình ảnh như ImageNet . Khả năng học hiệu quả từ các mạng rất sâu của chúng đã dẫn đến những cải tiến đáng kể về độ chính xác cho các tác vụ như xác định đối tượng, cảnh và danh mục trong hình ảnh. Ví dụ, trong các mô hình YOLO Ultralytics , các xương sống như ResNet có thể được tích hợp để tăng cường trích xuất tính năng cho các tác vụ phát hiện đối tượng và phân loại hình ảnh.
Phát hiện và phân đoạn đối tượng : Các kiến trúc như Ultralytics YOLOv8 và SAM (Segment Anything Model) thường sử dụng ResNet làm xương sống để trích xuất đặc điểm. Trong phát hiện đối tượng, ResNet giúp định vị và phân loại chính xác các đối tượng trong hình ảnh bằng cách cung cấp các biểu diễn đặc điểm mạnh mẽ và sâu sắc. Ví dụ như phân đoạn, ResNet góp phần phác thảo và nhận dạng đối tượng ở cấp độ pixel chính xác, rất quan trọng đối với các ứng dụng như lái xe tự động và phân tích hình ảnh y tế.
Phân tích hình ảnh y tế : Trong phân tích hình ảnh y tế , ResNet được sử dụng cho các nhiệm vụ như phát hiện khối u, phân loại bệnh và phân đoạn cơ quan. Độ sâu và sức mạnh biểu diễn của ResNet rất cần thiết để nắm bắt các mẫu tinh tế trong hình ảnh y tế phức tạp, cải thiện độ chính xác của chẩn đoán và lập kế hoạch điều trị.
Nhận dạng khuôn mặt : ResNet được sử dụng trong các hệ thống nhận dạng khuôn mặt để trích xuất đặc điểm từ hình ảnh khuôn mặt. Kiến trúc sâu của chúng cho phép học các đặc điểm khuôn mặt phức tạp, dẫn đến nhận dạng và xác minh có độ chính xác cao trong các ứng dụng bảo mật, giám sát và cá nhân hóa.
Xử lý ngôn ngữ tự nhiên (NLP) và hơn thế nữa : Mặc dù chủ yếu được sử dụng trong thị giác máy tính, khái niệm kết nối còn lại đã ảnh hưởng đến các lĩnh vực khác, bao gồm xử lý ngôn ngữ tự nhiên (NLP) . Sự thành công của ResNet đã truyền cảm hứng cho các kiến trúc tương tự trong NLP và các lĩnh vực khác của máy học, chứng minh tác động rộng lớn của sự đổi mới kiến trúc này.
Ưu điểm chính của ResNet là khả năng đào tạo các mạng rất sâu hiệu quả, khắc phục vấn đề suy thoái gặp phải trong các mạng sâu truyền thống. Độ sâu này cho phép ResNet học các tính năng phức tạp và phân cấp hơn, dẫn đến hiệu suất được cải thiện trong nhiều tác vụ khác nhau. Hơn nữa, kiến trúc ResNet tương đối dễ triển khai và đã trở thành một khối xây dựng tiêu chuẩn trong nhiều mô hình học sâu hiện đại. Hiệu suất mạnh mẽ và dễ sử dụng của chúng đã củng cố ResNet như một nền tảng trong sự phát triển của học sâu và trí tuệ nhân tạo. Đối với những người dùng muốn triển khai và tối ưu hóa các mô hình AI thị giác, việc hiểu kiến trúc ResNet là rất quan trọng và các nền tảng như Ultralytics HUB có thể tạo điều kiện thuận lợi cho việc đào tạo và triển khai các mô hình dựa trên ResNet cho nhiều ứng dụng khác nhau.