Gặp gỡ Florence-2, Microsoft Mô hình ngôn ngữ trực quan cung cấp khả năng phát hiện đối tượng, phân đoạn và hiệu suất zero-shot được cải thiện với hiệu quả cao.
Tháng 6/2024, Microsoft giới thiệu Florence-2, một mô hình ngôn ngữ hình ảnh đa phương thức (VLM) được thiết kế để xử lý một loạt các tác vụ bao gồm phát hiện đối tượng, phân đoạn, chú thích hình ảnh và nối đất. Florence-2 đặt ra một chuẩn mực mới cho hiệu suất zero-shot, có nghĩa là nó có thể thực hiện các nhiệm vụ mà không cần đào tạo cụ thể trước và tăng kích thước mô hình nhỏ hơn so với các mô hình ngôn ngữ thị giác hiện đại khác.
Nó không chỉ là một mô hình khác, tính linh hoạt và hiệu suất được cải thiện của Florence-2 có khả năng tác động đáng kể đến các ngành công nghiệp khác nhau bằng cách cải thiện độ chính xác và giảm nhu cầu đào tạo rộng rãi. Trong bài viết này, chúng ta sẽ khám phá các tính năng sáng tạo của Florence-2, so sánh hiệu suất của nó với các VLM khác và thảo luận về các ứng dụng tiềm năng của nó.
Florence-2 có thể xử lý nhiều nhiệm vụ khác nhau trong một khuôn khổ thống nhất duy nhất. Khả năng ấn tượng của mô hình một phần nhờ vào bộ dữ liệu đào tạo khổng lồ của nó được gọi là FLD-5B. FLD-5B bao gồm 5,4 tỷ chú thích trên 126 triệu hình ảnh. Bộ dữ liệu toàn diện này được tạo ra đặc biệt để cho phép Florence-2 với các khả năng cần thiết để xử lý một loạt các nhiệm vụ tầm nhìn với độ chính xác và hiệu quả cao.
Dưới đây là một cái nhìn sâu hơn về các nhiệm vụ mà Florence-2 hỗ trợ:
Mô hình hỗ trợ cả tác vụ dựa trên văn bản và dựa trên khu vực. Mã thông báo vị trí đặc biệt được thêm vào vốn từ vựng của mô hình cho các tác vụ liên quan đến các vùng cụ thể của hình ảnh. Các mã thông báo này giúp mô hình hiểu các hình dạng khác nhau, chẳng hạn như hình chữ nhật xung quanh các đối tượng (biểu diễn hộp), hình dạng bốn mặt (biểu diễn hộp quad) và hình dạng nhiều mặt (biểu diễn đa giác). Mô hình được đào tạo bằng cách sử dụng một phương pháp gọi là mất entropy chéo, giúp nó học bằng cách so sánh các dự đoán của nó với các câu trả lời chính xác và điều chỉnh các tham số bên trong của nó cho phù hợp.
Tập dữ liệu FLD-5B bao gồm các loại chú thích khác nhau: mô tả văn bản, cặp vùng và văn bản và kết hợp văn bản, cụm từ và vùng. Nó được tạo ra thông qua một quá trình hai bước liên quan đến thu thập dữ liệu và chú thích. Hình ảnh có nguồn gốc từ các bộ dữ liệu phổ biến như ImageNet-22k, Object 365, Open Images, Conceptual Captions và LAION. Các chú thích trong tập dữ liệu FLD-5B chủ yếu là tổng hợp, có nghĩa là chúng được tạo tự động thay vì được gắn nhãn thủ công.
Ban đầu, các mô hình chuyên gia có kỹ năng thực hiện các nhiệm vụ cụ thể, như phát hiện hoặc phân đoạn đối tượng, đã tạo ra các chú thích này. Sau đó, một quá trình lọc và nâng cao đã được sử dụng để đảm bảo rằng các chú thích được chi tiết và chính xác. Sau khi loại bỏ bất kỳ nhiễu nào, bộ dữ liệu đã trải qua quá trình tinh chỉnh lặp đi lặp lại, trong đó đầu ra của Florence-2 được sử dụng để liên tục cập nhật và cải thiện các chú thích.
Kiến trúc mô hình của Florence-2 tuân theo phương pháp học tập theo trình tự. Điều này có nghĩa là mô hình xử lý trình tự đầu vào (như hình ảnh có lời nhắc văn bản) và tạo chuỗi đầu ra (như mô tả hoặc nhãn) theo cách từng bước. Trong khung trình tự theo trình tự, mỗi tác vụ được coi là một vấn đề dịch: mô hình lấy hình ảnh đầu vào và lời nhắc dành riêng cho tác vụ và tạo đầu ra tương ứng.
Cốt lõi của kiến trúc mô hình là một máy biến áp giải mã đa phương thức, kết hợp bộ mã hóa hình ảnh và bộ giải mã đa phương thức. Bộ mã hóa hình ảnh, được gọi là DaViT (Data-efficient Vision Transformer), xử lý hình ảnh đầu vào bằng cách chuyển đổi chúng thành nhúng mã thông báo trực quan - biểu diễn nhỏ gọn của hình ảnh nắm bắt cả thông tin không gian (vị trí của mọi thứ) và ngữ nghĩa (mọi thứ là gì). Các mã thông báo trực quan này sau đó được kết hợp với nhúng văn bản (biểu diễn văn bản), cho phép mô hình hợp nhất liền mạch dữ liệu văn bản và hình ảnh.
Florence-2 nổi bật so với các mô hình ngôn ngữ hình ảnh khác do khả năng zero-shot ấn tượng của nó. Không giống như các mô hình như PaliGemma, dựa vào tinh chỉnh rộng rãi để thích ứng với các nhiệm vụ khác nhau, Florence-2 hoạt động tốt ngay lập tức. Ngoài ra, Florence-2 có thể cạnh tranh với các mẫu lớn hơn như GPT-4V và Flamingo, thường có nhiều thông số hơn nhưng không phải lúc nào cũng phù hợp với hiệu suất của Florence-2. Ví dụ, Florence-2 đạt được kết quả zero-shot tốt hơn Kosmos-2, mặc dù Kosmos-2 có số lượng thông số gấp đôi.
Trong các thử nghiệm điểm chuẩn, Florence-2 đã cho thấy hiệu suất đáng chú ý trong các nhiệm vụ như chú thích COCO và hiểu biểu thức tham chiếu. Nó vượt trội hơn các mô hình như PolyFormer và UNINEXT trong các tác vụ phát hiện và phân đoạn đối tượng trên tập dữ liệu COCO. Đây là một lựa chọn cạnh tranh cao cho các ứng dụng trong thế giới thực, nơi cả hiệu suất và hiệu quả tài nguyên đều rất quan trọng.
Florence-2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau, chẳng hạn như giải trí, khả năng tiếp cận, giáo dục, v.v. Hãy xem qua một vài ví dụ để hiểu rõ hơn.
Khi bạn đang ở trên một nền tảng phát trực tuyến đang cố gắng quyết định xem gì, bạn có thể đọc tóm tắt về một bộ phim để giúp bạn chọn. Điều gì sẽ xảy ra nếu nền tảng này cũng có thể cung cấp mô tả chi tiết về áp phích phim? Florence-2 có thể thực hiện điều đó thông qua chú thích hình ảnh, tạo ra văn bản mô tả cho hình ảnh. Florence-2 có thể tạo ra các mô tả chi tiết về áp phích phim, làm cho các nền tảng phát trực tuyến trở nên toàn diện hơn cho người dùng khiếm thị. Bằng cách phân tích các yếu tố hình ảnh của áp phích, chẳng hạn như nhân vật, phong cảnh và văn bản, Florence-2 có thể tạo ra các mô tả chi tiết truyền tải nội dung và tâm trạng của áp phích. Hình ảnh dưới đây cho thấy mức độ chi tiết mà Florence-2 có thể cung cấp trong mô tả của nó.
Dưới đây là một số ví dụ khác về nơi phụ đề hình ảnh có thể hữu ích:
Florence-2 cũng có thể được sử dụng để làm phong phú thêm trải nghiệm ẩm thực. Ví dụ, một cuốn sách dạy nấu ăn trực tuyến có thể sử dụng Florence-2 để nghiền và dán nhãn trực quan các phần của hình ảnh công thức phức tạp. Nền tảng trực quan giúp ở đây bằng cách liên kết các phần cụ thể của hình ảnh với văn bản mô tả tương ứng. Mỗi thành phần và bước có thể được dán nhãn và giải thích chính xác, giúp đầu bếp tại nhà dễ dàng theo dõi công thức và hiểu vai trò của từng thành phần trong món ăn.
OCR với xử lý dựa trên khu vực, tập trung vào việc trích xuất văn bản từ các khu vực cụ thể trong tài liệu, có thể hữu ích khi nói đến các lĩnh vực như kế toán. Các khu vực được chỉ định của tài liệu tài chính có thể được phân tích để tự động trích xuất thông tin quan trọng như chi tiết giao dịch, số tài khoản và ngày đến hạn. Bằng cách giảm nhu cầu nhập dữ liệu thủ công, nó giảm thiểu lỗi và tăng tốc thời gian xử lý. Các tổ chức tài chính có thể sử dụng nó để hợp lý hóa các nhiệm vụ như xử lý hóa đơn, đối chiếu biên lai và thanh toán bù trừ séc, dẫn đến giao dịch nhanh hơn và dịch vụ khách hàng tốt hơn.
Phân khúc dựa trên khu vực, liên quan đến việc chia hình ảnh thành các phần có ý nghĩa để phân tích tập trung và kiểm tra chi tiết, có thể thúc đẩy các ứng dụng công nghiệp cải thiện độ chính xác và hiệu quả trong các quy trình khác nhau. Bằng cách tập trung vào các khu vực cụ thể trong một hình ảnh, công nghệ này cho phép kiểm tra và phân tích chi tiết các thành phần và sản phẩm. Đối với kiểm soát chất lượng, nó có thể xác định các khuyết tật hoặc không nhất quán trong vật liệu, chẳng hạn như vết nứt hoặc sai lệch, đảm bảo rằng chỉ những sản phẩm chất lượng hàng đầu mới tiếp cận thị trường.
Nó cũng cải thiện dây chuyền lắp ráp tự động bằng cách hướng dẫn cánh tay robot đến các bộ phận cụ thể và tối ưu hóa vị trí và lắp ráp các thành phần. Tương tự, trong quản lý hàng tồn kho, nó giúp theo dõi và giám sát tình trạng và vị trí của hàng hóa, dẫn đến hậu cần hiệu quả hơn và giảm thời gian chết. Nhìn chung, phân khúc dựa trên khu vực giúp tăng độ chính xác và năng suất, dẫn đến tiết kiệm chi phí và chất lượng sản phẩm cao hơn trong các cơ sở công nghiệp.
Chúng ta đang bắt đầu thấy một xu hướng mà các mô hình AI đang trở nên nhẹ hơn trong khi vẫn duy trì hiệu suất cao. Florence-2 đánh dấu một bước tiến lớn về mô hình ngôn ngữ hình ảnh. Nó có thể xử lý các tác vụ khác nhau như phát hiện đối tượng, phân đoạn, chú thích hình ảnh và nối đất với hiệu suất zero-shot ấn tượng. Mặc dù có kích thước nhỏ hơn, Florence-2 hoạt động hiệu quả và đa chức năng, điều này làm cho nó cực kỳ hữu ích về các ứng dụng trong các ngành công nghiệp khác nhau. Các mô hình như Florence-2 đang mang lại nhiều khả năng hơn, mở rộng tiềm năng cho những đổi mới AI.
Khám phá thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Kiểm tra các trang giải pháp của chúng tôi để đọc về các ứng dụng AI trong sản xuất và nông nghiệp. 🚀
Bắt đầu hành trình của bạn với tương lai của machine learning