Florence-2: AI tầm nhìn Zero-Shot của Microsoft

Vào tháng 6 năm 2024, Microsoft Florence-2 đã giới thiệu, một mô hình ngôn ngữ thị giác đa phương thức (VLM) được thiết kế để xử lý nhiều tác vụ khác nhau, bao gồm phát hiện đối tượng , phân đoạn , chú thích hình ảnh và nối đất. Florence-2 thiết lập một chuẩn mực mới cho hiệu suất zero-shot, nghĩa là nó có thể thực hiện các tác vụ mà không cần đào tạo chuyên biệt trước đó, đồng thời tăng kích thước mô hình nhỏ hơn so với các mô hình ngôn ngữ thị giác tiên tiến khác.

Nó không chỉ là một mô hình khác, tính linh hoạt và hiệu suất được cải thiện của Florence-2 có khả năng tác động đáng kể đến nhiều ngành công nghiệp bằng cách cải thiện độ chính xác và giảm nhu cầu huấn luyện mở rộng. Trong bài viết này, chúng ta sẽ khám phá các tính năng cải tiến của Florence-2, so sánh hiệu suất của nó với các VLM khác và thảo luận về các ứng dụng tiềm năng của nó.

Florence-2 là gì?

Florence-2 có thể xử lý nhiều tác vụ khác nhau trong một framework thống nhất duy nhất. Khả năng ấn tượng của mô hình một phần là nhờ vào tập dữ liệu huấn luyện khổng lồ của nó có tên là FLD-5B. FLD-5B bao gồm 5,4 tỷ chú thích trên 126 triệu hình ảnh. Tập dữ liệu toàn diện này được tạo ra đặc biệt để cho phép Florence-2 có các khả năng cần thiết để xử lý một loạt các tác vụ thị giác với độ chính xác và hiệu quả cao.

Sau đây là cái nhìn cận cảnh hơn về các tác vụ mà Florence-2 hỗ trợ:

Phát hiện đối tượng: Nó có thể xác định và định vị các đối tượng trong hình ảnh với độ chính xác cao.
‍
Phân đoạn (Segmentation): Tác vụ này bao gồm việc chia một hình ảnh thành các phân đoạn có ý nghĩa để phân tích và giải thích dễ dàng hơn.
‍
Chú thích ảnh: Florence-2 có khả năng tạo ra các chú thích mô tả cho hình ảnh, cung cấp ngữ cảnh và chi tiết.
‍
Visual Grounding: Mô hình có thể liên kết các cụm từ hoặc từ cụ thể trong chú thích với các vùng tương ứng trong hình ảnh.
‍
Khả năng hoạt động Zero-shot: Nó có thể thực hiện các tác vụ mà không cần đào tạo cụ thể.

__wf_reserved_inherit — Hình 1. Tìm hiểu cách Florence-2 được huấn luyện.

‍

Mô hình hỗ trợ cả các tác vụ dựa trên văn bản và dựa trên khu vực. Các mã thông báo vị trí đặc biệt được thêm vào từ vựng của mô hình cho các tác vụ liên quan đến các khu vực cụ thể của hình ảnh. Các mã thông báo này giúp mô hình hiểu các hình dạng khác nhau, chẳng hạn như hình chữ nhật xung quanh các đối tượng (biểu diễn hộp), hình dạng bốn cạnh (biểu diễn hộp tứ giác) và hình dạng nhiều cạnh (biểu diễn đa giác). Mô hình được huấn luyện bằng một phương pháp gọi là mất mát cross-entropy, giúp mô hình học bằng cách so sánh các dự đoán của nó với các câu trả lời đúng và điều chỉnh các tham số bên trong của nó cho phù hợp.

Tạo bộ dữ liệu FLD-5B

Bộ dữ liệu FLD-5B bao gồm nhiều loại chú thích khác nhau: mô tả văn bản, cặp vùng và văn bản, và sự kết hợp giữa văn bản, cụm từ và vùng. Bộ dữ liệu được tạo ra thông qua quy trình hai bước bao gồm thu thập dữ liệu và chú thích . Hình ảnh được lấy từ các bộ dữ liệu phổ biến như ImageNet -22k, Đối tượng 365, Hình ảnh Mở, Chú thích Khái niệm và LAION. Các chú thích trong tập dữ liệu FLD-5B chủ yếu là tổng hợp, nghĩa là chúng được tạo tự động thay vì được gắn nhãn thủ công.

‍

Ban đầu, các mô hình chuyên dụng có kỹ năng trong các tác vụ cụ thể, như phát hiện đối tượng hoặc phân đoạn, đã tạo ra các chú thích này. Sau đó, một quy trình lọc và nâng cao đã được sử dụng để đảm bảo rằng các chú thích chi tiết và chính xác. Sau khi loại bỏ mọi nhiễu, tập dữ liệu đã trải qua quá trình tinh chỉnh lặp đi lặp lại, trong đó đầu ra của Florence-2 được sử dụng để liên tục cập nhật và cải thiện các chú thích.

Tìm hiểu về kiến trúc mô hình Florence-2

Kiến trúc mô hình của Florence-2 tuân theo phương pháp học sequence-to-sequence. Điều này có nghĩa là mô hình xử lý một chuỗi đầu vào (như một hình ảnh với một lời nhắc văn bản) và tạo ra một chuỗi đầu ra (như một mô tả hoặc một nhãn) theo từng bước. Trong framework sequence-to-sequence, mỗi tác vụ được coi là một bài toán dịch: mô hình lấy một hình ảnh đầu vào và một lời nhắc cụ thể cho tác vụ và tạo ra đầu ra tương ứng.

‍

Cốt lõi của kiến trúc mô hình là một transformer bộ mã hóa-giải mã đa phương thức, kết hợp bộ mã hóa hình ảnh và bộ mã hóa-giải mã đa phương thức. Bộ mã hóa hình ảnh, được gọi là DaViT (Data-efficient Vision Transformer), xử lý hình ảnh đầu vào bằng cách chuyển đổi chúng thành các embedding token trực quan - các biểu diễn nhỏ gọn của hình ảnh nắm bắt cả thông tin không gian (vị trí của mọi thứ) và ngữ nghĩa (mọi thứ là gì). Các token trực quan này sau đó được kết hợp với các embedding văn bản (biểu diễn của văn bản), cho phép mô hình hợp nhất liền mạch dữ liệu văn bản và hình ảnh.

So sánh Florence-2 với các VLM khác

Florence-2 nổi bật so với các mô hình ngôn ngữ thị giác khác nhờ khả năng zero-shot ấn tượng của nó. Không giống như các mô hình như PaliGemma, dựa vào việc tinh chỉnh rộng rãi để thích ứng với các tác vụ khác nhau, Florence-2 hoạt động tốt ngay khi xuất xưởng. Ngoài ra, Florence-2 có thể cạnh tranh với các mô hình lớn hơn như GPT-4V và Flamingo, thường có nhiều tham số hơn nhưng không phải lúc nào cũng phù hợp với hiệu suất của Florence-2. Ví dụ: Florence-2 đạt được kết quả zero-shot tốt hơn Kosmos-2, mặc dù Kosmos-2 có số lượng tham số gấp đôi.

Trong các bài kiểm tra chuẩn, Florence-2 đã cho thấy hiệu suất đáng chú ý trong các nhiệm vụ như COCO chú thích và hiểu biểu thức tham chiếu. Nó vượt trội hơn các mô hình như PolyFormer và UNINEXT trong các tác vụ phát hiện và phân đoạn đối tượng trên tập dữ liệu COCO . Đây là một lựa chọn cạnh tranh cao cho các ứng dụng thực tế, nơi cả hiệu suất và hiệu quả tài nguyên đều quan trọng.

Ứng dụng của Florence-2

Florence-2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau, chẳng hạn như giải trí, khả năng tiếp cận, giáo dục, v.v. Hãy cùng xem qua một vài ví dụ để hiểu rõ hơn.

Ứng dụng của chú thích ảnh

Khi bạn ở trên một nền tảng phát trực tuyến cố gắng quyết định xem gì, bạn có thể đọc tóm tắt về một bộ phim để giúp bạn chọn. Điều gì sẽ xảy ra nếu nền tảng này cũng có thể cung cấp một mô tả chi tiết về áp phích phim? Florence-2 có thể thực hiện điều đó thông qua chú thích hình ảnh, tạo ra văn bản mô tả cho hình ảnh. Florence-2 có thể tạo ra các mô tả chi tiết về áp phích phim, làm cho các nền tảng phát trực tuyến trở nên hòa nhập hơn cho người dùng khiếm thị. Bằng cách phân tích các yếu tố trực quan của một áp phích, chẳng hạn như nhân vật, phong cảnh và văn bản, Florence-2 có thể tạo ra các mô tả chi tiết truyền tải nội dung và tâm trạng của áp phích. Hình ảnh bên dưới cho thấy mức độ chi tiết mà Florence-2 có thể cung cấp trong mô tả của nó.

‍

Dưới đây là một số ví dụ khác về trường hợp chú thích ảnh hữu ích:

Thương mại điện tử: Chú thích ảnh (Image captioning) có thể cung cấp mô tả chi tiết về hình ảnh sản phẩm, giúp khách hàng hiểu rõ hơn về các tính năng và chi tiết của sản phẩm.
‍
Du lịch và Lữ hành: Nó có thể cung cấp mô tả chi tiết về các địa danh và điểm tham quan trong hướng dẫn du lịch và ứng dụng.
‍
Giáo dục: Chú thích ảnh có thể gắn nhãn và mô tả các hình ảnh và sơ đồ giáo dục, hỗ trợ giảng dạy và học tập.
‍
Bất động sản: Nó có thể cung cấp mô tả chi tiết về hình ảnh tài sản, làm nổi bật các tính năng và tiện nghi cho người mua tiềm năng.

Sử dụng visual grounding trong khi nấu ăn

Florence-2 cũng có thể được sử dụng để làm phong phú thêm trải nghiệm ẩm thực. Ví dụ: một cuốn sách dạy nấu ăn trực tuyến có thể sử dụng Florence-2 để neo trực quan và gắn nhãn các phần của một hình ảnh công thức phức tạp. Neo trực quan giúp liên kết các phần cụ thể của hình ảnh với văn bản mô tả tương ứng. Mỗi thành phần và bước có thể được dán nhãn và giải thích một cách chính xác, giúp các đầu bếp tại gia dễ dàng làm theo công thức và hiểu vai trò của từng thành phần trong món ăn.

‍

OCR dựa trên vùng cho tài liệu tài chính

OCR với xử lý dựa trên vùng, tập trung vào việc trích xuất văn bản từ các khu vực cụ thể trong tài liệu, có thể hữu ích trong các lĩnh vực như kế toán. Các khu vực được chỉ định của tài liệu tài chính có thể được phân tích để tự động trích xuất thông tin quan trọng như chi tiết giao dịch, số tài khoản và ngày đến hạn. Bằng cách giảm nhu cầu nhập dữ liệu thủ công, nó giảm thiểu lỗi và tăng tốc thời gian xử lý. Các tổ chức tài chính có thể sử dụng nó để hợp lý hóa các tác vụ như xử lý hóa đơn, đối chiếu biên lai và thanh toán séc, dẫn đến giao dịch nhanh hơn và dịch vụ khách hàng tốt hơn.

‍

Phân đoạn dựa trên vùng trong các ứng dụng công nghiệp

Phân đoạn dựa trên vùng, bao gồm việc chia một hình ảnh thành các phần có ý nghĩa để phân tích tập trung và kiểm tra chi tiết, có thể thúc đẩy các ứng dụng công nghiệp giúp cải thiện độ chính xác và hiệu quả trong các quy trình khác nhau. Bằng cách tập trung vào các khu vực cụ thể trong một hình ảnh, công nghệ này cho phép kiểm tra và phân tích chi tiết các thành phần và sản phẩm. Đối với kiểm soát chất lượng, nó có thể xác định các khuyết tật hoặc sự không nhất quán trong vật liệu, chẳng hạn như vết nứt hoặc lệch lạc, đảm bảo rằng chỉ những sản phẩm chất lượng hàng đầu mới được đưa ra thị trường.

‍

Nó cũng cải thiện dây chuyền lắp ráp tự động bằng cách dẫn hướng cánh tay robot đến các bộ phận cụ thể và tối ưu hóa việc sắp xếp và lắp ráp các bộ phận. Tương tự, trong quản lý hàng tồn kho , nó giúp track và giám sát tình trạng cũng như vị trí của hàng hóa, giúp hậu cần hiệu quả hơn và giảm thời gian chết. Nhìn chung, phân khúc theo khu vực giúp tăng độ chính xác và năng suất, giúp tiết kiệm chi phí và nâng cao chất lượng sản phẩm trong môi trường công nghiệp.

Những điều cần nhớ

Chúng ta đang bắt đầu thấy một xu hướng là các mô hình AI ngày càng trở nên nhẹ hơn trong khi vẫn duy trì hiệu suất cao. Florence-2 đánh dấu một bước tiến lớn về mô hình ngôn ngữ thị giác. Nó có thể xử lý nhiều tác vụ khác nhau như phát hiện đối tượng, phân đoạn, chú thích hình ảnh và grounding với hiệu suất zero-shot ấn tượng. Mặc dù có kích thước nhỏ hơn, Florence-2 hiệu quả và đa chức năng, điều này làm cho nó cực kỳ hữu ích về mặt ứng dụng trong các ngành công nghiệp khác nhau. Các mô hình như Florence-2 đang mang lại nhiều khả năng hơn, mở rộng tiềm năng cho các đổi mới AI.

Tìm hiểu thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để đọc về các ứng dụng AI trong sản xuất và nông nghiệp. 🚀

Florence-2: Microsoft mô hình ngôn ngữ thị giác mới nhất của

Florence-2 là gì?

Tạo bộ dữ liệu FLD-5B

Tìm hiểu về kiến trúc mô hình Florence-2

So sánh Florence-2 với các VLM khác

Ứng dụng của Florence-2

Ứng dụng của chú thích ảnh

Sử dụng visual grounding trong khi nấu ăn

OCR dựa trên vùng cho tài liệu tài chính

Phân đoạn dựa trên vùng trong các ứng dụng công nghiệp

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

Florence-2: Microsoft mô hình ngôn ngữ thị giác mới nhất của

Florence-2 là gì?

Tạo bộ dữ liệu FLD-5B

Tìm hiểu về kiến trúc mô hình Florence-2

So sánh Florence-2 với các VLM khác

Ứng dụng của Florence-2

Ứng dụng của chú thích ảnh

Sử dụng visual grounding trong khi nấu ăn

OCR dựa trên vùng cho tài liệu tài chính

Phân đoạn dựa trên vùng trong các ứng dụng công nghiệp

Những điều cần nhớ

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!