Florence-2: Mô hình ngôn ngữ tầm nhìn mới nhất của Microsoft

Abirami Vina

6 phút đọc

Ngày 26 tháng 7 năm 2024

Hãy cùng tìm hiểu Florence-2, mô hình ngôn ngữ trực quan của Microsoft cung cấp khả năng phát hiện đối tượng, phân đoạn và hiệu suất zero-shot được cải thiện với hiệu quả tuyệt vời.

Vào tháng 6 năm 2024, Microsoft đã giới thiệu Florence-2 , một mô hình ngôn ngữ thị giác đa phương thức (VLM) được thiết kế để xử lý nhiều tác vụ khác nhau bao gồm phát hiện đối tượng , phân đoạn , chú thích hình ảnh và nối đất. Florence-2 thiết lập chuẩn mực mới cho hiệu suất zero-shot, nghĩa là nó có thể thực hiện các tác vụ mà không cần đào tạo cụ thể trước đó và tăng kích thước mô hình nhỏ hơn so với các mô hình ngôn ngữ thị giác tiên tiến khác.

Không chỉ là một mô hình khác, tính linh hoạt và hiệu suất được cải thiện của Florence-2 có khả năng tác động đáng kể đến nhiều ngành công nghiệp khác nhau bằng cách cải thiện độ chính xác và giảm nhu cầu đào tạo mở rộng. Trong bài viết này, chúng tôi sẽ khám phá các tính năng cải tiến của Florence-2, so sánh hiệu suất của nó với các VLM khác và thảo luận về các ứng dụng tiềm năng của nó.

Florence-2 là gì?

Florence-2 có thể xử lý nhiều tác vụ khác nhau trong một khuôn khổ thống nhất duy nhất. Khả năng ấn tượng của mô hình một phần là nhờ vào bộ dữ liệu đào tạo khổng lồ có tên gọi là FLD-5B. FLD-5B bao gồm 5,4 tỷ chú thích trên 126 triệu hình ảnh. Bộ dữ liệu toàn diện này được tạo ra đặc biệt để cung cấp cho Florence-2 các khả năng cần thiết để xử lý nhiều tác vụ thị giác với độ chính xác và hiệu quả cao. 

Sau đây là cái nhìn sâu hơn về các nhiệm vụ mà Florence-2 hỗ trợ:

  • Phát hiện đối tượng : Có thể xác định và định vị các đối tượng trong hình ảnh với độ chính xác cao.
  • Phân đoạn : Nhiệm vụ này liên quan đến việc chia hình ảnh thành các phân đoạn có ý nghĩa để phân tích và diễn giải dễ dàng hơn.
  • Chú thích hình ảnh : Florence-2 có khả năng tạo chú thích mô tả cho hình ảnh, cung cấp bối cảnh và thông tin chi tiết.
  • Nền tảng trực quan : Mô hình có thể liên kết các cụm từ hoặc từ cụ thể trong chú thích với các vùng tương ứng trong hình ảnh.
  • Hiệu suất Zero-shot : Có thể thực hiện nhiệm vụ mà không cần đào tạo cụ thể.
__wf_reserved_thừa kế
Hình 1. Hiểu cách Florence-2 được đào tạo.

Mô hình hỗ trợ cả tác vụ dựa trên văn bản và dựa trên vùng. Các mã thông báo vị trí đặc biệt được thêm vào vốn từ vựng của mô hình cho các tác vụ liên quan đến các vùng cụ thể của hình ảnh. Các mã thông báo này giúp mô hình hiểu các hình dạng khác nhau, chẳng hạn như hình chữ nhật xung quanh các vật thể (biểu diễn hộp), hình dạng bốn cạnh (biểu diễn hộp bốn cạnh) và hình dạng nhiều cạnh (biểu diễn đa giác). Mô hình được đào tạo bằng phương pháp gọi là mất entropy chéo, giúp mô hình học bằng cách so sánh các dự đoán của mình với các câu trả lời đúng và điều chỉnh các tham số bên trong của nó cho phù hợp.

Tạo tập dữ liệu FLD-5B

Bộ dữ liệu FLD-5B bao gồm nhiều loại chú thích khác nhau: mô tả văn bản, cặp vùng và văn bản, và sự kết hợp của văn bản, cụm từ và vùng. Nó được tạo ra thông qua quy trình hai bước bao gồm thu thập dữ liệu và chú thích . Hình ảnh được lấy từ các bộ dữ liệu phổ biến như ImageNet-22k, Object 365, Open Images, Conceptual Captions và LAION. Các chú thích trong bộ dữ liệu FLD-5B chủ yếu là tổng hợp, nghĩa là chúng được tạo tự động thay vì được gắn nhãn thủ công. 

__wf_reserved_thừa kế
Hình 2. Tạo Bộ dữ liệu FLD-5B.

Ban đầu, các mô hình chuyên gia có kỹ năng thực hiện các tác vụ cụ thể, như phát hiện hoặc phân đoạn đối tượng, đã tạo ra các chú thích này. Sau đó, một quy trình lọc và tăng cường được sử dụng để đảm bảo rằng các chú thích được chi tiết và chính xác. Sau khi loại bỏ bất kỳ nhiễu nào, tập dữ liệu đã trải qua quá trình tinh chỉnh lặp đi lặp lại, trong đó các đầu ra của Florence-2 được sử dụng để liên tục cập nhật và cải thiện các chú thích. 

Hiểu về kiến trúc mô hình của Florence-2

Kiến trúc mô hình của Florence-2 tuân theo phương pháp học tuần tự-trình tự. Điều này có nghĩa là mô hình xử lý một trình tự đầu vào (như hình ảnh có lời nhắc văn bản) và tạo ra một trình tự đầu ra (như mô tả hoặc nhãn) theo từng bước. Trong khuôn khổ tuần tự-trình tự, mỗi tác vụ được coi là một vấn đề dịch thuật: mô hình lấy một hình ảnh đầu vào và lời nhắc cụ thể cho tác vụ và tạo ra đầu ra tương ứng.

__wf_reserved_thừa kế
Hình 3. Kiến trúc mô hình ngôn ngữ thị giác của Florence-2.

Cốt lõi của kiến trúc mô hình là bộ chuyển đổi mã hóa-giải mã đa phương thức, kết hợp một bộ mã hóa hình ảnh và một bộ mã hóa-giải mã đa phương thức. Bộ mã hóa hình ảnh, được gọi là DaViT (Data-efficient Vision Transformer), xử lý hình ảnh đầu vào bằng cách chuyển đổi chúng thành nhúng mã thông báo trực quan - biểu diễn nhỏ gọn của hình ảnh nắm bắt cả thông tin không gian (vị trí của mọi thứ) và ngữ nghĩa (những thứ đó là gì). Các mã thông báo trực quan này sau đó được kết hợp với nhúng văn bản (biểu diễn của văn bản), cho phép mô hình hợp nhất liền mạch dữ liệu văn bản và dữ liệu trực quan.

So sánh Florence-2 với các VLM khác

Florence-2 nổi bật so với các mô hình ngôn ngữ trực quan khác nhờ khả năng zero-shot ấn tượng của nó. Không giống như các mô hình như PaliGemma, dựa vào khả năng tinh chỉnh sâu rộng để thích ứng với nhiều tác vụ khác nhau, Florence-2 hoạt động tốt ngay khi xuất xưởng. Ngoài ra, Florence-2 có thể cạnh tranh với các mô hình lớn hơn như GPT-4V và Flamingo, thường có nhiều tham số hơn nhưng không phải lúc nào cũng sánh được với hiệu suất của Florence-2. Ví dụ, Florence-2 đạt được kết quả zero-shot tốt hơn Kosmos-2, mặc dù Kosmos-2 có số lượng tham số gấp đôi.

Trong các bài kiểm tra chuẩn, Florence-2 đã cho thấy hiệu suất đáng chú ý trong các tác vụ như chú thích COCO và hiểu biểu thức tham chiếu. Nó vượt trội hơn các mô hình như PolyFormer và UNINEXT trong các tác vụ phát hiện và phân đoạn đối tượng trên tập dữ liệu COCO . Đây là lựa chọn có tính cạnh tranh cao cho các ứng dụng thực tế, nơi cả hiệu suất và hiệu quả tài nguyên đều quan trọng.

Ứng dụng của Florence-2

Florence-2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau, chẳng hạn như giải trí , khả năng tiếp cận , giáo dục , v.v. Hãy cùng xem qua một vài ví dụ để hiểu rõ hơn.

Ứng dụng của chú thích hình ảnh

Khi bạn đang ở trên một nền tảng phát trực tuyến và cố gắng quyết định xem gì, bạn có thể đọc tóm tắt của một bộ phim để giúp bạn lựa chọn. Sẽ thế nào nếu nền tảng cũng có thể cung cấp mô tả chi tiết về áp phích phim? Florence-2 có thể thực hiện điều đó thông qua chú thích hình ảnh, tạo ra văn bản mô tả cho hình ảnh. Florence-2 có thể tạo ra các mô tả chi tiết về áp phích phim, giúp nền tảng phát trực tuyến trở nên toàn diện hơn đối với người dùng khiếm thị. Bằng cách phân tích các yếu tố trực quan của áp phích, chẳng hạn như nhân vật, bối cảnh và văn bản, Florence-2 có thể tạo ra các mô tả chi tiết truyền tải nội dung và tâm trạng của áp phích. Hình ảnh bên dưới cho thấy mức độ chi tiết mà Florence-2 có thể cung cấp trong mô tả của nó.

__wf_reserved_thừa kế
Hình 4. Ví dụ về chú thích hình ảnh được tạo bởi Florence-2. 

Sau đây là một số ví dụ khác về việc chú thích hình ảnh có thể hữu ích như thế nào:

  • Thương mại điện tử : Chú thích hình ảnh có thể cung cấp mô tả chi tiết về hình ảnh sản phẩm , giúp khách hàng hiểu rõ hơn về các tính năng và thông tin chi tiết của sản phẩm.
  • Du lịch : Có thể cung cấp mô tả chi tiết về các địa danh và điểm tham quan trong các hướng dẫn và ứng dụng du lịch.
  • Giáo dục : Chú thích hình ảnh có thể ghi nhãn và mô tả hình ảnh và sơ đồ giáo dục, hỗ trợ việc giảng dạy và học tập.
  • Bất động sản : Có thể cung cấp mô tả chi tiết về hình ảnh bất động sản, làm nổi bật các tính năng và tiện ích cho người mua tiềm năng.

Sử dụng phương pháp tiếp địa trực quan khi nấu ăn

Florence-2 cũng có thể được sử dụng để làm phong phú thêm trải nghiệm ẩm thực. Ví dụ, một cuốn sách dạy nấu ăn trực tuyến có thể sử dụng Florence-2 để làm nền tảng trực quan và dán nhãn các phần của hình ảnh công thức phức tạp. Nền tảng trực quan giúp ích ở đây bằng cách liên kết các phần cụ thể của hình ảnh với văn bản mô tả tương ứng. Mỗi thành phần và bước có thể được dán nhãn và giải thích chính xác, giúp người nấu ăn tại nhà dễ dàng làm theo công thức và hiểu vai trò của từng thành phần trong món ăn.

__wf_reserved_thừa kế
Hình 5. Một ví dụ về nối đất trực quan sử dụng Florence-2. 

OCR theo vùng cho các tài liệu tài chính

OCR với xử lý theo vùng, tập trung vào việc trích xuất văn bản từ các khu vực cụ thể trong một tài liệu, có thể hữu ích khi nói đến các lĩnh vực như kế toán. Các khu vực được chỉ định của tài liệu tài chính có thể được phân tích để tự động trích xuất thông tin quan trọng như chi tiết giao dịch, số tài khoản và ngày đến hạn. Bằng cách giảm nhu cầu nhập dữ liệu thủ công, nó giảm thiểu lỗi và tăng tốc thời gian xử lý. Các tổ chức tài chính có thể sử dụng nó để hợp lý hóa các tác vụ như xử lý hóa đơn, đối chiếu biên lai và thanh toán séc, dẫn đến giao dịch nhanh hơn và dịch vụ khách hàng tốt hơn. 

__wf_reserved_thừa kế
Hình 6. Một ví dụ về trích xuất OCR theo vùng bằng Florence-2. 

Phân khúc theo vùng trong các ứng dụng công nghiệp

Phân đoạn theo vùng, bao gồm việc chia hình ảnh thành các phần có ý nghĩa để phân tích tập trung và kiểm tra chi tiết, có thể thúc đẩy các ứng dụng công nghiệp cải thiện độ chính xác và hiệu quả trong nhiều quy trình khác nhau. Bằng cách tập trung vào các khu vực cụ thể trong hình ảnh, công nghệ này cho phép kiểm tra và phân tích chi tiết các thành phần và sản phẩm. Về mặt kiểm soát chất lượng, công nghệ này có thể xác định các khuyết tật hoặc sự không nhất quán trong vật liệu, chẳng hạn như vết nứt hoặc sai lệch, đảm bảo rằng chỉ những sản phẩm chất lượng hàng đầu mới đến được thị trường.

__wf_reserved_thừa kế
Hình 7. Một ví dụ về phân đoạn dựa trên vùng sử dụng Florence-2.

Nó cũng cải thiện các dây chuyền lắp ráp tự động bằng cách hướng dẫn cánh tay rô-bốt đến các bộ phận cụ thể và tối ưu hóa vị trí và lắp ráp các thành phần. Tương tự như vậy, trong quản lý hàng tồn kho , nó giúp theo dõi và giám sát tình trạng và vị trí của hàng hóa, dẫn đến hậu cần hiệu quả hơn và giảm thời gian chết. Nhìn chung, phân khúc theo khu vực thúc đẩy độ chính xác và năng suất, dẫn đến tiết kiệm chi phí và chất lượng sản phẩm cao hơn trong các thiết lập công nghiệp.

Những điểm chính

Chúng ta đang bắt đầu thấy một xu hướng mà các mô hình AI đang trở nên nhẹ hơn trong khi vẫn duy trì hiệu suất cao. Florence-2 đánh dấu một bước tiến lớn về mặt mô hình ngôn ngữ trực quan. Nó có thể xử lý nhiều tác vụ khác nhau như phát hiện đối tượng, phân đoạn, chú thích hình ảnh và nối đất với hiệu suất zero-shot ấn tượng. Mặc dù có kích thước nhỏ hơn, Florence-2 hiệu quả và đa chức năng, khiến nó cực kỳ hữu ích về mặt ứng dụng trong nhiều ngành công nghiệp khác nhau. Các mô hình như Florence-2 đang mang lại nhiều khả năng hơn, mở rộng tiềm năng cho các cải tiến AI.

Khám phá thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi . Hãy xem các trang giải pháp của chúng tôi để đọc về các ứng dụng AI trong sản xuấtnông nghiệp . 🚀

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard