绿色检查
链接复制到剪贴板

佛罗伦萨-2:Microsoft 最新的视觉语言模型

认识一下 Florence-2,Microsoft 的视觉语言模型,它能以极高的效率提供更好的物体检测、分割和零镜头性能。

2024 年 6 月,Microsoft 推出了多模式视觉语言模型(VLM)Florence-2,该模型旨在处理对象检测分割、图像字幕和接地等各种任务。Florence-2为 "零镜头 "性能树立了新的标杆,这意味着它无需事先进行特定训练即可执行任务,而且与其他最先进的视觉语言模型相比,Florence-2的模型体积更小。

Florence-2 不仅仅是另一种型号,其多功能性和改进的性能有可能通过提高精度和减少对大量培训的需求,对各行各业产生重大影响。在本文中,我们将探讨 Florence-2 的创新功能,将其性能与其他 VLM 进行比较,并讨论其潜在应用。

什么是佛罗伦萨 2 号?

Florence-2 可以在一个统一的框架内处理各种任务。该模型令人印象深刻的能力部分归功于其名为 FLD-5B 的海量训练数据集。FLD-5B 包含 1.26 亿张图片中的 54 亿个注释。这个全面的数据集是专门为 Florence-2 设计的,使其具备高精度、高效率处理各种视觉任务所需的能力。 

下面我们来看看 Florence-2 支持哪些任务:

  • 物体检测:它可以高精度地识别和定位图像中的物体。
  • 细分:这项任务包括将图像分割成有意义的片段,以便于分析和解读。
  • 图像标题:Florence-2 能够为图像生成描述性标题,提供上下文和细节。
  • 视觉基础:该模型可将标题中的特定短语或单词与图像中的相应区域联系起来。
  • 零镜头性能:无需专门培训即可执行任务。
图 1.了解 Florence-2 是如何训练的。

该模型既支持基于文本的任务,也支持基于区域的任务。对于涉及图像特定区域的任务,模型的词汇表中会添加特殊的位置标记。这些标记有助于模型理解不同的形状,如物体周围的矩形(方框表示法)、四边形状(四方框表示法)和多边形(多边形表示法)。 该模型采用一种称为交叉熵损失的方法进行训练,通过比较其预测结果和正确答案,并相应调整其内部参数来帮助其学习。

创建 FLD-5B 数据集

FLD-5B 数据集包括不同类型的注释:文本描述、区域和文本对,以及文本、短语和区域的组合。该数据集通过数据收集和注释两个步骤创建而成。图片来源于流行的数据集,如 ImageNet-22k、Object 365、Open Images、Conceptual Captions 和 LAION。FLD-5B 数据集中的注释大多是合成的,这意味着它们是自动生成的,而不是人工标注的。 

图 2.创建 FLD-5B 数据集。

最初,由擅长特定任务(如物体检测或分割)的专业模型创建这些注释。然后,使用过滤和增强程序来确保注释的详细和准确。在去除任何噪音后,数据集经过迭代改进,Florence-2 的输出结果被用于不断更新和改进注释。 

了解 Florence-2 的模型架构

Florence-2 的模型架构采用序列到序列的学习方法。这意味着,该模型以循序渐进的方式处理输入序列(如带有文本提示的图像)并生成输出序列(如描述或标签)。在序列到序列框架中,每个任务都被视为一个翻译问题:模型接收输入图像和特定任务提示,并生成相应的输出。

图 3.Florence-2 的视觉语言模型架构。

该模型架构的核心是多模态编码器-解码器转换器,它结合了图像编码器和多模态编码器-解码器。图像编码器称为 DaViT(数据高效视觉转换器),它通过将输入图像转换为视觉标记嵌入(图像的紧凑表示形式,可捕捉空间(事物在哪里)和语义(事物是什么)信息)来处理图像。然后将这些视觉标记与文本嵌入(文本的表示)相结合,使模型能够无缝合并文本和视觉数据。

佛罗伦萨 2 号与其他 VLM 的比较

Florence-2 凭借其令人印象深刻的 "零拍摄 "能力,从其他视觉语言模型中脱颖而出。与 PaliGemma 等依赖大量微调来适应各种任务的模型不同,Florence-2 开箱即用。此外,Florence-2 还能与 GPT-4V 和 Flamingo 等大型机型竞争,这些机型的参数往往更多,但性能却不一定能与 Florence-2 相媲美。例如,尽管 Kosmos-2 的参数数量是 Flamingo 的两倍多,但 Florence-2 的零拍结果比 Kosmos-2 更好。

在基准测试中,Florence-2 在 COCO 字幕和指代表达理解等任务中表现出色。在COCO 数据集的物体检测和分割任务中,它的表现优于 PolyFormer 和 UNINEXT 等模型。对于性能和资源效率都至关重要的实际应用来说,它是一个极具竞争力的选择。

佛罗伦萨-2 的应用

Florence-2 可用于许多不同的行业,如娱乐无障碍环境教育等。让我们通过几个例子来加深了解。

图像字幕的应用

当您在流媒体平台上试图决定观看什么电影时,您可能会阅读一部电影的摘要来帮助您做出选择。如果该平台还能提供电影海报的详细说明呢?Florence-2 可以通过为图像生成描述性文字的图像字幕来实现这一功能。Florence-2 可以生成电影海报的详细说明,使流媒体平台对视障用户更具包容性。通过分析海报的视觉元素,如人物、场景和文字,Florence-2 可以生成详细的描述,传达海报的内容和情绪。下图显示了 Florence-2 能够提供的详细描述程度。

图 4.Florence-2 生成的图像标题示例。 

下面是一些其他例子,说明图像标题在哪些方面可以起到帮助作用:

  • 电子商务:图片说明可以对产品图片进行详细描述,帮助客户更清晰地了解产品功能和细节。
  • 旅行和旅游:它可以在旅游指南和应用程序中详细描述地标和景点
  • 教育:图像字幕可以对教育图像和图表进行标注和描述,有助于教学。
  • 房地产:它可以为潜在买家提供详细的房产图片说明,突出房产的特点和设施。

烹饪时使用视觉接地

佛罗伦萨-2还可用于丰富烹饪体验。例如,一本在线烹饪书可以使用 Florence-2 对复杂的菜谱图像进行可视化定位和标注。通过将图像的特定部分与相应的描述性文字联系起来,视觉基础在这里大有帮助。每种成分和步骤都可以得到准确的标注和解释,从而使家庭厨师更容易按照菜谱操作,并理解每种成分在菜肴中的作用。

图 5.使用 Florence-2 进行视觉接地的示例。 

基于地区的财务文件 OCR

基于区域处理的 OCR 专注于从文档中的特定区域提取文本,在涉及会计等领域时可以派上用场。通过分析财务文档的指定区域,可以自动提取重要信息,如交易详情、账号和到期日期。通过减少手工输入数据的需要,它可以最大限度地减少错误并加快处理速度。金融机构可以利用它来简化发票处理、收据核对和支票结算等任务,从而加快交易速度并提供更好的客户服务。 

图 6.使用 Florence-2 提取带区域 OCR 的示例。 

工业应用中的区域细分

基于区域的分割是指将图像分割成有意义的部分,以便进行重点分析和详细检测,它可以促进工业应用,提高各种流程的精度和效率。通过聚焦图像中的特定区域,这项技术可以对部件和产品进行详细检测和分析。在质量控制方面,它可以识别材料中的缺陷或不一致之处,如裂缝或错位,确保只有顶级质量的产品才能进入市场。

图 7.使用 Florence-2 根据区域进行分割的示例。

它还能引导机械臂到达特定部件,优化部件的放置和装配,从而改进自动化装配线。同样,在库存管理中,它有助于跟踪和监控货物的状态和位置,从而提高物流效率,减少停机时间。总之,基于区域的细分可提高准确性和生产率,从而在工业环境中节约成本并提高产品质量。

主要收获

我们开始看到一种趋势,即人工智能模型在保持高性能的同时变得越来越轻。Florence-2 标志着视觉语言模型向前迈出了一大步。它可以处理物体检测、分割、图像字幕和接地等各种任务,零镜头性能令人印象深刻。尽管 Florence-2 的体积较小,但其高效和多功能的特性使其在不同行业的应用中都非常有用。Florence-2 这样的机型为人工智能创新带来了更多可能性,拓展了人工智能创新的潜力。

访问我们的GitHub 存储库并加入我们的社区,探索更多有关人工智能的信息。查看我们的解决方案页面,了解人工智能在制造业农业中的应用。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅