绿色检查
链接复制到剪贴板

GooglePaliGemma 2:深入了解先进的 VLM 模型

请与我们一起深入了解Google的新视觉语言模型:PaliGemma 2。这些模型有助于理解和分析图像和文本。

2024 年 12 月 5 日,Google 推出了 PaliGemma 2,这是其最先进的视觉语言模型(VLM)的最新版本。PaliGemma 2 专用于处理图像与文本相结合的任务,如生成标题、回答视觉问题和检测视觉中的物体。 

PaliGemma 2 是在 PaliGemma 原版的基础上进行改进的,而 PaliGemma 原版已经是多语言字幕和物体识别的强大工具。其中包括更大的模型尺寸、对更高分辨率图像的支持以及在复杂视觉任务中更好的性能。这些升级使 PaliGemma 更加灵活有效,适用范围更加广泛。

在本文中,我们将详细介绍 PaliGemma 2,包括它的工作原理、主要功能以及它的应用领域。让我们开始吧!

从 Gemma 2 到 PaliGemma 2

PaliGemma 2 基于两项关键技术:SigLIP 视觉编码器和 Gemma 2 语言模型。SigLIP 编码器可处理图像或视频等视觉数据,并将其分解为模型可分析的特征。同时,Gemma 2 处理文本,使模型能够理解和生成多语言语言。它们共同组成了一个 VLM,旨在解释和无缝连接视觉和文本信息。

PaliGemma 2 的一大进步在于其可扩展性和多功能性。与最初的版本不同,PaliGemma 2 有三种规模--30 亿(3B)、100 亿(10B)和 280 亿(28B)个参数。这些参数就像模型的内部设置,帮助它有效地学习和处理数据。它还支持不同的图像分辨率(例如,用于快速任务的 224 x 224 像素和用于详细分析的 896 x 896 像素),使其适用于各种应用。

__wf_保留继承
图 1.PaliGemma 概述 2.

将 Gemma 2 的高级语言功能与 SigLIP 的图像处理功能相结合,使 PaliGemma 2 变得更加智能。它可以处理以下任务

  • 为图像或视频添加字幕:
  • 视觉问题解答: PaliGemma 2 可根据图像回答问题,如识别场景中的物体、人物或动作。
  • 对象识别: 它能识别和标注图像中的物体,例如区分照片中的猫、桌子或汽车。

PaliGemma 2 不仅能单独处理图像和文本,还能以有意义的方式将它们结合在一起。例如,它可以理解场景中的关系,如识别 "猫坐在桌子上",或识别物体的同时添加上下文,如识别著名地标。 

GooglePaliGemma 2 VLM 模型的工作原理

接下来,我们将以下图所示图表为例,更好地了解 PaliGemma 2 如何处理视觉和文本数据。假设您上传了这幅图,并向模型提问:"这幅图代表什么?

__wf_保留继承
图 2.PaliGemma 2 的能力示例。

这一过程首先由 PaliGemma 2 的 SigLIP 视觉编码器分析图像并提取关键特征。对于图形而言,这包括识别轴、数据点和标签等元素。编码器经过训练,既能捕捉广泛的模式,也能捕捉精细的细节。它还使用光学字符识别 (OCR)来检测和处理图像中嵌入的任何文本。这些视觉特征被转换成标记,即模型可以处理的数字表示。然后使用线性投影层对这些标记进行调整,这种技术可确保标记与文本数据无缝结合。

与此同时,Gemma 2 语言模型会处理随附的查询,以确定其含义和意图。查询中的文本被转换成标记,这些标记与 SigLIP 中的视觉标记结合在一起,形成多模态表示,这是一种连接视觉和文本数据的统一格式。 

PaliGemma 2 利用这种综合表示法,通过自回归解码逐步生成答案,在这种方法中,模型根据已经处理过的上下文每次预测答案的一部分。 

PaliGemma 2 的主要功能

既然我们已经了解了它的工作原理,下面就让我们来探讨一下 PaliGemma 2 成为可靠的视觉语言模型的主要特点:

比较 PaliGemma 2 和 PaliGemma:有哪些改进?

看看第一版 PaliGemma 的架构,就能很好地了解 PaliGemma 2 的改进之处。其中最显著的变化之一就是用 Gemma 2 取代了原来的 Gemma 语言模型,从而大大提高了性能和效率。 

Gemma 2 有 9B 和 27B 两种参数规格,其设计目的是在降低部署成本的同时,提供一流的精度和速度。它通过重新设计的架构实现了这一目标,该架构针对各种硬件设置(从功能强大的 GPU到更易于使用的配置)的推理效率进行了优化。

__wf_保留继承
图 3.回顾 PaliGemma 2 的第一版。

因此,PaliGemma 2 是一个高度准确的模型。与原始模型的 34.3 分相比,10B 版本的 PaliGemma 2 非错误句子(NES)得分更低,仅为 20.3 分,这意味着其输出中的事实错误更少。这些进步使 PaliGemma 2 的可扩展性更强、更精确,并能适应从详细字幕到视觉问题解答等更广泛的应用。

PaliGemma 2 的应用:VLM 模型在现实世界中的应用

PaliGemma 2 将视觉理解与语言理解完美结合,有望重新定义各行各业。例如,在无障碍环境方面,它可以生成对物体、场景和空间关系的详细描述,为视障人士提供重要帮助。这一功能可以帮助用户更好地理解周围环境,在完成日常任务时提供更大的独立性。 

__wf_保留继承
图 4.PaliGemma 2 可以让世界变得更无障碍。

除无障碍环境外,PaliGemma 2 还对各行各业产生了影响,其中包括:

亲自体验PaliGemma 2

要试用 PaliGemma 2,可以从Hugging Face的交互式演示开始。您可以通过该演示探索 PaliGemma 在图像字幕和视觉问题解答等任务中的功能。只需上传一张图片,然后向模型提出相关问题或要求提供场景描述即可。

__wf_保留继承
图 5.PaliGemma 2 演示。

如果您想深入了解,这里有您可以亲身体验的方法:

  • 预训练模型:您可以从Hugging Face 和 Kaggle 等平台获取预训练模型和代码。这些资源提供了开始使用模型所需的一切。
  • 笔记本:PaliGemma 2 提供全面的文档和示例笔记本,帮助您熟悉 PaliGemma 2。您可以从推理示例开始,并尝试在自己的数据集上针对特定任务对模型进行微调。
  • 集成:PaliGemma 2 与Hugging Face Transformers、Keras、PyTorch 、JAX 和 Gemma.cpp 等广泛使用的框架兼容,让您可以毫不费力地将其集成到现有工作流程中。

GooglePaliGemma 2 的优缺点

在了解了如何开始使用 PaliGemma 2 之后,让我们来仔细看看它的主要优势和缺点,以便在使用这些模型时牢记在心。 

以下是 PaliGemma 2 作为视觉语言模型的独特之处:

  • 提高效率: 利用 Gemma 2 的优化架构,PaliGemma 2 在提供高性能的同时,将部署成本降至最低。
  • 增强的安全功能:PaliGemma 2 在训练过程中对安全性进行了重大改进,例如对预训练数据进行了稳健过滤以减少偏差,并根据安全基准进行了严格评估。
  • 低延迟,适用于较小的配置:3B 模型的推理时间更短,因此适用于对速度要求较高的使用案例,如电子商务产品推荐或实时支持系统。

同时,PaliGemma 2 可能会在某些方面受到限制:

  • 延迟
  • 依赖大型数据集: PaliGemma 2 的性能与其训练数据集的质量和多样性密切相关,这可能会限制其在代表性不足的领域或未包含在训练数据中的语言中的有效性。
  • 资源要求高:尽管进行了优化,但 10B 和 28B 参数版本仍需要大量计算能力,这使得资源有限的小型机构不太容易使用。

主要收获

PaliGemma 2 是视觉语言建模领域的一项了不起的进步,它提供了更好的可扩展性、微调灵活性和准确性。从无障碍解决方案和电子商务到医疗诊断和教育,它都可以作为一种有价值的应用工具。 

虽然它也有局限性,如计算要求和对高质量数据的依赖,但它的优势使其成为处理整合视觉和文本数据的复杂任务的实用选择。PaliGemma 2 可以为研究人员和开发人员探索和拓展人工智能在多模态应用中的潜力奠定坚实的基础。

查看我们的GitHub 存储库社区,参与人工智能对话。了解人工智能如何在农业医疗保健领域取得长足进步!🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅