探索 Meta FAIR 的最新人工智能模型SAM 2.1 和 CoTracker3,为各种实际应用提供先进的细分和跟踪功能。
人工智能(AI)是一个最近充满激情和活力的研究领域,新的创新和突破比以往任何时候都来得更快。过去几周,Meta 的人工智能基础研究(FAIR)团队发布了一系列工具和模型,旨在应对人工智能不同领域的挑战。这些版本包括可能影响医疗保健、机器人和增强现实等不同领域的更新。
例如,更新后的SAM 2.1 模型改进了物体分割功能,使其更容易在图像和视频中准确识别和分离物体。同时,CoTracker3 专注于点跟踪,即使物体移动或被部分遮挡,也能帮助跟踪视频帧中的点。
Meta 还推出了更轻、更快的Llama 语言模型版本,以便在设备上高效使用,同时还推出了用于机器人技术的新型触觉传感技术。在本文中,我们将对 Meta FAIR 最新发布的这些工具进行分析,看看每种工具都提供了哪些功能。让我们开始吧!
物体分割是计算机视觉的一项关键任务,它可以识别和分离图像或视频中的不同物体,从而更容易分析特定的感兴趣区域。自发布以来,Meta 的Segment Anything Model 2 (SAM 2)已被用于医疗成像和气象学等不同领域的物体分割。在社区反馈的基础上,Meta 现在推出了SAM 2.1,这是一个改进版本,旨在解决原始模型遇到的一些难题,并提供更强的整体性能 。
SAM 2.1 中的更新采用了新的数据增强技术,能更好地处理视觉上相似和较小的物体。它还通过在较长的视频序列中进行训练,改进了模型处理遮挡(当物体的某些部分被遮挡时)的方法,使其能够长期 "记忆 "和识别物体,即使这些物体暂时被遮挡。例如,如果有人正在拍摄一个人走到一棵树后面的视频,SAM 2.1 可以在该人再次出现在另一侧时对其进行追踪,并利用其对物体位置和运动的记忆来填补视线短暂中断时的空白。
除这些更新外,Meta 还发布了SAM 2 开发人员套件,提供开源 培训代码和完整的演示基础架构,以便开发人员利用自己的数据 对 SAM 2.1 进行微调,并将其集成到一系列应用程序中。
另一项有趣的计算机视觉任务是点跟踪。它涉及在视频的多个帧中跟踪特定的点或特征。考虑一段骑自行车的人沿着轨道骑行的视频--点跟踪可以让模型跟踪骑自行车的人身上的点,如头盔或车轮,即使这些点被障碍物暂时遮挡住了。
点跟踪对于三维重建、机器人和视频编辑等应用至关重要。传统模型通常依赖于复杂的设置和大型合成数据集,这限制了其在实际应用中的有效性。
Meta 的 CoTracker3追踪模型通过简化模型架构解决了这些局限性。它还引入了一种伪标签技术,让模型从真实、无标注的视频中学习,使 CoTracker3 在实际使用中更高效、更可扩展。
CoTracker3 的突出特点之一是能很好地处理遮挡。CoTracker3 使用跨跟踪关注(一种允许模型在多个跟踪点之间共享信息的技术),可以通过参考可见点来推断隐藏点的位置。通过这种方法,CoTracker3 可以在动态环境中非常有效地工作,例如在拥挤的场景中跟踪一个人。
CoTracker3 还提供在线和离线两种模式。在线模式提供实时跟踪。而离线模式可用于对整个视频序列进行更全面的跟踪,是视频编辑或动画等任务的理想选择。
SAM 2.1 和 CoTracker3 展示了 Meta 在计算机视觉领域的最新进展,同时在人工智能的其他领域,如自然语言处理(NLP) 和机器人技术方面也有令人振奋的更新。让我们来看看 Meta FAIR 的其他一些最新进展。
Meta 的 Spirit LM 是一种新的多模态语言模型,它结合了文本和语音 功能,使与人工智能的交互感觉更加自然。与只处理文本或只处理语音的传统模型不同,Spirit LM 可以在两者之间无缝切换。
精神语言识别(Spirit LM)能以更像人类的方式理解和生成语言。例如,它可以增强虚拟助手的功能,使其既能听又能用口语或书面语言做出回应,或支持在语音和文本之间进行转换的无障碍工具。
此外,Meta 还开发了一些技术来提高大型语言模型的效率。其中一项技术名为 "层跳过"(Layer Skip),它只激活特定任务所需的层,从而帮助减少计算需求和能源成本。这对于内存和电量有限的设备上的应用尤其有用。
为了进一步满足在此类设备上部署人工智能应用的需求,Meta 还推出了量化版本的Llama 模型。这些模型经过压缩,可在移动设备上更快地运行,同时不影响准确性。
随着人工智能模型的规模和复杂性不断增加,优化其训练过程变得至关重要。在优化方面,Meta 推出了灵活高效的代码库 Meta Lingua,使大型语言模型的训练变得更加容易。Meta Lingua 的模块化设计可让研究人员快速定制和扩展他们的实验。
研究人员可以将更少的时间用于技术设置,将更多的时间用于实际研究。代码库也很轻便,易于集成,因此既适用于小型实验,也适用于大型项目。通过消除这些技术障碍,Meta Lingua 可以帮助研究人员更快地取得进展,更轻松地测试新想法。
随着量子计算技术的发展,它给数据安全带来了新的挑战。与现在的计算机不同,量子计算机很可能能够以更快的速度解决复杂的计算。这意味着它们有可能破解目前用于保护敏感信息的加密方法。这就是为什么这一领域的研究变得越来越重要--在我们为量子计算的未来做好准备时,开发保护数据的新方法至关重要。
为了解决这个问题,Meta 开发了旨在加强后量子加密安全的工具 Salsa。Salsa 可帮助研究人员测试人工智能驱动的攻击,找出潜在的弱点,从而更好地了解和解决密码系统中的漏洞。通过模拟先进的攻击场景,Salsa 提供了宝贵的见解,可以指导开发更强大、更有弹性的量子时代安全措施。
Meta 公司在机器人技术领域的最新工作重点是通过增强触觉感知、灵巧性以及与人类的协作,帮助人工智能与物理世界进行更自然的互动。其中,Meta Digit 360 是一种先进的触觉传感器,能让机器人拥有精细的触觉。传感器帮助机器人检测纹理、压力甚至物体形状等细节。通过这些洞察力,机器人可以更精确地处理物体;这在医疗保健和制造业等领域至关重要。
下面是 Meta Digit 360 的一些主要功能:
Meta Digit 360 的延伸产品是 Meta Digit Plexus,这是一个将各种触摸传感器集成到单个机械手上的平台。这种设置可以让机器人同时处理来自多个点的触摸信息,类似于人类双手收集感官数据的方式。
Meta 的最新人工智能更新,从SAM 2.1 和 CoTracker3 在计算机视觉领域的进步,到语言模型和机器人技术的新发展,都显示了人工智能如何稳步地从理论走向实用、有影响力的解决方案。
这些工具旨在使人工智能在不同领域中更具适应性和实用性,从分割复杂图像到理解人类语言,甚至在物理空间中与我们并肩工作。
通过优先考虑可访问性和实际应用,Meta FAIR 让我们更接近人工智能能够应对现实世界挑战并以有意义的方式改善我们日常生活的未来。
您对人工智能感到好奇吗?加入我们的社区,了解最新更新和见解,并查看我们的GitHub 存储库。您还可以探索计算机视觉如何应用于自动驾驶汽车和农业等行业!