探索计算机视觉中的少量学习、零点学习和迁移学习之间的区别,以及这些范例如何塑造人工智能模型训练。
人工智能(AI)系统可以处理复杂的任务,如识别人脸、图像分类和驾驶汽车,而只需极少的人工输入。它们通过研究数据、识别模式并利用这些模式进行预测或决策来完成这些任务。随着人工智能的发展,我们看到人工智能模型的学习、适应和执行任务的效率越来越高。
例如,计算机视觉是人工智能的一个分支,其重点是让机器能够解释和理解来自世界的视觉信息。传统的计算机视觉模型开发在很大程度上依赖于用于训练的大型标注数据集。收集和标注这些数据既费时又费钱。
为了应对这些挑战,研究人员推出了一些创新方法,比如从有限的示例中学习的 "少量学习"(FSL)、识别未见物体的 "零点学习"(ZSL),以及将预训练模型中的知识应用于新任务的 "迁移学习"(TL)。
在本文中,我们将探讨这些学习范式的工作原理,强调它们的主要区别,并介绍它们在现实世界中的应用。让我们开始吧!
让我们来探讨一下什么是计算机视觉方面的 "少镜头学习"、"零镜头学习 "和 "迁移学习",以及它们是如何工作的。
少量实例学习法是一种系统只使用少量实例来学习识别新物体的方法。例如,如果你向一个模型展示几张企鹅、鹈鹕和海雀的图片(这一小组图片被称为 "支持集"),它就能学会这些鸟的样子。
之后,如果你向模型展示一张新图片,比如企鹅,它就会将新图片与支持集中的图片进行比较,并挑选出最匹配的图片。在难以收集大量数据的情况下,这种方法是有益的,因为系统只需几个例子就能学习和适应。
零点学习是一种让机器识别它们从未见过的事物的方法,而不需要它们的实例。它使用语义信息(如描述)来帮助建立联系。
例如,如果一台机器通过了解 "小而蓬松"、"大野猫 "或 "长脸 "等特征来认识猫、狮子和马等动物,那么它就可以利用这些知识来识别老虎等新动物。即使它以前从未见过老虎,也能通过 "像狮子一样有深色条纹的动物 "这样的描述来正确识别老虎。这使得机器更容易学习和适应,而不需要大量的例子。
迁移学习是一种学习范式,模型利用从一项任务中学到的知识来帮助解决类似的新任务。这种技术在计算机视觉任务(如物体检测、图像分类和模式识别)中尤其有用。
例如,在计算机视觉领域,预先训练好的模型可以识别一般物体,如动物,然后通过迁移学习进行微调,以识别特定物体,如不同品种的狗。通过重复使用以前任务中的知识,迁移学习可以更容易地在较小的数据集上训练计算机视觉模型,从而节省时间和精力。
您可能想知道什么样的模型支持迁移学习。 Ultralytics YOLO11就是一个很好的计算机视觉模型例子。它是一种先进的物体检测模型,首先在一个大型通用数据集上进行预训练。之后,它可以针对特定任务在较小的专业数据集上进行微调和定制训练。
既然我们已经谈到了 "少量学习"、"零点学习 "和 "迁移学习",那么让我们来比较一下它们的不同之处。
当你只有少量标注数据时,"少量学习 "非常有用。它可以让人工智能模型从少量示例中学习。而零点学习则不需要任何标注数据。相反,它利用描述或上下文来帮助系统处理新任务。与此同时,迁移学习采用了一种不同的方法,它利用预先训练好的模型中的知识,使其能够以最少的额外数据快速适应新任务。每种方法都有自己的优势,具体取决于数据类型和任务类型。
这些学习范例已经在许多领域发挥了作用,以创新的解决方案解决了复杂的问题。让我们来看看如何将它们应用于现实世界。
少量学习改变了医疗保健领域的游戏规则,尤其是在医学影像领域。它可以帮助医生仅通过几个例子甚至描述就诊断出罕见疾病,而不需要大量数据。这在数据有限的情况下尤其有用,而这种情况经常发生,因为收集罕见疾病的大型数据集具有挑战性。
例如,SHEPHERD利用少量学习和生物医学知识图谱来诊断罕见遗传疾病。它将症状和测试结果等患者信息映射到已知基因和疾病网络上。即使在数据有限的情况下,这也有助于精确定位可能的遗传原因并找到类似病例。
在农业领域,快速识别植物病害至关重要,因为检测延误会导致大面积作物受损、产量下降和重大经济损失。传统方法通常依赖于大型数据集和专家知识,而这些知识并非总能获取,尤其是在偏远或资源有限的地区。这正是人工智能的进步(如零点学习)发挥作用的地方。
比方说,一位农民在种植西红柿和马铃薯时发现了叶片发黄或褐斑等症状。零点学习可以帮助识别晚疫病等病害,而不需要大型数据集。通过对症状的描述,模型可以对以前未见过的病害进行分类。这种方法快速、可扩展,能让农民检测到各种植物问题。它能帮助农民更高效地监测作物健康状况,及时采取措施,减少损失。
自动驾驶汽车通常需要适应不同的环境才能安全导航。迁移学习可以帮助它们利用已有知识快速适应新环境,而无需从头开始训练。这些技术与帮助车辆解读视觉信息的计算机视觉技术相结合,可以在不同地形和天气条件下实现更顺畅的导航,使自动驾驶更加高效可靠。
使用Ultralytics YOLO11 监控停车位的停车场管理系统就是一个很好的实例。YOLO11 是一个预先训练好的物体检测模型,可以通过迁移学习进行微调,从而实时识别空车位和有人停车位。通过在较小的停车场图像数据集上对模型进行训练,该模型可准确检测空车位、满车位,甚至保留区域。
该系统与其他技术相结合,可以引导驾驶员找到最近的可用停车位,有助于减少搜索时间和交通拥堵。通过在YOLO11现有物体检测功能的基础上进行迁移学习,YOLO11无需从零开始即可适应停车场管理的特定需求。这种方法既节省了时间和资源,又创建了一个高效、可扩展的解决方案,从而改善了停车场运营,提升了整体用户体验。
计算机视觉学习范式的未来倾向于开发更智能、更可持续的视觉人工智能系统。尤其是,一种日益增长的趋势是使用混合方法,将少量学习、零点学习和迁移学习结合起来。通过融合这些方法的优势,模型可以用最少的数据学习新任务,并将其知识应用于不同领域。
一个有趣的例子是,使用经过调整的深度嵌入,利用以前任务的知识和少量新数据对模型进行微调,从而更容易处理有限的数据集。
同样,X-shot 学习也是为处理不同数据量的任务而设计的。它使用弱监督,即模型从有限或嘈杂的标签中学习,并使用清晰的指令来帮助它们快速适应,即使只有很少或根本没有可用的先前示例。这些混合方法表明,整合不同的学习方法可以帮助人工智能系统更有效地应对挑战。
少镜头学习、零镜头学习和迁移学习分别解决了计算机视觉中的特定难题,因此适用于不同的任务。正确的方法取决于具体的应用和可用数据的多少。例如,少点学习可以很好地处理有限的数据,而零点学习则非常适合处理未见过或不熟悉的类别。
展望未来,将这些方法结合起来,创建融合视觉、语言和音频的混合模型很可能会成为一个重点。这些进步旨在使人工智能系统更加灵活、高效,并有能力解决复杂问题,为该领域的创新开辟新的可能性。
加入我们的社区并查看我们的 GitHub 存储库,了解更多有关人工智能的信息。了解自动驾驶汽车中的人工智能和农业中的计算机视觉如何重塑未来。查看YOLO 许可证可用选项,开始学习!