术语表

大数据

探索大数据在人工智能/移动学习中的力量!了解海量数据集如何促进机器学习、处理工具和实际应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

大数据指的是超大型、多样化的数据集,这些数据集是高速生成的,超出了传统数据处理软件的能力。它不仅涉及数据的数量,还涉及数据的复杂性以及分析数据以提取有意义见解的速度。在人工智能(AI)时代,了解大数据至关重要,因为这些海量数据集是训练强大的机器学习(ML)深度学习(DL)模型的燃料。

大数据的特征(Vs)

大数据通常具有几个关键特性,即通常所说的 "V":

  • 数据量:这是指生成和收集数据的规模,通常以 TB、PB 甚至 EB 为单位。处理这样的数据量需要可扩展的存储和处理基础设施,通常利用云计算解决方案。例如,物联网设备的传感器数据或大型网站的用户活动日志。
  • 速度:这描述了新数据生成和需要处理的速度。许多应用需要实时推理和分析,如处理金融市场数据或社交媒体流。Apache Kafka等技术通常用于处理高速数据流。
  • 多样性:大数据有多种形式,包括结构化数据(如数据库)、半结构化数据(JSONXML)和非结构化数据(如文本文档、电子邮件、图像、视频)。这种多样性给存储、处理和分析带来了挑战。计算机视觉自然语言处理 (NLP)任务主要处理非结构化数据。
  • 真实性:这涉及数据的质量、准确性和可信度。大数据通常可能是混乱、不完整或不一致的,需要进行大量的数据清理预处理,然后才能可靠地用于分析或模型训练。确保数据的真实性对于构建可信的人工智能系统至关重要。
  • 价值:收集和分析大数据的最终目的是提取有价值的见解,为决策、优化流程或创造新产品和服务提供依据。这需要应用先进的分析和 ML 技术来发现隐藏的模式和相关性。

人工智能和机器学习的相关性

大数据是现代人工智能和 ML 取得成功的基础。大型、多样化的数据集使模型,尤其是深度神经网络,能够学习复杂的模式并获得更高的准确性。训练复杂的模型,如 Ultralytics YOLO等复杂模型训练往往需要大量的标注图像或视频数据。处理这些数据集需要GPU等强大的硬件和Apache Spark等分布式计算框架,或与Ultralytics HUB等工具集成的平台,以管理大规模模型训练

真实世界的人工智能/移动语言应用

大数据为各行各业众多人工智能驱动的应用提供了动力:

  1. 个性化推荐系统:Netflix 等流媒体服务和亚马逊等电子商务巨头利用 ML 算法分析了大量的用户交互数据集(观看历史、购买模式、点击次数)。这使他们能够建立复杂的推荐系统,向用户推荐相关内容或产品,从而提升用户体验和参与度。您可以在Netflix Research 探索这些系统背后的一些研究。
  2. 自动驾驶: 自动驾驶汽车依赖于实时处理来自传感器(摄像头、激光雷达、雷达)的海量数据流。这些大数据用于训练深度学习模型,以完成物体检测、车道保持和导航等关键任务,使车辆能够安全地感知环境并做出反应。在自动驾驶汽车中开发人工智能在很大程度上取决于对这些复杂数据的管理和利用。

大数据与传统数据

传统的数据分析处理的是存储在关系数据库中的结构化数据,而大数据则包含更大的数据量、更高的速度和更多的种类,通常需要专门的工具和技术,如Hadoop 生态系统。机器学习算法对于从大数据中提取洞察力至关重要,而传统数据可能使用更简单的统计方法或商业智能工具进行分析。大数据所需的基础设施通常涉及分布式系统和云平台,与传统的数据仓库也有很大不同。

阅读全部