Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Большие данные

Узнайте, как большие данные способствуют развитию искусственного интеллекта. Научитесь управлять огромными наборами данных для компьютерного зрения, обучайте Ultralytics и используйте Ultralytics для масштабирования.

Большие данные — это чрезвычайно большие, разнообразные и сложные наборы данных, которые превышают возможности обработки традиционными инструментами управления данными. В сфере искусственного интеллекта это понятие часто определяется «тремя V»: объем, скорость и разнообразие. Объем представляет собой чистое количество информации, скорость относится к скорости, с которой данные генерируются и обрабатываются, а разнообразие охватывает различные форматы, такие как структурированные числа, неструктурированный текст, изображения и видео. Для современного систем компьютерного зрения систем большие данные являются основополагающим топливом, которое позволяет алгоритмам изучать шаблоны, обобщать сценарии и достигать высокой точность.

Роль больших данных в глубоком обучении

Возрождение глубокого обучения непосредственно связано с доступностью огромных массивов данных. Нейронные сети, особенно сложные архитектуры, такие как YOLO26, требуют огромного количества помеченных примеров для эффективной оптимизации миллионов параметров. Без достаточного объема данных модели подвержены переобучению, когда они запоминают обучающие примеры, а не учатся распознавать особенности новых, невиданных изображений.

Чтобы справиться с таким потоком информации, инженеры полагаются на надежные системе аннотирования данных . Платформа Ultralytics упрощает этот процесс, позволяя командам организовывать, маркировать и контролировать версии огромных коллекций изображений в облаке. Такая централизация имеет решающее значение, поскольку высококачественные обучающие данные должны быть чистыми, разнообразными и точно маркированными для создания надежных моделей искусственного интеллекта.

Приложения реального мира в искусственном интеллекте

Сближение больших данных и машинного обучения стимулирует инновации практически во всех отраслях промышленности.

  • Автономное вождение: самоуправляемые автомобили ежедневно генерируют терабайты данных с помощью LiDAR, радаров и камер. Этот высокоскоростной поток данных помогает обучать модели распознавания объектов для идентификации пешеходов, дорожных знаков и других транспортных средств в режиме реального времени. Обрабатывая миллионы километров видеозаписей с дорог , производители обеспечивают автономные транспортные средства могут безопасно справляться с редкими «крайними случаями»
  • Медицинская визуализация: В здравоохранении анализ медицинских изображений используется огромное количество репозиториев рентгеновских снимков, МРТ и КТ. Большие данные позволяют сегментацию изображений модели detect , такие как опухоли, с точностью, часто превосходящей возможности человеческих экспертов. Больницы используют безопасное облачное хранилище , такое как Google Healthcare API для агрегирования данных пациентов с соблюдением конфиденциальности, что позволяет обучать такие модели, как YOLO11 и YOLO26 для ранней диагностики заболеваний.

Дифференциация смежных понятий

Важно отличать понятие «большие данные» от смежных терминов в экосистеме науки о данных:

  • Большие данные против интеллектуального анализа данных: Интеллектуальный анализ данных — это процесс исследования и извлечения полезных закономерностей из больших данных. Большие данные — это актив, а интеллектуальный анализ данных — это техника, используемая для обнаружения скрытых закономерностей в этом активе.
  • Большие данные против аналитики данных: в то время как большие данные описывают необработанную информацию, аналитика данных включает в себя вычислительный анализ этих данных для поддержки принятия решений. Такие инструменты, как Tableau или Microsoft BI часто используются для визуализации результатов, полученных в результате обработки больших данных.

Технологии управления масштабом

Для обработки петабайтов визуальных данных требуется специализированная инфраструктура. Распределенные платформы обработки, такие как Apache Spark и решения для хранения данных, такие как Amazon S3 или Azure Blob Storage позволяют организациям отделить хранение данных от вычислительной мощности.

В практическом рабочем процессе компьютерного зрения пользователи редко загружают в память сразу несколько терабайт изображений. Вместо этого они используют эффективные средства загрузки данных. Следующий Python демонстрирует, как начать обучение с помощью Ultralytics , указывая модели файл конфигурации набора данных. Эта конфигурация действует как карта, позволяя модели эффективно передавать данные во время процесса обучения , независимо от общего размера набора данных.

from ultralytics import YOLO

# Load the cutting-edge YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The 'data' argument can reference a local dataset or a massive cloud dataset
# effectively bridging the model with Big Data sources.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

По мере роста объемов данных такие методы, как увеличение объема данных и перенос обучения становятся все более важными, помогая разработчикам максимально использовать ценность своих больших данных без необходимости использования бесконечных вычислительных ресурсов. Организации также должны ориентироваться в вопросах правилами конфиденциальности данных , таких как GDPR, чтобы гарантировать, что огромные наборы данных, используемые для обучения ИИ, соответствуют правам пользователей и этическим стандартам.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас