Глоссарий

Озеро данных

Узнайте, как озера данных служат основой для искусственного интеллекта и машинного обучения. Научитесь использовать необработанные данные для обучения Ultralytics и оптимизации рабочих процессов компьютерного зрения.

Озеро данных — это централизованное хранилище, в котором до момента использования хранится огромный объем необработанных данных в их исходном формате . В отличие от традиционных систем хранения, которые требуют структурирования данных перед вводом, озеро данных принимает данные «как есть», включая структурированные данные (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON) и неструктурированные данные (электронные письма, документы, PDF-файлы) и двоичные данные (изображения, аудио, видео). Эта архитектурная гибкость делает озера данных краеугольным камнем современных стратегий Big Data, особенно для организаций, использующих искусственный интеллект (AI) и машинное обучение (ML). Отделив сбор данных от их использования, организации могут относительно недорого хранить огромные массивы информации и решать конкретные аналитические задачи позже.

Роль озер данных в искусственном интеллекте и машинном обучении

В контексте развития искусственного интеллекта основная ценность озера данных заключается в его способности поддерживать рабочие процессы глубокого обучения (DL). Для достижения высокой точности современные нейронные сети требуют разнообразных и объемных учебных данных. Озеро данных выступает в качестве промежуточного хранилища, где до обработки хранятся необработанные ресурсы, такие как миллионы изображений высокого разрешения для компьютерного зрения (CV) или тысячи часов аудиозаписей для распознавания речи.

Данные ученые используют методологии «schema-on-read» в рамках озер данных. Это означает, что структура применяется к данным только при их чтении для обработки, а не при записи в хранилище. Это обеспечивает огромную гибкость: один и тот же набор необработанных данных может быть обработан несколькими способами для различных задач прогнозного моделирования без изменения исходного источника. Кроме того, надежные озера данных часто интегрируются с облачными вычислительными сервисами, такими как Amazon S3 или Azure Blob Storage, что обеспечивает масштабируемую параллельную обработку, необходимую для обучения тяжелых моделей, таких как YOLO26.

Озеро данных против хранилища данных

Хотя их часто путают, озеро данных отличается от хранилища данных. Хранилище данных хранит данные в структурированных таблицах и оптимизировано для быстрых SQL-запросов и отчетности бизнес-аналитики. Оно использует «схему при записи», что означает, что данные должны быть очищены и преобразованы с помощью процесса ETL (извлечение, преобразование, загрузка) перед вводом в систему.

Напротив, озеро данных оптимизировано для объема и разнообразия хранения. Оно поддерживает неконтролируемое обучение и исследовательский анализ, когда цель может быть еще не определена. Например, хранилище данных может показать, сколько продуктов было продано в прошлом месяце, а озеро данных содержит необработанные журналы мнений клиентов и изображения, которые помогают модели искусственного интеллекта понять, почему они были проданы.

Применение в реальном мире

Озера данных играют важную роль в различных отраслях, расширяя границы автоматизации:

Автономные транспортные средства: для разработки технологий автономного вождения требуется обработка петабайтов данных с датчиков. Автономные транспортные средства генерируют непрерывные потоки облаков точек LiDAR, радиолокационных сигналов и видео высокой четкости. Эти необработанные телеметрические данные хранятся в озере данных, что позволяет инженерам воспроизводить реальные сценарии для обучения моделей обнаружения объектов с целью идентификации пешеходов и препятствий в различных погодных условиях.
Диагностика в здравоохранении: в современном медицинском анализе изображений больницы объединяют историю болезни пациентов, геномные данные и файлы изображений (МРТ, КТ) в безопасное хранилище данных. Исследователи могут затем получить доступ к этим анонимизированным неструктурированным данным для обучения моделей обнаружения опухолей или прогнозирования заболеваний, часто используя методы сегментации для выделения интересующих областей на медицинских изображениях.

Использование озер данных с Ultralytics

При работе с Ultralytics пользователи часто извлекают поднаборы исходных данных из хранилища данных своей организации для создания аннотированных наборов данных для обучения. После извлечения и маркировки исходных изображений их можно использовать для обучения современных моделей.

Следующий пример демонстрирует, как разработчик может загрузить локальный набор данных (имитируя извлечение из озера данных) для обучения модели YOLO26 для задачи обнаружения.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

Озеро данных

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Роль озер данных в искусственном интеллекте и машинном обучении

Озеро данных против хранилища данных

Применение в реальном мире

Использование озер данных с Ultralytics

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics