Глоссарий

Аналитика данных

Узнай, как аналитика данных способствует успеху AI и ML, оптимизируя качество данных, раскрывая их суть и обеспечивая принятие разумных решений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Аналитика данных - это систематический вычислительный анализ данных или статистики. Она включает в себя изучение, очистку, преобразование и моделирование данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений. В сфере искусственного интеллекта (ИИ) и машинного обучения (МЛ) аналитика данных незаменима для подготовки наборов данных, понимания их характеристик, извлечения значимых признаков и оценки эффективности моделей, что в конечном итоге приводит к созданию более надежных и прочных систем ИИ.

Актуальность аналитики данных в искусственном интеллекте и машинном обучении

Аналитика данных формирует фундамент, на котором строятся успешные ИИ- и ML-проекты. Прежде чем обучать сложные модели, такие как Ultralytics YOLOсырые данные должны пройти тщательный анализ. Он включает в себя такие важные этапы, как очистка данных для устранения ошибок и несоответствий, а также предварительная обработка данных для их надлежащего форматирования алгоритмами. Такие техники, как эксплораторный анализ данных (EDA), часто включающий в себя визуализацию данных, помогают раскрыть глубинные структуры, закономерности, выбросы и потенциальные погрешности в данных. Понимание этих аспектов очень важно для выбора подходящих моделей и обеспечения качества данных, необходимого для эффективного обучения.

Кроме того, после обучения модели важную роль играет анализ данных. Оценка эффективности модели с помощью таких метрик, как точность или средняя точность (mAP), подразумевает анализ результатов предсказания в сравнении с данными, полученными в реальности. Этот аналитический процесс помогает выявить слабые места модели, понять типы ошибок и направить дальнейшие улучшения с помощью таких техник, как настройка гиперпараметров.

Аналитика данных в сравнении со смежными понятиями

Хотя данные аналитики часто используются как взаимозаменяемые, они тонко отличаются от смежных терминов:

  • Добыча данных: Сосредоточен на обнаружении новых, ранее неизвестных закономерностей и взаимосвязей в больших массивах данных. Его часто рассматривают как особую технику в более широкой области аналитики данных, которая также включает в себя описание данных (описательная аналитика) и диагностику прошлых событий (диагностическая аналитика). Ты можешь изучить концепции добычи данных дальше.
  • Машинное обучение: Алгоритмы, которые обучаются на основе данных, чтобы делать прогнозы или принимать решения без явного программирования. ML часто является инструментом, используемым в аналитике данных (в частности, в предиктивной и предписывающей аналитике), но сама аналитика данных - это более широкий процесс, включающий сбор, очистку, исследование, визуализацию и интерпретацию данных, который может включать или не включать построение сложных моделей ML. Подробнее о машинном обучении (ML).

Реальные приложения AI/ML

Аналитика данных способствует значительному прогрессу в различных приложениях ИИ:

  1. Диагностика в здравоохранении: В анализе медицинских изображений аналитика данных используется для изучения больших наборов данных медицинских снимков (например, МРТ или КТ, как в наборе данных "Опухоль мозга"), чтобы выявить тонкие закономерности, которые могут указывать на болезнь. Перед обучением диагностической ИИ-модели аналитика помогает понять распределение признаков в разных группах пациентов, обеспечивая репрезентативность набора данных и выявляя потенциальные погрешности. После обучения аналитика оценивает диагностическую точность модели и выявляет типы ошибок, направляя ее на доработку. Такие ресурсы, как NIH Biomedical Data Science, подчеркивают ее важность.
  2. Анализ поведения покупателей в розничной торговле: Ритейлеры используют аналитику данных, чтобы понять модели покупок и оптимизировать работу. Анализ данных о транзакциях помогает создавать рекомендательные системы, которые предлагают пользователям те или иные товары. В физических магазинах анализ видеопотоков с помощью моделей компьютерного зрения (CV) может дать представление о потоках покупателей и взаимодействии с полками, что помогает искусственному интеллекту для более разумного управления запасами в розничной торговле. Аналитика помогает интерпретировать эти данные, чтобы оптимизировать планировку магазина и размещение товара. Для этих целей компании используют такие платформы, как Google Cloud AI for Retail.

Инструменты и техники

Аналитики данных используют множество инструментов и методик. Статистические методы, включая регрессию и анализ временных рядов, являются основополагающими. Широко используются языки программирования вроде Python с такими библиотеками, как Pandas для манипулирования данными и Scikit-learn для задач ML. Инструменты визуализации данных, такие как Tableau или Microsoft Power BI, имеют решающее значение для представления полученных результатов. Для получения конкретных данных о производительности ML такие платформы, как Ultralytics HUB, предлагают интегрированную аналитику, о чем подробно рассказывается в руководстве по аналитикеUltralytics .

Читать полностью