Глоссарий

Аналитика данных

Узнай, как аналитика данных способствует успеху AI и ML, оптимизируя качество данных, раскрывая их суть и обеспечивая принятие разумных решений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Аналитика данных подразумевает систематическое вычислительное изучение данных или статистики. Она включает в себя процессы проверки, очистки, преобразования и моделирования данных для раскрытия полезной информации, получения выводов и поддержки принятия обоснованных решений. В областях искусственного интеллекта (ИИ) и машинного обучения (МЛ) аналитика данных является основополагающей для подготовки наборов данных, понимания их характеристик с помощью таких техник, как эксплораторный анализ данных (EDA), извлечения значимых характеристик и оценки эффективности моделей. Такой тщательный анализ в конечном итоге способствует созданию более надежных и прочных систем ИИ, включая такие сложные модели, как Ultralytics YOLO для таких задач, как обнаружение объектов.

Актуальность аналитики данных в искусственном интеллекте и машинном обучении

Аналитика данных служит фундаментом для успешных AI- и ML-проектов. Перед обучением сложных моделей необработанные данные требуют тщательного анализа. Он включает в себя такие важные этапы, как очистка данных для устранения ошибок и несоответствий, а также предварительная обработка данных для их форматирования в соответствии с требованиями алгоритмов. Такие техники, как EDA, часто дополненные визуализацией данных с помощью таких инструментов, как Seaborn, помогают выявить основные закономерности, структуры, выбросы и потенциальные погрешности в данных. Глубокое понимание этих аспектов имеет решающее значение для выбора подходящих моделей, обеспечения качества данных и эффективного обучения, которое часто осуществляется с помощью таких платформ, как Ultralytics HUB.

Кроме того, после обучения модели необходимо провести анализ данных. Оценка эффективности модели включает в себя анализ результатов предсказания в сравнении с данными, полученными в результате исследования, с помощью таких метрик, как точность или средняя точность (mAP). Подробнее о метриках производительностиYOLO ты можешь узнать из нашего руководства. Этот аналитический процесс помогает выявить слабые места модели, понять типы ошибок (часто визуализируемые с помощью матрицы путаницы) и направить их на улучшение с помощью таких методов, как настройка гиперпараметров или изучение различных архитектур модели. Такие фреймворки, как PyTorch и TensorFlowа также библиотеки вроде Pandas для манипулирования данными, являются обычными инструментами в этом процессе.

Аналитика данных и смежные понятия

Несмотря на свою родственность, аналитика данных отличается от нескольких других терминов:

  • Добыча данных: Сосредоточен в первую очередь на обнаружении новых, ранее неизвестных закономерностей и взаимосвязей в больших наборах данных. Аналитика данных часто включает в себя анализ известных аспектов данных или проверку определенных гипотез, хотя может включать и исследовательские открытия. Узнай больше о роли добычи данных в компьютерном зрении.
  • Машинное обучение (ML): Использует алгоритмы для обучения на основе данных (часто подготовленных и проанализированных с помощью аналитики данных), чтобы делать прогнозы или принимать решения без явного программирования. Аналитика обеспечивает понимание и подготовленные данные, которые потребляют модели ML. ML - это метод достижения ИИ, а аналитика данных - процесс, применяемый к данным.
  • Большие данные: Относится к чрезвычайно большим и сложным наборам данных. Аналитика данных - это процесс извлечения ценности и понимания из данных, независимо от того, относятся ли они к "большим данным". Аналитика больших данных применяет аналитические методы именно к таким большим наборам данных.
  • Визуализация данных: Это графическое представление данных и информации. Это ключевой инструмент, используемый в более широком процессе анализа данных для изучения данных и эффективной передачи результатов. Смотри примеры в нашем руководстве по интеграции TensorBoard.
  • Бизнес-аналитика (BI): Часто фокусируется больше на описательной аналитике (что произошло), используя исторические данные для принятия бизнес-решений, обычно с помощью панелей и отчетов. Аналитика данных может включать в себя описательную, диагностическую, прогностическую и предписывающую аналитику. Подробнее читай в глоссарии Gartner's IT Glossary.

Реальные приложения AI/ML

Аналитика данных играет важную роль в прогрессе многочисленных приложений ИИ:

  1. Анализ медицинских изображений: Прежде чем модель ИИ сможет обнаружить аномалии на медицинских снимках (например, рентгеновских или магнитно-резонансных), широко используется аналитика данных. Сырые изображения предварительно обрабатываются (нормализуются, изменяются в размерах) и очищаются. Эксплораторный анализ помогает понять вариации качества изображений или демографические характеристики пациентов в таких наборах данных, как набор данных "Опухоли головного мозга". Аналитика помогает выявить значимые признаки и оценить эффективность диагностической модели(точность, чувствительность, специфичность) в сравнении с экспертными аннотациями, направляя улучшения для клинического использования. Такие ресурсы, как инициатива NIH Biomedical Data Science, подчеркивают ее важность. Посмотри, как модели YOLO можно использовать для обнаружения опухолей в медицинской визуализации.
  2. Управление запасами в розничной торговле на основе искусственного интеллекта: Ритейлеры используют аналитику данных, чтобы оптимизировать уровень запасов и сократить отходы. Это включает в себя анализ исторических данных о продажах, выявление сезонных тенденций и понимание покупательских паттернов(предиктивное моделирование). Кроме того, системы компьютерного зрения (CV), работающие на основе моделей, обученных с помощью проанализированных визуальных данных, могут отслеживать запасы на полках в режиме реального времени. Аналитика данных оценивает эффективность этих систем, анализируя точность обнаружения и связывая данные об инвентаризации с результатами продаж, что позволяет разрабатывать более разумные стратегии пополнения запасов. Изучи отраслевые решения Google Cloud AI for Retail. Ultralytics предлагает понимание ИИ для более умного управления запасами в розничной торговле и достижения эффективности розничной торговли с помощью ИИ.

Аналитика данных позволяет получить критически важные сведения, необходимые для создания, доработки и проверки эффективных систем искусственного интеллекта и ML в самых разных областях, от здравоохранения до сельского хозяйства и производства. Использование таких платформ, как Ultralytics HUB, позволяет упростить процесс от анализа данных до развертывания модели.

Читать полностью