Изучите методы и приложения для анализа данных. Узнайте, как извлекать полезную информацию, выявлять закономерности и оптимизировать рабочие процессы искусственного интеллекта с помощью Ultralytics .
Интеллектуальный анализ данных — это процесс исследования и анализа больших массивов информации с целью выявления значимых закономерностей и тенденций. Он находится на стыке статистики, машинного обучения (ML) и систем баз данных, являясь важным этапом в процессе «поиска знаний в базах данных» (KDD). Просеивая огромные объемы необработанных данных, интеллектуальный анализ данных преобразует неструктурированный шум в структурированные, практические идеи, которые предприятия и исследователи используют для принятия обоснованных решений.
В контексте современного искусственного интеллекта (ИИ) добыча данных часто является предшественником прогнозного моделирования. Прежде чем алгоритм сможет предсказать будущее, он должен понять прошлое. Например, в компьютерном зрении (CV) методы добычи данных могут анализировать тысячи изображений для выявления общих черт, таких как края, текстуры или формы, которые определяют конкретный класс объектов, создавая основу для обучения надежных наборов данных.
Интеллектуальный анализ данных опирается на несколько сложных методологий, позволяющих обнаруживать скрытые взаимосвязи в данных. Эти методы позволяют аналитикам выйти за рамки простого обобщения данных и перейти к глубокому анализу.
Полезность интеллектуального анализа данных охватывает практически все отрасли промышленности, способствуя повышению эффективности и инновационности за счет выявления закономерностей , которые не видны невооруженным глазом.
В интеллектуальном производстве интеллектуальный анализ данных используется для анализа данных датчиков с оборудования. Применяя алгоритмы прогнозного технического обслуживания, заводы могут предсказывать отказы оборудования до их возникновения. Кроме того, модели компьютерного зрения, такие как YOLO26, могут генерировать журналы выводов, которые анализируются для выявления повторяющихся типов дефектов, помогая инженерам корректировать производственные процессы с целью сокращения отходов.
Интеллектуальный анализ данных преобразует здравоохранение путем анализа электронных медицинских карт и медицинских изображений. Исследователи анализируют геномные данные, чтобы найти связи между конкретными последовательностями генов и заболеваниями. В радиологии анализ больших наборов данных рентгеновских снимков помогает выявлять ранние признаки таких заболеваний, как пневмония или опухоли, что помогает в анализе медицинских изображений.
Чтобы полностью понять суть интеллектуального анализа данных, полезно отличать его от близких по смыслу понятий в области науки о данных .
В рабочем процессе компьютерного зрения «майнинг» часто происходит при анализе результатов инференции для поиска высокоценных обнаружений или сложных пограничных случаев. Этот процесс оптимизируется с помощью Ultralytics , которая помогает управлять наборами данных и анализировать их.
Следующий пример демонстрирует, как «добывать» коллекцию изображений для поиска конкретных высоконадежных обнаружений с помощью модели YOLO26. Это имитирует процесс фильтрации огромных потоков данных для поиска соответствующих событий.
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]
# Run inference on the batch
results = model(image_files)
# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
# Filter boxes where class is 0 (person) and confidence > 0.8
detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
if len(detections) > 0:
high_conf_people.append(result.path)
print(f"Found high-confidence people in: {high_conf_people}")
Этот фрагмент иллюстрирует основную операцию майнинга: фильтрацию необработанных прогнозов для извлечения интересующего подмножества — изображений, содержащих людей, идентифицированных с высокой степенью достоверности, — которое затем может быть использовано для активного обучения с целью дальнейшего улучшения производительности модели.