Изучите основы маркировки данных для машинного обучения. Откройте для себя ключевые типы, такие как обнаружение объектов, и узнайте, как ускорить рабочие процессы с помощью Ultralytics .
Маркировка данных — это фундаментальный процесс идентификации необработанных данных, таких как изображения, видеокадры, текст или аудио, и добавления информативных тегов или метаданных для предоставления контекста. В сфере машинного обучения (ML) алгоритмы не могут по своей сути понимать физический мир; им требуется «учитель», который будет их направлять. Это руководство предоставляется в форме маркированных наборов данных, используемых во время обучения с учителем. Метки служат основой, представляя правильные ответы, которые модель стремится предсказать. Независимо от того, обучаете ли вы простой классификатор или сложную архитектуру, такую как Ultralytics , точность, согласованность и качество этих меток являются основными факторами, определяющими успех модели.
Хотя эти термины часто используются как взаимозаменяемые в повседневной речи, между ними есть тонкое различие, которое стоит отметить. «Маркировка данных» обычно означает общий процесс присвоения категории или тега фрагменту данных (например, пометка электронного письма как «спам»). В отличие от этого, аннотация данных часто более специфична для компьютерного зрения (CV) и включает в себя точное определение границ объектов с помощью ограничительных рамок, многоугольников или ключевых точек. Однако в большинстве рабочих процессов MLOps (MLOps) оба термина описывают создание высококачественных учебных данных.
Метод маркировки меняется в зависимости от задачи, которую должна выполнять модель. Распространенные типы включают:
Полезность маркировки данных распространяется практически на все отрасли, использующие ИИ.
Создание набора данных с метками часто является самой трудоемкой частью проекта в области искусственного интеллекта. Этот процесс обычно включает в себя подход «человек в цикле» (HITL), при котором аннотаторы-люди проверяют метки для обеспечения высокой точности. Современные рабочие процессы используют такие инструменты, как Ultralytics , которая упрощает управление наборами данных и позволяет командам совместно работать над аннотациями. Также могут применяться передовые методы, такие как активное обучение, при котором модель предварительно маркирует данные, а люди только исправляют прогнозы с низкой степенью достоверности, что значительно ускоряет процесс.
Следующий пример демонстрирует, как использовать предварительно обученную модель YOLO26 для автоматического создания меток (автоматическая маркировка) для нового изображения, которые затем могут быть исправлены людьми:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")