Глоссарий

Разметка данных

Изучите основы маркировки данных для машинного обучения. Откройте для себя ключевые типы, такие как обнаружение объектов, и узнайте, как ускорить рабочие процессы с помощью Ultralytics .

Маркировка данных — это фундаментальный процесс идентификации необработанных данных, таких как изображения, видеокадры, текст или аудио, и добавления информативных тегов или метаданных для предоставления контекста. В сфере машинного обучения (ML) алгоритмы не могут по своей сути понимать физический мир; им требуется «учитель», который будет их направлять. Это руководство предоставляется в форме маркированных наборов данных, используемых во время обучения с учителем. Метки служат основой, представляя правильные ответы, которые модель стремится предсказать. Независимо от того, обучаете ли вы простой классификатор или сложную архитектуру, такую как Ultralytics , точность, согласованность и качество этих меток являются основными факторами, определяющими успех модели.

Маркировка данных и аннотирование данных

Хотя эти термины часто используются как взаимозаменяемые в повседневной речи, между ними есть тонкое различие, которое стоит отметить. «Маркировка данных» обычно означает общий процесс присвоения категории или тега фрагменту данных (например, пометка электронного письма как «спам»). В отличие от этого, аннотация данных часто более специфична для компьютерного зрения (CV) и включает в себя точное определение границ объектов с помощью ограничительных рамок, многоугольников или ключевых точек. Однако в большинстве рабочих процессов MLOps (MLOps) оба термина описывают создание высококачественных учебных данных.

Основные типы в компьютерном зрении

Метод маркировки меняется в зависимости от задачи, которую должна выполнять модель. Распространенные типы включают:

Классификация изображений: Присвоение одной метки всему изображению, например, определение погодных условий как «облачно» или «солнечно».
Обнаружение объектов: рисование 2D ограничительных рамок вокруг отдельных объектов, чтобы научить модель, что представляет собой объект и где он находится.
Сегментация экземпляров: Создание масок или многоугольников с идеальной точностью до пикселя вокруг объектов, что необходимо для определения точных форм и границ.
Оценка позы: маркировка определенных ключевых точек на объекте, таких как суставы скелета , для анализа движения или позы.

Применение в реальном мире

Полезность маркировки данных распространяется практически на все отрасли, использующие ИИ.

Автономные транспортные средства: самоуправляемые автомобили полагаются на огромные массивы данных, в которых каждый автомобиль, пешеход, дорожный знак и разметка полосы движения тщательно маркированы. Эти маркированные данные позволяют системе восприятия безопасно ориентироваться в сложных условиях. Компании, занимающиеся производством автономных транспортных средств, вкладывают значительные средства в маркировку на уровне пикселей, чтобы обеспечить соответствие требованиям безопасности.
Точное земледелие: в современном сельском хозяйстве ИИ используется для detect болезней сельскохозяйственных культур или мониторинга этапов роста. Фермеры используют модели, обученные на основе помеченных изображений «здоровых» и «больных» листьев, для автоматизации лечения, сокращения использования химикатов и повышения урожайности.

Рабочий процесс маркировки

Создание набора данных с метками часто является самой трудоемкой частью проекта в области искусственного интеллекта. Этот процесс обычно включает в себя подход «человек в цикле» (HITL), при котором аннотаторы-люди проверяют метки для обеспечения высокой точности. Современные рабочие процессы используют такие инструменты, как Ultralytics , которая упрощает управление наборами данных и позволяет командам совместно работать над аннотациями. Также могут применяться передовые методы, такие как активное обучение, при котором модель предварительно маркирует данные, а люди только исправляют прогнозы с низкой степенью достоверности, что значительно ускоряет процесс.

Следующий пример демонстрирует, как использовать предварительно обученную модель YOLO26 для автоматического создания меток (автоматическая маркировка) для нового изображения, которые затем могут быть исправлены людьми:

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

Разметка данных

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Маркировка данных и аннотирование данных

Основные типы в компьютерном зрении

Применение в реальном мире

Рабочий процесс маркировки

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics