تعلم أساسيات تسمية البيانات للتعلم الآلي. اكتشف الأنواع الرئيسية مثل اكتشاف الكائنات وكيفية تسريع سير العمل باستخدام Ultralytics .
تصنيف البيانات هو العملية الأساسية لتحديد البيانات الأولية — مثل الصور أو إطارات الفيديو أو النصوص أو الصوت — و إضافة علامات أو بيانات وصفية إعلامية لتوفير السياق. في مجال التعلم الآلي (ML)، لا تستطيع الخوارزميات فهم العالم المادي بطبيعتها؛ فهي تحتاج إلى "معلم" لتوجيهها. يأتي هذا التوجيه في شكل مجموعات بيانات مصنفة تُستخدم أثناء التعلم الخاضع للإشراف. تعمل التسميات كأساس للحقيقة، وتمثل الإجابات الصحيحة التي يسعى النموذج إلى توقعها. سواء كان التدريب على مصنف بسيط أو بنية معقدة مثل Ultralytics فإن دقة واتساق وجودة هذه التسميات هي العوامل الأساسية التي تحدد نجاح النموذج.
على الرغم من أن المصطلحين غالبًا ما يستخدمان بالتبادل في المحادثات غير الرسمية، إلا أن هناك فرقًا دقيقًا جديرًا بالملاحظة. يشير مصطلح "تصنيف البيانات" عمومًا إلى العملية العامة لتعيين فئة أو علامة لجزء من البيانات (على سبيل المثال، وضع علامة "بريد عشوائي" على رسالة بريد إلكتروني). في المقابل، غالبًا ما يكون تعليق البيانات أكثر تحديدًا في الرؤية الحاسوبية (CV)، حيث يتضمن تحديد دقيق للأشياء باستخدام مربعات الحدود أو المضلعات أو النقاط الرئيسية. ومع ذلك، في معظم عمليات التعلم الآلي (MLOps) ، يصف كلا المصطلحين إنشاء بيانات تدريب عالية الجودة.
تتغير طريقة وضع العلامات بناءً على المهمة التي يجب أن يؤديها النموذج. تشمل الأنواع الشائعة ما يلي:
تتعدى فائدة تصنيف البيانات على جميع القطاعات التي تستخدم الذكاء الاصطناعي تقريبًا.
غالبًا ما يكون إنشاء مجموعة بيانات مصنفة هو الجزء الأكثر استهلاكًا للوقت في مشروع الذكاء الاصطناعي. تتضمن العملية عادةً نهج "Human-in-the-Loop" (HITL)، حيث يتحقق المعلقون البشريون من التصنيفات لضمان دقة عالية. تستفيد سير العمل الحديثة من أدوات مثل Ultralytics تبسط إدارة مجموعات البيانات وتسمح للفرق بالتعاون في التعليقات التوضيحية. يمكن أيضًا استخدام تقنيات متقدمة مثل التعلم النشط، حيث يقوم النموذج بوضع علامات مسبقة على البيانات، ويقوم البشر فقط بتصحيح التنبؤات منخفضة الثقة، مما يؤدي إلى تسريع العملية بشكل كبير.
يوضح المثال التالي كيفية استخدام نموذج YOLO26 المدرب مسبقًا لتوليد تسميات تلقائيًا (التسمية التلقائية) لصورة جديدة، والتي يمكن بعد ذلك تصحيحها بواسطة البشر:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")