Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تصنيف البيانات

تعلم أساسيات تسمية البيانات للتعلم الآلي. اكتشف الأنواع الرئيسية مثل اكتشاف الكائنات وكيفية تسريع سير العمل باستخدام Ultralytics .

تصنيف البيانات هو العملية الأساسية لتحديد البيانات الأولية — مثل الصور أو إطارات الفيديو أو النصوص أو الصوت — و إضافة علامات أو بيانات وصفية إعلامية لتوفير السياق. في مجال التعلم الآلي (ML)، لا تستطيع الخوارزميات فهم العالم المادي بطبيعتها؛ فهي تحتاج إلى "معلم" لتوجيهها. يأتي هذا التوجيه في شكل مجموعات بيانات مصنفة تُستخدم أثناء التعلم الخاضع للإشراف. تعمل التسميات كأساس للحقيقة، وتمثل الإجابات الصحيحة التي يسعى النموذج إلى توقعها. سواء كان التدريب على مصنف بسيط أو بنية معقدة مثل Ultralytics فإن دقة واتساق وجودة هذه التسميات هي العوامل الأساسية التي تحدد نجاح النموذج.

تصنيف البيانات مقابل تعليق البيانات

على الرغم من أن المصطلحين غالبًا ما يستخدمان بالتبادل في المحادثات غير الرسمية، إلا أن هناك فرقًا دقيقًا جديرًا بالملاحظة. يشير مصطلح "تصنيف البيانات" عمومًا إلى العملية العامة لتعيين فئة أو علامة لجزء من البيانات (على سبيل المثال، وضع علامة "بريد عشوائي" على رسالة بريد إلكتروني). في المقابل، غالبًا ما يكون تعليق البيانات أكثر تحديدًا في الرؤية الحاسوبية (CV)، حيث يتضمن تحديد دقيق للأشياء باستخدام مربعات الحدود أو المضلعات أو النقاط الرئيسية. ومع ذلك، في معظم عمليات التعلم الآلي (MLOps) ، يصف كلا المصطلحين إنشاء بيانات تدريب عالية الجودة.

أنواع المفاتيح في الرؤية الحاسوبية

تتغير طريقة وضع العلامات بناءً على المهمة التي يجب أن يؤديها النموذج. تشمل الأنواع الشائعة ما يلي:

  • تصنيف الصور: تعيين علامة واحدة لصورة كاملة، مثل تحديد حالة الطقس على أنها "غائمة" أو "مشمسة".
  • كشف الكائنات: رسم مربعات حدودية ثنائية الأبعاد حول كائنات مميزة لتعليم النموذج ماهية الكائن وموقعه.
  • تجزئة المثيل: إنشاء أقنعة أو مضلعات دقيقة للغاية حول الكائنات، وهو أمر ضروري لتحديد الأشكال والحدود بدقة.
  • تقدير الوضع: وضع علامات على نقاط محددة على جسم الشخص، مثل مفاصل الهيكل العظمي ، لتحليل الحركة أو الوضع.

تطبيقات واقعية

تتعدى فائدة تصنيف البيانات على جميع القطاعات التي تستخدم الذكاء الاصطناعي تقريبًا.

  1. المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة على مجموعات بيانات ضخمة حيث يتم تصنيف كل مركبة ومشاة و إشارة مرور وعلامة حارة بدقة. تسمح هذه البيانات المصنفة لنظام الإدراك بالتنقل في البيئات المعقدة بأمان. تستثمر شركات المركبات ذاتية القيادة بكثافة في التصنيف على مستوى البكسل لضمان الامتثال لمعايير السلامة.
  2. الزراعة الدقيقة: في الزراعة الحديثة، يُستخدم الذكاء الاصطناعي في الزراعة detect أمراض detect أو مراقبة مراحل النمو. يستخدم المزارعون نماذج مدربة على صور مصنفة للأوراق "السليمة" مقابل الأوراق "المريضة" لأتمتة العلاج، مما يقلل من استخدام المواد الكيميائية ويزيد من المحصول.

سير عمل وضع العلامات

غالبًا ما يكون إنشاء مجموعة بيانات مصنفة هو الجزء الأكثر استهلاكًا للوقت في مشروع الذكاء الاصطناعي. تتضمن العملية عادةً نهج "Human-in-the-Loop" (HITL)، حيث يتحقق المعلقون البشريون من التصنيفات لضمان دقة عالية. تستفيد سير العمل الحديثة من أدوات مثل Ultralytics تبسط إدارة مجموعات البيانات وتسمح للفرق بالتعاون في التعليقات التوضيحية. يمكن أيضًا استخدام تقنيات متقدمة مثل التعلم النشط، حيث يقوم النموذج بوضع علامات مسبقة على البيانات، ويقوم البشر فقط بتصحيح التنبؤات منخفضة الثقة، مما يؤدي إلى تسريع العملية بشكل كبير.

يوضح المثال التالي كيفية استخدام نموذج YOLO26 المدرب مسبقًا لتوليد تسميات تلقائيًا (التسمية التلقائية) لصورة جديدة، والتي يمكن بعد ذلك تصحيحها بواسطة البشر:

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن