استكشف التقسيم الدلالي لفهم الصور على مستوى البكسل. تعلم كيفية تدريب ونشر نماذج تقسيم دقيقة باستخدام Ultralytics اليوم.
التقسيم الدلالي هو مهمة رؤية حاسوبية تتضمن تقسيم الصورة إلى مناطق متميزة عن طريق تعيين تصنيف فئة محدد لكل بكسل على حدة. على عكس المهام الأبسط مثل تصنيف الصور، الذي يعين تصنيفًا واحدًا للصورة بأكملها، أو اكتشاف الكائنات، الذي يرسم مربعات حدودية حول الكائنات، يوفر التقسيم الدلالي فهمًا على مستوى البكسل للمشهد. هذا التحليل الدقيق مهم جدًا للتطبيقات التي يكون فيها الشكل الدقيق والحدود الدقيقة للكائن مهمين بقدر أهمية هويته. فهو يسمح للآلات بـ"رؤية" العالم بشكل أشبه بالبشر، حيث تميز البكسلات الدقيقة التي تشكل الطريق أو المشاة أو الورم في الفحص الطبي.
في جوهرها، تعامل التجزئة الدلالية الصورة كشبكة من البكسلات التي تحتاج إلى تصنيف. نماذج التعلم العميق ، ولا سيما الشبكات العصبية التلافيفية (CNNs)، هي البنية القياسية لهذه المهمة. تستخدم البنية النموذجية، مثل U-Net المستخدمة على نطاق واسع، بنية مشفر-مفكك. يقوم المشفر بضغط الصورة المدخلة لاستخراج ميزات عالية المستوى (مثل القوام والأشكال)، بينما يقوم المفكك بإعادة ترقية هذه الميزات إلى دقة الصورة الأصلية لإنشاء قناع تقسيم دقيق.
لتحقيق ذلك، يتم تدريب النماذج على مجموعات بيانات كبيرة مُعلّقة حيث قام المُعلّقون البشريون بتلوين كل بكسل بعناية وفقًا لفئته. تسهّل أدوات مثل Ultralytics هذه العملية من خلال توفير ميزات التعليق التلقائي التي تسرع من إنشاء بيانات حقيقية عالية الجودة. بمجرد تدريب النموذج، يُخرج قناعًا حيث تتوافق قيمة كل بكسل مع معرّف فئة، مما يؤدي إلى "طلاء" الصورة بمعنى فعال.
من الشائع الخلط بين التجزئة الدلالية والمهام الأخرى على مستوى البكسل. فهم الاختلافات هو المفتاح لاختيار النهج الصحيح للمشروع:
تساهم القدرة على تحليل البيانات المرئية بدقة عالية في دفع عجلة الابتكار في العديد من الصناعات ذات المخاطر العالية:
تحتاج نماذج التجزئة الحديثة إلى تحقيق التوازن بين الدقة والسرعة، خاصة بالنسبة لـ
الاستدلال في الوقت الحقيقي على الأجهزة الطرفية.
Ultralytics YOLO26 تتضمن العائلة النموذجية
نماذج تقسيم متخصصة (يُشار إليها بـ -seg لاحقة) التي تعمل بشكل أصلي من طرف إلى طرف، مما يوفر أداءً فائقًا
مقارنةً بالبنى القديمة مثل YOLO11.
يوضح المثال التالي كيفية إجراء التجزئة على صورة باستخدام ultralytics بايثون.
ينتج عن ذلك أقنعة ثنائية تحدد حدود الكائنات.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
على الرغم من التقدم الكبير الذي تم إحرازه، لا تزال عملية التقسيم الدلالي تتطلب حوسبة مكثفة. يتطلب إنشاء تصنيف لكل بكسل على حدة GPU كبيرة من GPU والذاكرة. يعمل الباحثون بشكل نشط على تحسين كفاءة هذه النماذج، واستكشاف تقنيات مثل تكمية النماذج لتشغيل الشبكات الثقيلة على الهواتف المحمولة والأجهزة المدمجة.
علاوة على ذلك، فإن الحاجة إلى مجموعات بيانات ضخمة مصنفة تشكل عقبة. لمعالجة هذه المشكلة، تتجه الصناعة نحو توليد البيانات الاصطناعية والتعلم الذاتي ، مما يسمح للنماذج بالتعلم من الصور الخام دون الحاجة إلى ملايين العلامات اليدوية للبكسل. مع نضوج هذه التقنيات، يمكننا أن نتوقع أن تصبح التجزئة أكثر انتشارًا في الكاميرات الذكية والروبوتات وتطبيقات الواقع المعزز.