تعرف على كيفية تحديد مربعات الحدود لمواقع الكائنات في الرؤية الحاسوبية. استكشف تنسيقات الإحداثيات والتطبيقات الواقعية وكيفية استخدام Ultralytics .
المربع المحيط هو منطقة مستطيلة محددة بمجموعة من الإحداثيات تحيط بكائن معين داخل صورة أو إطار فيديو. في مجال الرؤية الحاسوبية (CV)، تعمل هذه المربعات ك تعليقات أساسية لتعليم أنظمة الذكاء الاصطناعي (AI) كيفية تحديد موقع العناصر المتميزة والتعرف عليها. بدلاً من مجرد تصنيف الصورة بأكملها على أنها "تحتوي على سيارة"، يسمح المربع المحيط للنموذج بتحديد الموقع الدقيق والامتداد المكاني للسيارة، وفصلها عن الخلفية والكيانات الأخرى. تعد قدرة تحديد الموقع هذه ضرورية لمهام الكشف عن الكائنات ، حيث يكون الهدف هو تحديد كائنات متعددة في وقت واحد بدقة عالية.
لمعالجة البيانات المرئية بفعالية، تعتمد نماذج التعلم الآلي (ML) على أنظمة إحداثيات محددة لتمثيل المربعات المحيطة رياضيًا. غالبًا ما يحدد التنسيق المختار كيفية إعداد البيانات لتدريب النموذج وكيفية إخراج النموذج لتنبؤاته.
تعد الصناديق المحددة العناصر الأساسية لعدد لا يحصى من حلول الذكاء الاصطناعي في مختلف الصناعات. من خلال تمكين التحديد الدقيق للموقع، فإنها تسمح للأنظمة بالتفاعل بذكاء مع العالم المادي.
عند استخدام البنى الحديثة مثل يولو26، يتنبأ النموذج
بمربعات الحدود مع تسمية الفئة و
درجة الثقة. يوضح المثال التالي كيفية
تشغيل الاستدلال على صورة والوصول إلى إحداثيات المربع المحيط باستخدام ultralytics الحزمة.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
في حين أن المربعات المحيطة هي المعيار للكشف العام، إلا أنها تختلف عن أنواع التعليقات التوضيحية الأخرى المستخدمة في مهام أكثر تفصيلاً.
يعد إنشاء تعليقات توضيحية عالية الجودة للمربعات المحيطة خطوة حاسمة في مسار التعلم الآلي. تعمل Ultralytics على تبسيط هذه العملية من خلال توفير أدوات لتعليق البيانات وإدارة مجموعات البيانات. يضمن التعليق التوضيحي المناسب أن تتعلم النماذج التمييز بين الكائنات بدقة، مما يقلل من الأخطاء مثل التكيف المفرط أو الخلط بين الخلفيات. تُستخدم تقنيات متقدمة مثل القمع غير الأقصى (NMS) أثناء الاستدلال لتحسين هذه التنبؤات عن طريق إزالة المربعات المتداخلة، مما يضمن بقاء الكشف الأكثر دقة لكل كائن.