تعرف على كيفية استخدام التعرف على الصور للذكاء الاصطناعي والتعلم العميق لتحديد البيانات المرئية. استكشف التطبيقات الواقعية ونشر Ultralytics للحصول على نتائج متطورة.
التعرف على الصور هو تقنية أساسية في مجال الرؤية الحاسوبية (CV) الأوسع نطاقًا، والتي تمكّن أنظمة البرمجيات من التعرف على الأشياء والأشخاص والأماكن والنصوص في الصور الرقمية. من خلال تحليل محتوى البكسل في صورة أو إطار فيديو، تحاول هذه التقنية محاكاة قدرات الإدراك البصري للعين والدماغ البشريين. مدعومة بالذكاء الاصطناعي (AI)، تحول تقنية التعرف على الصور البيانات المرئية غير المنظمة إلى معلومات منظمة وقابلة للتنفيذ، لتشكل الأساس للأتمتة في صناعات تتراوح من الرعاية الصحية إلى النقل الذاتي.
تجاوزت أنظمة التعرف على الصور الحديثة البرمجة التقليدية القائمة على القواعد لتعتمد بشكل كبير على خوارزميات التعلم العميق (DL). أكثر الهياكل شيوعًا المستخدمة في هذه المهام هي الشبكة العصبية التلافيفية (CNN). تعالج الشبكة العصبية التلافيفية الصور كشبكة من القيم — تمثل عادةً قنوات الألوان الأحمر والأخضر والأزرق (RGB) — وتمررها عبر طبقات متعددة من العمليات الحسابية.
خلال هذه العملية، تقوم الشبكة باستخراج الميزات. detect الطبقات الأولية أنماطًا هندسية detect مثل الحواف أو الزوايا، بينما تجمع الطبقات الأعمق هذه الأنماط للتعرف على الهياكل المعقدة مثل العيون أو العجلات أو الأوراق. لتحقيق دقة عالية، تتطلب هذه النماذج كميات هائلة من بيانات التدريب المصنفة. مجموعات البيانات العامة واسعة النطاق، مثل ImageNet، النماذج على تعلم الاحتمالية الإحصائية التي يتوافق فيها ترتيب بصري معين مع مفهوم مثل "قطة" أو "دراجة" أو "علامة توقف ".
على الرغم من أن مصطلح "التعرف على الصور" غالبًا ما يستخدم كعبارة شاملة، إلا أنه يختلف عن مهام الرؤية الحاسوبية الأخرى المحددة . فهم هذه الفروق الدقيقة أمر بالغ الأهمية لاختيار النموذج المناسب للمشروع:
تشمل فائدة التعرف على الصور جميع القطاعات التي يتم فيها إنتاج بيانات بصرية تقريبًا.
بالنسبة للمطورين والباحثين، أصبح تنفيذ التعرف على الصور أكثر سهولة بفضل
النماذج الحديثة مثل يولو26، الذي يدعم
التصنيف والكشف والتجزئة بشكل أصلي. يوضح المثال التالي كيفية إجراء التعرف
(بالتحديد الكشف عن الكائنات) على صورة باستخدام ultralytics حزمة Python .
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
بالنسبة للفرق التي ترغب في تعليق مجموعات البيانات الخاصة بها وتدريب نماذج مخصصة في السحابة، توفر Ultralytics بيئة مبسطة لإدارة دورة حياة مشروع التعرف على الصور بالكامل، بدءًا من جمع البيانات وحتى النشر.
مع زيادة قوة الحوسبة، يتطور التعرف على الصور إلى فهم الفيديو، حيث تحلل الأنظمة السياق الزمني عبر الإطارات. علاوة على ذلك، فإن تكامل الذكاء الاصطناعي التوليدي يسمح للأنظمة ليس فقط بالتعرف على الصور، بل أيضًا بإنشاء أوصاف نصية مفصلة لها، مما يسد الفجوة بين معالجة اللغة الطبيعية (NLP) والرؤية.