مسرد المصطلحات

التدفق البصري

اكتشف قوة التدفق البصري في الرؤية الحاسوبية. تعرّف على كيفية تقدير الحركة، وتعزيز تحليل الفيديو، ودفع الابتكارات في مجال الذكاء الاصطناعي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يصف التدفق الضوئي نمط الحركة الظاهرية للأجسام والأسطح والحواف في مشهد مرئي ناتج عن الحركة النسبية بين الراصد (مثل الكاميرا) والمشهد. وهو مفهوم أساسي في الرؤية الحاسوبية (CV) يُستخدم لتقدير حركة وحدات البكسل الفردية أو السمات بين الإطارات المتتالية لتسلسل فيديو. توفر هذه التقنية معلومات قيّمة حول ديناميكيات المشهد، مما يمكّن الآلات من فهم الحركة بشكل مشابه لكيفية إدراك الأنظمة البصرية البيولوجية للحركة. وهي مكون رئيسي في العديد من تطبيقات الذكاء الاصطناعي (AI) والتعلم الآلي (ML) التي تتضمن تحليل بيانات الفيديو.

كيف يعمل التدفق البصري

تتمثل الفكرة الأساسية وراء حساب التدفق البصري في افتراض "ثبات السطوع"، والذي يفترض أن شدة البكسل المطابق لنقطة محددة على جسم ما تظل ثابتة (أو تتغير بشكل متوقع) خلال فترات زمنية قصيرة أثناء تحركها عبر مستوى الصورة. تقوم الخوارزميات بتتبع أنماط الشدة هذه من إطار إلى آخر لحساب متجهات الحركة لكل بكسل أو لنقاط اهتمام محددة.

تتضمن التقنيات الشائعة لحساب التدفق البصري ما يلي:

  • التدفق البصري المتناثر: تتتبّع الخوارزميات مثل طريقة لوكاس-كانادي حركة مجموعة متفرقة من الميزات البارزة (مثل الزوايا) عبر الإطارات. هذه الطريقة فعالة من الناحية الحسابية ولكنها توفر معلومات الحركة للنقاط المحددة فقط.
  • التدفق البصري الكثيف: تهدف الخوارزميات مثل طريقة Horn-Schunck إلى حساب متجه حركة لكل بكسل في الصورة. يوفر هذا تمثيلًا أكثر ثراءً للحركة ولكنه أكثر كثافة من الناحية الحسابية.
  • مناهج التعلم العميق: غالبًا ما تستخدم الأساليب الحديثة الشبكات العصبية التلافيفية (CNNs) المدربة على مجموعات بيانات كبيرة لتقدير التدفق البصري. وقد أظهرت نماذج مثل FlowNet و RAFT (التحويلات الميدانية المتكررة لجميع الأزواج) أداءً فائقًا، مستفيدةً من قوة التعلم العميق (DL) لتعلم أنماط الحركة المعقدة. يمكن تطوير هذه النماذج باستخدام أطر عمل مثل PyTorch أو TensorFlow.

التدفق البصري مقابل المفاهيم ذات الصلة

من المهم التمييز بين التدفق البصري والمهام ذات الصلة:

  • اكتشاف الأجسام: تقوم هذه المهمة بتحديد وتحديد موقع الكائنات داخل إطار صورة واحدة باستخدام المربعات المحدودة، وعادةً ما يتم ذلك باستخدام نماذج مثل Ultralytics YOLO11. وهي تركز على ماهية الأجسام ومكانها، وليس على حركتها بين الإطارات. يمكنك استكشاف المقارنات بين نماذج YOLO المختلفة لمهام الكشف.
  • تتبُّع الأجسام: يتضمن هذا تتبع كائنات محددة مكتشفة عبر إطارات متعددة، مع الحفاظ على هويتها بمرور الوقت. في حين أن التدفق البصري يمكن أن يكون مكونًا مستخدمًا في خوارزميات التتبع (مثل DeepSORT)، يركز التتبع على مسارات الأجسام وثبات الهوية، وهي مهمة ذات مستوى أعلى من تقدير الحركة على مستوى البكسل. تدعم نماذج Ultralytics أوضاع تتبع الأجسام.
  • تقدير الحركة: هذا مصطلح أوسع يشمل تقنيات مختلفة لتحديد الحركة. التدفق البصري هو نوع محدد من تقدير الحركة يركز على الحركة الظاهرية ثنائية الأبعاد للبكسلات في مستوى الصورة، وغالبًا ما يختلف عن تقدير الحركة الحقيقية ثلاثية الأبعاد للأجسام في العالم.
  • تجزئة الصور: يتضمن ذلك تقسيم الصورة إلى أجزاء أو مناطق متعددة، وغالباً ما يكون ذلك لعزل الأجسام أو المناطق. في حين أن إشارات الحركة من التدفق البصري يمكن أن تساعد في التجزئة (تجزئة الحركة)، فإن الهدف الأساسي هو التحديد المكاني وليس حساب متجه الحركة. توفر مهام مثل تجزئة المثيل أقنعة لكل بكسل لكل مثيل كائن.

التطبيقات الواقعية

يعد التدفق البصري أمرًا بالغ الأهمية للعديد من التطبيقات التي تتطلب فهم الحركة من الفيديو:

  • ضغط الفيديو: تستخدم معايير مثل MPEG تقنيات تقدير الحركة المشابهة للتدفق البصري للتنبؤ بالإطارات اللاحقة بناءً على الإطارات السابقة. ومن خلال ترميز متجهات الحركة فقط وأخطاء التنبؤ (البقايا)، يتم تحقيق ضغط كبير للبيانات.
  • الأنظمة المستقلة: تستخدم المركبات والروبوتات ذاتية القيادة التدفق البصري لقياس المسافات البصرية (تقدير الحركة الذاتية)، واكتشاف العوائق، وفهم الحركة النسبية للأجسام في بيئتها. على سبيل المثال، تساعد السيارة ذاتية القيادة على تقدير سرعتها بالنسبة للطريق أو تتبع المركبات القريبة. تعتمد شركات مثل Waymo بشكل كبير على إدراك الحركة. استكشف الذكاء الاصطناعي في السيارات ذاتية القيادة لمزيد من المعلومات.
  • التعرّف على الحركة: غالبًا ما يتضمن فهم الأفعال البشرية في مقاطع الفيديو تحليل أنماط الحركة المستمدة من التدفق البصري.
  • تثبيت الفيديو: يمكن لتقنيات تثبيت الصورة الرقمية استخدام التدفق البصري لتقدير اهتزاز الكاميرا وتعويضه، مما ينتج مقاطع فيديو أكثر سلاسة.
  • تحليل الصور الطبية: يُستخدم لتتبع حركة الأنسجة، مثل حركة عضلة القلب في تخطيط صدى القلب أو تشوه الأعضاء أثناء العمليات الجراحية. انظر موارد مثل الأشعة: الذكاء الاصطناعي للاطلاع على التطورات ذات الصلة.
  • الروبوتات: تُمكِّن الروبوتات من التنقل والتفاعل مع الأجسام وأداء المهام استناداً إلى التغذية الراجعة البصرية حول الحركة في محيطها. وغالباً ما يتضمن التكامل مع أنظمة مثل ROS تحليل الحركة.

الأدوات والتنفيذ

توفّر مكتبات مثل OpenCV تطبيقات لخوارزميات التدفق البصري الكلاسيكية(OpenCV Optical Flow Tutorials). بالنسبة لمقاربات التعلّم العميق، توفر أطر مثل PyTorch و TensorFlow وغالبًا ما يتم استخدامها، وغالبًا ما تستفيد من النماذج المدربة مسبقًا والمتاحة من خلال منصات مثل Hugging Face. يتطلب تدريب هذه النماذج مجموعات بيانات فيديو واسعة النطاق مع معلومات التدفق الحقيقي، مثل مجموعات بيانات FlyingThings3D أو Sintel. يمكن أن تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات وسير عمل تدريب النماذج، على الرغم من أنها تركز بشكل أساسي على مهام مثل الكشف والتجزئة بدلاً من تقدير التدفق البصري مباشرةً.

قراءة الكل