استكشف تقدير النقاط الرئيسية لليد المعتمدة على الذكاء الاصطناعي مع دعم Ultralytics YOLO11 لتقدير الوضعية في تطبيقات مثل التعرف على الإيماءات في الوقت الفعلي.
في الآونة الأخيرة، اكتسب مترجمو لغة الإشارة في مباراة السوبر بول الكثير من الاهتمام. عندما تشاهدهم وهم يغنون أغنية فنانك المفضل على شاشة التلفزيون، يمكنك فهمهم إذا كنت تعرف لغة الإشارة لأن دماغك يعالج حركات أيديهم. ولكن ماذا لو كان بإمكان الكمبيوتر أن يفعل الشيء نفسه؟ بفضل حلول تتبع اليدين التي تعتمد على الذكاء الاصطناعي، أصبح من الممكن للآلات تتبع حركات اليدين وتفسيرها بدقة مذهلة.
ويقع في صميم هذه الحلول مجال الرؤية الحاسوبية، وهو مجال فرعي للذكاء الاصطناعي يمكّن الآلات من معالجة المعلومات المرئية وفهمها. من خلال تحليل الصور ومقاطع الفيديو، يساعد الذكاء الاصطناعي البصري على اكتشاف الأشياء وتتبع الحركات والتعرف على الإيماءات المعقدة بدقة ملحوظة.
على سبيل المثال، نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 على اكتشاف وتحليل النقاط الرئيسية لليد في الوقت الفعلي باستخدام تقدير الوضعية. وبذلك، يمكن استخدام هذه النماذج في تطبيقات مثل التعرف على الإيماءات وترجمة لغة الإشارة وتفاعلات الواقع المعزز/الواقع الافتراضي.
في هذه المقالة، سنستكشف في هذه المقالة كيفية تمكين YOLO11 من تتبع اليد القائم على الذكاء الاصطناعي، ومجموعات البيانات المستخدمة للتدريب، وكيفية تدريب نموذج مخصص لتقدير وضعية اليد. سنلقي نظرة أيضًا على تطبيقات العالم الحقيقي. لنبدأ!
يمكن استخدام الذكاء الاصطناعي للتعرف على حركات اليد وتتبعها في البيانات المرئية من خلال تحديد النقاط الرئيسية مثل المعصم وأطراف الأصابع ومفاصل الأصابع. يساعد أحد الأساليب، المعروف باسم تقدير الوضع، أجهزة الكمبيوتر على فهم حركة الإنسان من خلال تعيين النقاط الرئيسية وتحليل كيفية تغيرها بمرور الوقت. وهذا يسمح لأنظمة الذكاء الاصطناعي بتفسير وضعية الجسم والإيماءات وأنماط الحركة بدقة عالية.
تجعل نماذج الرؤية الحاسوبية هذا الأمر ممكناً من خلال تحليل الصور أو مقاطع الفيديو لتحديد النقاط الرئيسية على اليد وتتبع حركتها. بمجرد تعيين هذه النقاط، يمكن للذكاء الاصطناعي التعرف على الإيماءات من خلال تحليل العلاقات المكانية بين النقاط الرئيسية وكيفية تغيرها بمرور الوقت.
على سبيل المثال، إذا انخفضت المسافة بين إصبع الإبهام والسبابة، يمكن للذكاء الاصطناعي تفسير ذلك على أنه حركة قرص. وبالمثل، يساعد تتبع كيفية تحرك نقاط المفاتيح في تسلسلات في تحديد إيماءات اليد المعقدة وحتى التنبؤ بالحركات المستقبلية.
ومن المثير للاهتمام أن تقدير الوضعية لتتبع اليدين قد فتح إمكانيات مثيرة للاهتمام، بدءاً من التحكم بدون استخدام اليدين في الأجهزة الذكية إلى تحسين دقة الروبوتات والمساعدة في تطبيقات الرعاية الصحية. مع استمرار تطور الذكاء الاصطناعي والرؤية الحاسوبية، من المرجح أن يلعب تتبع اليدين دوراً أكبر في جعل التكنولوجيا أكثر تفاعلية وسهولة في الوصول إليها وبديهية في الحياة اليومية.
قبل أن نتعمق في كيفية إنشاء حل لتتبع اليد القائم على الذكاء الاصطناعي، دعنا نلقي نظرة فاحصة على تقدير الوضعية وكيف يدعم YOLO11 مهمة الرؤية الحاسوبية هذه. على عكس اكتشاف الأجسام القياسي، الذي يحدد الأجسام بأكملها، يركز تقدير الوضعية على اكتشاف المعالم الرئيسية - مثل المفاصل أو الأطراف أو الحواف - لتحليل الحركة والوضعية.
وعلى وجه التحديد، تم تصميم Ultralytics YOLO11 لتقدير الوضعية في الوقت الفعلي. ومن خلال الاستفادة من كل من الطريقتين من أعلى إلى أسفل ومن أسفل إلى أعلى، فإنه يكتشف الأشخاص بكفاءة ويقدّر النقاط الرئيسية في خطوة واحدة، متفوقاً بذلك على النماذج السابقة من حيث السرعة والدقة.
من خارج الصندوق، يأتي YOLO11 مدربًا مسبقًا على مجموعة بيانات COCO-Pose ويمكنه التعرف على النقاط الرئيسية في جسم الإنسان، بما في ذلك الرأس والكتفين والمرفقين والمعصمين والوركين والركبتين والكاحلين.
بالإضافة إلى تقدير الوضعية البشرية، يمكن تدريب YOLO11 بشكل مخصص لاكتشاف النقاط الرئيسية على مجموعة متنوعة من الأجسام، سواءً كانت متحركة أو غير متحركة. تجعل هذه المرونة من YOLO11 خيارًا رائعًا لمجموعة كبيرة من التطبيقات.
تتمثل الخطوة الأولى في التدريب المخصص للنموذج في جمع البيانات وتعليقها أو العثور على مجموعة بيانات موجودة تناسب احتياجات المشروع. على سبيل المثال، تُعد مجموعة بيانات Hand Keypoints نقطة بداية جيدة لتدريب نماذج Vision AI لتتبع اليد وتقدير الوضعية. فهي تحتوي على 26,768 صورة مشروحة، مما يلغي الحاجة إلى وضع العلامات يدويًا.
يمكن استخدامه لتدريب نماذج مثل Ultralytics YOLO11 لتتعلم بسرعة كيفية اكتشاف حركات اليد وتتبعها. تتضمن مجموعة البيانات 21 نقطة أساسية لكل يد، تغطي المعصم والأصابع والمفاصل. كما تم إنشاء التعليقات التوضيحية لمجموعة البيانات باستخدام Google MediaPipe، وهي أداة لتطوير حلول مدعومة بالذكاء الاصطناعي لمعالجة الوسائط في الوقت الفعلي، مما يضمن اكتشاف نقاط المفاتيح بدقة وموثوقية.
إن استخدام مجموعة بيانات منظمة كهذه يوفر الوقت ويتيح للمطورين التركيز على تدريب نماذجهم وضبطها بدلاً من جمع البيانات وتمييزها. في الواقع، مجموعة البيانات مقسّمة بالفعل إلى مجموعات فرعية للتدريب (18,776 صورة) والتحقق من الصحة (7,992 صورة)، مما يسهّل تقييم أداء النموذج.
يُعدّ تدريب YOLO11 لتقدير وضعية اليد عملية مباشرة، خاصةً مع حزمةUltralytics Python مما يجعل إعداد النموذج وتدريبه أسهل. نظرًا لأن مجموعة بيانات Hand Keypoints مدعومة بالفعل في خط أنابيب التدريب، يمكن استخدامها على الفور دون الحاجة إلى تنسيق إضافي، مما يوفر الوقت والجهد.
إليك كيفية سير عملية التدريب
بالانتقال إلى خطوات إنشاء نموذج مخصص، ستلاحظ أن مراقبة الأداء أمر ضروري. إلى جانب تتبع التقدم المحرز أثناء التدريب، فإن تقييم النموذج بعد ذلك أمر بالغ الأهمية للتأكد من أنه يكتشف ويتتبع النقاط الرئيسية لليد بدقة.
تساعد مقاييس الأداء الرئيسية مثل الدقة وقيم الخسارة ومتوسط متوسط الدقة (mAP) في تقييم مدى جودة أداء النموذج. وتوفر حزمة Ultralytics Python أدوات مدمجة لتصور النتائج ومقارنة التنبؤات مع التعليقات التوضيحية الحقيقية، مما يسهل اكتشاف مجالات التحسين.
لفهم أداء النموذج بشكل أفضل، يمكنك التحقق من الرسوم البيانية للتقييم مثل منحنيات الخسارة، ومخططات الدقة والاستدعاء ومصفوفات الارتباك، والتي يتم إنشاؤها تلقائيًا في سجلات التدريب.
تساعد هذه الرسوم البيانية في تحديد مشكلات مثل الإفراط في التهيئة (عندما يحفظ النموذج بيانات التدريب ولكنه يعاني من صعوبة في التعامل مع البيانات الجديدة) أو عدم التهيئة (عندما يفشل النموذج في تعلم الأنماط بشكل جيد بما يكفي لأداء دقيق) وتوجيه التعديلات لتحسين الدقة. من المهم أيضًا اختبار النموذج على صور أو مقاطع فيديو جديدة لمعرفة مدى نجاحه في سيناريوهات العالم الحقيقي.
بعد ذلك، دعنا نتعرف على بعض التطبيقات الأكثر تأثيرًا لتقدير النقاط الرئيسية اليدوية باستخدامYOLO11 Ultralytics YOLO11.
لنفترض أن بإمكانك ضبط مستوى الصوت في تلفازك بمجرد التلويح بيدك أو التنقل في نظام المنزل الذكي بتمريرة بسيطة في الهواء. يجعل التعرف على الإيماءات في الوقت الفعلي المدعوم من YOLO11 هذه التفاعلات الخالية من اللمس ممكنة من خلال اكتشاف حركات اليد بدقة في الوقت الفعلي.
يعمل ذلك باستخدام كاميرات الذكاء الاصطناعي لتتبع النقاط الرئيسية في يدك وتفسير الإيماءات كأوامر. تقوم كاميرات استشعار العمق أو مستشعرات الأشعة تحت الحمراء أو حتى كاميرات الويب العادية بالتقاط حركات اليد، بينما يستطيع YOLO11 معالجة البيانات للتعرف على الإيماءات المختلفة. على سبيل المثال، يمكن لمثل هذا النظام معرفة الفرق بين التمرير لتغيير الأغنية، أو القرص للتكبير، أو الحركة الدائرية لضبط مستوى الصوت.
يمكن أن تدعم حلول الذكاء الاصطناعي لتتبع اليدين التواصل السلس بين شخص أصم وشخص لا يعرف لغة الإشارة. على سبيل المثال، يمكن استخدام الأجهزة الذكية المدمجة مع الكاميرات و YOLO11 لترجمة لغة الإشارة إلى نص أو كلام على الفور.
بفضل التطورات مثل YOLO11 أصبحت أدوات ترجمة لغة الإشارة أكثر دقة وسهولة في الوصول إليها. يؤثر ذلك على تطبيقات مثل التكنولوجيا المساعدة وخدمات الترجمة المباشرة والمنصات التعليمية. يمكن أن يساعد الذكاء الاصطناعي في سد فجوات التواصل وتعزيز الشمولية في أماكن العمل والمدارس والأماكن العامة.
هل سبق لك أن لعبت لعبة واقع افتراضي (VR) حيث يمكنك الإمساك بالأشياء دون استخدام وحدة تحكم؟ يجعل تتبع اليدين المدعوم بالرؤية الحاسوبية هذا الأمر ممكناً من خلال السماح للمستخدمين بالتفاعل بشكل طبيعي في بيئات الواقع المعزز (AR) والواقع الافتراضي.
من خلال تقدير النقاط الرئيسية لليد باستخدام نماذج مثل Ultralytics YOLO11 يتتبع الذكاء الاصطناعي الحركات في الوقت الفعلي، مما يتيح إيماءات مثل القرص والإمساك والتمرير. وهذا يعزز الألعاب والتدريب الافتراضي والتعاون عن بُعد، مما يجعل التفاعلات أكثر سهولة. مع تحسن تقنية تتبع اليدين، ستشعر الواقع المعزز والواقع الافتراضي بمزيد من الانغماس والواقعية.
يعمل تقدير النقاط الرئيسية لليد باستخدام Ultralytics YOLO11 على جعل حلول تتبع اليدين القائمة على الذكاء الاصطناعي أكثر سهولة وموثوقية. من التعرّف على الإيماءات في الوقت الفعلي إلى تفسير لغة الإشارة وتطبيقات الواقع المعزز/الواقع الافتراضي، تفتح الرؤية الحاسوبية إمكانيات جديدة في التفاعل بين الإنسان والحاسوب.
كما أن التدريب المخصص المبسط وعمليات الضبط الدقيق تساعد المطورين على بناء نماذج فعالة لمختلف الاستخدامات في العالم الحقيقي. ومع تطور تكنولوجيا الرؤية الحاسوبية، يمكننا أن نتوقع المزيد من الابتكارات في مجالات مثل الرعاية الصحية والروبوتات والألعاب والأمان.
تفاعل مع مجتمعنا واستكشف تطورات الذكاء الاصطناعي على مستودع GitHub الخاص بنا. اكتشف تأثير الذكاء الاصطناعي في التصنيع والرؤية الحاسوبية في مجال الرعاية الصحية من خلال صفحات الحلول الخاصة بنا. استكشف خطط الترخيص لدينا وابدأ رحلتك مع الذكاء الاصطناعي اليوم!