انضم إلينا ونحن نستعيد حديثاً رئيسياً من YOLO Vision 2024 الذي يركز على استكشاف كيف تعمل أدوات Hugging Faceمفتوحة المصدر على تطوير الذكاء الاصطناعي.
يعد اختيار الخوارزميات الصحيحة جزءًا واحدًا فقط من بناء حلول الرؤية الحاسوبية المؤثرة. فغالباً ما يعمل مهندسو الذكاء الاصطناعي مع مجموعات بيانات كبيرة، ويقومون بضبط النماذج لمهام محددة، وتحسين أنظمة الذكاء الاصطناعي للأداء في العالم الحقيقي. ومع اعتماد تطبيقات الذكاء الاصطناعي بسرعة أكبر، تزداد الحاجة إلى الأدوات التي تبسّط هذه العمليات.
في فعالية YOLO Vision 2024 (YV24)، الحدث السنوي الهجين المدعوم من شركة Ultralytics اجتمع خبراء الذكاء الاصطناعي وعشاق التكنولوجيا لاستكشاف أحدث الابتكارات في مجال الرؤية الحاسوبية. أثار الحدث مناقشات حول مواضيع مختلفة، مثل طرق تسريع تطوير تطبيقات الذكاء الاصطناعي.
كان من أبرز ما تم تسليط الضوء عليه في هذا الحدث هو كلمة رئيسية عن Hugging Face Face، وهي منصة ذكاء اصطناعي مفتوحة المصدر تعمل على تبسيط تدريب النماذج وتحسينها ونشرها. شارك بافيل لاكوبوفسكي، مهندس التعلم الآلي في Hugging Face، كيف تعمل أدواته على تحسين سير العمل لمهام الرؤية الحاسوبية مثل اكتشاف الأجسام في الصور، وتصنيف الصور إلى مجموعات مختلفة، وإجراء تنبؤات دون تدريب مسبق على أمثلة محددة (التعلم بدون لقطات).
تستضيف Hugging Face Hub وتوفر إمكانية الوصول إلى العديد من نماذج الذكاء الاصطناعي والرؤية الحاسوبية مثل Ultralytics YOLO11. في هذه المقالة، سنلخص في هذه المقالة أهم ما جاء في حديث بافل ونرى كيف يمكن للمطورين استخدام أدوات Hugging Faceمفتوحة المصدر لبناء نماذج الذكاء الاصطناعي ونشرها بسرعة.
بدأ بافل حديثه بالتعريف بمنصة Hugging Face كمنصة ذكاء اصطناعي مفتوحة المصدر تقدم نماذج مدربة مسبقًا لمجموعة متنوعة من التطبيقات. تم تصميم هذه النماذج لمختلف فروع الذكاء الاصطناعي، بما في ذلك معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يتيح للأنظمة معالجة أنواع مختلفة من البيانات، مثل النصوص والصور والصوت.
ذكر بافيل أن Hugging Face Hub قد استضاف الآن أكثر من مليون نموذج، ويمكن للمطورين العثور بسهولة على النماذج المناسبة لمشاريعهم الخاصة. تهدف Hugging Face إلى تبسيط عملية تطوير الذكاء الاصطناعي من خلال تقديم أدوات لتدريب النماذج وضبطها ونشرها. عندما يتمكن المطورون من تجربة نماذج مختلفة، فإن ذلك يبسط عملية دمج الذكاء الاصطناعي في تطبيقات العالم الحقيقي.
في حين أن Hugging Face كانت معروفة في البداية في مجال البرمجة اللغوية العصبية، إلا أنها توسعت منذ ذلك الحين لتشمل الرؤية الحاسوبية والذكاء الاصطناعي متعدد الوسائط، مما يتيح للمطورين معالجة مجموعة واسعة من مهام الذكاء الاصطناعي. كما أن لديها أيضاً مجتمعاً قوياً حيث يمكن للمطورين التعاون ومشاركة الأفكار والحصول على الدعم من خلال المنتديات وDiscord وGitHub.
بمزيد من التفصيل، شرح بافل كيف تسهّل أدوات Hugging Faceبناء تطبيقات الرؤية الحاسوبية. يمكن للمطورين استخدامها لمهام مثل تصنيف الصور واكتشاف الأجسام وتطبيقات لغة الرؤية.
وأشار أيضاً إلى أنه يمكن التعامل مع العديد من مهام الرؤية الحاسوبية هذه باستخدام نماذج مدربة مسبقاً متاحة على منصة Hugging Face Hub، مما يوفر الوقت من خلال تقليل الحاجة إلى التدريب من الصفر. في الواقع، يقدم Hugging Face أكثر من 13,000 نموذج مدرب مسبقًا لمهام تصنيف الصور، بما في ذلك نماذج لتصنيف الطعام وتصنيف الحيوانات الأليفة واكتشاف المشاعر.
وتأكيدًا على سهولة الوصول إلى هذه النماذج، قال: "ربما لا تحتاج حتى إلى تدريب نموذج لمشروعك - فقد تجد نموذجًا على منصة Hub تم تدريبه بالفعل من قبل شخص من المجتمع."
وفي مثال آخر، شرح بافيل كيف يمكن أن تساعد Hugging Face في اكتشاف الأجسام، وهي وظيفة أساسية في الرؤية الحاسوبية تُستخدم لتحديد الأجسام داخل الصور وتحديد موقعها. حتى مع وجود بيانات موسومة محدودة، يمكن للنماذج المدربة مسبقًا والمتوفرة على مركز Hugging Face Hub أن تجعل اكتشاف الأجسام أكثر كفاءة.
كما قدم نظرة عامة سريعة على العديد من النماذج التي تم تصميمها لهذه المهمة والتي يمكنك العثور عليها على موقع Hugging Face:
ثم حوَّل بافل التركيز بعد ذلك إلى التدريب العملي على نماذج Hugging Face موضحًا ثلاث طرق يمكن للمطورين الاستفادة منها: استكشاف النماذج، واختبارها بسرعة، وتخصيصها بشكل أكبر.
وشرح كيف يمكن للمطورين تصفح النماذج مباشرةً على مركز Hugging Face Hub دون كتابة أي شيفرة، مما يسهل اختبار النماذج على الفور من خلال واجهة تفاعلية. وأضاف بافيل: "يمكنك تجربتها دون كتابة حتى سطر من التعليمات البرمجية أو تنزيل النموذج على حاسوبك". وبما أن بعض النماذج كبيرة، فإن تشغيلها على Hub يساعد على تجنب قيود التخزين والمعالجة.
أيضًا، تتيح واجهة برمجة تطبيقات الاستدلال على Hugging Face للمطورين تشغيل نماذج الذكاء الاصطناعي باستخدام مكالمات بسيطة لواجهة برمجة التطبيقات. وهي رائعة للاختبار السريع ومشاريع إثبات المفهوم والنماذج الأولية السريعة دون الحاجة إلى إعداد معقد.
بالنسبة لحالات الاستخدام الأكثر تقدمًا، يمكن للمطورين استخدام إطار عمل Hugging Face Transformers، وهو أداة مفتوحة المصدر توفر نماذج مدربة مسبقًا لمهام النص والرؤية والصوت مع دعم كل من PyTorch و TensorFlow. وأوضح بافيل أنه بسطرين فقط من التعليمات البرمجية، يمكن للمطورين استرداد نموذج من Hugging Face Hub وربطه بأداة معالجة مسبقة، مثل معالج الصور، لتحليل بيانات الصور لتطبيقات الذكاء الاصطناعي المرئي.
بعد ذلك، شرح بافل كيف يمكن لـ Hugging Face تبسيط سير عمل الذكاء الاصطناعي. كان أحد الموضوعات الرئيسية التي تناولها هو تحسين آلية الانتباه في المحولات، وهي ميزة أساسية لنماذج التعلم العميق التي تساعدها على التركيز على الأجزاء الأكثر صلة من بيانات الإدخال. وهذا يحسن دقة المهام التي تتضمن معالجة اللغة والرؤية الحاسوبية. ومع ذلك، يمكن أن تكون كثيفة الاستخدام للموارد.
يمكن أن يؤدي تحسين آلية الانتباه إلى تقليل استخدام الذاكرة بشكل كبير مع تحسين السرعة. أشار بافيل إلى أنه "على سبيل المثال، من خلال التحول إلى تطبيق انتباه أكثر كفاءة، يمكنك أن ترى أداءً أسرع بما يصل إلى 1.8 مرة."
يوفر Hugging Face دعمًا مدمجًا لتطبيقات انتباه أكثر كفاءة داخل إطار عمل المحولات. يمكن للمطوِّرين تمكين هذه التحسينات ببساطة عن طريق تحديد تطبيق انتباه بديل عند تحميل نموذج.
كما تحدث أيضاً عن التكميم، وهي تقنية تجعل نماذج الذكاء الاصطناعي أصغر حجماً عن طريق تقليل دقة الأرقام التي تستخدمها دون التأثير على الأداء كثيراً. يساعد ذلك النماذج على استخدام ذاكرة أقل وتشغيلها بشكل أسرع، مما يجعلها أكثر ملاءمة للأجهزة ذات طاقة المعالجة المحدودة، مثل الهواتف الذكية والأنظمة المدمجة.
ولزيادة تحسين الكفاءة، قدم بافل مكتبة Hugging Face Optimum، وهي مجموعة من الأدوات المصممة لتحسين النماذج ونشرها. من خلال بضعة أسطر فقط من التعليمات البرمجية، يمكن للمطورين تطبيق تقنيات التكميم وتحويل النماذج إلى تنسيقات فعالة مثل ONNX (Open Neural Network Exchange)، مما يسمح بتشغيلها بسلاسة على أنواع مختلفة من الأجهزة، بما في ذلك الخوادم السحابية والأجهزة المتطورة.
أخيرًا، ذكر بافل فوائد Torch Compile، وهي ميزة في PyTorch تعمل على تحسين كيفية معالجة نماذج الذكاء الاصطناعي للبيانات، مما يجعلها تعمل بشكل أسرع وأكثر كفاءة. تدمج Hugging Face Torch Compile في مكتباتها Transformers و Optimum، مما يتيح للمطورين الاستفادة من تحسينات الأداء هذه بأقل قدر من التغييرات في التعليمات البرمجية.
من خلال تحسين بنية حوسبة النموذج، يمكن ل Torch Compile تسريع أوقات الاستدلال وزيادة معدلات الإطارات من 29 إلى 150 إطاراً في الثانية دون المساس بالدقة أو الجودة.
بعد ذلك، تطرق بافل بإيجاز إلى كيفية قيام المطورين بتوسيع ونشر نماذج Vision AI باستخدام أدوات Hugging Face بعد اختيار النموذج المناسب واختيار أفضل نهج للتطوير.
على سبيل المثال، يمكن للمطورين نشر تطبيقات الذكاء الاصطناعي التفاعلية باستخدام Gradio و Streamlit. يتيح Gradio للمطورين إنشاء واجهات قائمة على الويب لنماذج التعلم الآلي، بينما يساعد Streamlit في إنشاء تطبيقات بيانات تفاعلية باستخدام نصوص برمجية بسيطة Python .
أشار بافل أيضًا إلى أنه "لست بحاجة إلى البدء في كتابة كل شيء من الصفر"، في إشارة إلى الأدلة ودفاتر التدريب وأمثلة البرامج النصية التي يوفرها Hugging Face . تساعد هذه الموارد المطورين على البدء بسرعة دون الحاجة إلى بناء كل شيء من الألف إلى الياء.
وفي ختام كلمته الرئيسية، لخص بافل مزايا استخدام Hugging Face Hub. وأكد على كيفية تبسيطه لإدارة النماذج والتعاون. كما لفت الانتباه إلى توافر الأدلة ودفاتر الملاحظات والبرامج التعليمية التي يمكن أن تساعد المبتدئين والخبراء على حد سواء على فهم نماذج الذكاء الاصطناعي وتنفيذها.
"هناك الكثير من المساحات الرائعة بالفعل على المنصة. يمكنك العثور على نماذج مشابهة، واستنساخ الكود المشترك، وتعديل بعض الأسطر، واستبدال النموذج بنموذجك الخاص، ثم إعادة نشره"، مشجعاً المطورين على الاستفادة من مرونة المنصة.
خلال حديثه في YV24، شارك بافل كيف يوفر Hugging Face أدوات تدعم تدريب نماذج الذكاء الاصطناعي وتحسينها ونشرها. على سبيل المثال، يمكن أن تساعد الابتكارات مثل Transformers و Optimum و Torch Compile المطورين على تحسين أداء النموذج.
مع ازدياد كفاءة نماذج الذكاء الاصطناعي، فإن التطورات في التكميم والنشر على الحواف تجعل من السهل تشغيلها على الأجهزة محدودة الموارد. تُعد هذه التحسينات، بالإضافة إلى أدوات مثل Hugging Face ونماذج الرؤية الحاسوبية المتقدمة مثل Ultralytics YOLO11 مفتاحاً لبناء تطبيقات ذكاء اصطناعي بصري قابلة للتطوير وعالية الأداء.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعرف على الذكاء الاصطناعي، وتحقق من تراخيصyolo لبدء مشاريع الرؤية بالذكاء الاصطناعي الخاصة بك. هل أنت مهتم بابتكارات مثل الرؤية الحاسوبية في الرعاية الصحية أو الرؤية الحاسوبية في الزراعة؟ تفضل بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد!