تعرّف على كيفية الاستفادة من Google Gemini 2.5 في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، والتعليق على الصور، والتعرف الضوئي على الحروف لحلول الذكاء الاصطناعي المرئي.
تتقدم تطورات الذكاء الاصطناعي بسرعة، حيث تتصدر الابتكارات الجديدة عناوين الأخبار كل يوم تقريباً. أحد هذه الابتكارات الحديثة هو Gemini 2.5، وهو أحدث نموذج متعدد الوسائط من Google DeepMind، والذي تم إطلاقه في 26 مارس. بينما يمكن لنماذج اللغات الكبيرة التقليدية (LLMs) أن تتعلم من كميات هائلة من البيانات لتوليد نصوص شبيهة بالنصوص البشرية، فإن Gemini 2.5 يتجاوز ذلك.
تم تصميمه "كنموذج تفكير" يمكنه معالجة الصور والصوت والفيديو. لديه مهارات تفكير وترميز محسّنة. ومن المثير للاهتمام، أنه يؤدي أيضًا أداءً جيدًا بشكل استثنائي فيما يتعلق بمهام الرؤية الحاسوبية، حيث تقوم الآلات بتفسير وتحليل البيانات المرئية، مثل اكتشاف الأشياء، والتعليق على الصور، والتعرف البصري على الحروف (OCR).
في هذه المقالة، سنستعرض في هذه المقالة أحد دفاتر ملاحظات Ultralyticsالتي يمكن أن تساعدك في الحصول على التدريب العملي على إمكانات رؤية الكمبيوتر في Gemini 2.5. سنلقي أيضًا نظرة فاحصة على الميزات الرئيسية ل Gemini 2.5 ونعرض كيف يمكن استخدامه لبناء حلول رؤية الكمبيوتر لتطبيقات العالم الحقيقي. لنبدأ!
الإصدار الأول في سلسلة طراز Gemini 2.5 الذي تم إصداره للتو هو إصدار تجريبي من Gemini 2.5 Pro. وهو مصمم للتعامل مع المشاكل المعقدة من خلال التفكير في استجاباته قبل إعطاء إجابة. ويستخدم أساليب مثل التعلم المعزز (حيث يتعلم النموذج من التغذية الراجعة) وسلسلة التفكير (نهج تدريجي لحل المشاكل خطوة بخطوة).
تتمثل إحدى ميزاته الرئيسية في نافذة السياق الضخمة، والتي يمكن أن تستوعب مليون رمز (حوالي مليون كلمة أو جزء كلمة) ومن المتوقع أن تنمو إلى مليوني رمز. وهذا يعني أن النموذج يمكنه استيعاب الكثير من المعلومات في وقت واحد، مما يؤدي إلى نتائج أكثر تفصيلاً ودقة.
بالإضافة إلى لغة المعالجة، يمكن استخدام Gemini 2.5 في مهام الرؤية الحاسوبية التالية:
هناك العديد من النماذج متعددة الوسائط المتاحة في مجال الذكاء الاصطناعي اليوم، لذا من المهم فهم كيفية مقارنة Gemini 2.5 Pro بها. استنادًا إلى نتائج القياس التي شاركتها شركة DeepMind التابعة لشركة Google يُظهر Gemini 2.5 Pro أداءً مذهلاً عبر مجموعة من المهام.
على سبيل المثال، في اختبار يسمى امتحان الإنسانية الأخير، والذي يحاكي اختبارًا صعبًا يغطي العديد من المواد ويختبر التفكير المتقدم والمعرفة العامة، حقق Gemini 2.5 Pro حوالي 18.8%، متفوقًا على نماذج مثل OpenAI o3-mini، الذي حقق حوالي 14%.
كما أنه يؤدي أداءً جيدًا جدًا في تحديات الرياضيات والترميز، وغالبًا ما يطابق أو يتجاوز أداء نماذج مثل OpenAI GPT-4.5، وClaude 3.7 Sonnet، وGrok 3 Beta، وDebSeek R1، مما يدل على قدرته على التعامل مع المهام المعقدة ومعالجة كميات كبيرة من البيانات.
يتوفر Gemini 2.5 Pro على منصات متعددة. يمكنك تجربته في Google AI Studio والوصول إليه من خلال تطبيق Gemini لمستخدمي Gemini Advanced. في إعلان إطلاقه، ذكر Google DeepMind أيضًا في إعلان إطلاقه أنه سيتم دعم النموذج على Vertex AI قريبًا. تجعل نقاط الوصول هذه من السهل على المطورين استخدام Gemini 2.5 Pro لتطبيقات الذكاء الاصطناعي في العالم الحقيقي.
ومع ذلك، إذا كنت ترغب في استخدام واجهة برمجة تطبيقات Google Gemini API والبدء في بضع دقائق فقط دون إعداد معقد وتتطلع إلى فهم أفضل لقدرات الرؤية الحاسوبية الخاصة به، يمكنك الاطلاع على دفتر ملاحظاتUltralytics الذي يعرض مهام مثل اكتشاف الكائنات والتعليق على الصور باستخدام Gemini 2.5 Pro. دعنا نستعرض ما يمكنك توقعه في دفتر الملاحظات بالتفصيل.
للبدء في استخدام دفتر ملاحظات Ultralytics واستخدام Google Gemini 2.5، ستحتاج أولاً إلى إنشاء مفتاح واجهة برمجة التطبيقات من خلال Google AI Studio. يمنحك هذا المفتاح إمكانية الوصول إلى واجهة برمجة تطبيقات Gemini حتى تتمكن من استخدام النموذج.
بمجرد حصولك على مفتاح واجهة برمجة التطبيقات، تأكد من أن بيئتك تحتوي على المكتبات الضرورية المثبتة - وتشمل هذه الحزم من Ultralytics ومجموعة أدوات الذكاء الاصطناعي من Google. هذه الخطوة موضحة بوضوح في دفتر الملاحظات، بحيث يمكنك بسهولة اتباع التعليمات لإعداد مساحة العمل الخاصة بك.
مع تهيئة كل شيء، يمكنك الاتصال بواجهة برمجة تطبيقات Gemini عن طريق إدخال مفتاح واجهة برمجة التطبيقات (كما هو موضح أدناه)، مما يؤدي إلى إنشاء رابط بين مساحة العمل الخاصة بك والنموذج. بعد ذلك، ستكون جاهزًا لإرسال الصور والمطالبات النصية إلى Gemini 2.5.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
بشكل أساسي، يمكنك تقديم صورة وتعليمات بسيطة (مثل "اكتشاف الأجسام في هذه الصورة" أو "وصف ما تراه") إلى النموذج، وسيقوم بإرجاع النتائج التي تحتاجها. هذه العملية المباشرة تجعل من السهل البدء في استكشاف قدرات الرؤية الحاسوبية في Gemini 2.5.
أحد الأمثلة الرئيسية في الدفتر هو اكتشاف الأجسام باستخدام Gemini 2.5 Pro. في هذا المثال، تزود النموذج بصورة ومطالبة بسيطة للكشف عن الأجسام.
يقوم النموذج بمعالجة الصورة وإرجاع مجموعة من الإحداثيات والتسميات لكل كائن يعثر عليه؛ يتم إعطاء هذه الإحداثيات في شكل طبيعي. ثم تُستخدم الدوال من حزمةUltralytics Python لتحويل هذه القيم المعيارية لتطابق الأبعاد الفعلية للصورة ورسم مربعات محددة واضحة حول كل كائن كما هو موضح أدناه.
مثال آخر مثير للاهتمام في دفتر الملاحظات هو التعليق على الصور باستخدام Gemini 2.5 Pro. في هذا المثال، تزود النموذج بصورة ومطالبة تطلب منه إنشاء تعليق تفصيلي يصف ما في الصورة.
يقوم النموذج بعد ذلك بتحليل المحتوى المرئي وإرجاع سرد، غالبًا ما يتم تنسيقه على شكل جمل متعددة، يلتقط محتوى الصورة وسياقها. هذه الميزة مفيدة في تحسين إمكانية الوصول، وتلخيص المعلومات المرئية، وحتى تعزيز السرد القصصي الإبداعي.
تتمثل إحدى مهام الرؤية الحاسوبية التي تستخدم قدرة Gemini 2.5 Pro على قراءة النصوص في الصور في التعرف الضوئي على الحروف. في دفتر الملاحظات، يمكنك تزويد النموذج بصورة تحتوي على نص مع مطالبة باستخراج هذا النص. يعالج النموذج الصورة ويعيد كلاً من النص المكتشف والإحداثيات التي يقع فيها النص، كما هو موضح أدناه.
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
تُستخدم بعد ذلك وظائف من حزمة Ultralytics Python لتحويل هذه الإحداثيات المُعدَّلة إلى الأبعاد الفعلية للصورة ورسم مربعات محددة حول مناطق النص. يوضح هذا الإخراج المشروح مكان وجود النص، وهو أمر مفيد لرقمنة المستندات، وأتمتة إدخال البيانات، وتحسين إمكانية الوصول.
والآن بعد أن استعرضنا كيف يمكن استخدام Google Gemini 2.5 Pro في مهام الرؤية الحاسوبية المختلفة، دعونا نستكشف بعض التطبيقات الواقعية التي يمكن استخدام هذه الإمكانيات فيها.
على سبيل المثال، يمكن أن تساعد قدرة Gemini 2.5 Pro على اكتشاف الكائنات في Gemini 2.5 Pro في تصنيف مجموعات كبيرة من الصور وتنظيمها تلقائيًا، مما يجعل مهام مثل إنشاء مجموعة البيانات أو إدارة المحتوى أسرع بكثير. يمكن استخدامه أيضًا لتحليل الصور في مجالات مثل البيع بالتجزئة والزراعة - على سبيل المثال، اكتشاف المنتجات على الرفوف أو تحديد علامات إجهاد المحاصيل في صور المزارع.
وفي الوقت نفسه، يمكن لخاصية التعليق على الصور في النموذج مساعدة المستخدمين ضعاف البصر على فهم ما يوجد في الصورة. على سبيل المثال، إذا كانت لديك صورة لشارع مزدحم، فقد ينتج النموذج تعليقًا يصف المشهد بالتفصيل، مع ذكر أنواع المركبات ونشاط المشاة وحتى الوقت من اليوم بناءً على إشارات الإضاءة.
بالإضافة إلى ذلك، يمكن استخدام وظيفة التعرف الضوئي على الحروف في Gemini 2.5 في مجموعة متنوعة من التطبيقات. على سبيل المثال، يمكنك رقمنة المستندات المطبوعة عن طريق المسح الضوئي للصفحات أو الإيصالات. هذه الإمكانية مثالية لأتمتة مهام إدخال البيانات أو معالجة النماذج أو حتى قراءة النصوص من بطاقات العمل واللافتات.
بشكل عام، يفتح Google Gemini 2.5 Pro الأبواب أمام مجموعة واسعة من تطبيقات الذكاء الاصطناعي العملية.
بالإضافة إلى توليد النصوص وتحليلها، يمكن استخدام Google Gemini 2.5 Pro في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، والتعليق على الصور، والتعرف الضوئي على الحروف. وبفضل نافذة السياق الضخمة وقدرات الاستدلال المحسّنة التي يوفرها البرنامج، فإنه ينتج نتائج مفصّلة ومراعية للسياق تعمل بشكل جيد في سيناريوهات العالم الحقيقي.
مع استمرار تطور نماذج الذكاء الاصطناعي في التطور، تعمل أدوات مثل Gemini 2.5 Pro على تسهيل حل المشكلات المعقدة في مختلف الصناعات. من المحتمل أن نشهد اعتمادًا أوسع نطاقًا للذكاء الاصطناعي حيث تبحث المزيد من المؤسسات عن حلول مرنة ومتعددة الوسائط يمكنها التعامل مع مجموعة واسعة من المهام، بدءًا من الفهم البصري إلى معالجة اللغة.
كن جزءاً من مجتمعنا وتعرف على أحدث مشاريع الذكاء الاصطناعي على مستودع GitHub الخاص بنا. اطلع على تطبيقات الذكاء الاصطناعي البصري في الزراعة ودور الذكاء الاصطناعي في التصنيع على صفحات الحلول الخاصة بنا. استكشف خطط الترخيص لدينا وقم ببناء حلول الرؤية الحاسوبية اليوم!