GooglePaliGemma 2: نظرة ثاقبة على نماذج VLM المتقدمة

انضم إلينا ونحن نلقي نظرة فاحصة على نماذج لغة الرؤية الجديدة Google: PaliGemma 2. يمكن أن تساعد هذه النماذج في فهم وتحليل كل من الصور والنصوص.

كتبه

أبيرامي فينا

قراءة دقيقة

6 ديسمبر 2024

أبريل 3, 2025

من جيما 2 إلى بالي جيما 2

كيفية عمل نماذج PaliGemma 2 VLM من Google

الإمكانات الرئيسية ل PaliGemma 2

مقارنة بين PaliGemma 2 و PaliGemma: ما الذي تم تحسينه؟

تطبيقات PaliGemma 2: استخدامات العالم الحقيقي لنماذج VLM

جرّبها بنفسك: بالي جيما 2

إيجابيات وسلبيات جهاز PaliGemma 2 من Google

الوجبات الرئيسية

في 5 ديسمبر 2024، طرحت الشركة Google PaliGemma 2، وهو أحدث إصدار من نموذجها المتطور للغة الرؤية (VLM). صُمم PaliGemma 2 للتعامل مع المهام التي تجمع بين الصور والنصوص، مثل إنشاء التسميات التوضيحية والإجابة عن الأسئلة المرئية واكتشاف الأشياء في المرئيات.

استنادًا إلى PaliGemma الأصلي، الذي كان بالفعل أداة قوية للتعليق متعدد اللغات والتعرف على الأشياء، يجلب PaliGemma 2 العديد من التحسينات الرئيسية. وتشمل هذه التحسينات أحجام نماذج أكبر، ودعم الصور عالية الدقة، وأداء أفضل في المهام البصرية المعقدة. هذه الترقيات تجعلها أكثر مرونة وفعالية لمجموعة واسعة من الاستخدامات.

في هذه المقالة، سنلقي نظرة فاحصة على PaliGemma 2، بما في ذلك كيفية عمله، وميزاته الرئيسية، والتطبيقات التي يتألق فيها. لنبدأ!

من جيما 2 إلى بالي جيما 2

تم بناء PaliGemma 2 على تقنيتين رئيسيتين: مشفر الرؤية SigLIP ونموذج لغة Gemma 2. يعالج مشفر SigLIP البيانات المرئية، مثل الصور أو مقاطع الفيديو، ويقسمها إلى ميزات يمكن للنموذج تحليلها. وفي الوقت نفسه، يتعامل Gemma 2 مع النصوص، مما يمكّن النموذج من فهم وتوليد لغة متعددة اللغات. يشكلان معًا نموذج VLM، مصمم لتفسير المعلومات المرئية والنصية وربطها بسلاسة.

ما يجعل PaliGemma 2 خطوة كبيرة إلى الأمام هو قابليته للتوسع وتعدد استخداماته. على عكس الإصدار الأصلي، يأتي PaliGemma 2 بثلاثة أحجام - 3 مليار (3B) و10 مليار (10B) و28 مليار (28B) معلمة. تشبه هذه المعلمات الإعدادات الداخلية للنموذج، مما يساعده على تعلم البيانات ومعالجتها بفعالية. كما أنه يدعم أيضًا دقة صور مختلفة (على سبيل المثال، 224 × 224 بكسل للمهام السريعة و896 × 896 بكسل للتحليل التفصيلي)، مما يجعله قابلاً للتكيف مع مختلف التطبيقات.

‍

إن دمج إمكانيات لغة Gemma 2 المتقدمة مع معالجة الصور في SigLIP يجعل PaliGemma 2 أكثر ذكاءً بشكل ملحوظ. يمكنه التعامل مع مهام مثل:

تعليق الصور أو مقاطع الفيديو: يمكن للنموذج إنشاء أوصاف نصية مفصلة للصور المرئية، مما يجعله مفيدًا في إنشاء التسميات التوضيحية تلقائيًا.
‍
الإجابة عن الأسئلة المرئية: يمكن ل PaliGemma 2 الإجابة عن الأسئلة بناءً على الصور، مثل تحديد الأشياء أو الأشخاص أو الأفعال في المشهد.
‍
التعرف على الكائن: يقوم بتحديد وتسمية الأشياء داخل الصورة، مثل التمييز بين قطة أو طاولة أو سيارة في صورة.

يتخطى PaliGemma 2 معالجة الصور والنصوص بشكل منفصل - فهو يجمعهما معاً بطرق مفيدة. على سبيل المثال، يمكنه فهم العلاقات في المشهد، مثل التعرف على أن "القطة تجلس على الطاولة"، أو التعرف على الأشياء مع إضافة السياق، مثل التعرف على معلم شهير.

كيفية عمل نماذج PaliGemma 2 VLM من Google

بعد ذلك، سنستعرض مثالاً باستخدام الرسم البياني الموضح في الصورة أدناه للحصول على فهم أفضل لكيفية معالجة PaliGemma 2 للبيانات المرئية والنصية. لنفترض أنك قمت بتحميل هذا الرسم البياني واسأل النموذج، "ماذا يمثل هذا الرسم البياني؟

تبدأ العملية باستخدام برنامج تشفير الرؤية SigLIP من PaliGemma 2 لتحليل الصور واستخراج الميزات الرئيسية. بالنسبة للرسم البياني، يتضمن ذلك تحديد عناصر مثل المحاور ونقاط البيانات والتسميات. يتم تدريب أداة التشفير على التقاط كل من الأنماط العامة والتفاصيل الدقيقة. كما يستخدم أيضًا أداة التعرّف الضوئي على الحروف (OCR) لاكتشاف ومعالجة أي نص مضمن في الصورة. يتم تحويل هذه الميزات المرئية إلى رموز، وهي تمثيلات رقمية يمكن للنموذج معالجتها. يتم بعد ذلك تعديل هذه الرموز باستخدام طبقة الإسقاط الخطي، وهي تقنية تضمن إمكانية دمجها بسلاسة مع البيانات النصية.

في الوقت نفسه، يقوم نموذج لغة Gemma 2 بمعالجة الاستعلام المصاحب لتحديد معناه ومقصده. يتم تحويل النص من الاستعلام إلى رموز، ويتم دمج هذه الرموز مع الرموز المرئية من SigLIP لإنشاء تمثيل متعدد الوسائط، وهو تنسيق موحد يربط بين البيانات المرئية والنصية.

باستخدام هذا التمثيل المتكامل، يُنشئ PaliGemma 2 استجابة خطوة بخطوة من خلال فك التشفير الانحداري التلقائي، وهي طريقة يتنبأ فيها النموذج بجزء واحد من الإجابة في كل مرة بناءً على السياق الذي سبق أن عالجته.

الإمكانات الرئيسية ل PaliGemma 2

والآن بعد أن فهمنا كيفية عمله، دعونا نستكشف الميزات الرئيسية التي تجعل من PaliGemma 2 نموذجاً موثوقاً للغة الرؤية:

مرونة الضبط الدقيق: تتكيف بسهولة مع مجموعات بيانات ومهام محددة، وتؤدي أداءً جيدًا في تطبيقات مثل شرح الصور، والاستدلال المكاني، والتصوير الطبي.
‍
بيانات التدريب المتنوعة: تم تدريبه على مجموعات بيانات مثل WebLI و OpenImages، مما يمنحه قدرات قوية في التعرف على الأشياء وقدرات إخراج متعددة اللغات.
‍
تكامل التعرف الضوئي على الحروف: يتضمن التعرف الضوئي على الحروف لاستخراج النصوص من الصور وتفسيرها، مما يجعله مثاليًا لتحليل المستندات والمهام الأخرى القائمة على النصوص.
‍
مخرجات متعددة اللغات: يولد تعليقات واستجابات بلغات متعددة، وهو مثالي للتطبيقات العالمية.
‍
التكامل مع الأدوات: وهو متوافق مع أطر العمل مثل Hugging Face Transformers و PyTorch و Keras، مما يتيح سهولة النشر والتجريب.

مقارنة بين PaliGemma 2 و PaliGemma: ما الذي تم تحسينه؟

يعد إلقاء نظرة على بنية الإصدار الأول من PaliGemma طريقة جيدة لرؤية تحسينات PaliGemma 2. أحد أبرز التغييرات البارزة هو استبدال نموذج لغة Gemma الأصلي بنموذج Gemma 2، والذي يجلب تحسينات كبيرة في كل من الأداء والكفاءة.

تم تصميم Gemma 2، المتوفر في أحجام معلمات 9B و27B، لتقديم دقة وسرعة رائدة في فئتها مع تقليل تكاليف النشر. وهو يحقق ذلك من خلال بنية معاد تصميمها تم تحسينها لتحقيق كفاءة الاستدلال عبر إعدادات الأجهزة المختلفة، بدءًا من وحدات معالجة الرسومات القوية إلى التكوينات الأكثر سهولة.

الشكل 3. النظر إلى الإصدار الأول من PaliGemma 2.

‍

ونتيجة لذلك، فإن PaliGemma 2 هو نموذج دقيق للغاية. يحقق الإصدار 10B من PaliGemma 2 درجة أقل في عدم دقة الجمل غير المتصلة (NES) تبلغ 20.3، مقارنةً بالنموذج الأصلي الذي يبلغ 34.3، مما يعني وجود أخطاء واقعية أقل في مخرجاته. هذه التطورات تجعل PaliGemma 2 أكثر قابلية للتطوير والدقة وقابلية للتكيف مع مجموعة واسعة من التطبيقات، بدءًا من التسميات التوضيحية التفصيلية إلى الإجابة عن الأسئلة المرئية.

تطبيقات PaliGemma 2: استخدامات العالم الحقيقي لنماذج VLM

لدى PaliGemma 2 القدرة على إعادة تعريف الصناعات من خلال الجمع بسلاسة بين الفهم البصري واللغوي. على سبيل المثال، فيما يتعلق بإمكانية الوصول، يمكنه توليد أوصاف مفصلة للأشياء والمشاهد والعلاقات المكانية، مما يوفر مساعدة حاسمة للأفراد ضعاف البصر. تساعد هذه الإمكانية المستخدمين على فهم بيئاتهم بشكل أفضل، مما يوفر استقلالية أكبر عندما يتعلق الأمر بالمهام اليومية.

الشكل 4. يمكن أن يجعل PaliGemma 2 العالم مكاناً أكثر سهولة.

‍

وبالإضافة إلى سهولة الوصول، فإن PaliGemma 2 تُحدث تأثيراً في مختلف القطاعات، بما في ذلك

التجارة الإلكترونية: يعزز النموذج تصنيف المنتجات عن طريق تحليل ووصف العناصر في الصور، مما يبسط إدارة المخزون ويحسن تجربة البحث للمستخدمين.
‍
الرعاية الصحية: وهو يدعم المهنيين الطبيين من خلال تفسير التصوير الطبي، مثل الأشعة السينية والتصوير بالرنين المغناطيسي، إلى جانب الملاحظات السريرية لتقديم تشخيصات أكثر دقة وإطلاعاً.
‍
التعليم: يساعد PaliGemma 2 المعلمين على إنشاء مواد تعليمية وصفية وسهلة الوصول إليها من خلال إنشاء تسميات توضيحية وتوفير معلومات سياقية للصور.
‍
إنشاء المحتوى: يعمل هذا النموذج على أتمتة عملية إنشاء التسميات التوضيحية والأوصاف المرئية لمحتوى الوسائط المتعددة، مما يوفر الوقت لمنشئي المحتوى.

جرّبها بنفسك: بالي جيما 2

لتجربة PaliGemma 2، يمكنك البدء بالعرض التوضيحي التفاعلي Hugging Face. فهو يتيح لك استكشاف قدراته في مهام مثل شرح الصور والإجابة على الأسئلة المرئية. ما عليك سوى تحميل صورة وطرح أسئلة على النموذج بشأنها أو طلب وصف للمشهد.

‍

إذا كنت ترغب في التعمّق أكثر، فإليك كيفية التعمّق أكثر:

النماذج المدربة مسبقاً: يمكنك الوصول إلى النماذج المدربة مسبقًا والرموز من منصات مثل Hugging Face و Kaggle. توفر هذه الموارد كل ما تحتاجه لبدء العمل مع النموذج.
‍
دفاتر الملاحظات: هناك وثائق شاملة وأمثلة دفاتر ملاحظات للتعرف على PaliGemma 2. يمكنك البدء بأمثلة استنتاجية وتجربة ضبط النموذج على مجموعة البيانات الخاصة بك لمهام محددة.
‍
عمليات التكامل: تتوافق PaliGemma 2 مع أطر العمل المستخدمة على نطاق واسع مثل Hugging Face Transformers و Keras و PyTorch و JAX و Gemma.cpp، مما يتيح لك دمجها في مهام سير العمل الحالية دون عناء.

إيجابيات وسلبيات جهاز PaliGemma 2 من Google

بعد أن فهمنا كيفية البدء في استخدام PaliGemma 2، دعنا نلقي نظرة فاحصة على نقاط القوة والعيوب الرئيسية التي يجب وضعها في الاعتبار عند استخدام هذه النماذج.

إليك ما يميز PaliGemma 2 كنموذج للغة الرؤية:

مكاسب الكفاءة: من خلال الاستفادة من البنية المحسّنة لـ Gemma 2، يوفر PaliGemma 2 أداءً عاليًا مع تقليل تكاليف النشر إلى الحد الأدنى.
‍
ميزات السلامة المحسّنة: يشتمل PaliGemma 2 على تحسينات كبيرة في عملية التدريب الخاصة به، مثل التصفية القوية لبيانات ما قبل التدريب للحد من التحيزات والتقييم الصارم مقابل معايير السلامة.
‍
زمن استجابة منخفض للتكوينات الأصغر: يوفر نموذج 3B أوقات استنتاج أسرع، مما يجعله مناسبًا لحالات الاستخدام التي تكون فيها السرعة أمرًا بالغ الأهمية، مثل توصيات منتجات التجارة الإلكترونية أو أنظمة الدعم المباشر.

وفي الوقت نفسه، إليك بعض المجالات التي قد تواجه فيها PaliGemma 2 قيوداً:

الكمون: رغم قوتها، قد تواجه النماذج الأكبر حجمًا مشكلات في زمن الاستجابة، خاصةً عند نشرها للمهام التي تتطلب استجابات فورية، مثل أنظمة الذكاء الاصطناعي التفاعلية في الوقت الفعلي.
‍
الاعتماد على مجموعات البيانات الكبيرة: يرتبط أداء PaliGemma 2 ارتباطًا وثيقًا بجودة وتنوع مجموعات بيانات التدريب الخاصة به، مما قد يحد من فعاليته في المجالات أو اللغات غير الممثلة تمثيلاً ناقصًا أو اللغات غير المدرجة في بيانات التدريب.
‍
متطلبات الموارد العالية: على الرغم من التحسينات، فإن إصداري المعلمات 10B و28B يتطلبان طاقة حسابية كبيرة، مما يجعلهما أقل متاحة للمؤسسات الأصغر ذات الموارد المحدودة.

الوجبات الرئيسية

يُعد PaliGemma 2 تقدماً مذهلاً في مجال نمذجة لغة الرؤية، حيث يوفر قابلية توسع محسّنة ومرونة في الضبط الدقيق والدقة. يمكن أن يكون بمثابة أداة قيّمة لتطبيقات تتراوح بين حلول إمكانية الوصول والتجارة الإلكترونية وتشخيص الرعاية الصحية والتعليم.

على الرغم من وجود بعض القيود، مثل المتطلبات الحسابية والاعتماد على البيانات عالية الجودة، إلا أن نقاط قوته تجعله خيارًا عمليًا لمعالجة المهام المعقدة التي تدمج البيانات المرئية والنصية. يمكن أن يوفر PaliGemma 2 أساسًا قويًا للباحثين والمطورين لاستكشاف وتوسيع إمكانات الذكاء الاصطناعي في التطبيقات متعددة الوسائط.

كن جزءًا من محادثة الذكاء الاصطناعي من خلال الاطلاع على مستودع GitHub ومجتمعنا. اقرأ عن كيفية تقدم الذكاء الاصطناعي في الزراعة والرعاية الصحية! 🚀

GooglePaliGemma 2: نظرة ثاقبة على نماذج VLM المتقدمة

من جيما 2 إلى بالي جيما 2

كيفية عمل نماذج PaliGemma 2 VLM من Google

الإمكانات الرئيسية ل PaliGemma 2

مقارنة بين PaliGemma 2 و PaliGemma: ما الذي تم تحسينه؟

تطبيقات PaliGemma 2: استخدامات العالم الحقيقي لنماذج VLM

جرّبها بنفسك: بالي جيما 2

إيجابيات وسلبيات جهاز PaliGemma 2 من Google

الوجبات الرئيسية

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

GooglePaliGemma 2: نظرة ثاقبة على نماذج VLM المتقدمة

من جيما 2 إلى بالي جيما 2

كيفية عمل نماذج PaliGemma 2 VLM من Google

الإمكانات الرئيسية ل PaliGemma 2

مقارنة بين PaliGemma 2 و PaliGemma: ما الذي تم تحسينه؟

تطبيقات PaliGemma 2: استخدامات العالم الحقيقي لنماذج VLM

جرّبها بنفسك: بالي جيما 2

إيجابيات وسلبيات جهاز PaliGemma 2 من Google

الوجبات الرئيسية

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل من الذكاء الاصطناعي معا!

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!