فلورنس -2: الذكاء الاصطناعي Zero-Shot Vision AI من Microsoft

في يونيو 2024، طرحت Microsoft في يونيو 2024، Florence-2، وهو نموذج لغة بصرية متعدد الوسائط (VLM) مصمم للتعامل مع مجموعة واسعة من المهام بما في ذلك اكتشاف الأجسام، والتجزئة، وتفسير الصور، والتأريض. يضع Florence-2 معيارًا جديدًا للأداء بدون لقطة، مما يعني أنه يمكنه أداء المهام دون تدريب محدد مسبق، ويعزز حجم نموذج أصغر من نماذج لغة الرؤية الأخرى المتطورة.

إنه أكثر من مجرد نموذج آخر، فبراعة Florence-2 وأدائه المحسن لديهما القدرة على التأثير بشكل كبير على مختلف الصناعات من خلال تحسين الدقة وتقليل الحاجة إلى تدريب مكثف. في هذه المقالة، سوف نستكشف الميزات المبتكرة لـ Florence-2، ونقارن أدائه بنماذج VLM الأخرى، ونناقش تطبيقاته المحتملة.

ما هو Florence-2؟

يمكن لـ Florence-2 التعامل مع مجموعة متنوعة من المهام ضمن إطار عمل موحد واحد. تعود قدرات النموذج الرائعة جزئيًا إلى مجموعة التدريب الضخمة الخاصة به والتي تسمى FLD-5B. يتضمن FLD-5B 5.4 مليار تعليق توضيحي عبر 126 مليون صورة. تم إنشاء مجموعة البيانات الشاملة هذه خصيصًا لتمكين Florence-2 بالقدرات اللازمة للتعامل مع مجموعة واسعة من مهام الرؤية بدقة وكفاءة عالية.

إليك نظرة فاحصة على المهام التي يدعمها Florence-2:

اكتشاف الكائنات: يمكنه تحديد مواقع الكائنات داخل الصور بدقة عالية.
‍
التجزئة: تتضمن هذه المهمة تقسيم الصورة إلى أجزاء ذات معنى لتسهيل التحليل والتفسير.
‍
تسمية الصور: فلورنس-2 قادر على إنشاء تسميات وصفية للصور توفر السياق والتفاصيل.
‍
التأسيس المرئي: يمكن للنموذج ربط عبارات أو كلمات معينة في التسمية التوضيحية بالمناطق المقابلة في الصورة.
‍
أداء Zero-shot: يمكنه أداء المهام دون تدريب محدد.

__wf_reserved_inherit — الشكل 1. فهم كيفية تدريب Florence-2.

‍

يدعم النموذج المهام المستندة إلى النصوص والمهام المستندة إلى المناطق. تتم إضافة رموز موقع خاصة إلى مفردات النموذج للمهام التي تتضمن مناطق معينة من الصورة. تساعد هذه الرموز النموذج على فهم الأشكال المختلفة، مثل المستطيلات حول الكائنات (تمثيل الصندوق)، والأشكال ذات الأربعة جوانب (تمثيل الصندوق الرباعي)، والأشكال متعددة الجوانب (تمثيل المضلع). يتم تدريب النموذج باستخدام طريقة تسمى فقدان الاعتراض المتقاطع، مما يساعده على التعلم من خلال مقارنة تنبؤاته بالإجابات الصحيحة وتعديل معلماته الداخلية وفقًا لذلك.

إنشاء مجموعة بيانات FLD-5B

تتضمن مجموعة بيانات FLD-5B أنواعًا مختلفة من التعليقات التوضيحية: أوصاف نصية، وأزواج من المناطق والنصوص، ومجموعات من النصوص والعبارات والمناطق. تم إنشاؤها من خلال عملية من خطوتين تتضمن جمع البيانات والتعليقات التوضيحية. وقد تم الحصول على الصور من مجموعات البيانات الشائعة مثل ImageNet وOpject 365، وOpen Images، وContual Captions، وLaION. معظم التعليقات التوضيحية في مجموعة بيانات FLD-5B هي في الغالب اصطناعية، بمعنى أنه تم إنشاؤها تلقائيًا بدلاً من تصنيفها يدويًا.

‍

في البداية، قامت نماذج متخصصة ماهرة في مهام محددة، مثل الكشف عن الكائنات أو التجزئة، بإنشاء هذه التعليقات التوضيحية. بعد ذلك، تم استخدام عملية ترشيح وتحسين للتأكد من أن التعليقات التوضيحية كانت مفصلة ودقيقة. بعد إزالة أي تشويش، مرت مجموعة البيانات بتحسين تكراري، حيث تم استخدام مخرجات Florence-2 لتحديث التعليقات التوضيحية وتحسينها باستمرار.

فهم بنية نموذج Florence-2

يتبع تصميم نموذج Florence-2 نهج التعلم من تسلسل إلى تسلسل. وهذا يعني أن النموذج يعالج تسلسل الإدخال (مثل صورة مع مطالبة نصية) وينتج تسلسل إخراج (مثل وصف أو تسمية) بطريقة تدريجية. في إطار عمل التسلسل إلى التسلسل، يتم التعامل مع كل مهمة على أنها مشكلة ترجمة: يأخذ النموذج صورة إدخال ومطالبة خاصة بالمهمة وينتج المخرجات المقابلة.

‍

في صميم بنية النموذج يوجد محول ترميز-فك تشفير متعدد الوسائط، والذي يجمع بين ترميز الصور وترميز-فك تشفير متعدد الوسائط. يقوم ترميز الصور، المسمى DaViT (محول رؤية فعال للبيانات)، بمعالجة الصور المدخلة عن طريق تحويلها إلى تضمينات رمزية مرئية - تمثيلات مضغوطة للصورة تلتقط كلاً من المعلومات المكانية (أين توجد الأشياء) والدلالية (ما هي الأشياء). يتم بعد ذلك دمج هذه الرموز المرئية مع تضمينات النص (تمثيلات النص)، مما يسمح للنموذج بدمج البيانات النصية والمرئية بسلاسة.

مقارنة Florence-2 بنماذج اللغات الكبيرة المرئية الأخرى

يتميز Florence-2 عن نماذج اللغة المرئية الأخرى نظرًا لقدراته الرائعة في اللقطة الصفرية. على عكس نماذج مثل PaliGemma، التي تعتمد على الضبط الدقيق المكثف للتكيف مع المهام المختلفة، يعمل Florence-2 بشكل جيد بمجرد إخراجه من الصندوق. أيضًا، فإن Florence-2 قادر على منافسة النماذج الأكبر حجمًا مثل GPT-4V و Flamingo، والتي غالبًا ما تحتوي على عدد أكبر من المعلمات ولكنها لا تتطابق دائمًا مع أداء Florence-2. على سبيل المثال، يحقق Florence-2 نتائج أفضل في اللقطة الصفرية من Kosmos-2، على الرغم من أن Kosmos-2 لديه أكثر من ضعف عدد المعلمات.

في الاختبارات المعيارية، أظهر Florence-2 أداءً رائعًا في مهام مثل شرح COCO وفهم تعبيرات الإحالة. وقد تفوّق على نماذج مثل PolyFormer وUNINEXT في مهام اكتشاف الكائنات وتجزئتها على مجموعة بياناتCOCO . إنه خيار تنافسي للغاية لتطبيقات العالم الحقيقي حيث يكون كل من الأداء وكفاءة الموارد أمرًا بالغ الأهمية.

تطبيقات Florence-2

يمكن استخدام Florence-2 في العديد من الصناعات المختلفة، مثل الترفيه و إمكانية الوصول و التعليم وما إلى ذلك. دعنا نستعرض بعض الأمثلة للحصول على فهم أفضل.

تطبيقات التعليق على الصور

عندما تكون على منصة بث تحاول تحديد ما تريد مشاهدته، قد تقرأ ملخصًا لفيلم لمساعدتك في الاختيار. ماذا لو كان بإمكان النظام الأساسي أيضًا تقديم وصف تفصيلي لملصق الفيلم؟ يمكن لـ Florence-2 أن يجعل ذلك ممكنًا من خلال التعليق التوضيحي للصور، والذي ينشئ نصًا وصفيًا للصور. يمكن لـ Florence-2 إنشاء أوصاف تفصيلية لملصقات الأفلام، مما يجعل منصات البث أكثر شمولاً للمستخدمين ضعاف البصر. من خلال تحليل العناصر المرئية للملصق، مثل الشخصيات والمناظر والنص، يمكن لـ Florence-2 إنشاء أوصاف تفصيلية تنقل محتوى الملصق ومزاجه. تعرض الصورة أدناه مستوى التفاصيل التي يمكن أن يوفرها Florence-2 في وصفه.

‍

فيما يلي بعض الأمثلة الأخرى التي يمكن أن يكون فيها التعليق التوضيحي للصور مفيدًا:

التجارة الإلكترونية: يمكن أن يوفر التعليق على الصور أوصافًا تفصيلية لصور المنتج، مما يساعد العملاء على فهم ميزات المنتج وتفاصيله بشكل أكثر وضوحًا.
‍
السفر والسياحة: يمكن أن توفر أوصافًا تفصيلية للمعالم السياحية ومناطق الجذب في الأدلة السياحية والتطبيقات.
‍
التعليم: يمكن لتسمية الصور تسمية ووصف الصور والرسوم التوضيحية التعليمية، مما يساعد في التدريس والتعلم.
‍
العقارات: يمكن أن يوفر أوصافًا تفصيلية لصور العقارات التي تسلط الضوء على الميزات ووسائل الراحة للمشترين المحتملين.

استخدام التأسيس المرئي أثناء الطهي

يمكن أيضًا استخدام Florence-2 لإثراء تجارب الطهي. على سبيل المثال، يمكن لكتاب طبخ عبر الإنترنت استخدام Florence-2 لترسيخ وتسمية أجزاء من صورة وصفة معقدة بصريًا. يساعد التأريض البصري هنا عن طريق ربط أجزاء معينة من الصورة بالنص الوصفي المقابل. يمكن تسمية كل مكون وخطوة وشرحها بدقة، مما يسهل على الطهاة المنزليين اتباع الوصفة وفهم دور كل مكون في الطبق.

‍

التعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية

يمكن أن يكون التعرف الضوئي على الحروف (OCR) مع المعالجة المستندة إلى المناطق، والذي يركز على استخراج النص من مناطق معينة داخل المستند، مفيدًا عندما يتعلق الأمر بمجالات مثل المحاسبة. يمكن تحليل المناطق المخصصة في المستندات المالية لاستخراج المعلومات المهمة تلقائيًا مثل تفاصيل المعاملات وأرقام الحسابات وتواريخ الاستحقاق. من خلال تقليل الحاجة إلى إدخال البيانات يدويًا، فإنه يقلل الأخطاء ويسرع أوقات المعالجة. يمكن للمؤسسات المالية استخدامه لتبسيط مهام مثل معالجة الفواتير وتسوية الإيصالات وتخليص الشيكات، مما يؤدي إلى معاملات أسرع وخدمة عملاء أفضل.

‍

تجزئة قائمة على المناطق في التطبيقات الصناعية

يمكن لتجزئة قائمة على المناطق، والتي تتضمن تقسيم الصورة إلى أجزاء ذات معنى لتحليل مركز وفحص مفصل، أن تغذي التطبيقات الصناعية التي تحسن الدقة والكفاءة في العمليات المختلفة. من خلال التركيز على مناطق معينة داخل الصورة، تتيح هذه التقنية الفحص والتحليل التفصيلي للمكونات والمنتجات. فيما يتعلق بمراقبة الجودة، يمكنها تحديد العيوب أو التناقضات في المواد، مثل الشقوق أو الاختلالات، مما يضمن وصول المنتجات عالية الجودة فقط إلى السوق.

‍

كما أنها تعمل على تحسين خطوط التجميع الآلي من خلال توجيه الأذرع الآلية إلى أجزاء محددة وتحسين وضع المكونات وتجميعها. وبالمثل، في إدارة المخزون، يساعد في track ومراقبة حالة البضائع وموقعها، مما يؤدي إلى زيادة كفاءة الخدمات اللوجستية وتقليل وقت التعطل. وبشكل عام، يعزز التقسيم على أساس المنطقة من الدقة والإنتاجية، مما يؤدي إلى توفير التكاليف وزيادة جودة المنتج في البيئات الصناعية.

النقاط الرئيسية

بدأنا نرى اتجاهًا حيث أصبحت نماذج الذكاء الاصطناعي أخف وزنًا مع الحفاظ على الأداء العالي. يمثل Florence-2 خطوة كبيرة إلى الأمام من حيث نماذج اللغة المرئية. يمكنه التعامل مع مهام مختلفة مثل اكتشاف الكائنات وتجزئتها وتسمية الصور وتحديد الأساس بأداء مثير للإعجاب بدون تدريب مسبق. على الرغم من صغر حجمه، إلا أن Florence-2 فعال ومتعدد الوظائف، مما يجعله مفيدًا للغاية من حيث التطبيقات عبر مختلف الصناعات. تجلب نماذج مثل Florence-2 المزيد من الاحتمالات إلى الطاولة، مما يوسع إمكانات ابتكارات الذكاء الاصطناعي.

اكتشف المزيد حول الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تحقق من صفحات الحلول الخاصة بنا لقراءة المزيد حول تطبيقات الذكاء الاصطناعي في التصنيع و الزراعة. 🚀

فلورنس-2: أحدث طرازات Microsoft للغة الرؤية

ما هو Florence-2؟

إنشاء مجموعة بيانات FLD-5B

فهم بنية نموذج Florence-2

مقارنة Florence-2 بنماذج اللغات الكبيرة المرئية الأخرى

تطبيقات Florence-2

تطبيقات التعليق على الصور

استخدام التأسيس المرئي أثناء الطهي

التعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية

تجزئة قائمة على المناطق في التطبيقات الصناعية

النقاط الرئيسية

اقرأ المزيد في هذه الفئة

12 حالة استخدام للصور الجوية مدعومة بالرؤية الحاسوبية

أدوات الرؤية الاصطناعية لتشخيص الرعاية الصحية

من البيانات إلى القرارات: استخدام الذكاء الاصطناعي البصري في استراتيجية المؤسسة

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

فلورنس-2: أحدث طرازات Microsoft للغة الرؤية

ما هو Florence-2؟

إنشاء مجموعة بيانات FLD-5B

فهم بنية نموذج Florence-2

مقارنة Florence-2 بنماذج اللغات الكبيرة المرئية الأخرى

تطبيقات Florence-2

تطبيقات التعليق على الصور

استخدام التأسيس المرئي أثناء الطهي

التعرف الضوئي على الحروف (OCR) القائم على المناطق للمستندات المالية

تجزئة قائمة على المناطق في التطبيقات الصناعية

النقاط الرئيسية

اقرأ المزيد في هذه الفئة

12 حالة استخدام للصور الجوية مدعومة بالرؤية الحاسوبية

أدوات الرؤية الاصطناعية لتشخيص الرعاية الصحية

من البيانات إلى القرارات: استخدام الذكاء الاصطناعي البصري في استراتيجية المؤسسة

لنبنِ مستقبل الذكاء الاصطناعي معًا!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!