تعرّف على Florence-2، وهو نموذج اللغة المرئية Microsoft الذي يوفر أداءً محسّنًا في اكتشاف الأجسام وتجزئتها وأداءً محسّنًا في اللقطة الصفرية بكفاءة عالية.
في يونيو 2024، قدم الموقع الإلكتروني Microsoft Florence-2، وهو نموذج لغة بصرية متعدد الوسائط (VLM) مصمم للتعامل مع مجموعة واسعة من المهام بما في ذلك اكتشاف الأجسام، والتجزئة، وتفسير الصور، والتأريض. يضع Florence-2 معيارًا جديدًا للأداء بدون لقطة، مما يعني أنه يمكنه أداء المهام دون تدريب محدد مسبق، ويعزز حجم نموذج أصغر من نماذج اللغة البصرية الحديثة الأخرى.
إنه أكثر من مجرد نموذج آخر، حيث إن تعدد استخدامات فلورنس-2 وأداءه المحسّن لديه القدرة على التأثير بشكل كبير على مختلف الصناعات من خلال تحسين الدقة وتقليل الحاجة إلى التدريب المكثف. في هذه المقالة، سوف نستكشف الميزات المبتكرة لفلورنس-2، ونقارن أداءه مع أجهزة القياس المنخفضة جداً الأخرى، ونناقش تطبيقاته المحتملة.
يمكن لفلورنس-2 التعامل مع مجموعة متنوعة من المهام ضمن إطار عمل واحد موحد. يعود الفضل في القدرات المذهلة للنموذج جزئياً إلى مجموعة بيانات التدريب الضخمة التي يُطلق عليها FLD-5B. تتضمن FLD-5B 5.4 مليار تعليق توضيحي عبر 126 مليون صورة. أُنشئت مجموعة البيانات الشاملة هذه خصيصاً لتمكين فلورنس 2 من القدرات اللازمة للتعامل مع مجموعة واسعة من مهام الرؤية بدقة وكفاءة عاليتين.
إليك نظرة عن كثب على المهام التي تدعمها فلورنس-2:
يدعم النموذج كلاً من المهام المستندة إلى النص والمهام المستندة إلى المنطقة. تتم إضافة رموز مواقع خاصة إلى مفردات النموذج للمهام التي تتضمن مناطق محددة من الصورة. تساعد هذه الرموز المميزة النموذج على فهم الأشكال المختلفة، مثل المستطيلات حول الأجسام (تمثيل المربعات)، والأشكال رباعية الجوانب (تمثيل المربعات الرباعية)، والأشكال متعددة الجوانب (تمثيل المضلعات). يتم تدريب النموذج باستخدام طريقة تسمى فقدان الانتروبيا المتقاطعة، والتي تساعده على التعلم من خلال مقارنة تنبؤاته بالإجابات الصحيحة وتعديل معلماته الداخلية وفقًا لذلك.
تتضمن مجموعة بيانات FLD-5B أنواعًا مختلفة من التعليقات التوضيحية: أوصاف نصية، وأزواج من المناطق والنصوص، ومجموعات من النصوص والعبارات والمناطق. تم إنشاؤها من خلال عملية من خطوتين تتضمن جمع البيانات والتعليقات التوضيحية. وقد تم الحصول على الصور من مجموعات بيانات شائعة مثل ImageNet-22k، وEmageNet-22k، و Object 365، وOpen Images، وContual Captions، وLaION. معظم التعليقات التوضيحية في مجموعة بيانات FLD-5B هي في الغالب اصطناعية، بمعنى أنه تم إنشاؤها تلقائيًا بدلاً من تصنيفها يدويًا.
في البداية، قامت النماذج المتخصصة الماهرة في مهام محددة، مثل اكتشاف الأجسام أو التجزئة، بإنشاء هذه الشروح. بعد ذلك، تم استخدام عملية ترشيح وتحسين للتأكد من أن التعليقات التوضيحية مفصلة ودقيقة. بعد إزالة أي تشويش، خضعت مجموعة البيانات لعملية تنقيح متكررة، حيث تم استخدام مخرجات فلورنس-2 لتحديث الشروح وتحسينها باستمرار.
تتبع بنية نموذج فلورنس-2 نهج التعلّم من تسلسل إلى تسلسل. وهذا يعني أن النموذج يعالج تسلسل المدخلات (مثل صورة مع مطالبة نصية) ويولد تسلسل مخرجات (مثل وصف أو تسمية) بطريقة تدريجية. في إطار التسلسل إلى التسلسل، يتم التعامل مع كل مهمة على أنها مشكلة ترجمة: يأخذ النموذج صورة مدخلات ومطالبة خاصة بالمهمة ويولد المخرجات المقابلة.
يوجد في جوهر بنية النموذج محول ترميز وفك تشفير متعدد الوسائط، والذي يجمع بين مشفر الصور ومحول ترميز وفك تشفير متعدد الوسائط. يعالج مُشفّر الصور، الذي يُطلق عليه اسم DaViT (محول الرؤية الفعال للبيانات)، الصور المُدخلة عن طريق تحويلها إلى رموز مرئية مدمجة - وهي تمثيلات مدمجة للصورة تلتقط المعلومات المكانية (مكان وجود الأشياء) والدلالية (ماهية الأشياء). يتم بعد ذلك دمج هذه الرموز المرئية مع تضمينات النص (تمثيلات النص)، مما يسمح للنموذج بدمج البيانات النصية والمرئية بسلاسة.
يتميز Florence-2 عن غيره من نماذج اللغات المرئية الأخرى بسبب قدراته الرائعة في التصوير بدون لقطة. على عكس النماذج مثل PaliGemma، التي تعتمد على الضبط الدقيق المكثف للتكيف مع المهام المختلفة، يعمل فلورنس-2 بشكل جيد فور إطلاقه. كما أن Florence-2 قادرة على منافسة النماذج الأكبر مثل GPT-4V وFlamingo، والتي غالبًا ما تحتوي على العديد من المعلمات ولكنها لا تتطابق دائمًا مع أداء Florence-2. على سبيل المثال، يحقق فلورنس-2 نتائج أفضل من كوزموس-2 في الطلقة الصفرية، على الرغم من أن كوزموس-2 يحتوي على أكثر من ضعف عدد المعلمات.
في الاختبارات المعيارية، أظهر Florence-2 أداءً رائعًا في مهام مثل شرح COCO وفهم تعبيرات الإحالة. فقد تفوّق على نماذج مثل PolyFormer وUNINEXT في مهام اكتشاف الكائنات وتجزئتها على مجموعة بيانات COCO. إنه خيار تنافسي للغاية لتطبيقات العالم الحقيقي حيث يكون كل من الأداء وكفاءة الموارد أمرًا بالغ الأهمية.
يمكن استخدام فلورنس-2 في العديد من الصناعات المختلفة، مثل الترفيه، وإمكانية الوصول، والتعليم، وما إلى ذلك. دعنا نستعرض بعض الأمثلة لفهم أفضل.
عندما تكون على منصة بث تحاول أن تقرر ما تريد مشاهدته، قد تقرأ ملخصاً للفيلم لمساعدتك في الاختيار. ماذا لو كان بإمكان المنصة أيضاً تقديم وصف تفصيلي لملصق الفيلم؟ يمكن لمنصة Florence-2 أن تجعل ذلك ممكناً من خلال التعليق على الصور، والذي يُنشئ نصاً وصفياً للصور. يمكن لفلورنس-2 توليد وصف تفصيلي لملصقات الأفلام، مما يجعل منصات البث أكثر شمولاً للمستخدمين ضعاف البصر. من خلال تحليل العناصر المرئية للملصق، مثل الشخصيات والمشهد والنص، يمكن لفلورنس-2 إنشاء أوصاف تفصيلية تنقل محتوى الملصق ومزاجه. توضح الصورة أدناه مستوى التفاصيل التي يمكن لفلورنس-2 تقديمها في الوصف.
فيما يلي بعض الأمثلة الأخرى التي يمكن أن تكون فيها التعليقات على الصور مفيدة:
يمكن أيضًا استخدام فلورنس-2 لإثراء تجارب الطهي. على سبيل المثال، يمكن لكتاب طبخ على الإنترنت استخدام فلورنس-2 لتأسيس وتسمية أجزاء من صورة وصفة معقدة بصريًا. يساعد التأريض البصري هنا من خلال ربط أجزاء محددة من الصورة بالنص الوصفي المقابل. يمكن تسمية كل مكون وخطوة وتوضيحها بدقة، مما يسهل على الطهاة في المنزل اتباع الوصفة وفهم دور كل مكون في الطبق.
يمكن أن يكون التعرف الضوئي على الحروف باستخدام المعالجة المستندة إلى المنطقة، والتي تركز على استخراج النص من مناطق محددة داخل المستند، مفيدًا عندما يتعلق الأمر بمجالات مثل المحاسبة. يمكن تحليل مناطق محددة من المستندات المالية لاستخراج المعلومات المهمة تلقائيًا مثل تفاصيل المعاملات وأرقام الحسابات وتواريخ الاستحقاق. ومن خلال تقليل الحاجة إلى الإدخال اليدوي للبيانات، فإنه يقلل من الأخطاء ويسرّع أوقات المعالجة. كما يمكن للمؤسسات المالية استخدامه لتبسيط المهام مثل معالجة الفواتير وتسوية الإيصالات ومقاصة الشيكات، مما يؤدي إلى معاملات أسرع وخدمة عملاء أفضل.
يمكن للتقسيم القائم على المناطق، الذي يتضمن تقسيم الصورة إلى أجزاء ذات معنى للتحليل المركّز والفحص التفصيلي، أن يغذي التطبيقات الصناعية التي تعمل على تحسين الدقة والكفاءة في مختلف العمليات. ومن خلال التركيز على مناطق محددة داخل الصورة، تسمح هذه التقنية بإجراء فحص وتحليل مفصل للمكونات والمنتجات. أما فيما يتعلق بمراقبة الجودة، فيمكنها تحديد العيوب أو التناقضات في المواد، مثل الشقوق أو عدم المحاذاة، مما يضمن وصول المنتجات عالية الجودة فقط إلى السوق.
كما أنها تعمل على تحسين خطوط التجميع الآلي من خلال توجيه الأذرع الآلية إلى أجزاء محددة وتحسين وضع المكونات وتجميعها. وبالمثل، في إدارة المخزون، يساعد في تتبع ومراقبة حالة البضائع وموقعها، مما يؤدي إلى زيادة كفاءة الخدمات اللوجستية وتقليل وقت التعطل. وبشكل عام، يعزز التقسيم على أساس المنطقة من الدقة والإنتاجية، مما يؤدي إلى توفير التكاليف وزيادة جودة المنتج في البيئات الصناعية.
لقد بدأنا نشهد اتجاهاً حيث أصبحت نماذج الذكاء الاصطناعي أخف وزناً مع الحفاظ على الأداء العالي. يمثل فلورنس-2 خطوة كبيرة إلى الأمام فيما يتعلق بنماذج اللغة المرئية. حيث يمكنه التعامل مع مهام مختلفة مثل اكتشاف الأجسام، والتجزئة، وتجزئة الصور، والتسميات التوضيحية للصور، والتأريض بأداء مذهل بدون أي لقطات. على الرغم من صغر حجمه، إلا أن فلورنس-2 فعال ومتعدد الوظائف، مما يجعله مفيدًا للغاية من حيث التطبيقات في مختلف الصناعات. تجلب نماذج مثل Florence-2 المزيد من الإمكانيات إلى الطاولة، مما يوسع من إمكانات ابتكارات الذكاء الاصطناعي.
استكشف المزيد عن الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. اطلع على صفحات الحلول الخاصة بنا لقراءة المزيد عن تطبيقات الذكاء الاصطناعي في التصنيع والزراعة. 🚀