استكشف أحدث نماذج الذكاء الاصطناعي من Meta FAIR، SAM 2.1 و CoTracker3، التي تقدم إمكانات متقدمة للتجزئة والتتبع لتطبيقات متنوعة وواقعية.
الذكاء الاصطناعي (AI) هو مجال بحثي يعج بالإثارة والطاقة في الآونة الأخيرة، مع ظهور ابتكارات واختراقات جديدة أسرع من أي وقت مضى. في الأسابيع القليلة الماضية، كشف فريق أبحاث الذكاء الاصطناعي الأساسية (FAIR) التابع لشركة Meta في الأسابيع القليلة الماضية عن مجموعة من الأدوات والنماذج التي تهدف إلى معالجة التحديات في مجالات مختلفة من الذكاء الاصطناعي. تتضمن هذه الإصدارات تحديثات يمكن أن تؤثر على مجالات متنوعة مثل الرعاية الصحية والروبوتات والواقع المعزز.
على سبيل المثال، يعمل نموذج SAM 2.1 المحدّث على تحسين تجزئة الأجسام، مما يسهّل تحديد الأجسام بدقة وفصلها في الصور ومقاطع الفيديو. وفي الوقت نفسه، يركز CoTracker3 على تتبع النقاط، مما يساعد على تتبع النقاط في إطارات الفيديو حتى عندما تتحرك الأجسام أو يتم حجبها جزئيًا.
كما قدمت Meta أيضًا إصدارات أخف وأسرع من نموذج لغة Llama للاستخدام الفعال على الجهاز، إلى جانب تقنية الاستشعار اللمسي الجديدة للروبوتات. في هذه المقالة، سنقوم بتفصيل هذه الإصدارات الأخيرة من Meta FAIR، وننظر إلى ما تقدمه كل أداة. لنبدأ!
يتيح تجزئة الكائنات، وهي مهمة رئيسية للرؤية الحاسوبية، إمكانية تحديد وفصل الكائنات المميزة داخل صورة أو مقطع فيديو، مما يسهل تحليل مناطق معينة من الاهتمام. منذ إصداره، تم استخدام نموذج تجزئة أي شيء من Meta's Segment Anything Model 2 (SAM 2 ) لتجزئة الكائنات في مجالات مختلفة مثل التصوير الطبي والأرصاد الجوية. وبناءً على التعليقات الواردة من المجتمع، قدمت Meta الآن SAM 2.1، وهو إصدار محسّن مصمم لمعالجة بعض التحديات التي واجهت النموذج الأصلي وتقديم أداء أقوى بشكل عام.
SAM يتضمن الإصدار 2.1 تحديثات للتعامل مع الأجسام المتشابهة بصرياً والأصغر حجماً بشكل أفضل، وذلك بفضل تقنيات زيادة البيانات الجديدة. كما أنه يحسّن أيضًا كيفية تعامل النموذج مع الانسداد (عندما تكون أجزاء من الجسم مخفية عن الأنظار) من خلال تدريبه على تسلسلات فيديو أطول، مما يسمح له "بتذكر" الأشياء والتعرف عليها بمرور الوقت، حتى لو كانت محجوبة مؤقتًا. على سبيل المثال، إذا كان شخص ما يصور مقطع فيديو لشخص يمشي خلف شجرة، يمكن للنموذج SAM 2.1 تتبع الشخص عند ظهوره مرة أخرى على الجانب الآخر، باستخدام ذاكرته عن موضع الكائن وحركته لملء الفجوات عند انقطاع الرؤية لفترة وجيزة.
وإلى جانب هذه التحديثات، أصدرت Meta حزمة المطورين SAM 2 Developer Suite، التي توفر كود تدريب مفتوح المصدر وبنية تحتية تجريبية كاملة حتى يتمكن المطورون من ضبط SAM 2.1 ببياناتهم الخاصة ودمجها في مجموعة من التطبيقات.
من مهام الرؤية الحاسوبية الأخرى المثيرة للاهتمام تتبع النقاط. وتتضمن تتبع نقاط أو ميزات محددة عبر إطارات متعددة في الفيديو. لننظر إلى مقطع فيديو لراكب دراجة يركب دراجة على طول مسار - يتيح تتبع النقاط للنموذج تتبع النقاط الموجودة على الدراج، مثل الخوذة أو العجلات، حتى لو كانت مخفية بسبب العوائق للحظة.
يعد تتبع النقاط أمرًا ضروريًا لتطبيقات مثل إعادة البناء ثلاثي الأبعاد والروبوتات وتحرير الفيديو. غالباً ما تعتمد النماذج التقليدية على إعدادات معقدة ومجموعات بيانات تركيبية كبيرة، مما يحد من فعاليتها عند تطبيقها على سيناريوهات العالم الحقيقي.
يعالج نموذج التتبع CoTracker3 من Meta هذه القيود من خلال تبسيط بنية النموذج. كما أنه يقدم أيضًاتقنية وضع العلامات الزائفة التي تتيح للنموذج التعلم من مقاطع فيديو حقيقية غير مشروحة، مما يجعل CoTracker3 أكثر كفاءة وقابلية للتطوير للاستخدام العملي.
تتمثل إحدى الميزات التي تجعل CoTracker3 متميزاً في قدرته على التعامل مع حالات الانسداد بشكل جيد. باستخدام تقنية الانتباه عبر المسار، وهي تقنية تسمح للنموذج بمشاركة المعلومات عبر نقاط تعقب متعددة، يمكن ل CoTracker3 استنتاج مواقع النقاط المخفية من خلال الإشارة إلى النقاط المرئية. من خلال القيام بذلك، تم تصميم CoTracker3 ليكون فعالاً للغاية في البيئات الديناميكية، مثل تتبع شخص ما في مشهد مزدحم.
يوفر CoTracker3 أيضًا وضعي الاتصال بالإنترنت وعدم الاتصال بالإنترنت. يوفر وضع الاتصال بالإنترنت التتبع في الوقت الفعلي. بينما يمكن استخدام وضع عدم الاتصال بالإنترنت لتتبع أكثر شمولاً عبر تسلسلات فيديو كاملة، وهو مثالي لمهام مثل تحرير الفيديو أو الرسوم المتحركة.
في حين أن SAM 2.1 و CoTracker3 يعرضان أحدث تطورات Meta في مجال الرؤية الحاسوبية، هناك أيضًا تحديثات مثيرة في مجالات أخرى من الذكاء الاصطناعي، مثل معالجة اللغات الطبيعية (NLP) والروبوتات. دعونا نلقي نظرة على بعض هذه التطورات الحديثة الأخرى من Meta FAIR.
Meta's Spirit LM هو نموذج لغوي جديد متعدد الوسائط يجمع بين إمكانيات النص والكلام، مما يجعل التفاعلات مع الذكاء الاصطناعي تبدو أكثر طبيعية. على عكس النماذج التقليدية التي تتعامل مع النص فقط أو الكلام فقط، يمكن لـ Spirit LM التبديل بسلاسة بين الاثنين.
يمكن لـ Spirit LM فهم اللغة وتوليدها بطرق أكثر شبهاً بالبشر. على سبيل المثال، يمكنه تعزيز المساعدين الافتراضيين الذين يمكنهم الاستماع والرد بلغة منطوقة أو مكتوبة، أو دعم أدوات إمكانية الوصول التي تحول بين الكلام والنص.
علاوة على ذلك، طورت Meta تقنيات لجعل النماذج اللغوية الكبيرة أكثر كفاءة. تساعد إحدى هذه التقنيات، والتي تسمى Layer Skip، على تقليل الاحتياجات الحسابية وتكاليف الطاقة من خلال تنشيط الطبقات الضرورية لمهمة معينة فقط. وهذا مفيد بشكل خاص للتطبيقات على الأجهزة ذات الذاكرة والطاقة المحدودة.
مع الأخذ في الاعتبار الحاجة إلى نشر تطبيقات الذكاء الاصطناعي على هذه الأجهزة خطوة إلى الأمام، قامت Meta أيضًا بطرح إصدارات مكمّلة من نماذج Llama الخاصة بها. يتم ضغط هذه النماذج لتعمل بشكل أسرع على الأجهزة المحمولة دون التضحية بالدقة.
مع نمو نماذج الذكاء الاصطناعي من حيث الحجم والتعقيد، أصبح تحسين عملية تدريبها أمراً بالغ الأهمية. فيما يتعلق بالتحسين الأمثل، قدمت Meta Lingua، وهي قاعدة برمجة مرنة وفعالة تجعل تدريب النماذج اللغوية الكبيرة أسهل. يتيح تصميم Meta Lingua المعياري للباحثين تخصيص تجاربهم وتوسيع نطاقها بسرعة.
يمكن للباحثين قضاء وقت أقل في الإعداد التقني ووقت أطول في البحث الفعلي. كما أن قاعدة البرمجة خفيفة الوزن وسهلة التكامل، مما يجعلها مناسبة للتجارب الصغيرة والمشاريع الكبيرة على حد سواء. من خلال إزالة هذه العقبات التقنية، تساعد Meta Lingua الباحثين على إحراز تقدم أسرع واختبار الأفكار الجديدة بسهولة أكبر.
مع تقدم تكنولوجيا الحوسبة الكمية، فإنها تجلب تحديات جديدة لأمن البيانات. فعلى عكس حواسيب اليوم، من المحتمل أن تكون الحواسيب الكمية قادرة على حل العمليات الحسابية المعقدة بشكل أسرع بكثير. وهذا يعني أنه من المحتمل أن تتمكن من كسر طرق التشفير المستخدمة حالياً لحماية المعلومات الحساسة. لهذا السبب تزداد أهمية البحث في هذا المجال، حيث أن تطوير طرق جديدة لحماية البيانات أمر ضروري بينما نستعد لمستقبل الحوسبة الكمية.
ولمعالجة هذه المشكلة، طورت Meta أداة Salsa، وهي أداة تهدف إلى تعزيز أمن التشفير بعد الكمية. تساعد Salsa الباحثين على اختبار الهجمات التي تعتمد على الذكاء الاصطناعي وتحديد نقاط الضعف المحتملة، مما يمكّنهم من فهم ومعالجة نقاط الضعف في أنظمة التشفير بشكل أفضل. من خلال محاكاة سيناريوهات الهجوم المتقدمة، توفر Salsa رؤى قيمة يمكن أن توجه تطوير تدابير أمنية أقوى وأكثر مرونة لعصر الكم.
تركز أحدث أعمال شركة Meta في مجال الروبوتات على مساعدة الذكاء الاصطناعي على التفاعل بشكل طبيعي أكثر مع العالم المادي من خلال تعزيز الإدراك باللمس والبراعة والتعاون مع البشر. على وجه الخصوص، جهاز Meta Digit 360 هو مستشعر لمسي متقدم يمنح الروبوتات حاسة لمس دقيقة. تساعد المستشعرات الروبوتات على اكتشاف تفاصيل مثل الملمس والضغط وحتى أشكال الأشياء. ومن خلال هذه الرؤى، يمكن للروبوتات التعامل مع الأشياء بمزيد من الدقة؛ وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية والتصنيع.
إليك بعض الميزات الرئيسية التي يتضمنها Meta Digit 360:
امتداد ل Meta Digit 360 هو Meta Digit Plexus، وهو عبارة عن منصة تدمج العديد من مستشعرات اللمس في يد روبوتية واحدة. يسمح هذا الإعداد للروبوتات بمعالجة معلومات اللمس من نقاط متعددة في وقت واحد، على غرار الطريقة التي تجمع بها الأيدي البشرية البيانات الحسية.
تُظهر آخر تحديثات Meta للذكاء الاصطناعي، بدءًا من التطورات في مجال الرؤية الحاسوبية مع SAM 2.1 و CoTracker3 إلى التطورات الجديدة في النماذج اللغوية والروبوتات، كيف ينتقل الذكاء الاصطناعي بثبات من النظرية إلى حلول عملية مؤثرة.
وقد صُممت هذه الأدوات لجعل الذكاء الاصطناعي أكثر قابلية للتكيف والاستفادة في مختلف المجالات، مما يساعد في كل شيء بدءاً من تجزئة الصور المعقدة إلى فهم لغة البشر وحتى العمل إلى جانبنا في الأماكن المادية.
من خلال إعطاء الأولوية لإمكانية الوصول والتطبيق في العالم الحقيقي، فإن Meta FAIR تقربنا من مستقبل يمكن فيه للذكاء الاصطناعي أن يعالج تحديات العالم الحقيقي ويعزز حياتنا اليومية بطرق مفيدة.
هل لديك فضول حول الذكاء الاصطناعي؟ انضم إلى مجتمعنا للحصول على آخر التحديثات والرؤى، وتحقق من مستودع GitHub الخاص بنا. يمكنك أيضاً استكشاف كيفية استخدام الرؤية الحاسوبية في صناعات مثل السيارات ذاتية القيادة والزراعة!