مسرد المصطلحات

البيانات التركيبية

أطلق العنان لقوة البيانات التركيبية للذكاء الاصطناعي/التعلم الآلي! التغلب على ندرة البيانات ومشكلات الخصوصية والتكاليف مع تعزيز تدريب النماذج والابتكار.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تشير البيانات الاصطناعية إلى البيانات التي يتم إنشاؤها بشكل مصطنع والتي تحاكي الخصائص الإحصائية لبيانات العالم الحقيقي، بدلاً من جمعها مباشرةً من أحداث أو قياسات حقيقية. في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) ، تعمل البيانات الاصطناعية كبديل أو مكمّل أساسي لبيانات التدريب الحقيقية. وهي ذات قيمة خاصة عندما يكون جمع البيانات الواقعية الكافية أمرًا صعبًا أو مكلفًا أو مستهلكًا للوقت أو يثير مخاوف تتعلق بالخصوصية. تساعد هذه المعلومات المصطنعة في تدريب النماذج واختبار الأنظمة واستكشاف السيناريوهات التي قد تكون نادرة أو خطيرة في الواقع.

كيف يتم إنشاء البيانات الاصطناعية

يمكن إنشاء البيانات الاصطناعية باستخدام تقنيات مختلفة، اعتمادًا على التعقيد والدقة المطلوبين:

  • النمذجة الإحصائية: استخدام أساليب إحصائية مثل أخذ العينات من التوزيعات التي تطابق خصائص البيانات الحقيقية.
  • المحاكاة: إنشاء بيئات أو نماذج افتراضية لتوليد البيانات بناءً على قواعد وتفاعلات محددة مسبقًا. وهذا أمر شائع في مجالات مثل الروبوتات والأنظمة المستقلة. وغالباً ما تُستخدم منصات مثل NVIDIA Omniverse لتوليد عمليات محاكاة واقعية.
  • النماذج التوليدية: توظيف تقنيات التعلم العميق (DL) ، مثل شبكات الخصومة التوليدية (GANs) أو الترميز التلقائي المتغير (VAEs)، لتعلم الأنماط الأساسية للبيانات الحقيقية وتوليد نقاط بيانات جديدة متشابهة. قدمت ورقة GAN الأصلية إطارًا قويًا لهذا الغرض.

الأهمية في الذكاء الاصطناعي والرؤية الحاسوبية

توفر البيانات الاصطناعية العديد من المزايا لتطوير الذكاء الاصطناعي:

  • التغلب على ندرة البيانات: يوفر مجموعات بيانات كبيرة ضرورية لتدريب نماذج معقدة مثل Ultralytics YOLO عندما تكون البيانات الحقيقية محدودة.
  • تعزيز خصوصية البيانات: يسمح بتدريب النماذج دون الكشف عن معلومات واقعية حساسة، وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية والمالية. يمكن أن تتضمن التقنيات في بعض الأحيان مفاهيم مثل الخصوصية التفاضلية.
  • تغطية حالات الحافة: يتيح إنشاء بيانات لسيناريوهات نادرة أو حرجة (على سبيل المثال، حالات الطوارئ للسيارات ذاتية القيادة) التي يصعب التقاطها في العالم الحقيقي.
  • الحد من التحيز: يمكن أن يساعد في التخفيف من تحيز مجموعة البيانات من خلال إنشاء مجموعات بيانات متوازنة، على الرغم من أنه يجب الحرص على عدم إدخال تحيزات جديدة.
  • كفاءة التكلفة والوقت: يمكن أن يكون توليد البيانات الاصطناعية أسرع وأرخص من جمع البيانات الواقعية المكثفة والشرح التوضيحي.

في مجال الرؤية الحاسوبية، تُستخدم الصور الاصطناعية لتدريب النماذج على مهام مثل اكتشاف الأجسام وتجزئة الصور في ظل ظروف متنوعة (الإضاءة، والطقس، ووجهات النظر).

التطبيقات الواقعية

  1. المركبات ذاتية القيادة: يتطلب تدريب أنظمة الإدراك التلقائي للسيارات ذاتية القيادة كميات هائلة من البيانات التي تغطي ظروف القيادة المتنوعة والأحداث النادرة (مثل الحوادث أو العوائق غير العادية). تستخدم الشركات أجهزة محاكاة مثل Unity Simulation أو منصات خاصة مثل بيئة المحاكاة الخاصة بشركة Waymo لتوليد بيانات قيادة اصطناعية واقعية، مما يحسن من متانة النموذج وسلامة الذكاء الاصطناعي في السيارات.
  2. الرعاية الصحية: تقيد لوائح خصوصية المريض (مثل قانون HIPAA) استخدام البيانات الطبية الحقيقية. تمكّن البيانات الاصطناعية الباحثين والمطورين من تدريب نماذج الذكاء الاصطناعي لتحليل الصور الطبية (مثل الكشف عن الأورام) أو تحليل السجلات الصحية الإلكترونية دون المساس بسرية المريض. تقوم مشاريع مثل Synthea بتوليد سجلات المرضى الاصطناعية للبحث في مجال الذكاء الاصطناعي في الرعاية الصحية.

البيانات التركيبية مقابل زيادة البيانات

بينما يهدف كل من البيانات التركيبية وزيادة البيانات إلى زيادة تنوع بيانات التدريب وحجمها، إلا أنهما مفهومان مختلفان:

  • زيادة البيانات: ينطوي على تطبيق تحويلات (مثل التدوير، والقياس، والقص، وتغيير الألوان) على البيانات الحقيقية الموجودة لإنشاء نسخ معدّلة قليلاً. يوسع مجموعة البيانات ولكنه يعتمد على وجود مجموعة أولية من البيانات الحقيقية. يمكن دمج أدوات مثل Albumentations لهذا الغرض.
  • البيانات الاصطناعية: ينطوي على إنشاء نقاط بيانات جديدة تمامًا من الصفر، وغالبًا ما يتم ذلك باستخدام نماذج أو عمليات محاكاة، دون البدء بالضرورة من أمثلة حقيقية (على الرغم من أن النماذج عادةً ما يتم تدريبها على بيانات حقيقية في البداية).

يمكن للبيانات الاصطناعية أن تعالج الثغرات التي لا يمكن أن تعالجها عملية التعزيز، مثل إنشاء أمثلة لسيناريوهات غير مرئية بالكامل أو توليد البيانات عندما تكون البيانات الحقيقية غير متاحة تمامًا أو غير قابلة للاستخدام بسبب قيود الخصوصية. ومع ذلك، لا يزال ضمان أن تعكس البيانات الاصطناعية بدقة تعقيدات العالم الحقيقي يمثل تحديًا، مما قد يؤدي إلى مشاكل مثل الإفراط في ملاءمة التوزيع الاصطناعي إذا لم تتم إدارته بعناية. وتدعم منصات مثل Ultralytics HUB نماذج التدريب على مجموعات بيانات متنوعة، بما في ذلك النماذج الاصطناعية.

قراءة الكل