تشير البيانات الاصطناعية إلى البيانات التي يتم إنشاؤها بشكل مصطنع والتي تحاكي الخصائص الإحصائية لبيانات العالم الحقيقي، بدلاً من جمعها مباشرةً من أحداث أو قياسات حقيقية. في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) ، تعمل البيانات الاصطناعية كبديل أو مكمّل أساسي لبيانات التدريب الحقيقية. وهي ذات قيمة خاصة عندما يكون جمع البيانات الواقعية الكافية أمرًا صعبًا أو مكلفًا أو مستهلكًا للوقت أو يثير مخاوف تتعلق بالخصوصية. تساعد هذه المعلومات المصطنعة في تدريب النماذج واختبار الأنظمة واستكشاف السيناريوهات التي قد تكون نادرة أو خطيرة في الواقع.
كيف يتم إنشاء البيانات الاصطناعية
يمكن إنشاء البيانات الاصطناعية باستخدام تقنيات مختلفة، اعتمادًا على التعقيد والدقة المطلوبين:
- النمذجة الإحصائية: استخدام أساليب إحصائية مثل أخذ العينات من التوزيعات التي تطابق خصائص البيانات الحقيقية.
- المحاكاة: إنشاء بيئات أو نماذج افتراضية لتوليد البيانات بناءً على قواعد وتفاعلات محددة مسبقًا. وهذا أمر شائع في مجالات مثل الروبوتات والأنظمة المستقلة. وغالباً ما تُستخدم منصات مثل NVIDIA Omniverse لتوليد عمليات محاكاة واقعية.
- النماذج التوليدية: توظيف تقنيات التعلم العميق (DL) ، مثل شبكات الخصومة التوليدية (GANs) أو الترميز التلقائي المتغير (VAEs)، لتعلم الأنماط الأساسية للبيانات الحقيقية وتوليد نقاط بيانات جديدة متشابهة. قدمت ورقة GAN الأصلية إطارًا قويًا لهذا الغرض.
الأهمية في الذكاء الاصطناعي والرؤية الحاسوبية
توفر البيانات الاصطناعية العديد من المزايا لتطوير الذكاء الاصطناعي:
- التغلب على ندرة البيانات: يوفر مجموعات بيانات كبيرة ضرورية لتدريب نماذج معقدة مثل Ultralytics YOLO عندما تكون البيانات الحقيقية محدودة.
- تعزيز خصوصية البيانات: يسمح بتدريب النماذج دون الكشف عن معلومات واقعية حساسة، وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية والمالية. يمكن أن تتضمن التقنيات في بعض الأحيان مفاهيم مثل الخصوصية التفاضلية.
- تغطية حالات الحافة: يتيح إنشاء بيانات لسيناريوهات نادرة أو حرجة (على سبيل المثال، حالات الطوارئ للسيارات ذاتية القيادة) التي يصعب التقاطها في العالم الحقيقي.
- الحد من التحيز: يمكن أن يساعد في التخفيف من تحيز مجموعة البيانات من خلال إنشاء مجموعات بيانات متوازنة، على الرغم من أنه يجب الحرص على عدم إدخال تحيزات جديدة.
- كفاءة التكلفة والوقت: يمكن أن يكون توليد البيانات الاصطناعية أسرع وأرخص من جمع البيانات الواقعية المكثفة والشرح التوضيحي.
في مجال الرؤية الحاسوبية، تُستخدم الصور الاصطناعية لتدريب النماذج على مهام مثل اكتشاف الأجسام وتجزئة الصور في ظل ظروف متنوعة (الإضاءة، والطقس، ووجهات النظر).
البيانات التركيبية مقابل زيادة البيانات
بينما يهدف كل من البيانات التركيبية وزيادة البيانات إلى زيادة تنوع بيانات التدريب وحجمها، إلا أنهما مفهومان مختلفان:
- زيادة البيانات: ينطوي على تطبيق تحويلات (مثل التدوير، والقياس، والقص، وتغيير الألوان) على البيانات الحقيقية الموجودة لإنشاء نسخ معدّلة قليلاً. يوسع مجموعة البيانات ولكنه يعتمد على وجود مجموعة أولية من البيانات الحقيقية. يمكن دمج أدوات مثل Albumentations لهذا الغرض.
- البيانات الاصطناعية: ينطوي على إنشاء نقاط بيانات جديدة تمامًا من الصفر، وغالبًا ما يتم ذلك باستخدام نماذج أو عمليات محاكاة، دون البدء بالضرورة من أمثلة حقيقية (على الرغم من أن النماذج عادةً ما يتم تدريبها على بيانات حقيقية في البداية).
يمكن للبيانات الاصطناعية أن تعالج الثغرات التي لا يمكن أن تعالجها عملية التعزيز، مثل إنشاء أمثلة لسيناريوهات غير مرئية بالكامل أو توليد البيانات عندما تكون البيانات الحقيقية غير متاحة تمامًا أو غير قابلة للاستخدام بسبب قيود الخصوصية. ومع ذلك، لا يزال ضمان أن تعكس البيانات الاصطناعية بدقة تعقيدات العالم الحقيقي يمثل تحديًا، مما قد يؤدي إلى مشاكل مثل الإفراط في ملاءمة التوزيع الاصطناعي إذا لم تتم إدارته بعناية. وتدعم منصات مثل Ultralytics HUB نماذج التدريب على مجموعات بيانات متنوعة، بما في ذلك النماذج الاصطناعية.