بحيرة البيانات عبارة عن مستودع مركزي مصمم لتخزين كميات هائلة من البيانات الأولية بتنسيقها الأصلي، دون فرض هيكل أو مخطط محدد مسبقًا عند الاستيعاب. على عكس قواعد البيانات التقليدية أو مستودعات البيانات التقليدية، يمكن لبحيرة البيانات أن تحتوي على بيانات منظمة (مثل الجداول) وشبه منظمة (مثل JSON وXML) وبيانات غير منظمة (مثل الصور ومقاطع الفيديو والصوت والمستندات النصية وسجلات المستشعرات) جنبًا إلى جنب. هذه المرونة تجعلها ميزة لا تُقدّر بثمن لتحليلات البيانات الحديثة، خاصةً في مجالات الذكاء الاصطناعي (AI) والتعلم الآلي (ML).
المفاهيم الأساسية
الفكرة الأساسية وراء بحيرة البيانات هي توفير حل تخزين فعال من حيث التكلفة وقابل للتطوير للبيانات الضخمة. تشمل الخصائص الرئيسية ما يلي:
- تخزين البيانات الخام: يتم استيعاب البيانات وتخزينها في شكلها الأصلي غير المعالج.
- أنواع بيانات متنوعة: تستوعب تنسيقات متنوعة، وهي ضرورية للتحليل الشامل وتدريب نماذج الذكاء الاصطناعي المتنوعة، مثل تلك المستخدمة في الرؤية الحاسوبية.
- قابلية التوسع: عادةً ما تكون مبنية على منصات التخزين السحابية مثل Amazon S3 أو Google Cloud Storage، مما يسمح بتوسع غير محدود تقريباً.
- المخطط عند القراءة: يتم تطبيق البنية على البيانات فقط عند قراءتها أو الاستعلام عنها للتحليل، وليس عند تخزينها (المخطط عند الكتابة). يوفر هذا مرونة في الاستكشاف والاحتياجات التحليلية المتنوعة، كما هو موضح في وثائق AWS حول بحيرات البيانات.
بحيرة البيانات مقابل مستودع البيانات
بينما تقوم كل من بحيرات البيانات ومستودعات البيانات بتخزين البيانات، إلا أنها تخدم أغراضًا مختلفة وتتعامل مع البيانات بشكل مختلف.
- مستودع البيانات: يخزن البيانات المهيكلة والمعالجة التي تم تنظيفها وتحويلها لمهام محددة لذكاء الأعمال وإعداد التقارير. يستخدم مخططًا محددًا مسبقًا (مخطط عند الكتابة). فكر في الأمر كمكتبة من الكتب المنسقة. تعرف على المزيد حول مفاهيم تخزين البيانات من IBM.
- بحيرة البيانات: تخزن البيانات الخام غير المفلترة من جميع الأنواع. يتم تطبيق البنية أثناء التحليل (مخطط عند القراءة)، مما يجعلها مثالية لاستكشاف البيانات وعلوم البيانات وتدريب نماذج التعلم الآلي (ML) التي تتطلب مجموعات بيانات كبيرة ومتنوعة. إنها أشبه بمجموعة كبيرة من المعلومات الخام التي تنتظر من يستكشفها.
الملاءمة في الذكاء الاصطناعي والتعلم الآلي
تُعد بحيرات البيانات أساسية للعديد من عمليات سير عمل الذكاء الاصطناعي والتعلم الآلي. تُعد القدرة على تخزين كميات هائلة من البيانات الخام والمتنوعة أمرًا ضروريًا لتدريب النماذج المعقدة، خاصةً في مجال التعلم العميق (DL). يمكن لعلماء البيانات الوصول إلى البيانات الأولية للقيام بمهام مثل المعالجة المسبقة للبيانات، وهندسة الميزات، والتحليل الاستكشافي قبل إدخالها في خطوط أنابيب التدريب. يمكن لمنصات مثل Ultralytics HUB الاستفادة من مجموعات البيانات التي تتم إدارتها أو الحصول عليها من بحيرات البيانات لتدريب نماذج مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام أو تجزئة الصور. يعد الوصول إلى مجموعات البيانات الشاملة أمرًا بالغ الأهمية لأداء النموذج.
التطبيقات الواقعية
- تطوير المركبات ذاتية القيادة: تقوم الشركات التي تعمل على تطوير المركبات ذاتية القيادة بجمع بيتابايت من البيانات من أجهزة الاستشعار (الكاميرات، والرادار والرادار ونظام تحديد المواقع العالمي) أثناء القيادة التجريبية. يتم تفريغ هذه البيانات الأولية متعددة التنسيقات في بحيرة بيانات. ثم يصل مهندسو تعلُّم الآلة إلى هذه البيانات لتدريب نماذج الإدراك والتحقق من صحة نماذج الإدراك، مثل نماذج اكتشاف الأجسام لتحديد المشاة والمركبات الأخرى، وهو أمر ضروري للملاحة الآمنة.
- تجارب العملاء الشخصية: تستوعب منصات التجارة الإلكترونية ومنصات البث كميات هائلة من بيانات تفاعل المستخدم (النقرات وسجل الشراء وأنماط المشاهدة وموجزات الوسائط الاجتماعية وسجلات الجهاز) في بحيرة البيانات. ويستخدم علماء البيانات أدوات مثل Apache Spark لمعالجة هذه البيانات المتنوعة وبناء نماذج تعلّم الآلة لأنظمة التوصيات، والتنبؤ بتفضيلات المستخدم وتقديم محتوى مخصص أو اقتراحات منتجات في الوقت الفعلي.
توفر بحيرات البيانات الحجم والمرونة اللازمين للتعامل مع الحجم المتزايد للبيانات وتنوعها المطلوبين لتشغيل حلول الذكاء الاصطناعي الحديثة.