Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

البيانات الضخمة (Big Data)

اكتشف كيف تعمل البيانات الضخمة على تشغيل الذكاء الاصطناعي. تعلم كيفية إدارة مجموعات البيانات الضخمة للرؤية الحاسوبية، وتدريب Ultralytics والاستفادة من Ultralytics للتوسع.

تشير البيانات الضخمة إلى مجموعات بيانات كبيرة للغاية ومتنوعة ومعقدة تتجاوز قدرات معالجة أدوات إدارة البيانات التقليدية. في مجال الذكاء الاصطناعي، غالبًا ما يتم تعريف هذا المفهوم من خلال "الثلاثة V": الحجم والسرعة والتنوع. يمثل الحجم الكمية الهائلة من المعلومات، وتشير السرعة إلى السرعة التي يتم بها إنشاء البيانات ومعالجتها، ويشمل التنوع التنسيقات المختلفة، مثل الأرقام المنظمة والنصوص غير المنظمة والصور والفيديو. بالنسبة للرؤية الحاسوبية الحديثة أنظمة الرؤية الحاسوبية ، تعد البيانات الضخمة الوقود الأساسي الذي يسمح للخوارزميات بتعلم الأنماط، والتعميم عبر السيناريوهات، وتحقيق دقة عالية الدقة.

دور البيانات الضخمة في التعلم العميق

عودة ظهور التعلم العميق يرتبط ارتباطًا مباشرًا بتوافر مجموعات بيانات ضخمة. الشبكات العصبية، ولا سيما البنى المعقدة مثل YOLO26، تتطلب كميات هائلة من الأمثلة المصنفة لتحسين ملايين المعلمات بشكل فعال. بدون حجم بيانات كافٍ، تكون النماذج عرضة الملاءمة المفرطة، حيث تحفظ أمثلة التدريب بدلاً من تعلم التعرف على الميزات في الصور الجديدة غير المرئية.

لإدارة هذا التدفق من المعلومات، يعتمد المهندسون على أنابيب تعليق البيانات . Ultralytics تسهل هذه العملية، وتسمح للفرق بتنظيم مجموعات الصور الضخمة في السحابة وتصنيفها والتحكم في إصداراتها. هذه المركزية مهمة جدًا لأن بيانات التدريب يجب أن تكون نظيفة ومتنوعة ومصنفة بدقة لإنتاج نماذج ذكاء اصطناعي موثوقة.

تطبيقات العالم الحقيقي في الذكاء الاصطناعي

تقارب البيانات الضخمة والتعلم الآلي يدفع الابتكار في جميع الصناعات تقريبًا.

  • القيادة الذاتية: تولد السيارات ذاتية القيادة تيرابايتات من البيانات يوميًا من LiDAR والرادار والكاميرات. يساعد تدفق البيانات عالي السرعة هذا في تدريب نماذج الكشف عن الأجسام لتحديد المشاة وإشارات المرور والمركبات الأخرى في الوقت الفعلي. من خلال معالجة ملايين الأميال من لقطات القيادة ، يضمن المصنعون أن قدرتهم على يمكنها التعامل مع "الحالات الاستثنائية" النادرة بأمان.
  • التصوير الطبي: في مجال الرعاية الصحية، يستخدم تحليل الصور الطبية مستودعات ضخمة من الأشعة السينية والتصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب. تسمح البيانات الضخمة نماذج تقسيم الصورdetect مثل الأورام بدقة تفوق في كثير من الأحيان خبرة البشر. تستخدم المستشفيات التخزين السحابي الآمن مثل Google Healthcare API لتجميع بيانات المرضى مع الحفاظ على الخصوصية، مما يتيح تدريب نماذج مثل YOLO11 و YOLO26 من أجل التشخيص المبكر للأمراض.

التفريق بين المفاهيم ذات الصلة

من المهم التمييز بين البيانات الضخمة والمصطلحات ذات الصلة في نظام علم البيانات:

  • البيانات الضخمة مقابل استخراج البيانات: استخراج البيانات هي عملية استكشاف واستخراج أنماط قابلة للاستخدام من البيانات الضخمة. البيانات الضخمة هي الأصل؛ واستخراج البيانات هو التقنية المستخدمة لاكتشاف الرؤى الخفية داخل هذا الأصل.
  • البيانات الضخمة مقابل تحليلات البيانات: بينما تصف البيانات الضخمة المعلومات الأولية، تحليل البيانات تتضمن التحليل الحسابي لتلك البيانات لدعم عملية اتخاذ القرار. أدوات مثل Tableau أو Microsoft BI غالبًا ما تستخدم لتصور النتائج المستمدة من معالجة البيانات الضخمة.

تقنيات إدارة الحجم

يتطلب التعامل مع بيتابايت من البيانات المرئية بنية تحتية متخصصة. أطر المعالجة الموزعة مثل Apache Spark وحلول التخزين مثل Amazon S3 أو Azure Blob Storage تسمح للمؤسسات بفصل التخزين عن قوة الحوسبة.

في سير عمل الرؤية الحاسوبية العملي، نادراً ما يقوم المستخدمون بتحميل تيرابايتات من الصور إلى الذاكرة دفعة واحدة. بدلاً من ذلك، يستخدمون أدوات تحميل بيانات فعالة. يوضح Python التالي Python كيفية بدء التدريب باستخدام Ultralytics ، وتوجيه النموذج إلى ملف تكوين مجموعة البيانات. يعمل هذا التكوين كخريطة، مما يسمح للنموذج بتدفق البيانات بكفاءة أثناء عملية التدريب ، بغض النظر عن الحجم الإجمالي لمجموعة البيانات.

from ultralytics import YOLO

# Load the cutting-edge YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The 'data' argument can reference a local dataset or a massive cloud dataset
# effectively bridging the model with Big Data sources.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

مع استمرار نمو مجموعات البيانات، فإن تقنيات مثل زيادة البيانات و نقل التعلم تصبح أكثر أهمية، مما يساعد المطورين على تعظيم قيمة البيانات الضخمة الخاصة بهم دون الحاجة إلى موارد حسابية لا حصر لها . يجب على المؤسسات أيضًا التعامل مع اللوائح المتعلقة بخصوصية البيانات الخصوصية اللائحة العامة لحماية البيانات، لضمان أن مجموعات البيانات الضخمة المستخدمة لتدريب الذكاء الاصطناعي تحترم حقوق المستخدمين والمعايير الأخلاقية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن