مسرد المصطلحات

التنقيب عن البيانات

اكتشف كيف يحول التنقيب في البيانات البيانات البيانات الخام إلى رؤى قابلة للتنفيذ، ويدعم الذكاء الاصطناعي والتعلم الآلي والتطبيقات الواقعية في مجالات الرعاية الصحية وتجارة التجزئة وغيرها!

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التنقيب في البيانات هو عملية اكتشاف الأنماط والاتجاهات والرؤى القيّمة المخفية في مجموعات البيانات الكبيرة. وهي توظف مزيجًا من الأساليب الإحصائية وخوارزميات التعلم الآلي (ML) وأنظمة قواعد البيانات لتحويل البيانات الخام إلى معلومات مفهومة وقابلة للتنفيذ. تُعد هذه العملية أساسية للذكاء الاصطناعي (AI)، حيث توفر الأساس لبناء نماذج تنبؤية وتمكين اتخاذ القرارات المستندة إلى البيانات في مختلف المجالات. يساعد التنقيب الفعال في البيانات المؤسسات على تحسين العمليات وفهم سلوك العملاء وتحديد الفرص الجديدة من خلال الكشف عن العلاقات التي قد لا تكون واضحة من خلال تحليل البيانات البسيط.

التقنيات الرئيسية في التنقيب عن البيانات

يستخدم التنقيب عن البيانات تقنيات مختلفة لاستخراج أنواع مختلفة من المعلومات:

  • التصنيف: تعيين العناصر في مجموعة ما إلى فئات أو فئات مستهدفة. والهدف من ذلك هو التنبؤ بدقة بالفئة المستهدفة لكل حالة في البيانات (على سبيل المثال، التنبؤ بتغير العملاء). وغالبًا ما يتضمن ذلك أساليب التعلّم تحت الإشراف.
  • التجميع: تجميع نقاط البيانات المتشابهة معًا دون معرفة مسبقة بالمجموعات. تساعد خوارزميات مثل K-Means أو DBSCAN في تحديد التجميعات الطبيعية في البيانات، وهو مثال على التعلم غير الخاضع للإشراف.
  • الانحدار: التنبؤ بقيمة مستمرة (على سبيل المثال، التنبؤ بأسعار المنازل بناءً على سمات مثل الحجم والموقع). يقوم بنمذجة العلاقة بين المتغيرات.
  • التنقيب عن قواعد الارتباط: اكتشاف العلاقات بين المتغيرات في قواعد البيانات الكبيرة، وغالبًا ما يُستخدم لتحليل سلة السوق (على سبيل المثال، اكتشاف أن العملاء الذين يشترون الخبز يميلون أيضًا إلى شراء الحليب).
  • اكتشاف الشذوذ: تحديد نقاط البيانات أو الأحداث التي تنحرف بشكل كبير عن القاعدة، وهو أمر بالغ الأهمية لتطبيقات مثل الكشف عن الاحتيال أو تحديد العيوب في التصنيع.

التنقيب عن البيانات مقابل المصطلحات ذات الصلة

على الرغم من ارتباطها ببعضها البعض، إلا أن التنقيب عن البيانات يختلف عن التخصصات الأخرى التي تركز على البيانات:

  • تحليلات البيانات: يركز أكثر على الإحصاءات الوصفية وإعداد التقارير وتصور البيانات لفهم الأداء السابق والاتجاهات الحالية. غالبًا ما يذهب التنقيب في البيانات إلى أبعد من ذلك، مع التركيز على النمذجة التنبؤية واكتشاف الأنماط.
  • التعلم الآلي (ML): يوفر الخوارزميات والأدوات المستخدمة في التنقيب عن البيانات للعثور على الأنماط وبناء النماذج. التنقيب في البيانات هو العملية الأوسع نطاقاً لتطبيق هذه الأساليب (وغيرها) لاستخراج المعرفة من البيانات. العديد من مهام تعلّم الآلة، مثل تصنيف الصور، هي تطبيقات تم تمكينها من خلال مبادئ التنقيب عن البيانات المطبقة على البيانات المرئية.
  • البيانات الضخمة: تشير إلى مجموعات البيانات الكبيرة للغاية التي تتطلب أدوات وتقنيات متخصصة لمعالجتها. وغالبًا ما يتم تطبيق تقنيات التنقيب عن البيانات على البيانات الضخمة لاستخراج الرؤى، ولكن يمكن إجراء التنقيب عن البيانات نفسها على مجموعات البيانات من أي حجم. توفر منهجية CRISP-DM نموذج عملية قياسي لمشاريع التنقيب عن البيانات.

التطبيقات الواقعية لاستخراج البيانات في العالم الحقيقي

تقود تقنيات التنقيب عن البيانات الابتكار والكفاءة في العديد من القطاعات. وفيما يلي مثالان على ذلك:

  1. تحليل سلة البيع بالتجزئة: تستخدم المتاجر الكبرى التنقيب عن قواعد الارتباط في بيانات المعاملات لفهم عادات الشراء. قد يؤدي اكتشاف أن العملاء يشترون بشكل متكرر رقائق البطاطس والمشروبات الغازية معًا إلى وضع هذه العناصر بالقرب من بعضها البعض أو تقديم عروض ترويجية مجمعة كما هو موضح في استراتيجيات الذكاء الاصطناعي في البيع بالتجزئة.
  2. التشخيص التنبؤي في مجال الرعاية الصحية: تطبق المستشفيات والباحثون تقنيات التصنيف والتجميع على بيانات المرضى (الأعراض والتاريخ المرضي ونتائج الاختبارات) للتنبؤ باحتمالية الإصابة بأمراض مثل السكري أو أمراض القلب. ويساعد ذلك في الكشف المبكر وخطط العلاج المخصصة، وهو جانب رئيسي من جوانب الذكاء الاصطناعي في مجال الرعاية الصحية. على سبيل المثال، تعتمد التقنيات المشابهة لتلك المستخدمة في الكشف عن الأورام في التصوير الطبي اعتمادًا كبيرًا على الأنماط المستخرجة من مجموعات البيانات الطبية الضخمة.

التنقيب عن البيانات و Ultralytics

في شركة Ultralytics تدعم مبادئ التنقيب عن البيانات العديد من جوانب تطوير ونشر أحدث نماذج الرؤية الحاسوبية مثل Ultralytics YOLO. يتطلب تدريب نماذج قوية لمهام مثل اكتشاف الأجسام أو تجزئة الصور بيانات عالية الجودة ومفهومة جيدًا. تُعد تقنيات التنقيب عن البيانات ضرورية أثناء المعالجة المسبقة للبيانات وجمع البيانات والتعليق التوضيحي لتنظيف البيانات وتحديد التحيزات(تحيز مجموعة البيانات) واختيار الميزات ذات الصلة، مما يؤدي في النهاية إلى تحسين دقة النموذج.

علاوة على ذلك، يوفر Ultralytics HUB منصة يمكن للمستخدمين من خلالها إدارة مجموعات البيانات وتدريب النماذج. تعمل الأدوات الموجودة داخل منظومة HUB على تسهيل استكشاف وفهم مجموعات البيانات، مما يسمح للمستخدمين بتطبيق مفاهيم التنقيب عن البيانات لتحسين سير عمل التعلم الآلي الخاص بهم والاستفادة من تقنيات مثل زيادة البيانات بشكل فعال. يعد فهم البيانات من خلال التنقيب أمرًا بالغ الأهمية قبل القيام بخطوات مثل ضبط المعلمة الفائقة. يمكنك معرفة المزيد عن دور التعلم الآلي والتنقيب عن البيانات في الرؤية الحاسوبية في مدونتنا.

قراءة الكل