عالم الرياضيات الأمريكي جون توكي وضعت أصلا تحليل البيانات الاستكشافية (EDA) في سبعينيات القرن العشرين. حتى اليوم ، لا تزال تقنيات EDA طريقة مستخدمة على نطاق واسع في عملية اكتشاف البيانات. بالإضافة إلى النمذجة الرسمية أو اختبار الفرضيات ، تفتح جمعية الإمارات للغوص بابا واسعا لفهم أفضل لمتغيرات مجموعة البيانات وعلاقاتها. كما أنه يساعد على تحديد ما إذا كانت التقنية الإحصائية التي تم أخذها في الاعتبار لتحليل البيانات مناسبة أم لا.
ما هو تحليل البيانات الاستكشافية؟
يستخدم تحليل البيانات الاستكشافية (EDA) على نطاق واسع من قبل علماء البيانات أثناء تحليل مجموعات البيانات والتحقيق فيها ، مما يلخص الخصائص الرئيسية للبيانات إلى طريقة التصور. يساعد عالم البيانات على اكتشاف أنماط البيانات ، والحالات الشاذة الموضعية ، واختبار الفرضيات ، و / أو الافتراض.
لذلك بطريقة بسيطة ، يمكن تعريفها على أنها طريقة تساعد عالم البيانات على تحديد أفضل الطرق لمعالجة مصدر البيانات المحدد للحصول على الإجابة المطلوبة كهدف.
ما مدى أهمية تحليل البيانات الاستكشافية في علم البيانات
الغرض الأساسي من EDA هو المساعدة في إلقاء نظرة عميقة على مجموعة البيانات قبل وضع أي افتراضات ، وتحديد الأخطاء الواضحة ، واكتساب فهم أفضل للأنماط داخل مجموعة البيانات ، ومعرفة القيم المتطرفة و / أو الأحداث الشاذة ، وأخيرا وليس آخرا ، لمعرفة العلاقات المثيرة بين المتغيرات.
تحليل البيانات الاستكشافية مهم للغاية لتحليل البيانات في مجال علوم البيانات. أولا ، يتم استخدام EDA للتأكد من أن النتائج التي ينتجها علماء البيانات صالحة وقابلة للتطبيق على أي أهداف مرغوبة. ثانيا ، تساعد جمعية الإمارات للغوص أصحاب المصلحة على التأكد من أنهم يطرحون دائما الأسئلة الصحيحة. كما أنه يساعد في الإجابة على الأسئلة حول الانحرافات المعيارية والمتغيرات الفئوية وفترات الثقة. أخيرا ، بمجرد اكتمال EDA واستخلاص الرؤى ، يمكن بعد ذلك استخدام ميزاته لتحليل البيانات أو النمذجة الأكثر تعقيدا ، بما في ذلك التعلم الآلي.
أنواع تحليل البيانات الاستكشافية
حسنا ، هناك أربعة أنواع أساسية من EDA:
-
أحادي المتغير غير الرسومي:
Univariate Non Graphic هو أبسط أشكال تحليل البيانات. هنا يتكون من متغير واحد فقط. كونه متغيرا واحدا ، فإنه لا يتعامل مع الأسباب أو العلاقات. بدلا من ذلك ، فإن الغرض الأساسي من التحليل الموضوعي أحادي المتغير هو وصف البيانات وإيجاد أنماط داخلها.
-
رسومية أحادية المتغير
لا يمكن للطرق غير الرسومية تقديم صورة كاملة للبيانات. لذلك فإن الأساليب الرسومية مطلوبة هنا. الأنواع الشائعة من الرسومات أحادية المتغير هي:
- مؤامرات الساق والأوراق: يعرض هذا جميع قيم البيانات وشكل التوزيع.
- الرسوم البيانية مخطط شريطي: حيث يمثل كل شريط تكرار (عدد) أو نسبة (عدد / إجمالي عدد) الحالات لمجموعة من القيم.
- مخططات الصندوق: تصور بيانيا الملخص المكون من خمسة أرقام للحد الأدنى والربع الأول والوسيط والربع الثالث والحد الأقصى.
-
متعدد المتغيرات غير رسومية
تنشأ البيانات متعددة المتغيرات من أكثر من متغير واحد. بشكل عام ، تظهر تقنيات EDA غير الرسومية متعددة المتغيرات العلاقة بين متغيرين أو أكثر من متغيرات البيانات من خلال الجدولة المتقاطعة أو الإحصاءات.
-
رسومية متعددة المتغيرات
تستخدم البيانات متعددة المتغيرات الرسومات أثناء عرض العلاقات بين مجموعتي بيانات أو أكثر. الرسم الأكثر استخداما هو مخطط شريطي مجمع أو مخطط شريطي حيث تمثل كل مجموعة مستوى واحدا من أحد المتغيرات وكل شريط داخل مجموعة يمثل مستويات المتغير الآخر.
تتضمن الأنواع الشائعة الأخرى للرسومات متعددة المتغيرات ما يلي:
- مخطط مبعثر: يستخدم لرسم نقاط البيانات على محور أفقي وعمودي لإظهار مدى تأثر متغير بآخر.
- مخطط متعدد المتغيرات: هو تمثيل رسومي للعلاقات بين العوامل والاستجابة.
- مخطط التشغيل: هو رسم بياني خطي للبيانات المرسومة بمرور الوقت.
- المخطط الفقاعي: هو تصور بيانات يعرض دوائر متعددة (فقاعات) في مخطط ثنائي الأبعاد.
- خريطة الحرارة: هي تمثيل رسومي للبيانات حيث يتم تصوير القيم حسب اللون.
أدوات تحليل البيانات الاستكشافية
هناك العديد من الأدوات المتاحة لتحليل البيانات الاستكشافية. بعض من أكثرها شعبية هي R و Python و SAS. ومع ذلك ، لكل منها نقاط قوتها وضعفها ، لذا فإن اختيار الأداة المناسبة للوظيفة أمر ضروري.
R هي أداة ممتازة لتصور البيانات. لديها مجموعة متنوعة من المؤامرات والمخططات التي يمكن استخدامها لاستكشاف البيانات. كما أن لديها الكثير من الوظائف الإحصائية التي يمكن استخدامها لإجراء تحليلات أكثر تقدما.
بايثون هي أداة رائعة أخرى ل EDA. يحتوي على العديد من الميزات نفسها مثل R ، ولكنه أيضا أكثر سهولة في الاستخدام. نتيجة لذلك ، تعد Python خيارا ممتازا للمبتدئين الذين يرغبون في البدء في تحليل البيانات.
SAS هي حزمة برامج إحصائية قوية يمكن استخدامها ل EDA. SAS أغلى من R و Python ، لكن الأمر يستحق الاستثمار إذا كنت بحاجة إلى إجراء حسابات أكثر تعقيدا.
QuestionPro وتحليل البيانات الاستكشافية
يمكنك دائما الحصول على بياناتك من مصدر بيانات مختلف ، ويمكن أن يساعدك QuestionPro بالتأكيد في جمع بيانات الاستطلاع من قنوات متعددة. ولكن ماذا يحدث عندما تريد تجاوز البيانات التي تم جمعها بالفعل؟ وهنا يأتي دور تحليل البيانات الاستكشافية.
أدوات التحليل المدمجة في QuestionPro تجعل من السهل البدء في استخدام EDA. يمكنك الاطلاع بسرعة على إحصائيات موجزة لبياناتك وإنشاء مرئيات تفاعلية والمزيد. ولأن QuestionPro يتكامل مع R ، يمكنك استخدام جميع الأدوات الإحصائية القوية التي تقدمها R.
لذلك إذا كنت مستعدا لنقل تحليل بياناتك إلى المستوى التالي ، فإن QuestionPro هي واحدة من الأدوات المثالية.
استنتاج
أخيرا ، يمكننا القول أن تحليل البيانات الاستكشافية هو منهجية مجربة يمكن أن تساعد علماء البيانات على فهم مجموعات البيانات المعقدة. باستخدام المرئيات والأساليب الأخرى ، يمكنك الكشف عن الأنماط والعلاقات التي ربما لم تجدها بطريقة أخرى.
لذلك ، تعد جمعية الإمارات للغوص جزءا أساسيا من أي تحليل للبيانات ، ونأمل أن تكون هذه المقالة قد أعطتك مقدمة رائعة للموضوع.
تعرف على المزيد حول QuestionPro ومعلومات حول تحليل البيانات الاستكشافية من خلال الاشتراك في
Questionpro.com
المؤلف: محمد السلام و ميزان الإسلام