أنواع البيانات و الطرق المختلفة لإظهارها

تعد البيانات العملة العالمية الجديدة وشبكة الانترنت هي مكتب الصرافة التي يمكن تداولها من خلاله ونظراً لتوافر البيانات بشكل كبير و صعوبة فهمها و تحليلها بشكلها الخام يتم عادة استخدام و ابتكار طرق لإظهارها. إن أهمية إظهار البيانات تكمن في قدرتها على توصيل الفكرة  الأساسية من قاعدة كبيرة من البيانات وكذلك إظهار أنماط وملاحظات لم تكن واضحة من خلال النظر المباشر إلى البيانات. سوف نشرح في هذا المقال مجموعة من  طرق إظهار البيانات المختلفة وأهمية كل منها.

أنواع البيانات

 عادة ما تكون البيانات متوفرة بطرق مختلفة تختلف تبعاً لها الطرق المستخدمة لإظهارها. أشهر الطرق المستخدمة لإظهار البيانات هي التالية:

البيانات المتقطعة:

و هي البيانات التي تحوي على عدد محدود من القيم التي يمكن أن تأخذها المتحولات. القيم المستخدمة قد تكون رموز، أحرف أو أرقام. على سبيل المثال يمكن تمثل البيانات بالاعتماد على الاسم للتفريق بينها أي أن نعطي اسم لكل غرض مثل أرقام الهوية ولون العين ورموز البريد.

البيانات المستمرة:

 القيم المعطاة للمتحولات في هذه الأنواع هي قيم مستمرة كمدلات الطلاب، درجات الحرارة أو العمر.

طرق إظهار البيانات

طرق تخزين البيانات عادة ما تكون غير فاعلة لفهم البيانات وتحليلها و استخراج أو ايضاح المعلومات المفيدة. يتم عادة استخدام طرق الإظهار  لتسهيل الفهم و التعامل مع البيانات كما أنه يمكن استخدام طرق إظهار معينه لتحديد طرق التعلم الآلي الفاعلة الممكن استخدامها. لنأخذ على سبيل المثال الجدول الموضح التالي:

table
مثال عن الطرق القياسية لتخزبن البيانات

ستلاحظ أنه من الصعب، بل من المستحيل، فهم البيانات بهذه الطريقة من الإظهار لذلك يتم تحويل البيانات لطرق أخرى أسهل للفهم.

هناك عدة طرق لإظهار البيانات و يعتمد اختيار الطريقة المثلى على نوع البيانات المراد إظهارها و الهدف من الإظهار. يوضح الشكل التالي  بعض الأمثلة عن طرق الاظهار.  mdimvisualizationmethods

هناك على سبيل المثال بعض الطرق المعتمدة على أنواع البيانات ذات البعد الواحد كالشكل في أعلى اليسار من المثال في الأعلى و يستخدم هذا النوع  عادة لإظهار توزع القيم لمتحول معين حيث يسهل رؤية القيم العليا و الدنيا و مجالات تغير كل منها.

هناك أنواع أخرى من الإظهار تستخدم لتوضيح العلاقات بين المتحولات كالشكل  في الوسط في المثال السابق. إذا اعتبرنا أن أحد المحاور يرمز للعام و الآخر لأسعار البيوت فيمكنك الاستنتاج بسرعة أن هناك علاقة ارتباط بين هذين المتحولين (أي أن الازدياد في الأول يرافقه ازدياد في الآخر)

 إظهار البيانات في الأبعاد الثلاثية و ما فوقها يعتبر أكثر تعقيداً. الشكل على أقصى اليمين في الأسفل يعد أحد هذه الطرق. يتم في هذه الطريقة تمثيل كل متحول أو خاصة بعمود يتم وضع القيم المحتمله عليه بحيث تكون الأعمدة متوازية. يمكن عندها تمثيل كل قيمة في الجدول السابق بمجموعة من الخطوط الأفقية التي تربط بين القيم المختلفة لمتحولات السطر. يمكن بعد ذلك اكتشاف العلاقات بين المتحولات أو العناصر عن طريق مراقبة تغيرات اتجاه و توازي الخطوط. لاحظ أنه في هذه الحالة يمكن رسم عدد كبير من المتحولات إلا أنه يصعب فهم المخطط عند زيادة عدد العناصر عن حد معين.

الطرق الأكثر استخداماً لإظهار البيانات في الأبعاد الكبيرة تعتمد بشكل أساسي على دراسة البيانات الجزئي بحيث يتم اختيار مجموعة من البيانات و إظهارها في كل مرحلة أو على استخدام خوارزميات ذكية تقوم بضغط البيانات و تحويلها إلى أبعاد أخرى أصغر بحيث يكون إظهارها و التعامل معها فعالاً أكثر.

أهم خصائص إظهار البيانات

إن أهم خصائص إظهار البيانات هي الخصائص التي ينتبه اليها المحلل وهي التي يمكن للعين البشرية أن تلاحظها بسهولة. يمكن اختصار هذه :الخصائص التالي

الخصائص المتعلقة بالشكل الظاهري

و تتضمن الشكل واللون والموقع للمتحولات المطلوب إظهارها حيث أن هذه الخصائص يمكنها لفت انتباهنا في أقل 10 ميلي ثانية وهي أول :مايمكن للعين تمييزه. يبين الشكل التالي هذه الخصائص

new
بعض الخصائص المتعلقة بالشكل الظاهري

الخصائص المتعلقة بالأنماط التحليلية

الأنماط التحليلية تتكون من مجموعة من الخصائص تم التركيز عليها في شكل واحد لكي تمكننا من استخلاص علاقات و خصائص للبيانات. :يوضح الشكل التالي مجموعة من الأنماط التحليلية لتي يمكن للعين تمييزها بسهولة

أنماط تحليلية

اختيار النوع المناسب للإظهار

واحدة من أهم المشكلات التي يمكن أن تواجهنا عند إظهار البيانات هي اختيار النوع المناسب للإظهار وذلك لأن اختيار النوع الخاطئ من الرسم البياني أو استخدام النوع الشائع يمكن أن يسبب حيرة وتشويش للمحلل قد يؤدي إلى تفسير خاطئ للبيانات . لاحظ المخطط التالي من صحيفة نيويورك الذي يشير الى تحرك المواطينين الأمريكيين بداخل الدولة. هذا المخطط يمثل مجموعة كبيرة من البيانات التي تم جمعها على مدى 100 عام ومع ذلك فإنه من السهل فهمه.

dc-migration-nytimes

لانشاء مخططات توضح وتوفر الشكل المناسب لتحليل البيانات نحتاج الى فهم الأسباب التي تقودنا الى اختيار مخطط ما. في هذه الفقرة سوف نعطي لمحة عامة عن بعض الطرق المختلفة من الرسوم البيانية.

لاختيار النوع المناسب من الاظهار يجب أن تسأل نفسك بعض الأسئلة التالية

      هل تريد المقارنة بين قيم البيانات؟

المخططات المثالية لمقارنة واحدة أو مقارنة مجموعة من القيم ويمكن من خلالها اظهار القيم المرتفعة والمنخفضة في مجموعة من البيانات هي الموجودة في الشكل التالي

      1

      هل تريد اظهار التداخل بين الأشياء؟

تستخدم  الأنواع التالية من الرسم البياني لاظهار كيف يمكن لمجموعة من الأشياء الصغيرة أن تشكل شيئا كاملا فمثلا تمثيل مبيعات شركة معينة وتقسيمها حسب المبيعات التي باعها  مندوب معين أو نوع الأجهزة التي يستخدمها زائرين موقع معين

2

     هل تريد فهم توزيع البيانات؟

 طرق اظهار البيانات الأمثل لفهم توزيع البيانات هي الطرق التي يمكننا استخدامها لفهم القيم المتطرفة  والميل الطبيعي توزع القيم

3

معظم الأسئلة الأخرى التي قد تخطر لك يمكن الإجابة عنها بأحد أو بمجموعة من الطرق الموضحة مسبقاً.

طرق حديثة و مبدعة لإظهار البيانات

ليس هناك قواعد محدده يجب عليك اتباعها لإظهار البيانات مما يترك لك مساحة واسعة للابتكار واستكشاف المعلومات. خذ على سبيل المثال الشكل التالي الذي يوضح شبكة اتصال مستخدمي تويتر. يمكنك بسهولة ملاحظة المستخدمين ذوي العدد الأكبر من المتابعين.

twitter

الشكل التالي عبارة عن طريقة إظهار مستخدمة لتوضيح مراحل الألعاب و مدى صعوبتها حيث يعبر اللون الأحمر الداكن على كثرة الاعبين الذين خسرو المرحلة في مواقع مختلفة. يساعد هذا النوع من الإظهار على استكشاف أخطاء في التصميم أو تعديل المراحل حسب خبرة اللاعبين.

haloheatmapthepit

المثال الأخير يوضح الكلمات الأساسية الأكثر توارد في عدد كبيلر من الأوراق البحثية حيث يعكس حجم الخط المستخدم عدد مرات توارد الكلمة.   .يساعد هذا النوع من الإظهار على معرفة توجهات الباحثين في مؤتمر معين

key

بعض الملاحظات

  يتوجب عليك الانتباه إلى أن تكون عملية الإظهار هي انعكاس حقيقي للمعلومات بدون أي تشويه. خذ على سبيل المثال الشكل التالي الذي يوضح أحد الأخطاء التي يمكن أن يقع فيها الباحث عند إظهار البيانات. في الشكل على اليسار رسم الدائرة بعد تكبيرها بنسبة معينة لتلائم البيانات الجديدة هو تصرف خاطئ  فيجب علينا استخدام المعادلة الرياضية للدائرة لحساب نصف قطرها ومن ثم زيادة نصف القطر حسب البيانات الجديدة ورسم الدائرة مرة أخرى.

probb1

 أحد أهم الأخطاء بتمثيل البيانات هي اختيار وحدة القياس للمحور العمودي  بشكل خاطئ عند رسم الشكل البياني. في أغلب الأحيان المحور العمود يحمل القيم بين 0 والقيمة العظمى الموجودة في البيانات. ولكن أحياناً نحن نغير من هذا المجال للفت الانتباه الى الفروقات الموجودة بالبيانات. يين الرسم التالي رسمين بيانيين لنفس البيانات ولكن مع اختيار مختلف للمحور العمودي.

y-axis-ar

المراجع:

  1. http://techathon.mytechlabs.com/type-of-attributes-in-data-mining/
  2. http://data.heapanalytics.com/how-to-lie-with-data-visualization
  3. http://flowingdata.com/2015/12/15/a-day-in-the-life-of-americans
Advertisements

اترك رد

إملأ الحقول أدناه بالمعلومات المناسبة أو إضغط على إحدى الأيقونات لتسجيل الدخول:

WordPress.com Logo

أنت تعلق بإستخدام حساب WordPress.com. تسجيل خروج   / تغيير )

صورة تويتر

أنت تعلق بإستخدام حساب Twitter. تسجيل خروج   / تغيير )

Facebook photo

أنت تعلق بإستخدام حساب Facebook. تسجيل خروج   / تغيير )

Google+ photo

أنت تعلق بإستخدام حساب Google+. تسجيل خروج   / تغيير )

Connecting to %s