معالجة البيانات في بايثون؟

نحن نعيش في عصر البيانات الضخمة. هناك كمية هائلة من البيانات تتدفق حولنا باستمرار. ويبدو أن تدفق البيانات هذا سيستمر في التزايد. ولكي لا تغرق في هذا الدفق، عليك أن تعرف كيفية معالجة البيانات بشكل صحيح وتحليلها واستخلاص الاستنتاجات الصحيحة منها. واحدة من أفضل الأدوات لهذا هي بايثون!

أصبح من السهل جدًا جمع البيانات وتخزينها ونقلها. علاوة على ذلك، أصبح عدد متزايد من الشركات يدرك قيمة البيانات. يمكن تحويل البيانات الأولية إلى قيمة أعمال عن طريق تحسين العمليات، والتنبؤ الأفضل، والصيانة التنبؤية، والتنبؤ بتراجع العملاء، وما إلى ذلك. علاوة على ذلك، تتيح حلول البيانات الضخمة إمكانية معالجة البيانات في الوقت الفعلي، وبالتالي تعزيز تجارب العملاء وتقليل تكاليف التشغيل.

ومع ذلك، فإن عملية خلق القيمة من البيانات الأولية تواجه العديد من التحديات. لا يمكننا فقط جمع البيانات واستخدامها كما هي. تتطلب البيانات عادةً الكثير من المعالجة قبل أن يتم استخدامها كأصل ذي قيمة.

في هذه المقالة، سنشرح لماذا تعد معالجة البيانات جزءًا أساسيًا من علم البيانات وكيف تجعل بايثون عملية معالجة البيانات أسهل.

لماذا تعتبر معالجة البيانات مهمة؟

قبل أن نبدأ مناقشتنا حول أهمية معالجة البيانات، دعونا نحدد ثلاثة مصطلحات:

  • تشير معالجة البيانات إلى العملية الكاملة لجمع البيانات وتحويلها (أي تنظيف البيانات أو وضعها في حالة قابلة للاستخدام)، وتصنيف البيانات.
  • البيانات الأولية هي البيانات التي تم جمعها من مصادر مختلفة، في حالتها الأصلية. وعادة ما لا يكون بالتنسيق الأكثر ملاءمة لتحليل البيانات أو النمذجة.
  • البيانات النظيفة هي البيانات التي تم الحصول عليها بعد معالجة البيانات الأولية – أي أنها بيانات جاهزة للتحليل. لقد تم تحويله إلى تنسيق قابل للاستخدام؛ تم تصحيح أو إزالة البيانات غير الصحيحة أو غير المتسقة أو المفقودة (قدر الإمكان).

هناك عدة أسباب وراء حاجتنا إلى تطبيق عمليات معالجة البيانات على البيانات الأولية. على سبيل المثال، قد تكون هناك قيم مفقودة في مجموعة البيانات. لنفترض أن لدينا مجموعة بيانات تحتوي على معلومات شخصية لعملاء البنك وإحدى السمات هي عمر العميل. إذا كنا نقوم بإجراء تحليل يتضمن عمر العميل، فإن عدم معرفة عمر بعض العملاء سيكون له تأثير سلبي على نتائجنا. لذلك يجب معالجة هذه البيانات لإزالة القيم المفقودة.

تحتوي مجموعة البيانات التالية على بيانات أولية تحتاج إلى بعض المعالجة. دعونا نحاول تحديد نوع المعالجة المطلوبة.

customer_idCustomer_agecitystart_dateestimated_salaryprofession
10134Houston, TX2018-08-11$65,000Accounting
10227San Jose, CA2017-08-24$70,000Field Quality
103<NA>Dallas, TX2020/04/16$58,500human resources
10441Miami, FL2021-02-11$49,500accounting
10525Santa Clara, CA2020/09/01$62,000field quality
10629Atlanta, GA2021-10-20$54,500engine
  • يحتوي العمود customer_age على قيمة مفقودة ممثلة بـ <NA>
  • التواريخ الموجودة في العمود start_date لها تنسيقات مختلفة؛ يجب توحيد التنسيق.
  • بعض النص الموجود في عمود profession مكتوب بأحرف كبيرة والبعض الآخر ليس كذلك. في هذه الحالة، يعتقد الكمبيوتر أن “المحاسبة” و”المحاسبة” مختلفان. قد يكون أي تحليل للبيانات بناءً على هذا العمود غير دقيق.
  • عمود estimated_salary ليس بتنسيق رقمي. يتم تخزينه كنص، مما يعني أن 65000 دولار لا تمثل أي كمية.
  • يتضمن عمود city معلومات المدينة والولاية. من الأفضل تمثيل بيانات المدينة والولاية في أعمدة منفصلة.

هذه ليست سوى بعض المشكلات التي من المحتمل أن نواجهها في البيانات الأولية. مع زيادة حجم البيانات وعدد السمات (أي الأعمدة)، عادةً ما تزداد أيضًا كمية معالجة البيانات المطلوبة.

ربما تتساءل لماذا لا يتم تخزين البيانات الأولية بتنسيق قابل للاستخدام حتى لا نضطر إلى التعامل مع معالجة البيانات. سيكون من الجميل جدًا أن تكون قادرًا على استخدام البيانات الأولية كما هي. ومع ذلك، فإن هذا ليس هو الحال عادةً مع مجموعات البيانات الواقعية. الأسباب الرئيسية لذلك هي:

  • خطأ المستخدم / إدخال غير صحيح: من قام بإدخال القيم قد يكون مخطئا.
  • المدخلات المفقودة: في بعض الحالات، لا يقدم العملاء المعلومات.
  • المشكلات المتعلقة بالبرمجيات: يمكن أن تؤدي المشكلات في معالجة استخراج البيانات الأولية وتحويلها وتحميلها ونقلها إلى إنشاء بيانات “قذرة”.

مهما كان سبب المشكلة، فنحن بحاجة إلى تنظيف البيانات قبل الاستفادة منها.

وبالعودة إلى مجموعة بيانات العملاء الأولية، فإن ما يلي هو نسخة “نظيفة” من مجموعة البيانات الأولية:

customer_idcustomer_agecitystatestart_dateestimated_salaryprofession
10134HoustonTX2018-08-1165000accounting
10227San JoseCA2017-08-2470000field quality
10441MiamiFL2021-02-1149500accounting
10525Santa ClaraCA2020-09-0162000field quality
10629AtlantaGA2021-10-2054500

من المهم ملاحظة أن الطريقة التي نختار بها التعامل مع القيم المفقودة تعتمد على المهمة والموقف. إذا كان العمر ذا أهمية حيوية لتحليلنا، فإن إسقاط الصفوف التي لا تحتوي على قيمة عمرية يعد خيارًا قابلاً للتطبيق. في بعض الحالات، قد نختار بدلاً من ذلك استبدال قيم العمر المفقودة بقيمة متوسطة.

من يجب أن يتعلم معالجة البيانات؟

تعد معالجة البيانات مهارة ذات قيمة عالية لمهندسي البيانات ومحللي البيانات وعلماء البيانات. إذا كنت تعمل مع البيانات، فسوف تواجه عاجلاً أم آجلاً بعض البيانات التي تحتاج إلى المعالجة والتنظيف.

في عالم مثالي، يعمل علماء البيانات على بيانات نظيفة ومعالجتها. وتتمثل مهمتهم في استكشاف البيانات والتوصل إلى نماذج دقيقة. ومع ذلك، لا يتم دائمًا تقديم البيانات القابلة للاستخدام على طبق من فضة لعلماء البيانات. قد يتعين عليهم معالجة البيانات الأولية وتنظيفها قبل القيام بأي عمل تحليلي.

هذا هو السبب وراء تحديد معالجة البيانات كمهارة متوقعة في معظم فرص العمل. سواء كنت مهندس بيانات أو عالم بيانات، فإن معالجة البيانات تستحق التعلم.

معالجة البيانات في بايثون

أعتقد أننا نتفق جميعًا على أن معالجة البيانات هي عملية لا بد منها في النظام البيئي لعلم البيانات. في الواقع، يتم إنفاق قدر كبير من الوقت في سير العمل النموذجي على معالجة البيانات.

تمتلك بايثون مكتبات قوية للغاية تعمل على تسهيل وتسريع عملية معالجة البيانات. على سبيل المثال، المكتبة التي استخدمتها لمعالجة مجموعة بيانات العملاء الأولية أعلاه هي PANDAS، وهي إحدى مكتبات تحليل البيانات ومعالجتها الأكثر شيوعًا في بايثون.

نظرًا لأنها مكتبة بايثون، فإن الباندا لديها بناء جملة بديهي للغاية ومن السهل جدًا تعلمها. على سبيل المثال، الكود الذي استخدمته لتوحيد عمود المهنة هو:

customer["profession"] = customer["profession"].str.lower()

يؤدي هذا ببساطة إلى تحويل كافة البيانات النصية في عمود المهنة إلى أحرف صغيرة، بغض النظر عن كيفية تخزينها في الأصل. العمليات الأخرى التي قمت بها هي أيضًا بسيطة جدًا.

جزء مهم آخر من معالجة البيانات هو التعامل مع تنسيقات الملفات المختلفة. قد يتم تخزين البيانات الأولية بتنسيقات مختلفة مثل Excel أو CSV أو JSON. يجب أن نكون قادرين على قراءة البيانات المخزنة في هذه الملفات وكذلك كتابة البيانات بهذه التنسيقات.

يعتمد تنسيق الملف المحدد على التطبيق. حتى لو كانت البيانات هي نفسها، فإن طريقة قراءتها وحفظها تتغير وفقًا لتنسيق الملف. يجب أن نكون على دراية بتنسيقات الملفات شائعة الاستخدام.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

اكتشاف المزيد من بايثون العربي

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading

Scroll to Top