Big Data - البيانات الضخمة


هدف التدريب
تهدف الدورة الحالية الى تعريف الطالب بالمبادئ التقنية الشائعة المختصة ببنية البيانات الضخمة، كذلك يتطرق الى العمليات الأساسية لـ HDFS ، و فهم نظام Hadoop ونظام Spark، وكيفية الاستعلام عن قواعد البيانات من خلال Spark SQL ، وتخزين واسترجاع ومعالجة بيانات والتطبيقات الشاملة في سيناريوهات نموذجية, وإدارة مشاريع البيانات الضخمة، وتطوير البيانات الضخمة.
فهرس موضوعات التدريب
اليوم الأول: مقدمة في البيانات الضخمة والبنية الأساسية
- مفهوم البيانات الضخمة وأهميتها في العصر الرقمي
- خصائص البيانات الضخمة (الحجم، التنوع، السرعة، الموثوقية، القيمة)
- الفرق بين قواعد البيانات التقليدية والبيانات الضخمة
- مكونات منظومة البيانات الضخمة (Data Pipeline)
- مقدمة في تقنيات Hadoop وEcosystem
- تطبيق عملي بسيط على تحليل بيانات ضخمة باستخدام أدوات مجانية
اليوم الثاني: نظم إدارة البيانات الضخمة – Hadoop Ecosystem
- هيكل Hadoop (HDFS وMapReduce)
- إدارة البيانات في HDFS
- مفهوم الـCluster وطرق التوزيع
- أدوات Hadoop المساندة (YARN, Hive, Pig, HBase)
- تمرين عملي: تحميل ومعالجة بيانات باستخدام Hive وPig
اليوم الثالث: التحليل والمعالجة باستخدام Apache Spark
- مقدمة في Apache Spark وأهم مكوناته
- RDDs وDataFrames وSpark SQL
- مقارنة Spark وMapReduce
- تنفيذ عمليات التحليل العملي باستخدام Spark
- تطبيق عملي على تحليل بيانات ضخمة باستخدام PySpark
اليوم الرابع: تخزين البيانات الضخمة والتكامل مع السحابة
- أنظمة تخزين البيانات (NoSQL – HBase, Cassandra, MongoDB)
- تكامل البيانات الضخمة مع خدمات السحابة (AWS, Azure, Google Cloud)
- Data Lake مقابل Data Warehouse
- استراتيجيات إدارة البيانات الضخمة على السحابة
- تمرين عملي: إعداد بيئة تخزين وتحليل بيانات على منصة سحابية
اليوم الخامس: التحليل المتقدم والتصور البياني للبيانات الضخمة
- تحليل البيانات الضخمة باستخدام أدوات ذكاء الأعمال (BI Tools مثل Power BI / Tableau)
- معالجة البيانات في الوقت الحقيقي (Real-time Processing – Kafka, Flink)
- تطبيقات البيانات الضخمة في الذكاء الاصطناعي والتعلم الآلي
- استعراض دراسات حالة (Case Studies)
- مشروع ختامي: بناء مشروع مصغر لمعالجة وتحليل بيانات ضخمة
مخرجات التعلم
بنهاية الدورة سيتمكن المتدرب من:
- فهم بنية وتقنيات منظومة البيانات الضخمة.
- استخدام أدوات Hadoop وSpark في معالجة البيانات.
- تطبيق تحليل البيانات باستخدام PySpark.
- إدارة تخزين البيانات الضخمة وربطها بالسحابة.
- تنفيذ تصور بياني وتحليل متقدم باستخدام أدوات BI.
المتطلبات السابقة للتدريب
- درجة الدبلوم وما اعلى
- سعودي الجنسية
- المعرفة الاساسية بعلم البيانات
- لغة انجليزية متوسطة
- جهاز كمبيوتر مع اتصال الانترنت جيد
الشهادات الإحترافية المتعلقة |
|
---|---|
اسم مقدم الدورة |
|
خبرات المدرب |
|