برنامج تعليمي حول الخلية للمبتدئين
ملخص البرنامج التعليمي للخلية
يساعد Apache Hive في الاستعلام عن مجموعات البيانات الكبيرة وإدارتها بسرعة كبيرة. إنه ل أداة ETL لنظام Hadoop البيئي. في هذا البرنامج التعليمي لـ Apache Hive للمبتدئين، ستتعلم أساسيات Hive ومواضيع مهمة مثل استعلامات HQL، واستخراج البيانات.tracالأقسام، والمجموعات، وما إلى ذلك. ستساعدك سلسلة دروس Hive هذه على تعلم مفاهيم Hive وأساسياتها.
ماذا يجب أن أعرف؟
لتعلم هذا البرنامج التعليمي للاستعلام عن Hive، تحتاج إلى معرفة أساسية بـ SQL ، Hadoop والمعرفة بقواعد البيانات الأخرى ستكون ذات فائدة إضافية.
منهج دورة الخلية
المقدمة
| 👉 الدرس 1 | ما هي الخلية؟ - Archiالبنية والأوضاع |
| 👉 الدرس 2 | تنزيل وتثبيت خلية - كيفية تنزيل وتثبيت HIVE على Ubuntu |
| 👉 الدرس 3 | تكوين خلية ميتاستور - لماذا الاستخدام MySQL? |
| 👉 الدرس 4 | أنواع بيانات الخلية - إنشاء وإسقاط قاعدة البيانات في الخلية |
أشياء متقدمة
| 👉 الدرس 1 | خلية إنشاء الجدول - أنواعها واستخدامها |
| 👉 الدرس 2 | أقسام الخلية والدلاء - تعلم مع المثال |
| 👉 الدرس 3 | فهارس الخلية وعرضها - تعلم مع المثال |
| 👉 الدرس 4 | استعلامات الخلية - تعلم مع المثال |
| 👉 الدرس 5 | البرنامج التعليمي للانضمام إلى الخلية والاستعلام الفرعي - تعلم مع المثال |
| 👉 الدرس 6 | دروس لغة الاستعلام في الخلية - مدمج Operaالاختصاصات |
| 👉 الدرس 7 | وظيفة الخلية — وظائف مدمجة ومحددة من قبل المستخدم |
| 👉 الدرس 8 | خلية إي تي إل - تحميل JSON، XML، أمثلة البيانات النصية |
| 👉 الدرس 9 | أسئلة مقابلة الخلية — أسئلة وأجوبة مقابلة مع أفضل 40 شخصية في برنامج Hive |
مقدمة إلى الخلية
تطورت Hive كحل لتخزين البيانات مبني على إطار عمل Hadoop Map-Reduce.
حجم مجموعات البيانات التي يتم جمعها وتحليلها في الصناعة ذكاء الأعمال تتزايد أهمية تكنولوجيا المعلومات والاتصالات، الأمر الذي يجعل حلول تخزين البيانات التقليدية أكثر تكلفة. Hadoop مع إطار عمل MapReduce، يتم استخدامه كحل بديل لتحليل مجموعات البيانات ذات الحجم الضخم. على الرغم من أن Hadoop أثبت فائدته في العمل على مجموعات ضخمة من البيانات، إلا أن إطار عمل MapReduce الخاص به منخفض المستوى للغاية ويتطلب من المبرمجين كتابة برامج مخصصة ��صعب صيانتها وإعادة استخدامها. تأتي الخلية إلى هنا لإنقاذ المبرمجين.
محرك الخلية يقوم Hive بتجميع هذه الاستعلامات في وظائف Map-Reduce ليتم تنفيذها على Hadoop. بالإضافة إلى ذلك، يمكن أيضًا توصيل نصوص Map-Reduce المخصصة بالاستعلامات. يعمل Hive على البيانات المخزنة في الجداول والتي تتكون من أنواع بيانات بدائية وأنواع بيانات التجميع مثل المصفوفات والخرائط.
يأتي Hive مزودًا بواجهة سطر أوامر يمكن استخدامها لإنشاء الجداول وتنفيذ الاستعلامات.
تشبه لغة استعلام الخلية لغة SQL حيث تدعم الاستعلامات الفرعية. باستخدام لغة استعلام Hive، من الممكن ربط MapReduce عبر جداول Hive. لديها دعم بسيط وظائف مثل SQL- CONCAT، SUBSTR، ROUND وما إلى ذلك، و وظائف التجميع– الجمع، والعد، والحد الأقصى، إلخ. كما يدعم عبارات التجميع والفرز. ومن الممكن أيضًا كتابة دوال معرفة من قبل المستخدم بلغة استعلام Hive، وهو موضوع يظهر بشكل متكرر في أسئلة مقابلة هايف بالنسبة لأدوار البيانات الضخمة.
ما هي الخلية؟
اباتشي خلية هو إطار عمل لمستودع البيانات للاستعلام عن البيانات المخزنة في HDFS وتحليلها. تم تطويره على رأس Hadoop. Hive هو برنامج مفتوح المصدر لتحليل مجموعات البيانات الكبيرة على Hadoop. وهو يوفر لغة تعريفية تشبه SQL، تسمى HiveQL، للتعبير عن الاستعلامات. باستخدام Hive-QL، يرتبط المستخدمون بـ SQL يمكن إجراء تحليل البيانات بسهولة بالغة.
خلية مقابل خريطة تقليل
قبل اختيار أحد هذين الخيارين، يجب أن ننظر إلى بعض ميزاتهما.
عند الاختيار بين Hive وMap، يجب مراعاة العوامل التالية:
- نوع البيانات
- كمية البيانات
- تعقيد Code
خلية مقابل خريطة تقليل؟
| الميزات | خلية النحل | تقليل الخريطة |
|---|---|---|
| اللغة | وهو يدعم SQL مثل لغة الاستعلام للتفاعل ونمذجة البيانات |
|
| مستوى الامتصاصtracالإنتاج | مستوى أعلى من الامتصاصtraction on top HDFS | انخفاض مستوى عضلات البطنtracالإنتاج |
| الكفاءة في Code | أقل نسبيًا من تقليل الخريطة | يوفر كفاءة عالية |
| مدى الكود | Less عدد أسطر الكود المطلوبة للتنفيذ | سيتم تحديد عدد أكبر من أسطر الرموز |
| نوع أعمال التطوير المطلوبة | Less مطلوب أعمال تطوير | هناك حاجة إلى المزيد من أعمال التطوير |
انقر للحصول على ملف البرنامج التعليمي التالي
