freeCodeCamp

5.2 KiB

Raw Blame History

title	localeTitle
Hadoop	Hadoop

هل كنت تعلم؟

يدعى Hadoop بعد فيل لعبة تنتمي إلى ابنه دوغ القطع. اختار Doug اسم مشروعه المفتوح المصدر حيث كان من السهل تهجئته والتعبير عنه والعثور عليه في نتائج البحث. يظهر الفيل الأصفر المحشي الأصلي الذي استلهم الاسم في شعار Hadoop.

ما هو هادوب؟

Hadoop هو إطار يسمح بالتعامل الموزع لمجموعات البيانات الكبيرة عبر مجموعة من أجهزة الكمبيوتر ، باستخدام نماذج برمجة بسيطة. إنها تمكن من رفع مستوى الخوادم الفردية إلى الآلاف من الآلات ، كل منها يقدم حوسبة وتخزين محلية. بدلاً من الاعتماد على الأجهزة لتوفير توفر عالي ، تم تصميم Hadoop نفسه لاكتشاف ومعالجة حالات الفشل في طبقة التطبيق. في حالة فشل أحد الأجهزة في مجموعة ، يمكن لـ Hadoop تعويض الفشل بدون فقد البيانات. وهذا يتيح تقديم خدمة عالية التوفر على قمة مجموعة من أجهزة الكمبيوتر ، قد يكون كل منها عرضة للفشل.

في عام 2003 ، أصدرت Google بحثًا عن نظام ملفات Google (GFS). وقد قام بتفصيل نظام ملفات موزعة الملكية يهدف إلى توفير الوصول الفعال إلى كميات كبيرة من البيانات باستخدام أجهزة سلعية. بعد عام ، أصدرت غوغل ورقة أخرى بعنوان "MapReduce: معالجة البيانات المبسطة في مجموعات كبيرة". في ذلك الوقت ، كان دوغ يعمل في ياهو. كانت هذه الأوراق مصدر إلهام لمشروعه مفتوح المصدر Apache Nutch. في عام 2006 ، خرجت عناصر المشروع المعروفة الآن باسم Hadoop من Apache Nutch وتم إصدارها.

لماذا هو هادوب مفيد؟

ووفقًا لـ IBM: "يتم يوميًا إنتاج 2.5 مليار غيغابايت من البيانات عالية السرعة في مجموعة متنوعة من الأشكال ، مثل منشورات الوسائط الاجتماعية والمعلومات التي يتم جمعها في أجهزة الاستشعار والأجهزة الطبية وأشرطة الفيديو وسجلات المعاملات".

بعض الأمثلة للبيانات التي يتم إنشاؤها بشكل متكرر هي:

البيانات الوصفية من استخدام الهاتف
سجلات موقع الويب
معاملات شراء بطاقة الائتمان

تشير "البيانات الكبيرة" إلى مجموعات البيانات الكبيرة جدًا أو المعقدة التي يمكن معالجتها باستخدام تطبيقات البرامج التقليدية. تتمثل العوامل التي تسهم في تعقيد البيانات في حجم مجموعة البيانات وسرعة المعالجات المتوفرة وتنسيق البيانات.

في وقت إصداره ، كان Hadoop قادرًا على معالجة البيانات على نطاق أوسع من البرامج التقليدية.

كور هدووب

يتم تخزين البيانات في نظام الملفات الموزعة Hadoop (HDFS). باستخدام خريطة تقليل ، يعالج Hadoop البيانات في قطع متوازية (معالجة عدة أجزاء في نفس الوقت) بدلا من طابور واحد. هذا يقلل من الوقت اللازم لمعالجة مجموعات البيانات الكبيرة.

يعمل HDFS عن طريق تخزين ملفات كبيرة مقسمة إلى أجزاء ، وتكرارها عبر العديد من الخوادم. يؤدي وجود نسخ متعددة من الملفات إلى إنشاء نسخ احتياطية ، مما يحمي من فقد البيانات.

Hadoop Ecosystem

العديد من حزم البرامج الأخرى موجودة لتكمل Hadoop. هذه البرامج تشمل النظام البيئي Hadoop. تسهل بعض البرامج تحميل البيانات إلى مجموعة Hadoop ، بينما تجعل البرامج الأخرى استخدام Hadoop أسهل في الاستخدام.

يتضمن نظام Hadoop Ecosystem ما يلي:

Apache Hive
اباتشي خنزير
اباتشي HBase
اباتشي فينيكس
اباتشي سبارك
Apache ZooKeeper
كلوديرا إمبالا
أباتشي فلوم
أباتشي Sqoop
اباتشي Oozie

5.2 KiB Raw Blame History