freeCodeCamp/guide/russian/data-science-tools/hadoop/index.md

6.2 KiB
Raw Blame History

title localeTitle
Hadoop Hadoop

Hadoop

Вы знали?

Hadoop назван в честь игрушечного слона, принадлежащего сыну Дуга Реттинга. Дуг выбрал название для своего проекта с открытым исходным кодом, так как его легко произносить и находить в результатах поиска. Оригинальный желтый набитый слон, который вдохновил имя, появляется в логотипе Hadoop.

Что такое Hadoop?

Hadoop - это структура, которая позволяет распределенную обработку больших наборов данных через кластер компьютеров с использованием простых моделей программирования. Он позволяет масштабироваться от отдельных серверов до тысяч компьютеров, каждый из которых предлагает свои собственные локальные вычисления и хранение. Вместо того, чтобы полагаться на аппаратное обеспечение для обеспечения высокой доступности, сам Hadoop предназначен для обнаружения и обработки сбоев на прикладном уровне. Если одна машина в кластере выходит из строя, Hadoop может компенсировать отказ без потери данных. Это позволяет поставлять высокодоступную услугу поверх кластера компьютеров, каждый из которых может быть подвержен ошибкам.

В 2003 году Google опубликовал свою статью в Файловой системе Google (GFS). В нем описана собственная распределенная файловая система, предназначенная для обеспечения эффективного доступа к большим объемам данных с использованием товарного оборудования. Спустя год Google опубликовал еще один документ под названием «MapReduce: упрощенная обработка данных на больших кластерах». В то время Дуг работал в Yahoo. Эти документы были источником вдохновения для его проекта Apache Nutch с открытым исходным кодом. В 2006 году компоненты проекта, известные теперь как Hadoop, вышли из Apache Nutch и были выпущены.

Почему Hadoop полезен?

По словам IBM: «Каждый день 2,5 миллиарда гигабайт высокоскоростных данных создаются в самых разных формах, таких как сообщения в социальных сетях, информация, собранная в сенсорах и медицинских устройствах, видео и записи транзакций».

Некоторые примеры часто создаваемых данных:

  • Метаданные с телефона
  • Журналы веб-сайта
  • Операции покупки кредитной карты

«Большие данные» относятся к наборам данных, которые слишком велики или сложны для обработки с использованием традиционных программных приложений. Факторы, которые вносят вклад в сложность данных, - это размер набора данных, скорость доступных процессоров и формат данных.

На момент выпуска Hadoop был способен обрабатывать данные в большем масштабе, чем традиционные программы.

Core Hadoop

Данные хранятся в распределенной файловой системе Hadoop (HDFS). Используя сокращение карты, Hadoop обрабатывает данные в параллельных кусках (обрабатывая несколько частей одновременно), а не в одной очереди. Это сокращает время, необходимое для обработки больших наборов данных.

HDFS работает, сохраняя большие файлы, разделенные на куски, и копируя их на многих серверах. Наличие нескольких копий файлов создает избыточность, которая защищает от потери данных.

Экосистема Hadoop

Для дополнения Hadoop существует множество других программных пакетов. Эти программы включают экосистему Hadoop. Некоторые программы упрощают загрузку данных в кластер Hadoop, в то время как другие упрощают использование Hadoop.

Экосистема Hadoop включает:

  • Apache Hive
  • Apache Pig
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Потолок Apache
  • Apache Sqoop
  • Apache Oozie

Дополнительная информация:

  1. Курс Udacity на хау
  2. Apache Hadoop
  3. Большие данные Hadoop Tutorial Videos от edureka!