freeCodeCamp/guide/portuguese/data-science-tools/hadoop/index.md

---
title: Hadoop
localeTitle: Hadoop
---
## ![Hadoop](http://2s7gjr373w3x22jf92z99mgm5w-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/Hadoop_logo_2.png)

### Você sabia?

O Hadoop leva o nome de um elefante de brinquedo pertencente ao filho de Doug Cutting. Doug escolheu o nome do seu projeto de código aberto, pois era fácil soletrar, pronunciar e encontrar nos resultados da pesquisa. O original elefante amarelo recheado que inspirou o nome aparece no logo do Hadoop.

### O que é o Hadoop?

O Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em um cluster de computadores, usando modelos de programação simples. Ele permite o escalonamento de servidores únicos para milhares de máquinas, cada uma oferecendo sua própria computação e armazenamento locais. Em vez de depender de hardware para fornecer alta disponibilidade, o próprio Hadoop é projetado para detectar e manipular falhas na camada de aplicativo. Se uma máquina em um cluster falhar, o Hadoop poderá compensar a falha sem perder dados. Isso permite a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode estar sujeito a falhas.

Em 2003, o Google lançou seu artigo no Google File System (GFS). Ele detalhou um sistema de arquivos distribuído proprietário destinado a fornecer acesso eficiente a grandes quantidades de dados usando hardware de commodity. Um ano depois, o Google lançou outro artigo intitulado "MapReduce: Simplified Data Processing em Large Clusters". Na época, Doug estava trabalhando no Yahoo. Esses papéis foram a inspiração para seu projeto de código aberto Apache Nutch. Em 2006, os componentes do projeto agora conhecidos como Hadoop saíram do Apache Nutch e foram lançados.

### Por que o Hadoop é útil?

De acordo com a IBM, "todos os dias, 2,5 bilhões de gigabytes de dados de alta velocidade são criados em uma variedade de formas, como postagens em mídias sociais, informações coletadas em sensores e dispositivos médicos, vídeos e registros de transações".

Alguns exemplos de dados criados freqüentemente são:

*   Metadados do uso do telefone
*   Registros do site
*   Transações de compra de cartão de crédito

"Big Data" refere-se a conjuntos de dados que são muito grandes ou complexos para processar usando aplicativos de software tradicionais. Os fatores que contribuem para a complexidade dos dados são o tamanho do conjunto de dados, a velocidade dos processadores disponíveis e o formato dos dados.

No momento de seu lançamento, o Hadoop era capaz de processar dados em uma escala maior do que o software tradicional.

### Core Hadoop

Os dados são armazenados no Hadoop Distributed File System (HDFS). Usando o map reduce, o Hadoop processa dados em blocos paralelos (processando várias partes ao mesmo tempo) em vez de em uma única fila. Isso reduz o tempo necessário para processar grandes conjuntos de dados.

O HDFS funciona armazenando arquivos grandes divididos em partes e replicando-os em vários servidores. Ter várias cópias de arquivos cria redundância, o que protege contra perda de dados.

### Ecossistema Hadoop

Muitos outros pacotes de software existem para complementar o Hadoop. Esses programas abrangem o ecossistema Hadoop. Alguns programas facilitam o carregamento de dados no cluster do Hadoop, enquanto outros facilitam o uso do Hadoop.

O ecossistema do Hadoop inclui:

*   Apache Hive
*   Porco Apache
*   Apache HBase
*   Apache Phoenix
*   Apache Spark
*   ZooKeeper do Apache
*   Cloudera Impala
*   Apache Flume
*   Apache Sqoop
*   Apache Oozie

#### Mais Informações:

1.  [Curso de Udacity no hadoop](https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617)
2.  [Apache Hadoop](http://hadoop.apache.org/)
3.  [Big Data Hadoop Vídeos Tutorial por edureka!](https://www.youtube.com/playlist?list=PL9ooVrP1hQOFrYxqxb0NJCdCABPZNo0pD)