freeCodeCamp/guide/portuguese/data-science-tools/hadoop/index.md

58 lines
3.9 KiB
Markdown

---
title: Hadoop
localeTitle: Hadoop
---
## ![Hadoop](http://2s7gjr373w3x22jf92z99mgm5w-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/Hadoop_logo_2.png)
### Você sabia?
O Hadoop leva o nome de um elefante de brinquedo pertencente ao filho de Doug Cutting. Doug escolheu o nome do seu projeto de código aberto, pois era fácil soletrar, pronunciar e encontrar nos resultados da pesquisa. O original elefante amarelo recheado que inspirou o nome aparece no logo do Hadoop.
### O que é o Hadoop?
O Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em um cluster de computadores, usando modelos de programação simples. Ele permite o escalonamento de servidores únicos para milhares de máquinas, cada uma oferecendo sua própria computação e armazenamento locais. Em vez de depender de hardware para fornecer alta disponibilidade, o próprio Hadoop é projetado para detectar e manipular falhas na camada de aplicativo. Se uma máquina em um cluster falhar, o Hadoop poderá compensar a falha sem perder dados. Isso permite a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode estar sujeito a falhas.
Em 2003, o Google lançou seu artigo no Google File System (GFS). Ele detalhou um sistema de arquivos distribuído proprietário destinado a fornecer acesso eficiente a grandes quantidades de dados usando hardware de commodity. Um ano depois, o Google lançou outro artigo intitulado "MapReduce: Simplified Data Processing em Large Clusters". Na época, Doug estava trabalhando no Yahoo. Esses papéis foram a inspiração para seu projeto de código aberto Apache Nutch. Em 2006, os componentes do projeto agora conhecidos como Hadoop saíram do Apache Nutch e foram lançados.
### Por que o Hadoop é útil?
De acordo com a IBM, "todos os dias, 2,5 bilhões de gigabytes de dados de alta velocidade são criados em uma variedade de formas, como postagens em mídias sociais, informações coletadas em sensores e dispositivos médicos, vídeos e registros de transações".
Alguns exemplos de dados criados freqüentemente são:
* Metadados do uso do telefone
* Registros do site
* Transações de compra de cartão de crédito
"Big Data" refere-se a conjuntos de dados que são muito grandes ou complexos para processar usando aplicativos de software tradicionais. Os fatores que contribuem para a complexidade dos dados são o tamanho do conjunto de dados, a velocidade dos processadores disponíveis e o formato dos dados.
No momento de seu lançamento, o Hadoop era capaz de processar dados em uma escala maior do que o software tradicional.
### Core Hadoop
Os dados são armazenados no Hadoop Distributed File System (HDFS). Usando o map reduce, o Hadoop processa dados em blocos paralelos (processando várias partes ao mesmo tempo) em vez de em uma única fila. Isso reduz o tempo necessário para processar grandes conjuntos de dados.
O HDFS funciona armazenando arquivos grandes divididos em partes e replicando-os em vários servidores. Ter várias cópias de arquivos cria redundância, o que protege contra perda de dados.
### Ecossistema Hadoop
Muitos outros pacotes de software existem para complementar o Hadoop. Esses programas abrangem o ecossistema Hadoop. Alguns programas facilitam o carregamento de dados no cluster do Hadoop, enquanto outros facilitam o uso do Hadoop.
O ecossistema do Hadoop inclui:
* Apache Hive
* Porco Apache
* Apache HBase
* Apache Phoenix
* Apache Spark
* ZooKeeper do Apache
* Cloudera Impala
* Apache Flume
* Apache Sqoop
* Apache Oozie
#### Mais Informações:
1. [Curso de Udacity no hadoop](https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617)
2. [Apache Hadoop](http://hadoop.apache.org/)
3. [Big Data Hadoop Vídeos Tutorial por edureka!](https://www.youtube.com/playlist?list=PL9ooVrP1hQOFrYxqxb0NJCdCABPZNo0pD)