--- title: Hadoop localeTitle: Hadoop --- ## ![Hadoop](http://2s7gjr373w3x22jf92z99mgm5w-wpengine.netdna-ssl.com/wp-content/uploads/2014/08/Hadoop_logo_2.png) ### Você sabia? O Hadoop leva o nome de um elefante de brinquedo pertencente ao filho de Doug Cutting. Doug escolheu o nome do seu projeto de código aberto, pois era fácil soletrar, pronunciar e encontrar nos resultados da pesquisa. O original elefante amarelo recheado que inspirou o nome aparece no logo do Hadoop. ### O que é o Hadoop? O Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em um cluster de computadores, usando modelos de programação simples. Ele permite o escalonamento de servidores únicos para milhares de máquinas, cada uma oferecendo sua própria computação e armazenamento locais. Em vez de depender de hardware para fornecer alta disponibilidade, o próprio Hadoop é projetado para detectar e manipular falhas na camada de aplicativo. Se uma máquina em um cluster falhar, o Hadoop poderá compensar a falha sem perder dados. Isso permite a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode estar sujeito a falhas. Em 2003, o Google lançou seu artigo no Google File System (GFS). Ele detalhou um sistema de arquivos distribuído proprietário destinado a fornecer acesso eficiente a grandes quantidades de dados usando hardware de commodity. Um ano depois, o Google lançou outro artigo intitulado "MapReduce: Simplified Data Processing em Large Clusters". Na época, Doug estava trabalhando no Yahoo. Esses papéis foram a inspiração para seu projeto de código aberto Apache Nutch. Em 2006, os componentes do projeto agora conhecidos como Hadoop saíram do Apache Nutch e foram lançados. ### Por que o Hadoop é útil? De acordo com a IBM, "todos os dias, 2,5 bilhões de gigabytes de dados de alta velocidade são criados em uma variedade de formas, como postagens em mídias sociais, informações coletadas em sensores e dispositivos médicos, vídeos e registros de transações". Alguns exemplos de dados criados freqüentemente são: * Metadados do uso do telefone * Registros do site * Transações de compra de cartão de crédito "Big Data" refere-se a conjuntos de dados que são muito grandes ou complexos para processar usando aplicativos de software tradicionais. Os fatores que contribuem para a complexidade dos dados são o tamanho do conjunto de dados, a velocidade dos processadores disponíveis e o formato dos dados. No momento de seu lançamento, o Hadoop era capaz de processar dados em uma escala maior do que o software tradicional. ### Core Hadoop Os dados são armazenados no Hadoop Distributed File System (HDFS). Usando o map reduce, o Hadoop processa dados em blocos paralelos (processando várias partes ao mesmo tempo) em vez de em uma única fila. Isso reduz o tempo necessário para processar grandes conjuntos de dados. O HDFS funciona armazenando arquivos grandes divididos em partes e replicando-os em vários servidores. Ter várias cópias de arquivos cria redundância, o que protege contra perda de dados. ### Ecossistema Hadoop Muitos outros pacotes de software existem para complementar o Hadoop. Esses programas abrangem o ecossistema Hadoop. Alguns programas facilitam o carregamento de dados no cluster do Hadoop, enquanto outros facilitam o uso do Hadoop. O ecossistema do Hadoop inclui: * Apache Hive * Porco Apache * Apache HBase * Apache Phoenix * Apache Spark * ZooKeeper do Apache * Cloudera Impala * Apache Flume * Apache Sqoop * Apache Oozie #### Mais Informações: 1. [Curso de Udacity no hadoop](https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617) 2. [Apache Hadoop](http://hadoop.apache.org/) 3. [Big Data Hadoop Vídeos Tutorial por edureka!](https://www.youtube.com/playlist?list=PL9ooVrP1hQOFrYxqxb0NJCdCABPZNo0pD)