3.9 KiB
title | localeTitle |
---|---|
Hadoop | Hadoop |
Você sabia?
O Hadoop leva o nome de um elefante de brinquedo pertencente ao filho de Doug Cutting. Doug escolheu o nome do seu projeto de código aberto, pois era fácil soletrar, pronunciar e encontrar nos resultados da pesquisa. O original elefante amarelo recheado que inspirou o nome aparece no logo do Hadoop.
O que é o Hadoop?
O Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados em um cluster de computadores, usando modelos de programação simples. Ele permite o escalonamento de servidores únicos para milhares de máquinas, cada uma oferecendo sua própria computação e armazenamento locais. Em vez de depender de hardware para fornecer alta disponibilidade, o próprio Hadoop é projetado para detectar e manipular falhas na camada de aplicativo. Se uma máquina em um cluster falhar, o Hadoop poderá compensar a falha sem perder dados. Isso permite a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode estar sujeito a falhas.
Em 2003, o Google lançou seu artigo no Google File System (GFS). Ele detalhou um sistema de arquivos distribuído proprietário destinado a fornecer acesso eficiente a grandes quantidades de dados usando hardware de commodity. Um ano depois, o Google lançou outro artigo intitulado "MapReduce: Simplified Data Processing em Large Clusters". Na época, Doug estava trabalhando no Yahoo. Esses papéis foram a inspiração para seu projeto de código aberto Apache Nutch. Em 2006, os componentes do projeto agora conhecidos como Hadoop saíram do Apache Nutch e foram lançados.
Por que o Hadoop é útil?
De acordo com a IBM, "todos os dias, 2,5 bilhões de gigabytes de dados de alta velocidade são criados em uma variedade de formas, como postagens em mídias sociais, informações coletadas em sensores e dispositivos médicos, vídeos e registros de transações".
Alguns exemplos de dados criados freqüentemente são:
- Metadados do uso do telefone
- Registros do site
- Transações de compra de cartão de crédito
"Big Data" refere-se a conjuntos de dados que são muito grandes ou complexos para processar usando aplicativos de software tradicionais. Os fatores que contribuem para a complexidade dos dados são o tamanho do conjunto de dados, a velocidade dos processadores disponíveis e o formato dos dados.
No momento de seu lançamento, o Hadoop era capaz de processar dados em uma escala maior do que o software tradicional.
Core Hadoop
Os dados são armazenados no Hadoop Distributed File System (HDFS). Usando o map reduce, o Hadoop processa dados em blocos paralelos (processando várias partes ao mesmo tempo) em vez de em uma única fila. Isso reduz o tempo necessário para processar grandes conjuntos de dados.
O HDFS funciona armazenando arquivos grandes divididos em partes e replicando-os em vários servidores. Ter várias cópias de arquivos cria redundância, o que protege contra perda de dados.
Ecossistema Hadoop
Muitos outros pacotes de software existem para complementar o Hadoop. Esses programas abrangem o ecossistema Hadoop. Alguns programas facilitam o carregamento de dados no cluster do Hadoop, enquanto outros facilitam o uso do Hadoop.
O ecossistema do Hadoop inclui:
- Apache Hive
- Porco Apache
- Apache HBase
- Apache Phoenix
- Apache Spark
- ZooKeeper do Apache
- Cloudera Impala
- Apache Flume
- Apache Sqoop
- Apache Oozie