Introduzione ad Hadoop

Nov 022013

Apache Hadoop è un progetto software open source basato su Java. Fondamentalmente si tratta di un framework di riferimento che viene utilizzato per eseguire applicazioni su grandi cluster hardware (server). È progettato per scalare da un singolo server a migliaia di macchine, con un alto grado di tolleranza ai guasti. Piuttosto che fare affidamento su hardware di fascia alta, l’affidabilità di questi cluster deriva dalla capacità del software di rilevare e gestire gli errori in maniera autonoma.

Il credito per la creazione di Hadoop va a Doug Cutting e Michael J. Cafarella. Doug un dipendente Yahoo decise di rinominarlo dopo come l’elefante giocattolo “Hadoop” di suo figlio. Originariamente è stato sviluppato per supportare la distribuzione del progetto Nutch che implementava un motore di ricerca e gestire gran quantità di indici.

Per dirla semplicemente Hadoop è un modo in cui le applicazioni sono in grado di gestire grandi quantità di dati utilizzando grandi quantità di server. In primo luogo Google ha creato Map – reduce per lavorare su grandi indicizzazione dei dati e quindi Yahoo! ha creato Hadoop per implementare la funzione map reduce per il proprio uso .

Map Reduce : Questo framework di task-tracker comprende ed assegna il lavoro ai nodi di un cluster. L’applicazione effettua divisioni del lavoro, ed ogni lavoro può essere assegnato a diversi nodi di un cluster. È stato progettato in modo tale che un’avaria possa automaticamente essere gestita dal framework stesso .

HDFS – Hadoop Distributed File System. Si tratta di un file di sistema su larga scala che si estende su tutti i nodi di un cluster Hadoop per l’archiviazione dei dati. Esso collega i file system di molti nodi locali per renderli un unico grande file system. HDFS assume che i nodi falliranno, così raggiunge l’affidabilità replicando i dati su più nodi.

Big Data è un tema del moderno mondo IT, Hadoop mostra il percorso per utilizzare i grandi dati. Rende le analisi molto più facili considerando i terabyte di dati. Il Framework Hadoop ha già alcuni grandi utenti di cui vantarsi, come IBM, Google, Yahoo! , Facebook , Amazon , Foursquare , EBay per applicazioni di grandi dimensioni. Infatti Facebook sostiene di avere il più grande cluster Hadoop con 21PB. Il focus commerciale di Hadoop comprende analisi dei dati, web crawling, elaborazione testi ed elaborazione di immagini.

La maggior parte dei dati del mondo è inutilizzato, e la maggior parte delle aziende non hanno nemmeno tentato di utilizzare questi dati a loro vantaggio. Immaginate se poteste permettervi di mantenere tutti i dati generati dalla vostra azienda ed avere un modo per analizzare i dati. Hadoop porterà questo potere ad ogni azienda.

Altri progetti Hadoop correlati ad Apache.org comprendono:

Ambari™: Uno strumento web-based per il provisioning, la gestione e il monitoraggio dei cluster Apache Hadoop che include il supporto per Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, oozie, pig e Sqoop. Ambari fornisce anche una dashboard per la visualizzazione della salute del cluster, come mappe di calore e la capacità di visualizzare le applicazioni MapReduce, Pig e Hive visivamente insieme a caratteristiche di diagnosticare le loro caratteristiche prestazionali in modo user-friendly.
Avro™: Un sistema per serializzare le informazioni
Cassandra™: Un database multi-master scalabile senza singoli punti di guasto.
Chukwa™: Un sistema di raccolta dati per la gestione di sistemi distribuiti di grandi dimensioni.
HBase™: A, database distribuito e scalabile che supporta la memorizzazione di dati strutturati per tabelle di grandi dimensioni.
Hive™: Una infrastruttura di data warehouse che fornisce il riepilogo dei dati e l’esecuzione di query ad hoc.
Mahout™: Un sistema per l’apprendimento automatico e biblioteca scalabile di data mining.
Pig™: Un Framework per un linguaggio di alto livello e l’esecuzione del flusso di dati con un calcolo parallelo.
ZooKeeper™: Un servizio di coordinamento ad alte prestazioni per applicazioni distribuite.

Article Source: http://EzineArticles.com/7516188

Linuxaria

Introduzione ad Hadoop

Popular Posts:

Leave a Reply Cancel reply