nutch | Linuxaria

Crawling nell’Open Source, Parte 1

Feb 172011

Oggi vi presento questo ottimo e completo articolo su uno dei moroti di ricerca open source più potenti: Nutch, potete trovare l’articolo originale insieme al codice con gli esempi a questo indirizzo.

Dopo aver letto questo articolo si dovrebbe avere una certa familiarità con i concetti base sul crawling ed i lavori di MapReduce in Nutch.

Che cosa è un web crawler?

Un web crawler è un programma che scopre e scarica contenuti dal web tramite un protocollo HTTP. Il processo di scoperta di un crawler di solito è semplice e lineare. Ad un crawler è prima dato un insieme di URL, spesso chiamato seeds (semi). Dopo di che il crawler parte e scarica il contenuto di tali URL e vengono poi estratti i collegamenti ipertestuali o URL dal contenuto scaricato. Questa è esattamente la stessa cosa che accade nel mondo reale quando un essere umano sta utilizzando un browser web e clicca sui link di un sito e nelle pagine che seguono, uno dopo l’altro.