Tesseract-ocr: trasformare in documenti editabili le immagini acquisite su Linux

Apr 242011

Tesseract-ocr: come trasformare in testo editabile i documenti acquisiti tramite scanner su Ubuntu o Debian, Articolo originale di Gabriele, pubblicato su Gmstyle.

Ho appreso, dalle richieste pervenutemi via email, che alcuni dei miei lettori utilizzano Ubuntu (o Linux in generale) per lavorare ed occuparsi di grafica o editoria, chi per professione e chi per hobby. Prendo spunto proprio dalla richiesta di un caro ed affezionato utente di questo piccolo spazio web, che ringrazio per l’input fornitomi, per fare un pò di chiarezza su di un argomento che, da quanto mi è parso capire durante le mie ricerche su internet, sembra aver creato qualche difficoltà di applicazione.

L’argomento in questione riguarda la tecnologia OCR (Optical Character Recognition) e cioè quella “tecnica” che permette di riconoscere caratteri testuali, per poi rendere tale testo editabile, partendo da immagini di documenti cartacei, precedentemente digitalizzati attraverso lo scanner.

In parole povere, utilizzando il programma Tesseract-ocr (che sfrutta questa tecnologia), se prendiamo un ritaglio di giornale e lo scansioniamo per mezzo del nostro scanner, ne ricaviamo un file immagine (jpeg,tiff, etc etc…) dal quale possiamo estrapolarne il testo e salvarlo come un normale documento txt da modificare, successivamente, a nostro piacimento o secondo il nostro scopo.

Sperando di fare cosa gradita, ho cercato di giungere ad una procedura quanto più semplice e meno invasiva possibile, attingendo da un pò di materiale presente sul web, per permettere a tutti gli interessati all’argomento di poter fare con Ubuntu o Linux quello che ancora li tiene legati a Windows.

In questa piccola guida, per raggiungere il nostro scopo su Ubuntu 10.10, utilizzeremo, oltre a Tesseract-ocr e a gImageReader, anche il programma Xsane, che ci servirà per effettuare la scansione dei documenti.

1– Avviamo il gestore pacchetti e selezioniamo ed installiamo il software necessario di seguito elencato:

tesseract-ocr tesseract-ocr-ita imagemagick xsane

2– Ora è il momento di installare l’interfaccia grafica GUI per poter utilizzare Tesseract in maniera semplice ed intuitiva: gImageReader. Lo scarichiamo da questo link. Si tratta di un pacchetto .deb quindi lo installiamo semplicemente cliccandoci sopra. Dopo l’installazione troveremo l’icona in APPLICAZIONI>GRAFICA.

3– Adesso che abbiamo tutto il software che ci serve, passiamo alla pratica e quindi al procedimento vero e proprio.
Avviamo Xsane, sempre da APPLICAZIONI>GRAFICA, attendiamo che riconosca il nostro scanner e procediamo alla configurazione del programma prima di effettuare la scansione. Bisogna settare il tutto in modo tale da permettere una scannerizzazione quanto più precisa possibile del documento. I parametri da inserire su Xsane sono questi che vedete nella figura sottostante:

In questo modo abbiamo impostato:

a- la cartella di destinazione ed il nome del file immagine (la mia home in questo caso ed il file che otterremo si chiamerà out.tif)

b- .TIFF come estensione dell’immagine (questo formato è quello che garantisce la miglior qualità rispetto agli altri jpg, jpeg o png)

c- BINARIO è il parametro che sta a significare che l’iimagine del documento sarà resa in BIANCO&NERO. Questo è un passaggio FONDAMENTALE AFFINCHÈ TESSERACT POSSA RICONOSCERE TUTTO IL TESTO DIGITALIZZATO.

d- 1200 dpi come risoluzione. Il valore sotto il quale consiglio di NON scendere, secondo i miei test, causa il mancato riconoscimento totale o parziale testo, è 600 dpi.

4- Ora che il tutto è configurato per bene, clicchiamo su “Acquisisci” ed attendiamo la fine del processo che si concluderà con il salvataggio dell’immagine out.tiff nella cartella di destinazione che abbiamo indicato in precedenza (Home in questo caso)

5- Adesso che abbiamo ottenuto il nostro documento digitale, dobbiamo avviare Tesseract, attraverso gImageReader, per poter effettuare la SEMPLICE procedura OCR. Andiamo in APPLICAZIONI>GRAFICA e lanciamo il programma.

L’interfaccia è, come ho già detto, veramente molto intuitiva e semplice da utilizzare. Basterà, infatti, cliccare su “Apri immagini” per aprire il file out.tif, creato in precedenza, e poi cliccare su “Riconoscere tutto” per iniziare il processo OCR, ed aspettare che finisca. Al termine, come vedete nella schermata sottostante, comparirà sulla destra, sotto forma di testo, il contenuto del file out.tif

Qualora volessimo ottenere soltanto una parte del testo del nostro documento, basta zoomare sull’immagine e selezionare l’area di nostro interesse.

Terminata la procedura, salviamo il tutto come file di testo e chiudiamo il programma.

CONCLUSIONI

I test da me effettuati mi hanno restituito dei risultati positivi, ma il dato emerso durante le prove riguarda la risoluzione del file immagine ottenuto: MAGGIORE È LA QUALITÀ CHE SI PUÒ OTTENERE DAL PROPRIO SCANNER DURANTE LA SCANSIONE DEI DOCUMENTI, ALTRETTANTO MINORI SARANNO I MARGINI DI ERRORE DEL TESTO OTTENUTO.

NOTA IMPORTANTE- se il file .TIFF non viene riconosciuto all’apertura da gImagereader, modifichiamolo in .TIF (quindi con una sola F) ed il problema è risolto.

FONTI:

http://linux.collectiontricks.it/wiki/OCR_con_tesseract_in_XSane
http://gimagereader.sourceforge.net/
http://doc.ubuntu-fr.org/xsane2tess

11 Responses to “Tesseract-ocr: trasformare in documenti editabili le immagini acquisite su Linux”

John Rose says:

26 April 2011 at 11:31

I do not have the Binario option in XSane. I had Lineart & Grey (as well as Colour). Which should I use?

I didn’t understand the resolution instruction. Should resolution be set to 1200? With 1200 resolution, XSane creates an image of just under 1MB. However, under Ubuntu 10.04 with gImageReader v0.9 gImageReader never finishes opening it. Any ideas?

Rispondi
- linuxari says:
  
  26 April 2011 at 11:57
  
  Hello John,
  
  Bad translation, the correct option is lineart.
  The resolution should be set at 1200 DPI.
  
  Regarding the last problem, i’ve no idea, this has been tested with ubuntu 10.10, do you have any error on screen ?
  
  Rispondi
John Rose says:

26 April 2011 at 18:13

No error message is given. gImageReader hangs whilst ‘Loading…out.tiff’. I have about 9GB spare disk capacity and am using a 2GB memory PC.

Nautilus says that out.tiff is less than 1Mb; XSane says that out.tiff is 16.1MB.

I’m using later version of gImageReader (from sourecforge) than version for which you gave a link.

Rispondi
gabriele - gmstyle says:

27 April 2011 at 08:26

Hi to all! first sorry for my english:

i think the problem can be resolved settings a resolution like 600 DPI… but not under 600 DPI. I think that is a “xsane with scanner” problem that creates a file with an incomplete process…

i wait news about

bye

Rispondi
John Rose says:

27 April 2011 at 08:54

Gabriele,

Worked OK at 600dpi.

Thank you.

Rispondi
- gabriele - gmstyle says:
  
  28 April 2011 at 12:11
  
  oooooh thanks to you! 😉
  
  Rispondi
Joaquim Rocha says:

19 May 2011 at 11:16

Hi, you might wanna check also OCRFeeder which is more complete and can make use of the Tesseract OCR engine as well:

http://live.gnome.org/OCRFeeder

Cheers,

Rispondi
- linuxari says:
  
  19 May 2011 at 22:30
  
  I’ll check it for sure Joaquin, and as soon as i’ve some time i’ll check your slide from Linux tag too.
  Thanks
  
  Rispondi
Krisalyn says:

14 August 2011 at 13:33

Whoa, whoa, get out the way with that good infoarmotin.

Rispondi
meghana says:

3 August 2012 at 15:14

i want some scanned images which can be converted into text.pls send me as soon as possible

Rispondi
JonyGreen says:

5 September 2015 at 12:41

if you like tesserac ocr, you may like this free online ocr tool using tesseract ocr 3.02.

Rispondi