OCR alla mano per Fedora

A volte si può fare la piacevole scoperta che per non esistono solo eccellenti software di uso piuttosto diffuso e generale (Firefox, etc) ma anche per scopi molto meno ricercati e di raro uso ci sono delle soluzioni professionali in parecchi ambiti.
Una di quelle cose che può capitare di fare di rado, ma che occorre fare il meglio possibile, è la con riconoscimento ottico dei caratteri, che consente di usare in un editor di testo il contenuto di uno scritto di cui non si ha sorgente, tipo una pagina di libro o un articolo di giornale.

Per scandire un documento qualsiasi esiste da anni l’ottimo Xsane incorporato in The Gimp, quindi nessun problema.
Per fare da qualche anno è stato rilasciato in da HP uno dei migliori motori di riconoscimento commerciali, che va sotto il nome di Tesseract (per chi non lo sapesse “tesseract” è anche il nome del cubo a 4 dimensioni, o ipercubo), e lo è attualmente in mano a Google.
Per installarlo semplicemente digitate, da un dove siete diventati super-utenti,
yum install -y tesseract-langpack-ita

così da istallare sia il motore che la lingua italiana, che contiene il vocabolario per le correzioni.
Fatto questo scopriamo di essere solo a metà dell’opera, perché come Gocr di per sé non ha interfaccia grafica, quindi sarebbe quantomeno interessante dargliene una per usarlo con molto più agio.
Tale utilità per GTK è Gimagereader, che però non sembra essere incluso in uno dei repositori principale di Fedora, quindi va scaricato, ma invece che farlo dalla sua pagina di sourceforge vi suggerisco di andare direttamente a trovare il suo rpm da Pbone.net facendo una ricerca col suo nome “gimagereader” e prendendo il pacchetto corrispondente alla vostra Fedora.
Una volta scaricato riprendete il di super-utente e digitate
yum install -y –nogpgcheck /”

Una volta fatto ciò in programmi > grafica avrete una nuova voce gImageReader, che se cliccata vi avvierà l’interfaccia da cui potrete aprire tutti i vostri file per poterci operare il riconoscimento OCR, quindi immagini ma non solo, anche i pdf, il che è una discreta comodità per mettere su word processor quei documenti che sono in realtà fatti da immagini scandite.
Prima di operare però andate nella delle opzioni e mettete come lingua preferita l’italiano (it_IT) così da non doverlo fare ogni volta.

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *