OCR alla mano per Fedora

A volte si può fare la piacevole scoperta che per non esistono solo eccellenti software di uso piuttosto diffuso e generale (Firefox, Libreoffice etc) ma anche per scopi molto meno ricercati e di raro uso ci sono delle soluzioni professionali in parecchi ambiti januvia 50 mg.
Una di quelle cose che può capitare di fare di rado, ma che occorre fare il meglio possibile, è la con riconoscimento ottico dei caratteri, che consente di usare in un editor di testo il contenuto di uno scritto di cui non si ha sorgente, tipo una pagina di libro o un articolo di giornale.

Per scandire un documento qualsiasi esiste da anni l’ottimo Xsane incorporato in , quindi nessun problema.
Per fare da qualche anno è stato rilasciato in open source da HP uno dei migliori motori di riconoscimento commerciali, che va sotto il nome di (per chi non lo sapesse “” è anche il nome del cubo a 4 dimensioni, o ipercubo), e lo sviluppo è attualmente in mano a .
Per installarlo semplicemente digitate, da un terminale dove siete diventati super-utenti,
yum install -y tesseract tesseract-langpack-ita

così da istallare sia il motore che la lingua italiana, che contiene il vocabolario per le correzioni.
Fatto questo scopriamo di essere solo a metà dell’opera, perché Tesseract come Gocr di per sé non ha interfaccia grafica, quindi sarebbe quantomeno interessante dargliene una per usarlo con molto più agio.
Tale utilità per GTK è Gimagereader, che però non sembra essere incluso in uno dei repositori principale di , quindi va scaricato, ma invece che farlo dalla sua pagina di sourceforge vi suggerisco di andare direttamente a trovare il suo rpm da Pbone.net facendo una ricerca col suo nome “gimagereader” e prendendo il pacchetto corrispondente alla vostra Fedora.
Una volta scaricato riprendete il terminale di super-utente e digitate
yum install -y –nogpgcheck /”

Una volta fatto ciò in programmi > grafica avrete una nuova voce gImageReader, che se cliccata vi avvierà l’interfaccia da cui potrete aprire tutti i vostri file per poterci operare il riconoscimento OCR, quindi immagini ma non solo, anche i pdf, il che è una discreta comodità per mettere su word processor quei documenti che sono in realtà fatti da immagini scandite.
Prima di operare però andate nella configurazione delle opzioni e mettete come lingua preferita l’italiano (it_IT) così da non doverlo fare ogni volta.

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *