Google ha annunciato la release in open-source di un dei più accurati motori di Optical Character Recognition (OCR), un popolare progetto, chiamato Tesseract, sviluppato

Google ha annunciato la release in open-source di un dei più accurati motori di Optical Character Recognition (OCR), un popolare progetto, chiamato Tesseract, sviluppato originariamente dagli Hewlett Packard Laboratories tra il 1985 e il 1995. Tesseract era stato portato avanti dalla University of Nevada di Las Vegas in collaborazione con HP, con l´intendo di dare vita ad un motore OCR affidabile capace di funzionare con qualsiasi tipo di testo stampato. Con l´avvento del World Wide Web, Tesseract inizià ad essere messo da parte, in particolare a causa della riorganizzazione di HP da compagnia di ricerca a "consumer products firm". Nel 2005 Google si è accordata con UNLV e alcuni ingegneri HP per rilasciare Tesseract come progetto open-source. In cambio il colosso ha messo a disposizione alcune delle sue risorse per gli aggiornamenti e le correzioni al codice del software e lo scorso mese ha sponsorizzato la release di una nuova versione stabile del prodotto. Ieri il colosso della ricerca ha ri-annunciato Tesseract per informare i developer della disponibilità del progetto. Dal blog ufficiale Google Code: "Vi starete chiedendo perchè Google è interessata all´OCR? In sintesi, il nostro obiettivo è quello di rendere le informazioni disponibili per gli utenti, e quando queste informazioni si trovano su un documento cartaceo, l´OCR è il processo tramite il quale è possibile convertire le pagine del documento in testo utilizzabile per l´indexing". Attualmente Tesseract OCR supporta solo la lingua inglese e non include ancora un modulo per l´analisi dei layout di pagina, cosa che causa un riconoscimento non ottimale del testo in pagine a più colonne. Inoltre il software non funziona perfettamente con documenti in scala di grigi e a colori, e l´accuratezza non raggiunge quella dei sistemi di OCR commerciali. Tesseract è una applicazione di una "neural networking library". Precisamente il software implementa un sistema chiamato Aspirin/MIGRAINES, sviluppato dall´esperto ingegnere "neural network simulator" Russell Leighton, e licenziato gratuitamente, pur non essendo open-source. Per anni le reti neurali sono state riconosciute come i sistemi più efficienti di pattern recognition, e sono stati quindi sfruttate ampiamente per i sistemi OCR. Per il sistema Asprin, Leighton ha implementato un network back-propagated, che impara a riconoscere i pattern attraverso successive ripetizioni di introduzione, analisi e poi trial-and-error learning. MIGRAINES funge invece da ambiente di visualizzazione per gli sviluppatori Aspirin. La dipendenza di Tesseract da Aspirin potrebbe rendere difficile per i developer sotto-licenziare i prodotti del loro lavoro ad altri sviluppatori. Aspirin infatti non viene offerto sotto i termini di licenza usuali Apache ma presenta dei termini separati. Questo tuttavia non rappresenta un grande problema per Google a cui per ora interessa in particolare che sviluppatori contribuiscano all´ottimizzazione di Tesseract. Per questo motivo il colosso ha anche pubblicato un annuncio di lavoro per ingegneri OCR. Anche dopo 21 anni, il progetto Tesseract sembra comunque afflitto dallo stesso problema che ha scoraggiato gli ingegneri OCR con le reti neurali fin dall´inizio: a giudicare dai commenti pubblicati su Sourceforge, infatti, pur restando il sistema OCR più preformante mai sviluppato, Tesseract presenta ancora alcuni problemi con i segni diacritici come accenti e dieresi. Normalmente, quando diventano parte del testo, i segni diacritici vanno a compromettere le capacità analitiche del sistema non solo nel distinguere i caratteri accentati da quelli non accentati, ma anche i caratteri standard gli uni dagli altri. Durante la maggior parte degli anni novanta, del resto, i test sui sistemi OCR sono stati condotti usando per lo più testo di lingua inglese, in molti casi totalmente privo di dieresi.,

Condividi