Abonneer je gratis op Techzine!

Google heeft laten weten dat het enkele maanden geleden in alle stilte een oude OCR engine als opensource code op het internet heeft gezet. Wat Google met de OCR engine wil is echter niet helemaal duidelijk.

De optical character recognition (OCR) engine die Google heeft vrijgegeven is al een tijdje geleden ontwikkeld. De engine, genaamd Tesseract, werd tussen 1985 en 1995 ontwikkeld door Hewlett Packard, maar het werd in de koelkast gezet toen HP zich terugtrok uit de OCR markt.

Uit een blog van Luc Vincent op de website van Google is echter te lezen dat een aantal HP medewerkers een tijdje terug besloten om de engine weer uit het stof te halen en als opensource code online te zetten. Hierbij riepen ze de hulp in van the Information Science Research Institute van de Universiteit van Nevada in Las Vegas en die riepen op hun beurt weer de hulp in van Google voor het nodige debugwerk.

De code van de OCR engine is dus nu vrij te verkrijgen. Het grootste gedeelte van de code valt onder de Apache opensource licentie, maar een klein deel valt onder een aparte licentie, zodat de code niet zomaar voor commercieel gebruik kan worden ingezet. Vincent liet in zijn blog weten dat de Tesseract verre van perfect is. De engine kan alleen overweg met de Engelse taal en werkt erg slecht met teksten die onderverdeeld zijn in kolommen. Ook werkt de engine niet met kleurendocumenten of documenten met grijstinten. Toch is Tesseract volgens Vincent momenteel de beste opensource OCR engine op de markt.

Het lijkt er overigens op dat Google wel grote plannen heeft met Tesseract, want het in zijn blog liet Vincent ook weten dat Google op zoek is naar mensen die gespecialiseerd zijn in OCR technieken. Hoe en waar Google de OCR techniek wil gaan implementeren is echter nog niet duidelijk.