Google geeft opensource OCR engine vrij

Google heeft laten weten dat het enkele maanden geleden in alle stilte een oude OCR engine als opensource code op het internet heeft gezet. Wat Google met de OCR engine wil is echter niet helemaal duidelijk.

Google geeft opensource OCR engine vrij De optical character recognition (OCR) engine die Google heeft vrijgegeven is al een tijdje geleden ontwikkeld. De engine, genaamd Tesseract, werd tussen 1985 en 1995 ontwikkeld door Hewlett Packard, maar het werd in de koelkast gezet toen HP zich terugtrok uit de OCR markt.

Uit een blog van Luc Vincent op de website van Google is echter te lezen dat een aantal HP medewerkers een tijdje terug besloten om de engine weer uit het stof te halen en als opensource code online te zetten. Hierbij riepen ze de hulp in van the Information Science Research Institute van de Universiteit van Nevada in Las Vegas en die riepen op hun beurt weer de hulp in van Google voor het nodige debugwerk.

De code van de OCR engine is dus nu vrij te verkrijgen. Het grootste gedeelte van de code valt onder de Apache opensource licentie, maar een klein deel valt onder een aparte licentie, zodat de code niet zomaar voor commercieel gebruik kan worden ingezet. Vincent liet in zijn blog weten dat de Tesseract verre van perfect is. De engine kan alleen overweg met de Engelse taal en werkt erg slecht met teksten die onderverdeeld zijn in kolommen. Ook werkt de engine niet met kleurendocumenten of documenten met grijstinten. Toch is Tesseract volgens Vincent momenteel de beste opensource OCR engine op de markt.

Het lijkt er overigens op dat Google wel grote plannen heeft met Tesseract, want het in zijn blog liet Vincent ook weten dat Google op zoek is naar mensen die gespecialiseerd zijn in OCR technieken. Hoe en waar Google de OCR techniek wil gaan implementeren is echter nog niet duidelijk.

Keuze van de redactie

Insight: Cloud ERP

SAP zoekt in iedere S/4HANA-hoek een AI-juweel

Bij SAP beginnen de AI-investeringen zich zichtbaar uit te betalen. G...

Infor Now 2023: sectorspecifieke ERP, nu met RPA

Terwijl we de wereldwijde technologie-industrie terugbrengen naar de ...

Lees meer over Devices

Tech calendar

Google geeft opensource OCR engine vrij

Blijf op de hoogte, abonneer!

Domeinspecifieke AI verslaat generieke modellen in business apps

Nvidia bereikt als eerste mijlpaal van 4 biljoen dollar marktwaarde

Veel wegen leiden naar Oracle: de routes van VTTI en Hendrix Genetics

ServiceNow wil Salesforce disrupten met nieuw AI gebaseerd CRM

Infor Now 2023: sectorspecifieke ERP, nu met RPA

Christian Klein: “SAP beschikt over de modernste cloud stack van alle SaaS-vendors”

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing