Amazon Web Services (AWS) heeft Textract algemeen beschikbaar gemaakt. Textract is een volledig managed service die machine learning gebruikt om tekst en data automatisch uit documenten te halen, ook uit tabellen en formulieren.

Textract gebruikt wel machine learning, maar vereist geen expertise in machine learning om te gebruiken, weet ZDNet.

Bedrijven gebruiken veelal optical character recognition (OCR) software om tekst en data uit bestanden als contracten, belastingdocumenten en patiëntformulieren te halen. Maar traditionele OCR-technologieën kunnen geen veelgebruikte layouts als formulieren en tabellen herkennen. Om die reden genereren ze dan vaak een lange en veelal niet accurate tekst dump.

Volgens Amazon willen organisaties in plaats daarvan de mogelijkheid om tekst en data accuraat te identificeren en te verzamelen uit formulieren en tabellen en documenten van ieder format, en uit diverse bestandstypes en templates.

OCR++

AWS stelt dan ook dat Textract een OCR++-dienst is. De oplossing kan bijvoorbeeld een document met een tabel zien en herkennen dat de data in rijen en kolommen hoort. “Het is in staat om te herkennen dat er een tabel is en om uit te leggen hoe een tabel er uit zou moeten zien, zodat je de data kunt gebruiken en lezen”, aldus CEO Andy Jassy.

De API van Textract ondersteunt meerdere beeldformats, waaronder scans, PDF’s en foto’s. Klanten kunnen de dienst gebruiken met database- en analytics-diensten als Amazon Elasticsearch Service, Amazon DynamoDB en Amazon Athena. Ook is de oplossing te gebruiken met andere machine learning-diensten, waaronder Amazon Comprehend, Comprehend Medical, Amazon Translate en Amazon SageMaker.

Amazon Textract wordt al gebruikt door diverse klanten, waaronder The Globe and Mail, PwC, Healthfirst, UiPath, Teradact, Ripcord, BluePrism en Alfresco. De dienst is nu beschikbaar in de regio’s US East (Ohio), US East (N. Virginia), US West (Oregon) en Europa (Ierland). Later dit jaar moet de dienst naar extra regio’s komen.