IBM Research heeft Deep Search onlangs open source gemaakt. De technologie is gebaseerd op NLP en helpt bij het analyseren van grote hoeveelheden gestructureerde en ongestructureerde data. Gebruikers kunnen deze technologie gratis gebruiken via de nieuwe Deep Search for Scientific Discovery (DS4SD)-tool.

Met de introductie van DS4SD wil Big Blue gebruikers helpen bij het stroomlijnen en uitbuiten van wetenschappelijke applicaties. De tool gebruikt hiervoor delen van de bestaande Deep Search-oplossing, die zich in eerste instantie richten op het converteren en verwerken van grote hoeveelheden data. De tool bevat een drag & drop interface en interactieve conversiefunctionaliteit. Deze functionaliteit helpt gebruikers bij kwaliteitscontrole.

Deep Search Toolkit

Een tweede element van DS4SD is de Deep Search Toolkit. Dit is een Python package dat gebruikers in staat stelt om documenten in bulk up te loaden en te converteren. Hierbij kunnen ze de toolkit naar een folder verwijzen waarin de inhoud wordt geüpload. PDF-bestanden worden in JSON-bestanden omgezet. Volgens IBM kunnen gebruikers dankzij de open-source tool makkelijker grote hoeveelheden aan gestructureerde en ongestructureerde data afhandelen.

GT4SD

DS4SD is niet de enige open-source tool voor het afhandelen van dataprocessen voor wetenschappelijke doeleinden. In maart van dit jaar maakte IBM Research zijn Generative Toolkit for Scientific Discovery (GT4SD)-oplossing open source. GT4SD is een open-source library voor het versnellen van zogenoemde ‘hypothesis generation for scientific discovery’. Samen met DS4SD moet GT4SD de eerste stappen vormen van wat IBM Research zijn Open Science Hub for Accelerated Discovery noemt.

Volgens Big Blue wordt er in de toekomst nieuwe functionaliteit voor DS4SD toegevoegd, waaronder AI-modellen en nieuwe databronnen. Standaard zijn binnen DS4SD al meer dan 364 miljoen overheidsdocumenten beschikbaar waarvan de data kan worden gebruikt en geanalyseerd. De tool krijgt hierdoor niet alleen de beschikking over de eigen data die gebruikers inbrengen, maar ook over andere grote bestanden.