2min

Nvidia heeft een nieuwe versie uitgebracht van zijn softwareplatform TensorR. Bedrijven en organsiaties kunnen dit platform gebruiken voor high-performance deep learning inference. De nieuwe versie komt met grote verbeteringen op het gebied van prestaties.

TensorRT is een platform dat een high-performance deep learning inference optimizer combineert met een runtune die lage latency en hoge throughput inference biedt voor kunstmatige intelligentie (AI) applicaties.

Inference is de mogelijkheid van een algoritme om te reageren op data, om antwoorden af te leiden uit specifieke zoekopdrachten.

BERT-Large

De nieuwste versie van TensorRT komt dus met diverse verbeteringen voor de prestaties, schrijft Silicon Angle. Het gaat om een significante vermindering voor inference-tijden op één van de meest geavanceerde AI-taalmodellen. Dat is BERT-LARGE, wat staat voor “Bidirectional Encoder Representations from Transformers -Large”.

BERT is een methode voor het trainen van natural language processing (NLP). Het omvat het trainen van een algemeen taalbegripmodel op een groot tekstcorpus als Wikipedia, en vervolgens het gebruik van dat model als basis voor downstream NLP-taken. Die taken zijn bijvoorbeeld het beantwoorden van vragen van mensen.

TensorRT 6 komt volgens Nvidia zelf met nieuwe optimalisaties die de inference-tijden van het algoritme voor BERT met T4-GPU’s verminderen naar slechts 5,8 milliseconden. Eerder was dat nog 10 milliseconden. Volgens Nvidia zijn de prestaties nu hoog genoeg dat BRT nu praktisch in te zetten in productie voor enterprises.

Andere verbeteringen

TensorRT 6 is verder geoptimaliseerd om inference bij taken gerelateerd aan spraakherkenning, 3D image segmentation bij medische applicaties, en image-gebaseerde applicaties in industriële automatisering te versnellen.

Daarnaast is er ondersteuning voor dynamic input batch sizes, wat AI-applicaties als online diensten die fluctuerende compute-eisen hebben moet helpen versnellen.

Tot slot heeft Nvidia de TensorRT Open Source Repository laten groeien. Het bedrijf plaatste de code voor zijn parser en plug-ins voor TensorRT in juli op GitHub. Nu bevat de repository nieuwe training-samples waarmee inference bij applicaties gebaseerd op taal en beelden versneld moet worden.