Van artsen wordt veel verwacht. De start-up Juvoly wilde ze met spraakherkennende AI laten concentreren op patiënten. Daar stuitte het op een probleem: Nederlandse medische gesprekken wordt belabberd getranscribeerd door leidende AI-modellen. Met NorthC Datacenters als facilitator en de nieuwste NVIDIA Blackwell-hardware keert Juvoly het tij. Hoe is dat gelukt? En welke uitdagingen bestaan er nog?
We spreken hierover met Juvoly’s medeoprichter en CEO Thomas Kluiters. We zullen later de oplossing van deze start-up in zijn geheel bespreken. Maar eerst moeten we de geboorte van Juvoly V2 verklaren, het spraakherkenningsmodel van Juvoly, is geboren om de beperkingen van OpenAI’s Whisper te overkomen. Terwijl taalmodellen als GPT-4 en o1 de wereld veroverden via ChatGPT, gold Whisper al in september 2022 als de gouden standaard voor spraakherkenning. Het is open-source en, zo stelde OpenAI destijds, ook geschikt voor andere talen. Niets bleek minder waar. Nederlandse spraak, en medische gesprekken in het bijzonder, wordt inadequaat in tekst omgezet.
Juvoly’s startpunt
Deze tekortkoming is onder de radar gevlogen, vertelt Kluiters ons. “Vaak nemen mensen aan dat spraakherkenning een opgelost probleem is, maar dat is echt niet zo.” In het Engels kunnen medische professionals redelijk uit de voeten met Whisper, elders niet. “Als je een goed Nederlandstalig spraakherkenningsmodel wilt bouwen, dan moet je ook goed Nederlands spreken.” Alleen dan begrijp je naast grote fouten ook subtiele vergissingen.
Benchmarks doen ook geen recht aan de werkelijke capaciteiten van AI-modellen, aldus Kluiters. Whisper heeft 3,3 miljard parameters en geniet veel ruimte voor creativiteit. In deze context: verzinsels of hallucinaties, uiterst onbehulpzaam als je een gesprek tussen patiënt en arts accuraat wil opschrijven of samenvatten. Daarbovenop is spraakherkenning via de cloud ontzettend duur omdat het per uur afgerekend wordt.
Juvoly V2 neemt de complexiteit ten opzichte van Whisper weg en is getraind op medische gesprekken in het Nederlands. Ook is het vele malen goedkoper en hallucineert het minder doordat het niet zo creatief mag zijn als Whisper. Juvoly belooft dat haar huidige model, Juvoly V2, 10% nauwkeuriger is dan Whisper en 40 keer sneller. Zo is het, in tegenstelling tot bestaande modellen, gebruikt voor real-time toepassingen. Ook is Juvoly V2 een stuk energiezuiniger: elke 100 gebruikers verbruiken 350 Wh en ‘passen’ op een enkele NVIDIA-GPU. Normaliter is dit verbruik 11.000 Wh (11 kWh). Wie een jaar lang klant is bij Juvoly, stoot 200 gram aan CO2 uit, wat vergelijkbaar is met een ritje van twee kilometer in een benzineauto. In de komende twee weken lanceert Juvoly haar vernieuwde spraakmodel Juvoly V3, dat op alle punten nóg beter zal presteren en daarnaast ook geavanceerde features zoals automatische taalherkenning en sprekerherkenning zal aanbieden.
“Iedereen verklaart je voor gek als je een eigen spraakmodel bouwt, maar dat hebben we wel gedaan en daar halen we nu veel voordeel uit”, vertelt Kluiters. In tegenstelling tot multimodale modellen als Google Gemini blijft de data ook veilig in Europa en zoveel mogelijk binnen de datacenters van NorthC. Bij Gemini kunnen gevoelige patiëntgesprekken voor 55 dagen wegens ‘abuse monitoring’ in de cloud blijven staan zonder encryptie. “Voor de gezondheidszorg is het enorm belangrijk hiervan af te zijn.”
Cloud-af
Het ideaal voor Juvoly is om volledig afscheid te nemen van de cloud. Dankzij een gloednieuw NVIDIA B200-systeem is dat ideaal een stap dichterbij gekomen. Het zal de komende week feestelijk worden onthuld door Constantijn van Oranje. De “B” staat hier voor Blackwell, de nieuwste GPU-architectuur van NVIDIA. Juvoly heeft nu twee B200-nodes in bezit, met als doelstelling er acht te hebben voor het einde van het jaar. Elke node bevat acht GPU’s, dus eind 2025 moet Juvoly beschikken over 64 Blackwell-GPU’s. Daarnaast draait men al de NVIDIA H100 en L40S, de voorgangers van de Blackwell-architectuur (“H” = Hopper, “L” = Ada Lovelace). Ze zijn minder efficiënt, maar nog altijd inzetbaar. Dat is een prijzige set aan hardware, maar het is tot veel AI-vermogen in staat zonder cloudgebruik.
Frappant is dat de GPU’s eigenlijk bijna te snel zijn voor spraakherkenning. De twee CPU’s per node zijn in plaats daarvan gauw de bottleneck, terwijl we ze doorgaans bij AI-workloads behandelen als veredelde verkeersregelaars voor alle data die om de haverklap het GPU-geheugen in moeten rijden. Soms klaart de GPU een klus binnen 12 milliseconden terwijl de CPU 60 milliseconden nodig heeft, zo geeft Kluiters aan.
In plaats daarvan benut Juvoly de nieuwe GPU-compute voor LLM’s. Deze vorm van AI vormt de basis voor de samenvattingen binnen Juvoly QuickConsult. Hierin kunnen artsen in real-time aflezen welke symptomen een patiënt bijvoorbeeld heeft genoemd. Zo hoeven zij niet alleen te vertrouwen op de transcripties. Het is zeker de bedoeling dat de zorgverlener achteraf goed controleert of alles wel klopt. Het vormt een sjabloon voor bijvoorbeeld een SOEP-verslag voor de huisarts. “Voor het samenvatten gebruiken we nog Azure met GPT-4o”, aldus Kluiters, maar tijdens het gesprek classificeren open-source modellen zoals Gemma of Llama of er over bepaalde symptomen wordt gesproken.
De doelstelling is dus om alle Juvoly-workloads lokaal te draaien. Dat wil zeggen: in de NorthC Datacenters-locatie waar de start-up gebruik van maakt. Het zelf inkopen van hardware is een eigen avontuur, maar NorthC maakte het volgens Kluiters vrij eenvoudig om de apparatuur werkelijk te benutten en naar wens uit te breiden. Veel start-ups durven de stap naar een eigen locatie niet te maken, vertelt hij, maar: “Opeens betaal je niet een paar duizend euro per maand voor een bare-metal node, maar een paar honderd euro maandelijks. En het is helemaal van jou.” Ook heeft Juvoly meer dan genoeg groeiruimte samen met NorthC, dat al heeft nagedacht over wat een start-up als deze nodig zal hebben in de toekomst.
Moeilijker dan het lijkt
Piet Sjoukes, Director Sales bij NorthC Datacenters, vertelt ons meer over de ervaring van NorthC in het faciliteren van zowel groeiende start-ups zoals Juvoly als gevestigde partijen. “Faciliteren” is hierbij het juiste woord, zegt hij. “De kern van onze dienstverlening ligt in continuïteitsdiensten. Onze klanten kunnen het zich niet veroorloven dat hun systemen door het wegvallen van koeling of stroom niet beschikbaar zijn.” Gekscherend noemt Sjoukes dit wel eens dat het eigen kernproduct eigenlijk “nachtrust” is. “De helft van onze klanten, zoals Juvoly, vallen in de categorie: high-tech dienstverleners. Zij zoeken de randen op van technische (hardware) mogelijkheden.”
“Voor hen geldt dat zij in een fase van ‘disruptive technologies’ zitten”, aldus Sjoukes. “De technische keten van chipfabrikanten; hardwareleveranciers en softwaredevelopers ontwikkelen in een hoog tempo nieuwe producten die vaak nieuwe toepassingen mogelijk maken, waarbij het modewoord – nu – AI is.”
AI, en zeker GenAI, vraagt om immense rekenkracht. Dat vertaalt zich in hoge aantallen GPU’s en een veel hogere ‘power density’ dan voorheen. “Daar waar vroeger de norm 3kW per rack was, daar zien wij nu aanvragen van meer dan 40kW per rack”, vertelt Sjoukes. Zo ontstaat er voor datacenterleveranciers een dilemma: hoe bedien je deze high-tech klanten zonder je gehele infrastructuur om te moeten bouwen? Dat levert immers problemen op voor de andere helft van het NorthC-klantenbestand. Sjoukes legt uit dat de traditionele 3kW en daaraan gekoppelde koelbehoeftes absoluut niet verdwenen zijn. “NorthC heeft zich gespecialiseerd in het modulair bouwen van datacenters, waardoor wij in staat zijn op specifieke plekken in onze 19 datacenters de high-tech klanten optimaal te bedienen en tegelijkertijd zorg te dragen voor een optimalisatie van onze Power Usage Effectiveness (PUE).”
Dit levert een mengelmoes op van koeltechnieken, die alsnog passen in het concept van een bestaand datacenter. Denk aan on-chip- en immersion-koeling, maar ook het afvoeren van hete lucht in de vorm van zogeheten hot aisle containment. Met medewerking vanuit de buitenwereld is deze opgewekte warmte inzetbaar voor andere doeleinden.
Blackwell-vereisten
Hoe ziet dit eruit voor de specifieke NVIDIA B200-nodes van Juvoly bij NorthC? Vloeistofkoeling is hiervoor nodig, vertelt Sjoukes. “Dat betekent dat klant-racks worden aangesloten op onze koelwater-installatie. NorthC heeft hier veel ervaring mee, met name in Eindhoven waar wij toonaangevende high-tech klanten op deze manier van koeling voorzien.” Ook in Rotterdam en Amsterdam is hier capaciteit voor.
Niet alles kan door NorthC worden voorspeld. Het heeft ook transparantie en een bewust beleid van de klant nodig. “Het is van belang dat klanten tijdig een duidelijke richting aangeven van hun groeibehoefte”, aldus Sjoukes. Er is namelijk geen keihard contrast tussen modulaire stukjes lucht-, immersion- en on-chip-koeling. Verre van dat zelfs: “Bij de meeste vormen van liquid cooling is ook nog een component luchtkoeling nodig, vaak nog twintig à dertig procent van de weg te koelen kilowatts.” Voordat NorthC die koelpuzzel kan leggen, zijn er puzzelstukjes nodig vanuit de klant.
Van dag tot dag houdt het AI-gedreven EcoSense-systeem van NorthC Datacenters haarfijn bij wat het wattage en de koelbehoeften van elk individueel rack zijn, zodat de operator hier continu voor kan optimaliseren. Overigens is het niet zo dat NorthC voortdurend aanwezig hoeft te zijn om bedrijven inzicht te bieden in hun apparatuur. Een self-service portal verschaft hen al veel details.
Zeker in de toekomst, wanneer Kluiters en zijn team wellicht nog meer dan de beoogde nodes anno 2025 nodig hebben, is er wel een Customer Success Manager te raadplegen, benadrukt Sjoukes. “Een van onze kernwaardes is ‘Digital Business, Personal connection’.” De persoonlijke aandacht noemt hij “heel belangrijk”, waarbij NorthC ook echt kan faciliteren. “Daarom streven wij er naar onze klanten zoveel mogelijk bij elkaar te introduceren en gebruik te maken van elkaars diensten en expertise.” Het moet volgens Sjoukes niet uitmaken of er een carrier, netwerkspecialist of bare-metal provider aan te pas komt. “Succes is ‘one cross connect away'”, zoals hij het Digital NorthC Ecosysteem, dat dit proces omvat, karakteriseert.
Conclusie: bewegende doelwitten
Terwijl de gezondheidszorg steeds efficiënter moet worden met beperkte middelen, vindt het in de techwereld een metgezel. Dat uit zich in een start-up als Juvoly, dat software-expertise heeft omgezet in een werkelijke oplossing voor een belangrijk pijnpunt in de zorgsector. Persoonlijk contact tussen arts en patiënt is juist mét digitale middelen te realiseren, blijkt uit de ontzorgende werking van Juvoly’s AI-model V2 en het eigen QuickConsult. Maar software heeft hardware nodig en ook daar zijn de eisen restrictief. Niet alleen qua prijs, maar ook op het gebied van beschikbaarheid en duurzaamheid. Efficiëntie is simpelweg op elk terrein nodig, van spraakmodel tot GPU en van koelingstechniek tot energie-opwekking.
Het opvallende is dat ook hier juist de menselijke kant naar voren komt. Een heldere, volwassen vorm van communicatie is een vereiste om als start-up succesvol te groeien met een eigen stekje binnen een datacenterlocatie. NorthC maakt allerlei soorten klanten mee en moet hun uiteenlopende wensen en eisen in balans brengen. Sjoukes geeft dan ook aan dat hijzelf en zijn bedrijf al eerdere innovatiegolven hebben meegemaakt, die plotseling heel andere eisen hadden dan de conventionele bedrijven.
Vanuit Juvoly merken we een attitude die hier goed op aansluit. Daar waar Amerikaanse AI-partijen onnoemelijk veel geld en compute tot hun beschikking hebben, is de aanpak van deze Nederlandse speler duidelijk anders. Dat is niet eens omdat er per se te weinig AI-rekenkracht beschikbaar is, vertelt Kluiters. Je moet echter je niche vinden, die optimaal bedienen en het liefst met zo efficiënt mogelijke hardware. Daarvoor heeft het nu B200-nodes, waarop honderden huisartsen hun werk kunnen vergemakkelijken en beter voor hun patiënt kunnen zorgen. Zo merkt de ‘gewone wereld’ via allerlei tussenstappen enorm veel van de daadkracht rondom de serverracks.
Lees ook: Duurzaamheid in datacenters: hoe staat het ervoor?