De wijsheid ‘als je niet betaalt, ben je zelf het product’ is in het AI-tijdperk toepasselijker dan ooit. Data is goud waard, evenals de security daarvan en de mogelijkheid enige zeggenschap te hebben over waar die data is opgeslagen. Er is nu echter een tweedeling onder gebruikers van social media, internet, cloudomgevingen en andere IT-infrastructuur: enerzijds zij die betalen voor zeggenschap over hun data, anderzijds zij die dat niet (of minder) doen. Die laatste groep zou zomaar eens het idee kunnen krijgen dat hun data vogelvrij is.
Wie een enterprise IT-omgeving runt, weet dat voor niets de zon opgaat. Als je wilt dat je data veilig en compliant is opgeslagen en er geen ongewenste pottenkijkers bij kunnen, dan moet je bereid zijn daarvoor te betalen.
Toch is de afgelopen jaren in het brede IT-landschap een standaard geslopen die zegt dat dat je gegevens eigenlijk helemaal niet van jou zijn, ténzij je betaalt. En zelfs dan is het nog maar de vraag of de verwerker van jouw data altijd kan garanderen aan alle wetgeving te voldoen.
‘Alle info op internet is freeware’
Mustafa Suleyman, baas van Microsoft’s AI-onderdeel met onder andere browser Edge, zoekmachine Bing en de veelbesproken AI-assistent Copilot in de portefeuille, maakte het recent wel heel bont. Volgens hem is alle info op internet sinds de jaren ’90 gewoon ‘freeware’. Dat zei hij op een conferentie in gesprek met een host van tv-zender CNBC. Met andere woorden: alles wat op internet staat is fair game voor AI-training en vergelijkbare toepassingen. Sterker nog, dit zou volgens hem allang de gangbare norm zijn.
Alleen bedrijven die van tevoren hebben afgedwongen dat hun content niet algemeen bruikbaar is, ontspringen de dans volgens deze geheel eigen kijk op de realiteit van Suleyman. En waar er onduidelijkheid bestaat, wordt dat wel ‘in de rechtbank geregeld’. Deze benadering staat op gespannen voet met auteursrecht in allerlei landen, maar dit is dus hoe de AI-baas van Microsoft erover denkt.
Suleyman geeft hiermee uiting aan een mentaliteit die waarschijnlijk schering en inslag is onder grote techbedrijven: data van gebruikers behoort toe aan die bedrijven, tenzij gebruikers betalen voor het ‘vrijkopen’ van hun eigen gegevens. Als die mogelijkheid er überhaupt is. Social mediabedrijven maken natuurlijk al heel lang gebruik van alles wat gebruikers plaatsen op hun platforms. Gebruikersdata beschikbaar stellen aan betalende adverteerders is hun verdienmodel.
Gebruikersdata verkopen
Recent in het nieuws is het ‘pay or consent’-model dat Meta, het moederbedrijf van Facebook en Instagram, hanteert. Kort gezegd komt het erop neer dat het bedrijf de data van gebruikers verkoopt aan adverteerders, tenzij die gebruikers betalen om dat te voorkomen. De Europese Commissie dreigt nu met een boete voor deze praktijken, ook al zegt Meta zelf dat het wel degelijk aan de wetgeving voldoet.
Gewapend met de onlangs ingevoerde Digital Markets Act heeft de EU sowieso de jacht geopend op monopoliepraktijken van Amerikaanse Big Tech. Doel is met name keuzevrijheid voor consumenten waarborgen en de markt open houden voor kleinere aanbieders, maar er kleven vaak thema’s als privacy, security en data residency aan dergelijke zaken.
Verdienen aan user generated content
En dat is niet voor niets. Los van adverteerders zorgt AI inmiddels voor meer geld in het laatje dan die social mediabedrijven zelf ooit voor mogelijk hielden. Zo weet sociale medium Reddit inmiddels flink te verdienen aan user-generated content op zijn platform. Het verkoopt deze content voor tientallen miljoenen per jaar aan OpenAI en Google voor AI-training. Het beschermt die inkomstenbron zelfs zodanig dat het bedrijf voortaan beginnende AI-dataverzamelaars weert.
Alleen met een (voor Reddit) lucratief contract is het nu mogelijk om data te scrapen, wat beginnende AI-bedrijven niet kunnen ophoesten. Begrijpelijke actie vanuit het perspectief van Reddit wellicht, maar het toont weer eens hoe vogelvrij gebruikersdata online is. Want waar is de stem van de gebruikers in dit verhaal? Antwoord: die stem wordt gemonetized.
Tip: OpenAI-deal met Reddit benadrukt dat content niet van gebruikers is
Betalen voor data residency
Ander Big Tech-voorbeeld, nu over data residency: onderzoek vanuit verschillende IT-organisaties naar Google Workspace for Education bracht aan het licht dat alleen de betaalde versie de mogelijkheid biedt data in de Europese Unie op te slaan. De toon van de berichtgeving is redelijk zalvend: onderwijsinstellingen kunnen die diensten veilig gebruiken, je moet alleen de betaalde versie gebruiken. Het klinkt allemaal wel logisch, maar toch: alleen voor wie betaalt, blijft de data in de EU. Compliance als premium-dienstverlening.
Zelfs zo’n ‘belofte-tegen-betaling’ is soms een wassen neus. De keuze voor een lokaal datacenter is namelijk niet altijd een garantie voor ‘data residency’. Een wrang voorbeeld is dat van de politie van Schotland, waar na een woo-verzoek van een IT-specialist bleek dat data residency inzake bewijsmateriaal helemaal niet gegarandeerd kon worden. In elk geval niet voor data-in-transit.
Ook al moest dergelijke gevoelige data volgens wetgeving in het Verenigd Koninkrijk blijven, dat gebeurde helemaal niet in alle gevallen. Dit zou zelfs ‘inherent’ zijn aan de architectuur van Azure, meldde Microsoft in correspondentie met de politie van Schotland.
Logging-capaciteit kopen
Ook wat betreft security betekent een goedkoper abonnement soms dat je simpelweg minder beheer kunt uitoefenen over je eigen data. Zo beperkte Microsoft tot vorig jaar de mogelijkheden voor gebruikers om logging-data in te zien in Azure Active Directory-applicaties. Data die overigens al gewoon voorhanden was, maar waar alleen duurdere accounts bij konden. Een kunstmatige security-drempel dus.
Alleen Purview Audit Premium-klanten konden een incident opsporen zoals dat van vorig jaar, toen de Chinese hackersgroep Storm-0558 een MSA private key wist te bemachtigen. Inmiddels heeft druk vanuit de Amerikaanse Cybersecurity & Infrastructure Security Agency (CISA) ervoor gezorgd dat Microsoft uitgebreide logging-capaciteiten nu gratis aanbiedt.
En nog geen garanties
De voorbeelden hierboven gaan over verschillende zaken: data residency, security, keuzevrijheid, advertentiedoeleinden, AI-training. Wat ze gemeen hebben, is dat iedereen wat te zeggen lijkt te hebben over gebruikersdata, behalve gebruikers zélf. Het precedent is inmiddels: alleen als je betaalt, heb je een keuze om bijvoorbeeld niet verkocht te worden aan adverteerders, om compliant te zijn of inzicht te krijgen in uitgebreide security-instellingen. En zelfs dan heb je nog niet de garantie dat de betaalde dienst je wensen inwilligt of kan voldoen aan de regels.
Dat is een slechte zaak, want op deze manier kan het idee ontstaan bij zakelijke gebruikers, maar ook gewone consumenten, dat hun digitale eigendommen hen als los zand door de vingers glippen. Wanneer bedrijven, wetgevers en adverteerders bakkeleien om gebruikersgegevens maar die gebruikers zelf het idee hebben dat ze de controle kwijt zijn over hun data, voedt dat scepsis over de wenselijkheid een ‘digitale transitie’ door te voeren.