3min Devops

Gebruikers gaan data afstaan voor AI-training met GitHub Copilot

Gebruikers gaan data afstaan voor AI-training met GitHub Copilot

GitHub meldt dat het vanaf 24 april de manier waarop het gegevens gebruikt voor zijn AI-assistent Copilot aanpast. Interactiegegevens van gebruikers van Copilot Free, Pro en Pro+ worden voortaan standaard ingezet om AI-modellen te trainen en te verbeteren, tenzij gebruikers zich hier expliciet voor afmelden. De wijziging geldt niet voor Copilot Business en Copilot Enterprise.

Neowin vult aan dat deze wijziging in de praktijk neerkomt op een opt-out model. Gebruikers die geen actie ondernemen vóór 24 april worden automatisch opgenomen in het trainingsprogramma. Daarmee verschuift de verantwoordelijkheid nadrukkelijk naar de gebruiker om privacy-instellingen actief aan te passen. Dit kan mogelijk tot discussie leiden over transparantie en geïnformeerde toestemming.

Met deze stap volgt GitHub, onderdeel van Microsoft, een bredere trend binnen de AI-sector. Praktijkdata worden steeds belangrijker voor het verbeteren van modelprestaties. Volgens het bedrijf leidt het gebruik van echte interacties tot nauwkeurigere en contextbewustere suggesties. Het moet ontwikkelaars helpen efficiënter en veiliger code te schrijven.

De gegevens die GitHub wil gebruiken omvatten onder meer invoer en uitvoer van Copilot, codefragmenten, context rond de cursorpositie en feedback van gebruikers op suggesties. Ook informatie zoals bestandsstructuren en interacties met functies zoals chat en inline suggesties kan worden meegenomen. Daarmee gaat het feitelijk om vrijwel alle interacties die een gebruiker met Copilot heeft.

Scheiding tussen opgeslagen en actieve data

Opvallend is dat GitHub expliciet onderscheid maakt tussen data in rust en actieve interacties. Inhoud uit private repositories wordt niet gebruikt zolang deze niet actief via Copilot wordt verwerkt. Zodra een gebruiker Copilot inzet binnen een private repository, kunnen die interactiedata wel worden gebruikt voor modeltraining. Dit geldt tenzij de gebruiker zich heeft afgemeld.

Gebruikers die niet willen dat hun gegevens worden ingezet, kunnen dit uitschakelen via de privacy-instellingen. GitHub geeft aan dat bestaande voorkeuren worden gerespecteerd. Gebruikers die eerder al hebben gekozen om geen data te delen voor productverbetering, blijven automatisch uitgesloten van dit nieuwe trainingsprogramma.

De beslissing is mede gebaseerd op eerdere experimenten binnen Microsoft, waar interactiedata van medewerkers al werden gebruikt om modellen te verbeteren. Volgens het bedrijf heeft dit geleid tot hogere acceptatiepercentages van suggesties en betere prestaties in verschillende programmeertalen. Het bedrijf verwacht dat uitbreiding naar een bredere gebruikersgroep deze trend zal versterken.

Daarnaast benadrukt Microsoft dat de verzamelde gegevens gedeeld kunnen worden met gelieerde bedrijven binnen de eigen organisatie, maar niet met externe AI-modelproviders. Daarmee probeert het bedrijf zorgen over datadeling met derden te beperken. Toch blijft het gebruik van ontwikkelaarsdata voor trainingsdoeleinden een gevoelig onderwerp.

GitHub stelt dat de toekomst van AI-ondersteunde softwareontwikkeling afhankelijk is van input uit de praktijk. Door modellen te trainen met echte ontwikkelworkflows wil het bedrijf Copilot verder positioneren als een betrouwbare en productieve assistent voor programmeurs.