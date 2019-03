IBM zou een database van bijna een miljoen foto’s hebben aangeboden, zonder dat de mensen die deze foto’s maakten hier toestemming voor hadden gegeven. De foto’s werden aangeboden om gezichtsherkenningstechnologie te trainen. Het ging dan ook om foto’s met duidelijke gezichten er op.

De foto’s werden van Flickr gehaald en voorzien van commentaar om het gezicht op de foto te omschrijven. De collectie werd door IBM neergezet als een manier voor onderzoekers om vooroordelen in gezichtsherkenning te verminderen.

Een aantal van de fotografen van die beelden wisten echter niet dat hun foto’s in die database zat, zo ontdekte NBC News. Het Amerikaanse nieuwsmedium stelde de fotografen hiervan op de hoogte. “Geen van de mensen die ik gefotografeerd heb, wist dat hun afbeeldingen op deze manier gebruikt werden”, aldus Greg Peverill-Conti, een PR-topman met ruim 700 foto’s in de collectie.

Andere onderzoeken

De foto’s werden op Flickr geplaatst onder een Creative Commons-licentie, wat betekent dat ze in sommige gevallen voor veel doeleinden gebruikt mogen worden. De eigenaar van Flickr, Yahoo, maakte in 2014 een collectie van 100 miljoen foto’s onder die licentie beschikbaar voor onderzoekers. IBM haalde daar dus foto’s uit met duidelijke gezichten er op, en maakte die beschikbaar in de Diversity in Faces-dataset.

IBM is bovendien niet het enige bedrijf dat openbaar beschikbare foto’s op het internet op een dergelijke manier gebruikt. Tientallen andere onderzoeksorganisaties verzamelden foto’s om gezichtsherkenningssystemen te trainen. Volgens Google Scholar zijn honderden academische papers geschreven op basis van dergelijke collecties aan foto’s.

IBM zelf stelt dat mensen die in de dataset zitten kunnen vragen om hun foto’s te laten verwijderen. NBC News zegt daarentegen dat dit lastig is, omdat er links naar de te verwijderen foto’s gemaild moeten worden. Er is echter geen openbare tool of lijst om te zien of iemand in de dataset zit. NBC heeft daar nu zelf een tool voor gemaakt.