ML: Når data lyver ...
Jakten på 'korrekte' data - balanserte i alle retninger - intensiveres. Nødvendig for ‘riktig’ maskinlæring - tror vi. Men virkeligheten er verken balansert eller nøyaktig. Skal maskinene lære om og av virkeligheten eller fra kurerte, balanserte og kontrollerte data som forskere mener er nøytrale? Hvem er disse 'forskerne' forresten?
Årets mest undertrykte 'datakatastrofe' er Microsofts åpne bildedatabase MS CELEB – antatt å være sammensatt av celebritet-ansikter fra hele verden. Så viste det seg at dine og mine bilder også var med. Det kalles dataforurensing. Spesifikasjonen stemte ikke (helt) med innholdet. Fagmiljøene ble indignert og overrasket, mens resten av verden - de relativt få som fikk med seg historien - trakk på skuldrene og tenkte ‘enda en lekkasje’.
Databasen – med over 250 GB data – er forlengst stengt hos Microsoft og beklagelsene publisert. Men åpne data er akkurat det, og dataene er fortsatt ’på frifot’. Hundrevis, kanskje tusenvis av systemer har lært ansiktsgjenkjenning og kategorisering fra forurensede data – ikke bare fra denne, men fra en lang rekke databaser med innhold som viser seg å avvike betydelig fra 'innholds-fortegnelsen’. I en verden som tror maskinlæring og kunstig intelligens kan redde fremtiden, står mye mer enn privacy på spill.
Legg igjen kommentar
Du må være innlogget for å kunne kommentere.