Tekst Christel van der Meer & Meike Willebrands

In onderzoeken naar zware criminaliteit neemt de politie vaak gegevensdragers zoals mobiele telefoons, computers en harde schijven in beslag om te speuren naar belastend bewijsmateriaal. Vaak gaat het om zoveel data dat het onmogelijk is om die één voor één handmatig te doorzoeken. Jonge data-scientists van het NFI hebben daarom een zelflerend algoritme ontwikkeld dat specifieke afbeeldingen snel uit alle data kan pikken. Het ziet of er bijvoorbeeld wapens of drugs op een foto staan, maar herkent ook teksten op foto’s, zoals kentekens of rekeningnummers op gestolen bankpassen.

"Handmatig door duizenden afbeeldingen gaan en bij elke foto met bankpas het rekeningnummer opschrijven, is niet te doen.”

Bijna iedereen heeft weleens een phishing-bericht gekregen waarin staat dat je bankpas verloopt. Klik je op de link in het bericht, dan kom je op een nepsite waar je je gegevens kunt achterlaten. Met die gegevens kunnen criminelen op jouw naam een nieuwe pas aanvragen. “Criminelen maken vaak foto’s van deze ‘gestolen’ passen. Soms gaat wel om duizenden foto’s met bankpassen”, vertelt een van de data-onderzoekers. Voor de politie is het goed om te weten wie de slachtoffers zijn, ook banken willen dit weten. “Maar handmatig door die duizenden afbeeldingen gaan en bij elk pasje het rekeningnummer en de naam met de hand opschrijven, is niet te doen.”

Om daarbij te helpen, hebben de data-scientist een zelflerend algoritme ontwikkeld voor forensisch interessant fotomateriaal. Dat idee ontstond een paar jaar geleden in een drugszaak waarbij de politie allerlei gegevensdragers in beslag had genomen waar veel afbeeldingen op stonden. Rechercheurs moesten deze foto’s een voor een doorspitten in hun zoektocht naar zeecontainers. De drugscriminelen maakten namelijk foto’s van de containers om elkaar te ‘bewijzen’ waar de drugs in zaten. In dit soort zaken gaat het soms wel om een half miljoen afbeeldingen, monnikenwerk dus voor de rechercheurs.

Duizenden foto's scannen op zeecontainers gaat dankzij FIRE een stuk sneller dan handmatig zoeken.

Speld in een hooiberg

Dat moet efficiënter kunnen, dachten de data-scientists van het NFI, waarop zij de softwarebibliotheek FIRE (Forensic Image Recognition Engine) ontwikkelden. Op basis van bestaande modellen hebben de deskundigen een zelflerend algoritme gemaakt dat na een ‘training’ in staat is om de speld in de hooiberg te vinden. Het gebruik van kunstmatige intelligentie is niet alleen interessant in de drugszaak met de zeecontainers, het kan voor veel meer politieonderzoeken van waarde zijn. De automatisering van het zoeken, levert vooral grote tijdswinst op en bespaart bovendien politiecapaciteit.

De data-scientists hebben zich de afgelopen jaren vooral beziggehouden met het verzamelen van veel trainingsdata om het algoritme ook andere forensisch interessante afbeeldingen te leren herkennen. Naast zeecontainers en bankpassen zijn dat onder meer vuurwapens, wiet en harddrugs zoals lijntjes coke. En sinds kort dus ook teksten op afbeeldingen, zoals rekeningnummers en persoonsgegevens op rijbewijzen. Het systeem herkent de afbeeldingen door heel veel voorbeelden te zien. Het algoritme kijkt naar specifieke, uiterlijke kenmerken, in het geval van wiet zijn dat de groene, harige balletjes. 

Guacamole

“Daar zitten wel wat haken en ogen aan”, zegt een van de data-scientists. “Een treffend voorbeeld is dat als het algoritme nog nooit guacamole heeft gezien, het kan aangeven dat het wiet is. Als je door de wimpers kijkt, zijn de groene kleur en de structuur inderdaad vergelijkbaar.” Nadat de experts het systeem hadden getraind om zeecontainers te herkennen, kwamen uit die grote hoeveelheid data ook afbeeldingen van hekken boven water. Het systeem herkende het strepenpatroon onterecht als een zeecontainer.

"Het systeem kan guacamole als wiet herkennen"

Het verschil tussen een computer en de mens is dat een mens bij een foto van bijvoorbeeld wiet meteen de context begrijpt. Een computer leert wiet daarentegen niet te herkennen door expliciet uit te leggen wat het is, maar door heel veel voorbeelden te krijgen. “Als je slechte voorbeelden geeft, bijvoorbeeld heel veel foto’s van wiet op een witte tafel, ziet het algoritme de witte tafel ook als onderdeel van het object”, legt de deskundige uit. Heel veel trainingsdata zijn is de sleutel tot succes. Hoe meer data, hoe beter het systeem in staat is om de verschillen te herkennen. De data die de deskundigen voor het trainen van het algoritme gebruiken, halen ze uit echte strafzaken en van verzamelingen afbeeldingen.

Een mens ziet dat dit wiet is, een computer leert dat door veel voorbeelden te zien.

Zoekmachine Hansken

FIRE, de softwarebibliotheek voor afbeeldingen, is inmiddels ondergebracht in de forensische zoekmachine Hansken. Hiervoor kon de politie in Hansken alleen naar teksten zoeken. Als rechercheurs nu afbeeldingen van vuurwapens aanvinken, krijgen ze een lijst waarvan het model denkt dat de kans het grootst is dat het een foto van een vuurwapen is. De politie kan zelf in de zoekmachine naar de gewenste afbeeldingen zoeken. De data-scientists  van het NFI ontwikkelen de techniek, trainen de modellen en zorgen ervoor dat de verschillende categorieën afbeeldingen beschikbaar zijn in Hansken. Ze benadrukken dat alle methodes en systemen die ze ontwikkelen vooral handige hulpmiddelen zijn, maar de mens nooit volledig kunnen vervangen. “De menselijk controle blijft van groot belang.”

Omgekeerd foto zoeken

Voor de experts van het NFI zit de meeste tijd in het verzamelen van de data om het algoritme nieuwe dingen te leren. Het systeem kan bij voldoende data in één dag al getraind zijn. Toch duurt het vaak langer. “En dan wil je niet dat de politie heel lang zit te wachten tot ze verder kunnen met het onderzoek”, zegt de data-scientist. Daarom werken ze nu aan een functie die omgekeerd naar foto’s kan zoeken.

“Je stopt dan een afbeelding van bijvoorbeeld een injectienaald in Hansken en FIRE zoekt naar soortgelijke afbeeldingen in de gigantische hoeveelheid data.” De omgekeerde zoekfunctie werkt minder goed dan wanneer het systeem specifiek getraind is op het zoeken van injectienaalden. “Maar dan kan de politie wél vast aan de slag. In de tussentijd trainen wij het systeem op het zoeken naar die specifieke klasse, zoals injectienaalden.” Dit is overigens een techniek die Google of de Russische zoekmachine Yandex ook bezitten. “Maar een foto van een onderzoek uploaden naar zulke servers, kan natuurlijk niet. Wij willen die functionaliteit gewoon bij het NFI in huis hebben.”

Op verzoek van de medewerkers worden zij in dit artikel niet met naam genoemd.