Tekst Meike Willebrands

In onderzoeken naar zware criminaliteit neemt de politie vaak gegevensdragers zoals mobiele telefoons, computers en harde schijven in beslag om te speuren naar belastend bewijsmateriaal. Bijvoorbeeld foto’s van drugs, wapens of zeecontainers. Maar de hoeveelheid data is meestal zó groot dat het voor de mens ondoenlijk wordt om die te doorzoeken. Een drietal jonge data-scientists van het NFI heeft ervoor gezorgd dat dat nu efficiënter kan. Zij hebben een zelflerend algoritme ontwikkeld dat specifieke afbeeldingen snel uit een grote hoeveelheid data kan pikken.

Het idee om een zelflerend algoritme te ontwikkelen voor forensisch interessant fotomateriaal is ontstaan in een specifieke drugszaak uit 2017. In die zaak had de politie allerlei gegevensdragers in beslag genomen waar veel afbeeldingen op stonden die de rechercheurs een voor een moesten doorspitten in hun zoektocht naar zeecontainers. De drugscriminelen maakten foto’s van de containers om elkaar te ‘bewijzen’ waar de drugs in zaten. Soms gaat het in zaken wel om een half miljoen afbeeldingen, monnikenwerk voor de rechercheurs.

Speld in een hooiberg

Dat moet efficiënter kunnen, dachten de data scientists van het NFI, waarop zij de softwarebibliotheek FIRE (Forensic Image Recognition Engine) hebben ontwikkeld. Op basis van bestaande modellen hebben de deskundigen een zelflerend algoritme gemaakt dat na een ‘training’ in staat is om de 'speld in de hooiberg' te vinden. Het gebruik van kunstmatige intelligentie is niet alleen interessant in de drugszaak met de zeecontainers, het kan voor veel meer politieonderzoeken van waarde zijn. De automatisering van het zoeken, levert vooral grote tijdswinst op en bespaart bovendien politiecapaciteit.

“Een treffend voorbeeld is dat als het algoritme nog nooit guacamole heeft gezien, het altijd zal aangeven dat het wiet is"

De data scientists hebben zich in 2018 vooral beziggehouden met het verzamelen van veel trainingsdata om het algoritme ook andere forensisch interessante afbeeldingen te leren herkennen. Denk aan vuurwapens, wiet, geld en harddrugs zoals lijntjes coke, maar ook het specifieke verpakkingsmateriaal van bijvoorbeeld heroïne (een soort verhuistape). Het systeem herkent de afbeeldingen door heel veel voorbeelden te zien. Het algoritme kijkt naar specifieke, uiterlijke kenmerken, in het geval van wiet zijn dat de groene, harige balletjes.

Guacamole

“Daar zitten wel wat haken en ogen aan”, zegt een van de data scientists. “Een treffend voorbeeld is dat als het algoritme nog nooit guacamole heeft gezien, het altijd zal aangeven dat het wiet is. Als je door de wimpers kijkt, zijn de groene kleur en de structuur inderdaad vergelijkbaar.” Nadat de experts het systeem hadden getraind om zeecontainers te herkennen, kwamen uit die grote hoeveelheid data ook afbeeldingen van hekken boven water. Het strepenpatroon herkende het systeem onterecht als een zeecontainer.

Het verschil tussen een computer en de mens is dat een mens bij een foto van bijvoorbeeld wiet meteen de context begrijpt. Een computer leert wiet daarentegen niet te herkennen door expliciet uit te leggen wat het is, maar door heel veel voorbeelden te krijgen.  “Als je slechte voorbeelden geeft, bijvoorbeeld heel veel foto’s van wiet op een witte tafel, ziet het algoritme de witte tafel ook als onderdeel van het object”, legt de deskundige uit. Heel veel trainingsdata is de sleutel tot succes. Hoe meer data, hoe beter het systeem in staat is om de verschillen te herkennen. De data die de deskundigen voor het trainen van het algoritme gebruiken, halen ze uit echte strafzaken en van verzamelingen afbeeldingen.

Zoekmachine Hansken

FIRE, de softwarebibliotheek voor afbeeldingen, is inmiddels ondergebracht in de forensische zoekmachine Hansken. Hiervoor kon de politie in Hansken alleen naar tekst zoeken. Als rechercheurs nu afbeeldingen van vuurwapens aanvinken, krijgen ze een lijst waarvan het model denkt dat de kans het grootst is dat het een foto van een vuurwapen is. De politie kan zelf in de zoekmachine naar de gewenste afbeeldingen zoeken. De data scientists  van het NFI ontwikkelen alleen de techniek, trainen de modellen en zorgen ervoor dat de verschillende categorieën afbeeldingen beschikbaar zijn in Hansken.

“Een volgende stap zou kunnen zijn dat we het systeem leren om in een zaak alle unieke personen eruit te pikken. Op die manier heeft de politie in één keer overzicht op alle data"

Herkennen unieke personen

De deskundigen zijn sinds vorig jaar ook gestart met de training van het algoritme om teksten op foto’s te herkennen. “Bijvoorbeeld een nummer op een zeecontainer of een briefje waar iets op geschreven staat dat mogelijk interessant is voor de politie.” Een andere belangrijke ontwikkeling waar de data scientists zich op focussen is gezichtsherkenning. “Een volgende stap zou kunnen zijn dat we het systeem leren om in een zaak alle unieke personen eruit te pikken. Op die manier heeft de politie in één keer overzicht op alle data en wie daar allemaal in zitten. Dat is nu nog toekomstmuziek, maar daar werken we aan.”

Naast de herkenning van personen, trainen de deskundigen het systeem nog altijd in de herkenning van nieuwe objecten op afbeeldingen zoals IS-vlaggen en chemicaliën voor de productie van synthetische drugs. Maar ook foto’s van telefoonschermen. De ervaring leert dat criminelen vaak screenshots maken van belangrijke berichtjes met een andere telefoon omdat hun beveiligde telefoon die meteen wist. Ook daarom is de optimalisatie van de tekstherkenning op de foto’s zo belangrijk. “Hiervoor kon dat alleen in documenten, wat op foto’s stond was niet doorzoekbaar. Daar zien we nu kansen.”

Vertaalslag forensisch domein

Het verzoek om een algoritme iets specifieks te leren, komt vaak voort uit een strafzaak. Toch maken de data scientists het getrainde systeem ook meteen beschikbaar voor andere politieteams. Rechercheurs kunnen zich met deze tool snel focussen op het analyseren van de gegevens in plaats van het eindeloze speuren naar de vele afbeeldingen in hun zaak.

Voor de experts van het NFI zit de meeste tijd in het verzamelen van de data om het algoritme nieuwe dingen te leren. Het systeem kan bij voldoende data in één dag al getraind zijn. Algoritmes die objecten kunnen herkennen zijn op zich niet nieuw, denk bijvoorbeeld aan kentekenherkenning. Maar de vertaalslag naar forensisch relevante categorieën zoals wapens en drugs bestond nog niet.

Op verzoek van de medewerkers worden zij in dit artikel niet met naam genoemd. Voor meer informatie kunt u mailen naar: FBDA@nfi.nl