Tekst Christel van der Meer
Hoe krijg je bijna een miljoen analoge strafkaarten, in de volksmond ook wel strafblad, uit de vorige eeuw ingevoerd in de huidige digitale systemen? Handmatig overtikken is een optie, maar ontzettend tijdrovend. De Justitiële Informatiedienst (Justid) zocht daarom samen met het Nederlands Forensisch Instituut (NFI) in een pilot naar een innovatievere en daarmee hopelijk snellere oplossing om hun oude strafkaarten in te voeren. Justid is een organisatie die onder meer de informatie over iemands strafverleden beheert. Data scientists van het NFI haakten aan om met behulp van kunstmatige intelligentie, ook wel artificial intelligence (AI), te kijken of er inderdaad mogelijkheden zijn om dit op een slimme manier te doen. Simone Ariëns (data scientist NFI), Regien Courtz (projectleider Justid) en Freek Koopman (productspecialist Justid) blikken terug op het project.
Bijna een miljoen oude strafkaarten. Hoe zit dat?
Freek: “Een strafkaart is behoorlijk ouderwets, het is eigenlijk een fysiek strafblad. Het is een A5-formaat kaartje waarop de straffen staan die door de rechter zijn uitgesproken, bijvoorbeeld een werkstraf voor vernieling. Maar ook door welke rechtbank de straf is opgelegd, de datum van de veroordeling en het delict staan erop.
In het verleden hield elk arrondissement zijn eigen stafkaarten bij. Nadat een rechter het vonnis had uitgesproken, werd met een typemachine de straf op het kaartje getypt. Het aantal strafkaarten staat niet voor personen, want mensen konden in verschillende arrondissementen veroordeeld worden en hadden zo op meerdere plekken een strafkaart. Ook zijn er mensen die zoveel delicten pleegden dat ze meerdere strafkaarten op hun naam hebben staan. In de loop van de jaren negentig zijn we definitief gestopt met strafkaarten.”
Het gaat om strafkaarten die minimaal 25 jaar oud zijn. Waarom heb je de strafkaarten van toen nú nog nodig?
Freek: “Een klein percentage van de strafkaarten is nu nog relevant, omdat er veroordelingen op staan die niet verjaard zijn. Denk daarbij aan zedendelicten. Daar staat een verjaringstermijn op van tachtig jaar. Je wilt niet dat mensen die in 1985 veroordeeld zijn voor ontucht met een kind, nu een Verklaring Omtrent het Gedrag (VOG) krijgen als ze op een basisschool of kinderboerderij willen werken.”
Dus dat werd overtikken?
Regien: “Van de oude strafkaarten zijn foto’s gemaakt en in de jaren negentig is inderdaad een begin gemaakt met het overtypen van de kaarten. Toen werden alleen de persoonsgegevens ingevoerd en niet de delicten en straffen. Er is weleens berekend dat als je alles nu zou willen overtikken dat dat ongeveer zestig manjaren zou kosten. Dat is onvoorstelbaar veel dus zochten we naar een andere manier. Toen dachten we: ‘misschien is het mogelijk om dit proces met moderne techniek, zoals AI, te versnellen.’”
Wat was de rol van het NFI hierin?
Simone: “Het ministerie van Justitie en Veiligheid (JenV) had budget beschikbaar voor innovatie in het zogeheten Livinglab. Hierin werden verschillende JenV-onderdelen samengebracht om een innovatief project op te zetten en te kijken wat er met de nieuwste technologie allemaal mogelijk is. Als data scientists zijn we bezig om met research en development (R&D) de snelle ontwikkelingen bij te houden. Daarom was dit voor ons ook een interessant project: we wilden kijken wat de mogelijkheden zijn van de AI-modellen.”
Hoe ging dat in z’n werk?
Simone: “Het doel van dit project was dat een model automatisch kon aangeven of een strafkaart verjaard was of niet. De niet-verjaarde kaart wil je uit die berg strafkaarten halen, daar draaide het om. Daarvoor trainden we een computermodel genaamd BERT, dat staat voor Bidirectional Encoder Representations from Transformers. Door dit model heel veel voorbeelden te laten zien, gaat hij verbanden herkennen en kan hij aangeven of dit volgens hem een verjaarde of niet-verjaarde strafkaart is. Doordat er best wat kaarten in het verleden handmatig waren ingevuld, hadden we een goede dataset met kaarten die gelabeld waren als wel of niet-verjaard en daar trainden we het model mee.
Had BERT het altijd goed?
Simone: “Nee, het klopte niet altijd. Dat is niet gek, want dat is eigenlijk bij elk van dit soort modellen. Een honderd procent score haal je bijna nooit. Dit model had het voor 98 procent goed. Maar vergeet niet dat mensen hun werk ook niet honderd procent goed doen.”
Freek: “Daarom is een menselijke check ook noodzakelijk. Ook als je AI inzet. In de oude situatie was ook altijd een menselijke check. Dan keken we of er geen nulletje te veel was ingevoerd en een werkstraf van 10 uur niet per ongeluk 100 uur was geworden.”
Waar had BERT het lastig mee?
Simone: “We hadden te maken met foto’s van strafkaarten. Om de teksten op die kaarten leesbaar te maken werd een ander type model ingezet, zogeheten optical character recognition-model (OCR). Deze herkent de letters in de foto en haalt de tekst van de kaart af. Maar dan kan een S weleens in een 5 veranderen. Toch begrijpt BERT, net als de mens, alsnog wat er staat. Hij doorziet het als een letter voor een cijfer is vervangen, bijvoorbeeld als in het woord geldboete de o een nul is. Dan weet hij nog steeds om welk woord het eigenlijk gaat.
Het wordt moeilijk als het OCR-model van een bepaald artikelnummer een cijfer verkeerd overneemt. Stel iets was artikelnummer 200 en daar maakt het model 206 van, dan neemt Bert dat over. Omdat het over getallen gaat, heeft hij geen verdere contextinformatie en dan weet hij niet dat het eigenlijk 200 moet zijn.”
Wat heeft je positief verrast tijdens dit project?
Freek: “In al die tientallen jaren zijn veel schillende soorten typemachines gebruikt, waardoor de lettertypes soms best wel afweken. Of tekst was doorgestreept of weggelakt. Toch leek hij daar goed mee om te gaan.”
Regien: “Ik was echt verrast over de hoeveelheid data die hij goed herkende. Daar had ik eerst wel m’n vraagtekens bij, ook omdat er zoveel afkortingen op de strafkaarten stonden.”
Er is nu getraind met 18.000 kaarten. Er liggen nog iets minder dan een miljoen kaarten klaar om te checken op wel of niet verjaard. Hoeveel kaarten daarvan zijn eigenlijk niet-verjaard?
Freek: “We denken dat het rond de drie procent is.”
Criticasters kunnen zeggen: dat is veel werk voor ‘maar’ drie procent.
Freek: “Drie procent van bijna een miljoen is nog steeds heel veel. Het gaat om zo’n 30.000 mensen.”
Regien: “Je wilt niet dat er op het kinderdagverblijf iemand rondloopt die veroordeeld is voor een zedendelict. Al is het maar drie procent, die drie procent kan hele vervelende gevolgen voor de maatschappij hebben. Daar moet je zorgvuldig mee omgaan.”
Veel niet-verjaarde kaarten zijn dus nog niet ingevoerd in jullie systeem. Hoe gaat dat nu eigenlijk?
Freek: “Van alle oude strafkaarten zijn wel al de namen ingevoerd. Stel iemand wordt nu voorgedragen voor een lintje, dan moet zo iemand van onbesproken gedrag zijn. Als we die naam checken en er blijkt inderdaad nog een oude veroordeling op een strafkaart te staan, dan zien we wel terug in ons systeem dat er ooit een strafkaart was. Op zo’n moment pakken we de PDF van de ingescande foto van die strafkaart erbij om te zien om wat voor veroordeling het gaat.”
Met algoritmes kunnen we processen laten versnellen of het werk vergemakkelijken. Toch zijn er ook voorbeelden dat het door de inzet van AI verkeerd is gegaan, zoals bij de toeslagenaffaire.
Simone: “Daar zijn we ons tijdens dit proces ook erg bewust van geweest. Sowieso geldt binnen ons werk op het NFI dat je geen bias (vooringenomenheid, red.) wil creëren. En inderdaad sommige computermodellen zijn daar berucht om, omdat zij niet zijn getraind met representatieve data. Bijvoorbeeld bij gezichtsdetectie. Die kan dan heel goed werken op witte mannen, want daar heeft ie veel voorbeelden van gezien. Maar als dan iemand met een Afrikaanse achtergrond of een vrouw voorbij komt, dan weet ie minder goed hoe hij daarmee om moet gaan.”
Freek: “Het gaat met dit model voor 98 procent goed, maar wij hebben te maken met justitiële informatie. Die moet voor honderd procent goed zijn. Daarom is die menselijke check zo belangrijk.”
Regien: “Bij experimenten als deze worden de privacy regels nauwlettend in het oog gehouden. Zo beschikken wij over een eigen privacy officer die in contact staat met het Directoraat-Generaal Rechtspleging en Rechtshandhaving (DGRR) van JenV om toe te zien op het proces."
Hoe nu verder?
Simone: “We hebben BERT getraind en hij lijkt goed te werken. Hij kan niet-verjaarde kaarten van de verjaarde onderscheiden. Ook herkent hij een aantal velden, bijvoorbeeld waar een delict heeft plaatsgevonden en wat de beslissing van de rechter was. Het zou mooi zijn als die gegevens straks ook in het Justitieel Documentatie Systeem (JDS) van Justid worden ingevuld, zodat men deze niet handmatig hoeft in te voeren en dat het alleen nog door de mens gecheckt hoeft te worden.
Regien: “Justid, NFI en ook de opdrachtgever bij JenV zijn enthousiast over de pilot. De komende tijd kijken we wat er nodig is voor het vervolg. Zo moeten we onder andere kijken naar het besluit over bewaren en vernietigen en hoe we omgaan met verjaarde strafkaarten. Als alles meezit verwachten we daar in de loop van dit jaar meer duidelijkheid over te krijgen. Wat ons betreft komt er zeker een vervolg op dit project.”