Tässä blogissa tarkastelemme yhdessä Mikko Aaltosen kanssa rikosten ennustettavuutta. Rikosuratutkimuksessa usein toistuva havainto on, että yksilön tulevaa rikoskäyttäytymistä voidaan ennustaa parhaiten tarkastelemalla saman henkilön aikaisempaa rikollisuutta. Perustutkimus on yleensä keskittynyt tämän rikoskäyttäytymisen jatkuvuuden syiden selvittämiseen, samoin kuin siihen, millaisilla interventioilla tunnettujen rikoksentekijöiden uusintarikollisuuteen voitaisiin vaikuttaa.
Erilaiset riskienarviointimallit
Kysymys siitä, kuinka hyvin rikoksenuusijat onnistutaan erottelemaan ei-uusijoista taustansa perusteella, on puolestaan keskiössä laadittaessa erilaisia riskienarviointimalleja viranomaisten tarpeisiin. ”Aktuaariset” riskienarviointimallit rakennetaan tyypillisesti käyttämällä laajoja aineistoja esimerkiksi rikosseuraamuksiin tuomituista, heidän rikostaustastaan ja uusintarikollisuudestaan.
Tämän harjoitusaineiston tuottama tilastollinen ennuste validoidaan sitten testiaineistolla, jota ei ole käytetty ennusteen laatimiseen. Näin pyritään varmistumaan siitä, ettei ennuste nojaa liikaa vain yhdessä aineistossa toteutuviin muuttujien välisiin yhteyksiin.
Mallin perusteella voidaan sitten laskea ennuste uusille rikosseuraamusasiakkaille, olettaen että heistä tiedetään mallin edellyttämät asiat. Suomessa uusintarikollisuuden riskiä ennustavaa mallia on kehitetty Rikosseuraamuslaitoksessa muun muassa rangaistusajan suunnitelmien laadinnan apuvälineeksi (Tyni 2015).
Kuinka hyvin nämä mallit onnistuvat ennustuksissaan?
Kysymyksen vastaus riippuu mallista ja sovelluskohteesta, mutta joka tapauksessa on selvää, ettei tarkan yksilötasoisen ennusteen tekeminen ihmisten tulevasta käyttäytymisestä ole helppoa. Osin kyseessä on käytettävissä olevan taustatiedon vajavaisuudesta johtuva ongelma, mutta osin kyse voi olla myös menetelmän valinnasta.
Kiinnostavaa on se, että nykyiset ennustemallit on tyypillisesti rakennettu käyttämällä suhteellisen yksinkertaisia tilastollisia menetelmiä, ja jotkut tutkimukset viittaavat siihen, ettei menetelmän valinnan olisi suurta merkitystä (Tollenaar & van der Heijden 2013).
University of Pennsylvanian kriminologian professori Richard Berk on kuitenkin ollut toista mieltä. Berkin mukaan monet käytössä olevat ennustemallit ovat menetelmällisesti vanhentuneita, eivätkä siten kykene ulosmittaamaan tilastollisten aineistojen parasta ennustekykyä.
Kehittyneet koneoppimismallit
Kriminologisten ennustemallien tulisi jatkossa perustua kehittyneemmille koneoppimismalleille, jotka on kehitetty muiden tieteenalojen ja yksityisen sektorin piirissä.
Berk itse on käyttänyt erityisesti Random Forest -koneoppimismallia, ja hänen omissa testeissään tuo malli aikaansaa paremman ennustetarkkuuden kuin perinteinen regressiomalli (Berk & Bleich 2013).
Yhdysvalloissa rikostaustaan perustuvia ennusteita hyödynnetään joissain osavaltioissa myös tuomioistuimissa rangaistuksen määräämisen apuvälineenä. Tämän käytännön hyväksyttävyydestä on käyty viime aikoina paljon debattia, sillä joidenkin tutkijoiden mukaan rikostaustaan perustuvat ennustemallit syrjivät systemaattisesti joitakin väestöryhmiä (Barry-Jester ym. 2015).
Toinen ongelma, johon erityisesti koneoppimismallien puolustajat usein törmäävät, liittyy mallin ymmärrettävyyteen. Esimerkiksi Random Forest -malli on luonteeltaan ”musta laatikko”, joka ei automaattisesti anna selkää perustetta sille, miksi jokin henkilö luokitellaan todennäköiseksi uusijaksi ja joku toinen ei. Käytännön riskienarviointityötä tekevät henkilöt eivät välttämättä ota tällaista läpinäkymätöntä ohjeistusta ilolla vastaan.
Rikosennusteet ja ennustemallit
Sen sijaan, että pyrittäisiin ennustamaan rikosten tekemistä yksilötasolla, saattaa rikosten tilannetorjunnan näkökulmasta olla sittenkin hedelmällisempää keskittyä sen ennustamiseen, missä ja milloin rikokset tapahtuvat. Sinänsä rikosennusteisiin perustuva ennakkoiva poliisitoiminta (”predictive policing” tai ”hot spot policing”) ei ole mikään uusi keksintö, mutta kehittyneemmän tilastoanalyysin avulla ennusteita voidaan laatia yhä nopeammin, ja saada ne reagoimaan rikosten määrän tai laadun muutokseen hyvin pienellä viiveellä.
Satunnaistettua koeasetelmaa hyödyntäneessä tutkimuksessa verrattiin ETAS-ennustemallin (”epidemic-type aftershock sequence”) ja hot spot -karttoja perinteiseen tyyliin tuottaneen analyytikon suoriutumista (Mohler ym. 2016). Tutkimus toteutettiin sekä Yhdysvalloissa (Los Angeles) että Isossa-Britanniassa (Kent).
Molemmissa kohteissa käytettiin samaa ETAS-algoritmia, mutta analyytikkojen toiminta nojasi Kentissä enemmän tiedustelutietoon ja Los Angelesissa puolestaan rikosten tapahtumapaikkoja kuvaaviin hot spot -karttoihin. Analyytikot saivat kuitenkin käyttää periaatteessa mitä tahansa saatavilla olevaa tietoa.
ETAS-algoritmi oli täysin automaattinen pilvipalveluna rakennettu järjestelmä, joka hyödynsi edellisen 365 päivän alueellisia rikostietoja. ETAS-algoritmi pyrkii hyödyntämään sekä tietoa alueen pidemmän aikavälin keskimääräisestä rikostasosta että viimeaikaisista rikospiikeistä. Kilpailevat osapuolet tuottivat päiväkohtaisen hot spot -kartan, joka identifioi ne korkean riskin 150 m x 150 m karttaruudut, joissa rikoksia ennustettiin tapahtuvan eniten.
Tutkimuksen päähavainto oli, että täysin automaattinen algoritmi ennusti rikosten tapahtumapaikkoja analyytikoita tarkemmin. Los Angelesissa toteutettiin lisäksi kenttäkoe, jossa toisina päivinä partioille jaettiin ETAS-ennuste, toisina analyytikon ennuste, ja partiointi kohdistettiin näiden karttojen mukaisesti.
Analyysin perusteella ETAS-algoritmin ohjaamalla kohdistetulla partioinnilla onnistuttiin vähentämään rikollisuutta noin seitsemän prosenttia eli puolet enemmän kuin analyytikkojen ennusteen avulla. Vaikuttaa siis siltä, että automaattisten ennusteiden ohjaama partiointi voisi olla ”käsisäätöistä” ennustetta tehokkaampaa.
Koneoppiminen tekee tuloaan kriminologiaan ja rikoksentorjuntaan
Yhdysvaltain National Institute of Justice järjesti kilpailun, jolla se pyrki houkuttelemaan ennustemenetelmien osaajia kehittämään reaaliaikaisia rikollisuuden ennustamisen työkaluja. Kilpailussa osallistuvat tiimit saivat käyttönsä rikosten ajassa ja paikassa tapahtuvaa vaihtelua koskevan Portlandin poliisilaitoksen aineiston, johon ennustemallin tuli perustua. Palkintorahaa oli jaossa yhteensä 1,2 miljoona dollaria, joten aivan pienestä projektista ei ollut kyse.
Muutenkin on ollut kiinnostavaa havaita paikkaperustaisen korkeatasoisen kriminologisen tutkimuksen lisääntymisen. Esimerkiksi aiemmin esiteltyä Mohlerin ym. tutkimustakin on ehditty jo kritisoimaan uudemmissa tutkimuksissa. Jokainen tilastotieteen kursseja käynyt on kuullut vanhan sanonnan, että roskaa sisään, roskaa ulos. Huonon datan vaikutus analyysiin ja ennusteeseen ei ole siis uusi huolenaihe. Tämän takia on tärkeää, että tieteellistä tutkimusta aiheesta tehdään entistä enemmän, koska on varsin todennäköistä, että tällaisia alueellisia ennustemalleja kehitetään lähivuosina kiihtyvällä tahdilla.