Af Palle Vibe, Alt om Data
Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.
Og mens politiet ofte kan bruge computerens IP-adresse til at finde frem til dels computeren og dels det hus eller den lejlighed, hvorfra de pågældende mails er afsendt, er det sværere og ofte umuligt at finde personen bag.
Benjamin Fung, der er professor ved Information Systems Engineering fra Concordia Universitet i Montreal, mener dog nu at have udviklet en metode, der også holder i retten. Metoden er et computerprogram, der leder efter brugbare mønstre i folks e-mails.
Teknikken kendes også fra f.eks. talegenkendelse og data-mining. Ud fra store mængder e-maildata forsøger programmet at finde gentagne særegenheder, særlige kombinationer af ord og andre helt specielle træk i de pågældende mails. Sådanne træk kan f.eks. være karakteristiske slåfejl, syntaktiske og grammatiske skavanker, eller det kan dreje sig om brug udelukkende af små bogstaver.
Disse træk sammenlignes så med tilsvarende træk i andre personers e-mails, og alle fællestræk filtreres fra. Tilbage står efterforskerne med en række helt unikke og særegne træk, der ikke bare giver en hel del information om afsenderen, men faktisk i mange tilfælde kendetegner personen så entydigt, at forskerne med stor sikkerhed kan udlede både køn, omtrentlige alder, nationalitet og grad af uddannelse.
Metoden kan med andre ord slå ned på kendetegn, der er så 100 % unikke og karakteristiske for den pågældende person, at de samlet udgør et ”skriftsaftryk” og i retspraksis er lige så juridisk gældende og fældende som et fingeraftryk. Et af de krav, der stilles til retsbeviser, er nemlig, at det nøje er muligt at redegøre for, hvordan de er opnået, og at de i givet fald kan efterprøves. Det tillader den nye computerassisterede metode.
Fung og hans team har testet programmet på over 200.000 rigtige e-mails fra i alt 158 medarbejdere i et firma. Forskerne udvalgte bl.a. 10 mails fra 10 forskellige personer, dvs. i alt 100, og var i stand til at identificere afsenderen i op mod 90 % af tilfældene.
Den nye teknik er beskrevet og offentliggjort i Journal of Digital Investigation.