Personvern vs Syntetisk data

I dagens samfunn er personvern stadig et større tema. Tidligere var behovet for sterkt personvern mindre tilstedeværende, men etter internetts inntog i alle hjem, med tjenester som Youtube, Google og ikke minst Facebook, har temaet blitt brakt på banen oftere og oftere — og reglene blir stadig skjerpet inn. I 2018 innførte vi også GDPR som omfatter enorme mengder data og som setter mye sterkere retningslinjer på hvordan blant annet personvern skal håndheves i Europa.

Sosiale medier

I 2016 arbeidet undertegnede med optimalisering av programmatisk annonsering ved bruk av Facebook Marketing API. Vi var 3 studenter som gikk dataingeniør på Høgskolen i Oslo og Akershus — 2 uten arbeidserfaring og 1 med ca 10 års erfaring fra salg og markedsføring. Målet vårt var å kunne automatisere programmatisk annonsering på Facebook og Instagram med minimalt manuelt arbeid, slik at annonsører kunne forholde seg til en enkel og automatisk løsning for sine annonser. Kort og greit forklart skulle løsningen fjerne behovet for manuell tilpasning av målgrupper og budsjettvekting avhengig av de forskjellige målgruppenes reaksjoner til annonsene de ble utsatt for.

Mulighetene vi fant var enorme! Ikke bare kunne vi spisse annonsene til å treffe spesifikke mennesker som hadde de attributtene vi ønsket — vi kunne også «se» hva målgruppens venner og bekjente liker, hva deres nettverk igjen liker osv. Misforstå meg rett, ingen navn kom opp så vi kunne ikke vite nøyaktig hvilke mennesker vi møtte, men vi kunne likevel bruke informasjon om Facebooks brukere og deres nettverk til omtrent hva vi ønsket (dette var en bacheloroppgave, og de siste 2 ukene før presentasjonen bombarderte vi sensor med reklame for vår egen løsning. Vi fikk en A).

Behandling av persondata

Dagens regler sier at all personlig informasjon skal anonymiseres til et nivå der det ikke lenger er mulig å identifisere en person på bakgrunn av informasjonen. På Facebook kan dette diskuteres. Ja, du liker Manchester United. Du liker fotball. Du ser krimserier på Netflix. Du har en hund. Alt dette kan i teorien brukes til å identifisere et menneske, men i et samfunn vil disse parameterne treffe så mange forskjellige individer at det likevel går forbi regelverket — dog meget omdiskutert.

Når det kommer til virkelig personlig data, nemlig pasientdata, er reglene i dag mye strengere. Alle som har blitt født i Norge (og de fleste andre land i verden) har en pasientjournal. Jo eldre en person er, og jo flere møter vedkommende har hatt med helsevesenet, desto mer innhold finnes i journalen.

Disse dataene er vanskelige å anonymisere til et punkt der eieren er uidentifiserbar. Ja, vi kan manuelt endre både sykdomsforløp, tidsrom, datoer, kjønn, vekt og liknende i enhver journal for å anonymisere den — men om vi lager en algoritme for å gjøre dette på et antall journaler av gangen så er det ikke godt nok. Enhver algoritme kan i teorien knekkes, og om det finnes den minste mulighet for at pasientdata kan identifisere en person så SKAL den holdes privat. Dette sier litt om utfordringene som finnes når det kommer til forskning på pasientdata, på legemidler og deres effekter, på sammenhenger mellom forskjellige tilstander, med mer.

Her kommer syntetiske data inn i bildet.

I Norge er det i dag ekstremt vanskelig, på linjen til umulig, å få godkjenning til å bruke ekte pasientjournaler i forskningsøyemed — selv om store deler av journalene er anonymisert eller fjernet. For å få en godkjenning må i det fleste tilfeller så mye data fjernes at journalene til slutt er ubrukelige for formålet. Man kan alltid lage falske journaler med tilfeldig informasjon i dem, men da forsvinner gjerne en stor del av poenget dataen — så sant det ikke gjøres skikkelig.

Syntetiske data

Et amerikansk selskap — The MITRE Corporation — er en non-profit organisasjon som i hovedsak arbeider for å lage et standardisert system og format for pasientjournaler. MITRE er kun finansiert statlig for å unngå interessekonflikter. Selskapet startet for noen år siden utviklingen av et system de kaller Synthea — en open-source applikasjon der hvem som helst kan bidra via Git, som produserer ekstremt detaljrik syntetisk pasientdata. Ikke bare generes det pasientdata; systemet genererer syntetiske personer.

Jeg har vært så heldig å få arbeide med dette systemet da jeg hjalp et legemiddelselskap med forskning på effekter av medisinering. Det første jeg bet meg merke i var detaljene!

Applikasjonen baserer seg på statistikk fra staten Massachusetts i USA, en stat der både demografi, helsedata, utdannelsesgrad og flere andre sosiale aspekter kan sammenliknes nært hvordan vi har det i Norge. Denne applikasjonen generer mennesker.

En syntetisk person blir født, får et navn, og begynner å vokse. Enkelte når aldri sin ettårsdag, andre lever til de er 90 år. Noen går gjennom et tilnærmet sykdomsfritt liv (selvfølgelig med en forkjølelse her og der, kanskje et armbrudd på fotballbanen i 11-års alderen, et fall på isen dagen etter de fylte 80 år og liknende), andre er plaget med store helseutfordringer fra dag 1.

Enkelte drikker alkohol fra de er 16, andre fra de er 21, noen aldri. Enkelte røyker, andre gjør det ikke. Noen gifter seg. Noen gifter seg for andre gang. Noen blir aldri gift.

Alle hendelser en syntetisk person går gjennom er basert på statistikk opp mot sin egen historikk, sine foreldres historikk, sine foreldres sosiale data som inntekt, utdannelse m.m., og etter hvert sin egen sosiale data. Detaljene er imponerende og skaper «personer» som like gjerne kan eksistere i virkeligheten.

Applikasjonen er myntet for bruk innen helse og kan generere pasientjournaler i diverse formater. For vårt bruk, utviklet vi en egen modul slik at pasientene kunne få akkurat de helseutfordringene og tilstandene vi var ute etter å forske på. Vi tilpasset også enkelte demografiske data for å spisse inn utvalget til å bli tilnærmet lik en norsk befolkning.

Plutselig hadde vi pasientdata å forske på!

Vi hadde en norsk befolkning med full helsehistorikk som vi kunne gjøre hva vi ville med. Vårt analytics-team kjørte maskinlæringsalgoritmer for å se om det er mulig å forutse enkelte medisinske hendelser, og de ser nå på muligheten for å lage et hjelpesystem for korrekt medisinering av enhver pasient.

Dataene er så virkelighetstro at vi måtte legge tall inn i navnene til hver enkelt syntetisk person for å tydeliggjøre at disse ikke er ekte.

Personvernlovgivningen er her, og den blir mer og mer omfattende etter hvert som behovet blir større — noe dataens verden gjør at det blir. Dette er viktig og riktig, men kan gjøre det vanskelig for de av oss som trenger data for forskning. Syntetisk data kan være løsningen, og når man i en fremtidig søknad om innsyn i ekte pasienters journaler kan vise til resultater fra forskning på syntetisk, men ekstremt realistisk, data — da står kanskje døren allerede halvåpen?

Jeg mener dette også strekker seg utover helseforskning, men kan treffe all forskning der vi trenger personlig data om mennesker.

Og uansett hva du gjør til daglig, om du er advokat, utvikler, toppsjef, butikkmedarbeider eller økonom — hvem vil vel ikke ha sin helt egen lille befolkning å følge med på?

About this author

Carl Frederik Mollén

carlfrederik. mollen@cgi. com

View profile

WinTid Workforce Management

Veien til fremtiden

Veien til fremtiden

Personvern vs Syntetisk data

Carl Frederik Mollén

Sosiale medier

Behandling av persondata

Her kommer syntetiske data inn i bildet.

Syntetiske data

About this author

Carl Frederik Mollén

Insights you can act on

Company

Resource center

Support

følg oss

WinTid Workforce Management

Veien til fremtiden

Veien til fremtiden

Carl Frederik Mollén

Sosiale medier

Behandling av persondata

Her kommer syntetiske data inn i bildet.

Syntetiske data

Del dette

About this author

Carl Frederik Mollén

Finn ut mer om CGI

Vi holder deg informert