Kan datatilbyder dele et datasett som inneholder persondata med en datakonsument via en tredjepart, uten at tredjeparten blir databehandler, og dermed redusere krav til risiko-og sårbarhetsanalyser, personvernkonsekvensvurderinger og databehandleravtaler?

Bakgrunn

Moderne, skybaserte dataplattformer kan håndtere store datamengder og lar en datatilbyder skreddersy datasett til en autorisert konsument, og overvåke hva som faktisk blir delt. Det vil kunne redusere investeringer og utviklingstid hos datatilbydere. Nye felter og datasett kan enkelt legges til med samme mekanisme, og datatilbyder kan være konservativ med hvilke felter som blir delt åpent. Det finnes åpne standarder for deling av datasett, som Delta Sharing, som det er bygget støtte for i kommersielle dataplattformer, og som det finnes mange varianter av klientverktøy for. Det kan forenkle integrasjons- og utviklingsjobben også for konsumenter.

Hvis datasettene består av åpne data, er bruk skybasert dataplattform i utgangspunktet uproblematisk. I praktisk bruk i utveksling av data mellom virksomhets- og samfunnskritiske aktører vil det finnes datafelter som må beskyttes. Persondata er et eksempel, og det forutsettes her at datatilbyder har hjemmel til å samle inn og oppbevare persondata, og at datakonsumenten har tilsvarende hjemmelsgrunnlag for å motta datasett med persondata fra tilbyderen. Persondataene i datasettet er altså nødvendig for begge parter, og det vil altså ikke være mulig å fjerne eller anonymisere dem. Begge aktørene er altså behandlingsansvarlige.

Deling av persondata via en skybasert dataplattform innebærer at tredjeparten, leverandøren av plattformen, blir databehandler, som igjen betyr inngåelse av databehandleravtale som oppfyller personopplysningsloven. Prosessen rundt plattformvalg krever typisk gjennomføring av personvernkonsekvensvurdering (DPIA), og risiko- og sårbarhetsanalyser knyttet til behandlingen av persondata. Omfanget av prosessen blir ofte stort, som kan føre til at skybaserte dataplattformer tidlig utelukkes som løsningsalternativ, eller at datatilbydere låses til leverandørvalget når først jobben er gjort for å unngå å måtte gjøre jobben en gang til. En uønsket sideeffekt er at ønsket datadeling droppes, eller at det velges dyrere eller mindre effektive alternativer.

Vi vil utforske tilfellet der datatilbyder vil dele et datasett som inneholder persondata med en datakonsument via en tredjepart. Datatilbyder ønsker å bruke en tredjepart til å stå for teknisk oppbevaring og distribusjon av datasettet. Kan det gjøres uten at tredjeparten blir databehandler, og dermed redusere krav til risiko-og sårbarhetsanalyser, personvernkonsekvensvurderinger og databehandleravtaler?

Vi oppfatter at svaret kun kan være ja hvis det er et anonymisert datasett tredjeparten håndterer. Men vi ønsker at det samme datasettet gir konsumenten tilgang til persondataene. Vi vil prøve å adressere paradokset med symmetrisk kryptering av personopplysninger i datasettet. Det er tre hovedproblemstillinger som må utforskes:

Er symmetrisk kryptert informasjon anonymisert hvis krypteringsnøkkelen kastes?
Er datasettet fortsatt anonymisert hvis datatilbyder beholder krypteringsnøkkelen?
Er datasettet fortsatt anonymisert hvis datakonsumenten får krypteringsnøkkelen?

Vi skal ta utgangspunkt i et høyst teoretisk — og syntetisk — datasett illustrert i tabellen under.

Tabell med kombinasjon av åpne data og persondata

Datatilbyder og behandlingsansvarlig har her åpenbart svært godt hjemmelsgrunnlag for å sette sammen et slikt datasett, og konsument må ha tilsvarende fullmakter for å motta det. At det dreier seg om personopplysninger burde være hevet over enhver tvil, og her er det til og med sensitive personopplysninger i form av helseopplysninger.

Diskusjon av hovedproblemstillinger

Er symmetrisk kryptert informasjon anonymisert hvis krypteringsnøkkelen kastes?

Premisset vårt er at hvis alle felter i kolonner med persondata erstattes med tilfeldige verdier, er datasettet anonymisert (randomisering). Er datatilbyder i tvil om datasettet er “nok anonymisert“, kan feltene i flere kolonner erstattes med tilfeldige verdier. Slik kan man fortsette helt til man er sikker på at sensitive kolonner i datasettet er anonymisert.

Vi oppfatter at det er i overensstemmelse med det som står i Datatilsynets veileder for anonymisering om randomisering som en anonymiseringsteknikk (s 16). Selv om helt tilfeldige tall ikke eksplisitt nevnes som en teknikk, så er “tilføre støy” listet opp som et alternativ. Det nevnes at å forskyve faktiske verdier på en tilfeldig måte, kan være godt nok. Da burde erstatte faktiske verdier med en tilfeldig verdi være enda bedre.

Spørsmålet blir da om kryptering genererer verdier som er til forveksling like med helt tilfeldige verdier. La oss illustrere med å kryptere persondata-kolonner i eksempelsettet med AES/CBC/PKCS#5, som er en symmetrisk krypteringsalgoritme. Vi bruker en tilfeldig generert engangsverdi (“nonce”) som initialiseringsvektor (IV) for krypteringen av hvert enkelt felt, og bruker ulike, tilfeldig genererte krypteringsnøkler for hver av kolonnene. Nonce og kryptert verdi erstatter originalverdien i feltet, slik at feltet blir unikt i hele tabellen. Da blir resultatet følgende tabell (nonce og kryptert verdi er her skilt med ‘|’):

Vi antar at krypteringsnøklene verken lagres eller deles med noen. Er da dette datasettet anonymisert?

Kapittelet “Kryptering er ikke anonymisering” (s 10) i veilederen sier:

Verken kryptering eller nøkkelkoding som sådan bidrar til å gjøre den registrerte uidentifiserbar, ettersom de originale dataene fremdeles er tilgjengelige eller kan utledes i hvert fall hos den behandlingsansvarlige. Å kun foreta en semantisk oversetting av personopplysningene, som tilfellet er med nøkkelkoding, fjerner ikke muligheten til å gjenskape dataene til deres opprinnelige struktur.

Dette bør sees i sammenheng med “Pseudonymisering” på side 21 i veilederen, som sier:

Deterministisk kryptering eller nøkkelbasert hashfunksjon med sletting av nøkkel. Denne teknikken kan likestilles med å velge et tilfeldig tall som pseudonym for hver attributt i databasen og siden slette sammenlikningstabellen.

“Deterministisk kryptering” antar vi her brukes om et krypteringssystem som gir samme krypterte verdi for en gitt dataverdi og nøkkel. En hashfunksjon vil typisk gjøre det samme. Veilederen påpeker altså at kryptering kan resultere i pseudonymisering, ikke anonymisering. Kryptrering med AES med samme initialiseringsvektor på alle felter, vil kunne gi tabellen under.

Tabell der persondata er kryptert deterministisk

Eier og diagnose er pseudonymisert: Det er mulig å se at eiendommene 234/56 og 563/78 har samme eier, og at eierne av 112/34 og 451/02 har samme sykdom. Hyppigheten av de pseudonymiserte diagnosene kan sammenliknes med forholdet mellom diagnoser i samfunnet, som er tilgjengelig blant annet fra Folkehelseinstituttet. Det gjør det i prinsippet mulig å kartlegge hvilke sykdomstilfeller finnes i hvilke hus i Norge, og da er veien kort til å ha helsedata for mange mennesker.

Krypteringsalgoritmer kan altså brukes på ulike måter, og resulterer ikke nødvendigvis i et anonymisert datasett. Bruk av tilfeldig engangsverdi (“nonce”) som initaliseringsvektor for hvert persondatafelt, mener vi til gjengjeld gir opplevd tilfeldighet i datasettet.

I bunn og grunn sier veilederen at anonymiseringsvurderingen er situasjonsbetinget (s 6):

…om opplysningene kan betraktes som anonyme eller ei, avhenger av de faktiske omstendighetene. Man må ta utgangspunkt i en vurdering av hvor sannsynlig muligheten for reidentifisering er. De enkelte tilfellene må vurderes og analyseres på bakgrunn av hvilke hjelpemidler som finnes i dag, men også med tanke på morgendagens hjelpemidler — innenfor rimelighetens grenser, naturligvis. Målestokken er hvorvidt disse hjelpemidlene med rimelighet kan tenkes brukt til å finne identiteten til de involverte.

Selv om det ikke er mulig å garantere at en krypteringsalgoritme ikke knekkes, finnes det ikke en “rimelig” måte å dekryptere AES-kryptert informasjon på, nå eller i overskuelig fremtid, uten kjennskap til nøkkelen.

Fra konteksten fremstår det også som Datatilsynet vil understreke at en behandlingsansvarlig uansett ikke kan kryptere seg bort fra ansvaret og påstå at de ikke har persondata. Det er vi helt enig i, og er noe helt annet enn den bruksmåten vi diskuterer her. Det er her ingen tvil om at datatilbyder besitter persondata, og er behandlingsansvarlig. Når dataene overføres til konsument, blir også denne behandlingsansvarlig. Det vi er opptatt av, er at tredjepart ikke mottar persondata.

Veilederen snakker på side 18 om “differential privacy” som en annonymiseringsteknikk der datatilbyder beholder de opprinnelige dataene:

Differential privacy kan derimot brukes når den behandlingsansvarlige genererer anonymiserte visninger av et datasett og samtidig beholder en kopi av de opprinnelige dataene.

Dette prinsippet er det vi legger til grunn når datatilbyder deler en delvis kryptert versjon av datasettet med en tredjepart, og det regnes i veilederen altså som anonymisering hvis reidentifiseringsmuligheten er fjernet.

Vår tolkning av veilederen er derfor at anerkjente krypteringsalgoritmer kan benyttes for å oppnå anonymisering i et datasett delt med en tredjepart. Forutsetningen er at algoritmene ikke brukes deterministisk og krypteringsnøkkelen ikke blir tatt vare på.

Er datasettet fortsatt anonymisert hvis datatilbyder beholder krypteringsnøkkelen?

Hvis vi antar at å benytte krypteringsalgoritmer på persondata isolert sett gir god nok anonymisering, endrer det seg hvis datatilbyder beholder krypteringsnøkkelen hos seg?

Det har vært en sak i rettssystemet i EU som delvis adresserer problemstillingen: European Data Protection Supervisor (EDPS) bøtela i 2020 firmaet Single Resolution Board (SRB) for å dele resultatet av en kort spørreundersøkelse med Deloitte uten respondentenes samtykke. I datasettet ble det brukt en alfanummerisk verdi for å representere hvem som hadde svart på undersøkelsen. Koblingen mellom den alfanummeriske verdien og den faktiske personen lå kun i en database hos SRB, som Deloitte ikke hadde eller rettmessig kunne skaffe seg tilgang til. EDPS mente det fortsatt var persondata fordi reidentifiseringsmuligheten uansett fantes, og at det dermed var snakk om pseudonymisering, ikke anonymisering.

SRB fikk saken opp for General European Court (GEC), som 26. april 2023 konkluderte med EDPS burde ha vurdert om Deloitte reelt sett hadde en mulighet til å reidentifisere personene, og åpnet dermed for at hvilket perspektiv datasettet ble betraktet fra, måtte tillegges vekt. Det sammenfaller, slik vi forstår det, med vurderingen fra side 6 i Datatilsynets veileder som ble sitert i forrige seksjon. Saken ble anket til EUs Court of Justice (CoJ), og dom falt i september i år. GEC-dommen fikk kritikk på en rekke punkter, men fikk støtte for vurderingen av at kontekstene dataene betraktes i, påvirker vurderingen om de er pseudonymiserte eller anonymiserte:

In the second place, the Court of Justice has confirmed that the General Court was correct in so far as it held that pseudonymised data must not be regarded as constituting, in all cases and for every person, personal data for the purposes of the application of Regulation 2018/1725. It follows from the provisions of that regulation as interpreted in case-law that pseudonymisation may, depending on the circumstances of the case, effectively prevent persons other than the controller from identifying the data subject in such a way that, for them, the data subject is not or is no longer identifiable.

Vår tolkning er at resultatet fra EU åpner for — gitt at kryptering kan brukes til anonymisering — at anonymiseringen også er opprettholdt om datatilbyder tar vare på krypteringsnøklene på en slik måte at tredjepart — innenfor rimelighetens grenser — ikke har mulighet til å få tak i dem. Vi ser på det som en variant av “differential privacy” som ble beskrevet over.

Er datasettet fortsatt anonymisert hvis datakonsumenten får krypteringsnøkkelen?

Vi tar som utgangspunkt at kryptering av persondata er godt nok anonymisering, og at tredjepart uten tilgang til krypteringsnøkkel kan oppbevare og dele datasettet uten å bli databehandler. Det åpner for at datakonsumenten kan laste ned det krypterte datasettet fra tredjeparten, som i prinsippet kunne gjort det åpent tilgjengelig. Hvis konsumenten får overført — på en sikker måte — krypteringsnøklene fra tilbyder, vil det være mulig å gjenskape datasettet med persondata hos datakonsumenten. Tilbyder har dermed for alle praktiske formål delt det originale datasettet med konsumenten, slik intensjonen var.

Fem steg for å dele datasett via en tredjepart

Stegene er illustrert i figuren over:

Datatilbyder krypterer verdien i hver persondatacelle med unik intialiseringvektor og tilfeldig generert nøkkel for hver kolonne
Datasettet med krypterte felter overføres til tredjepart
Datakonsument henter det krypterte datasettet fra tredjepart
Datakonsument får overført relevante krypteringsnøkler fra datatilbyder på en sikker måte
Datakonsument dekrypterer relevante kolonner og får et datasett med persondata.

Merk at konsumenten sitt datasett blir begrenset av både hvilke nøkler som blir overført, og hvilke rader og kolonner som deles fra tredjeparten.

Endrer det vurderingen av anonymiseringen? Prinsipielt burde situasjonen være lik som i forrige seksjon: Datakonsumenten er nå behandlingsansvarlig for datasettet, og burde ha et tilsvarende ansvar for krypteringsnøklene. Tredjepart skal dermed fortsatt “innen rimelighetens grenser” være forhindret fra å bryte anonymiseringen.

Både datatilbyder og -konsument besitter nå datasett med persondata, og står ansvarlig for ikke å dele det videre med uvedkommende. Det at flere aktører lovlig besitter et datasett med persondata, øker risikoen for at data kommer på avveie eller misbrukes, men det er en egenskap ved datadeling, ikke delingsmetoden. Det å forvalte persondata og krypteringsnøkler kan øke risikoen ytterligere, siden det åpner for å lekke data på to ulike måter. Vi mener at datasett og krypteringsnøkler kan betraktes som én entitet som må beskyttes fra innsyn og deling: Så lenge persondata og nøkler holdes sammen under samme sikkerhetsregime, burde risikoen være uendret. Prinsipielt er behandlingsansvaret det samme.

Ytterligere sikkerhet kan bygges inn med hyppig rotering av nøkler og rekryptering, som begrenser konsekvensen av nøkler på avveie og tidligere datakonsumenter fra å hente oppdaterte opplysninger. For mer kontroll, kan det benyttes flere nøkler på mindre dataregioner. Deling av data kan da skreddersys enda mer. Lagring og transport av krypterte datasett — og nøkler — må uansett skje tilgangsstyrt og over krypterte kanaler.

En siste observasjon er at denne flyten har samme struktur som sikker kommunikasjon over internett. HTTPS (TLS) fungerer ved at datatilbyder (server) og datakonsument (klient) utveksler symmetrisk nøkkel på en sikker måte (asymmetrisk kryptering), og deretter overfører data kryptert med nøkkelen. Datatrafikken kan forventes å passere gjennom nettverksinfrastrukturen til en rekke organisasjoner før den er fremme hos konsumenten. Disse organisasjonene betraktes ikke som databehandlere selv om dataene som overføres mellom endepunktene er persondata.

Oppsummering

Anonymisering gjennom kryptering kan åpne for at datasett kan legges hos en tredjepart uten at aktøren regnes som databehandler. De tre hovedspørsmålene var:

Er symmetrisk kryptert informasjon anonymisert hvis krypteringsnøkkelen kastes? Vi mener svaret er klart “ja” med utgangspunkt i anonymiseringsveilederen til Datatilsynet. Med riktig, ikke-deterministisk bruk av anerkjente krypteringalgoritmer, finnes det ikke “hjelpemidler som med rimelighet” kan dekryptere dataene eller informasjon som kan brukes til å reidentifisere personer
Er datasettet fortsatt anonymisert hvis datatilbyder beholder krypteringsnøkkelen? Her virker det som EUs Court of Justice har støttet General Court i at pseudonymiserte opplysninger for én part kan fremstå som anonymiserte for en annen, og at det er et eksempel på “differential privacy”. Vi mener dermed at svaret på spørsmålet er “ja” med begrunnelsen fra 1.
Er datasettet fortsatt anonymisert hvis datakonsumenten får krypteringsnøkkelen? Hvis svaret er “ja” på 2, bør svaret også bli “ja” her. Datakonsumenten blir behandlingsansvarlig på lik linje med datatilbyder, og skal verken videreformidle datasettet i klartekst — eller kryperingsnøkelene og det krypterte datasettet. Tredjepart er fortsatt forhindret fra å reidentifisere personer.

Oppsummert er vår vurdering at datasett der persondataene har blitt kryptert ikke-deterministisk, kan deles via en tredjepart uten at tredjeparten blir databehandler.

OBS: Det mangler så langt vi vet en full juridisk vurdering av dette i norsk kontekst, og vår vurdering og konklusjon bør ikke legges til grunn for beslutninger knyttet til deling av datasett med persondata via skybaserte dataplattformer.