Eric Hoefman

Managing partner bij EntrD

Het verbod om persoonsgegevens voor een ander doel te gebruiken dan waarvoor ze oorspronkelijk zijn opgeslagen is overigens niet nieuw. Ook onder de huidige Wet Bescherming Persoonsgegevens is het niet toegestaan.

Managing partner bij EntrD, Eric Hoefman, vermoedt echter dat veel bedrijven dit nu niet weten, maar dat hier onder de nieuwe AVG wel verandering in komt. “Dan komen er namelijk veel hogere boetes te staan op het overtreden van de privacyregels.

Wij zien in de praktijk in ieder geval dat steeds meer bedrijven zich realiseren dat ze er iets mee moeten.” Eén van de speerpunten van de nieuwe AVG is het voorkomen van datalekken. “Als je persoonsgegevens verwerkt buiten je productieomgeving, neemt het risico op een datalek enorm toe.”

Datadilemma

Van oudsher maakten bedrijven een kopie van hun productieomgeving en zetten die in een niet-productieomgeving om er vervolgens analyses uit te halen, software mee te testen en medewerkers mee op te leiden.

Door de strengere wetgeving, en ook vanuit moreel oogpunt, is deze aanpak echter niet meer helemaal van deze tijd. Toch gebeurt het nog volop. Hoefman legt uit: “Dat is niet uit burgerlijke ongehoorzaamheid of omdat ze slechte bedoelingen hebben, maar omdat ze te maken hebben met wat wij noemen, het ‘datadilemma’.

Dan komen er namelijk veel hogere boetes te staan op het overtreden van de privacyregels.

Ze hebben die data nodig, representatieve data, ook búiten hun live-omgeving. Als data in een test- of onderzoekomgeving niet representatief is, dan kun je er weinig mee. Je kunt wel allemaal profielen aanmaken met als naam Donald Duck en geboortedatum 1 januari 1900, maar als je dan iets wilt weten over de leeftijdsopbouw van je klanten, dan lukt dat niet.”

Data slim maskeren

Representatieve data die niet herleidbaar zijn naar personen, maar wel bruikbaar zijn voor tests en opleidingen, is wat bedrijven nodig hebben. Hoefman bespreekt de mogelijkheden. “De eerste is data genereren. Dan krijg je ‘synthetische data’. Hierbij definieer je eigenlijk je eigen testgevallen.

Het nadeel is alleen dat alle profielen die je vandaag aanmaakt, ook pas vanaf vandaag bestaan en dus geen historie hebben. Voor sommige opleidingsdoeleinden zijn deze data prima te gebruiken, maar in test- en onderzoeksomgevingen heb je er vaak niet veel aan.”

Er zijn ook oplossingen waarbij de data representatiever en toch niet herleidbaar zijn, aldus Hoefman. “Dat bereik je door data slim te maskeren, met andere woorden door data te anonimiseren of te pseudonimiseren. Hierbij worden echte klantnamen gekoppeld aan andere echte klantprofielen.

In het geval van anonimiseren blijft er geen enkel herkenbaar veld over, bij pseudonimiseren houd je een sleutelveld intact, bijvoorbeeld een klant- of patiëntnummer. Dit laatste is bijvoorbeeld van toepassing bij medische onderzoeken. De laboratoriumanalist hoeft natuurlijk niet te weten om wie het gaat, maar de arts moet de uitslag van het onderzoek wel weer aan een patiënt kunnen koppelen.”

Big data

Ook bij big data en business intelligence spelen representatieve data een grote rol. Hoefman: “Sterker nog, je kunt niet zonder. Bedrijven en instellingen die ten behoeve hiervan een datawarehouse willen inrichten, moeten dat doen met representatieve data.

Binnen de grenzen van wet- en regelgeving zou dat dus niet zomaar kunnen. Doe je het wel en het gaat mis, dan heb je een datalek; met als gevolg een boete van maximaal vier procent van je groepsomzet of 20 miljoen euro, en je reputatie als big data-partij is natuurlijk weg. De vraag is of partijen hier proactief op gaan acteren of toch het risico nemen. Dit zal grotendeels afhangen van hoe streng de toezichthouder gaat handhaven.”