Hoe word (en blijf) je GDPR compliant in AI- en ML-modellen?

Jonathan Whiteside
Global SVP Technology & Engineering

Lengte

5 min. leestijd

Datum

24 January 2023

GDPR-compliance bereiken is één ding, maar het blijven is weer een volgende stap. Vooral wanneer je veel en ongestructureerde data hebt die met de minuut verandert. Compliant zijn én blijven is dan ook een veelvoorkomende uitdaging voor data science-teams van over de hele wereld. Want zonder goede systemen en strategieën kan je een fikse GDPR-boete opgelegd krijgen.

Het is voor AI- en machine learning-teams een grote uitdaging omdat zij terabytes aan gegevens, in verschillende extensies, gebruiken om hun modellen te bouwen. En in veel organisaties verlangen datawetenschappers naar de autonomie om datasets te creëren zonder toezicht.

Het enige probleem hierbij is dat in al die zelf beheerde, steeds veranderende data, ook persoonlijke identificeerbare informatie (PII) schuilt, waardoor de werkwijze niet GDPR-compliant is. Maar om van datawetenschappers te vragen zelf de PII te beheren, is onhaalbaar. Net als het een onwenselijk idee is om hen te beperken in het creëren van datasets en modellen.

Een oplossing op maat: geautomatiseerd en flexibel

Er zijn een paar beperkingen waar je rekening mee moet houden wanneer je een datagovernancesysteem ontwerpt voor AI- en machine learning-teams:

Verstoor de workflow van je team niet en creëer niet meer overhead of werk voor hen
Elke oplossing moet flexibel genoeg zijn om de dagelijks veranderende data te verwerken
Na het bereiken van GDPR-compliance, moet je ervoor zorgen dat je het blijft – zodat je audits met gemak doorkomt

Hoe het werkt? Scannen en verwijderen

Deze oplossing heeft drie fasen die kunnen worden gepland en vereist minimale tussenkomst van je data science-team. Bovendien blijft je team in compliance, zelfs wanneer je nieuwe datasets creëert die mogelijk PII bevatten.

1. Scan alle datasets

De eerste stap van het proces is het doorspitten van elke dataset en daar een lijst van samenstellen die bestaat in het “universum” van jouw data science-team.

Het voordeel van deze compilatie is dat het je een startpunt geeft voor een dataregister. Niet alleen is dit in het algemeen nuttig om alle data, groottes en soorten datasets waarmee je werkt te kennen. Je hebt nu namelijk ook een centrale plaats om je data op te zoeken wanneer er aanvullende wetten of nieuwe beleidsregels opduiken.

Vaak weten teams niet hoeveel of welke soorten gegevens (parquet, hive, JSON, CSV, etc.) ze allemaal hebben.

2. Markeer alle datasets die PII bevatten

Zodra je je lijsten hebt, is de volgende stap het uitkammen van de datasets en vaststellen welke daarvan PII bevatten. Eenmaal geïdentificeerd, sla je de metadata rond de datasets op zodat je die kunt loggen en bewaren voor auditdoeleinden.

3. Verwijder of redigeer PII uit de gemarkeerde datasets

Nu kan je de PII verwijderen. Je checkt hiervoor je lijst met gemarkeerde datasets en verwijdert de gebruikers aan de hand van de GDPR-richtlijnen. Registreer ook het gehele verwijderingsproces zodat je deze kan presenteren tijdens een audit.

Overigens zijn er technieken waarmee je aan de voorschriften kan voldoen zonder de PII volledig te verwijderen – denk dan aan het verbergen van data. Of je de data volledig verwijderd of alleen verbergt, hangt af van hoe jij en je team de data gebruikt.

Naar de eindstreep: GDPR-audits en meer

De invoering van dit geautomatiseerde systeem biedt je verschillende voordelen, allemaal zonder een verandering in de workflow of lastige beperkingen toe te voegen aan je manier van werken.

Op korte termijn betekent dit dat je met gemak door de audit en andere juridische beoordelingsprocessen heen komt. In plaats daarvan kan je je volledig richting op machine learning en het creëren van modellen, terwijl je gegevens automatisch compliant blijven.

Ten tweede heb je nu een kader gecreëerd om ook met vlag en wimpel te slagen voor toekomstige audits. Deze vinden vaak regelmatig plaats en door dit framework wordt het gemakkelijk om je naleving van de GDPR-regelgeving te documenteren en aan te leveren voor aanstaande audits.

Ten slotte zorgt het systeem ook voor een sterke positie (of in ieder geval meer gemak) wanneer er eventuele wetswijzigingen of nieuw beleid wordt gepresenteerd. Het geautomatiseerde systeem dient als basis en eventuele wijzigingen of extra nalevingen kunnen daar gemakkelijk bovenop worden gebouwd.

De toekomst van datacompliance

GDPR zal niet snel verdwijnen – sterker nog, er worden aanvullende wetten zoals CCPA toegevoegd aan de lijst van compliance waar je bedrijf binnenkort aan moet voldoen.

Het is verstandig om een gevestigd, flexibel kader te hebben dat kan worden aangepast aan nieuwe regelgeving. Op die manier kan je je focussen op je kernactiviteiten, in plaats van je telkens aan te passen aan de nieuwe wetten.

Als je hulp nodig hebt met compliance óf een andere datastrategie, neem dan contact op met de data-analisten en -engineers van DEPT®.