Neppe data over onze gezondheid kan AI-systemen voeden, maar pas op

Gezondheid

Artikel

Het gebruik van synthetische gezondheidsgegevens zoals gegenereerde borstfoto's en spreadsheets kan handig zijn om AI-systemen te trainen. Maar ontwikkelaars moeten alert zijn op uitvergrote foutjes, geschade privacy en onduidelijke kwaliteitseisen. Dat stelt Hannah Venhuizen die tijdens haar stage bij het Rathenau Instituut in de literatuur dook.

Man met witte jas achter twee beeldschermen
Foto: Accuray via Unsplash

In het kort:

  • Hannah Venhuizen bestudeerde de literatuur over het gebruik van synthetische data als uitkomst voor privacyproblematiek en datauitbreiding in het gezondheidsdomein.
  • De potentie is groot, maar de grootste drie uitdagingen zijn de realiteitskloof, de privacy, en de evaluatie van de gegevens.

De druk op de zorg. We horen en lezen er al jaren over. Personeelstekorten, administratielasten, zorgvragers die niet direct geholpen kunnen worden en nieuwe bewoners die geen huisarts kunnen vinden. Fleur Agema, tot voor kort minister van Volksgezondheid, Welzijn en Sport, maakte zich sterk voor een AI-revolutie om onze zorgproblemen te verlichten. Met behulp van AI zouden zorgprocessen efficiënter ingericht kunnen worden. Alleen, het ontwikkelen van AI-toepassingen in het gezondheidsdomein is makkelijker gezegd dan gedaan. Eén van de grootste knelpunten is de relatieve schaarste aan gezondheidsdata. En laat dat nou net de grondstof zijn voor AI-toepassingen.

Waarom is deze gezondheidsdata relatief schaars? Dat zit zo. Voor het ontwikkelen van goedwerkende AI-toepassingen zijn heel veel gegevens nodig. Een klinische besluitvormingstool moet bijvoorbeeld worden getraind met miljoenen datapunten om de complexiteit van de werkelijkheid te vatten. Als die data er al zijn, mogen ze lang niet altijd gebruikt worden omdat ze gevoelige informatie bevatten over personen. Zorginstellingen mogen deze data niet zomaar delen met innovators en ontwikkelaars van AI-toepassingen. Ze moeten aan privacybeschermende wet- en regelgeving voldoen. Dat kost tijd.

Potentie van synthetische data

Maar wat nou als we geen echte data, maar neppe data gebruiken om deze toepassingen te ontwikkelen? Wat nou als we bruikbare data bezitten zónder gevoelige informatie over personen? Dan hebben we data die dus zomaar gedeeld mogen worden met innovators en ontwikkelaars. Data die we makkelijk kunnen aanvullen als er te weinig van zijn.

Dit is geen sciencefiction, geen sprookje, geen fakenieuws. Er zit daadwerkelijk potentie in het gebruik van neppe data in het gezondheidsdomein. Zogeheten synthetische data worden bijvoorbeeld met behulp van AI of statistieke methoden gegenereerd voor een specifiek doel. Denk aan kunstmatige afbeeldingen om een systeem te ontwikkelen dat bij een mammografie met een bepaalde waarschijnlijkheid borstkanker detecteert.

Synthetische data bootsen echte data na, maar wijken hier tegelijk vanaf zodat deze niet verwijzen naar bestaande personen of dingen. De nuttige informatie blijft behouden en de data zijn privacyvriendelijker. Daarbij is een synthetische dataset gemakkelijk uit te breiden.

Dé oplossing voor ons grondstofprobleem voor AI-toepassingen in de zorg, zou je denken. Niet helemaal. Synthetische data gaan ook gepaard met uitdagingen. Daarom zijn zorginstellingen sceptisch. Drie uitdagingen springen in het oog. Lees erover verder na de openklapper 'Recept voor synthetische data'.
 

In onderstaand fictief en vereenvoudigd voorbeeld maken we van een lijstje met drie echte adressen een lijst met tien adressen. Dit is een voorbeeld van synthetische data die gegenereerd worden op basis van statistische methoden.

We starten met drie echte voornamen en achternamen met bijbehorende échte huisnummers:

  • Kim de Vries, Dorpstraat 3
  • Robin Jansen, Kerkstraat 7
  • Sam van der Burg, Hoofdstraat 9

We combineren de gegevens: 

  1. Kim Jansen, Kerkstraat 3
  2. Kim Jansen, Hoofdstaat 3
  3. Kim Jansen, Dorpstraat 7
  4. Kim Jansen, Dorpstraat 9
  5. Kim de Vries, Kerkstraat 7
  6. Kim de Vries, Kerstraat 9
  7. Kim van der Burg, Dorpstraat 9
  8. Kim van der Burg, Kerkstraat 7
  9. Kim Jansen, Kerkstraat 37
  10. Kim Jansen, Kerkstraat 97

We hebben er hierboven tien gemaakt, maar de lijst is eenvoudig uit te breiden.

Uitdaging 1: realiteitskloof wordt versterkt

Allereerst wordt het probleem van dataschaarste ingeruild voor een realiteitskloof. Dat is de afstand tot de werkelijkheid die ontstaat door data niet te verzamelen, maar te genereren. Door echte data na te bootsen kunnen er in de synthetische data onjuiste patronen sluipen. Ook kunnen bestaande patronen (ongewenst) verdwijnen of juist worden versterkt.

Een voorbeeld is een originele dataset met een foutje. Daarbij werd een man per ongeluk op een plek als vrouw aangeduid. Bij het synthetiseren werd deze fout nietsvermoedend meegenomen en vermenigvuldigd. Daardoor kreeg de synthetische dataset maar liefst 259 vergelijkbare, foutieve gevallen.

Dit is een relatief onschuldig en eenvoudig te ondervangen voorbeeld. Het is makkelijk te achterhalen dat er al een fout zat in de oorspronkelijke echte data. Maar wat als dat niet zo duidelijk is? Wat als er foutieve of vervormde patronen in de dataset zitten die niet vooraf worden opgemerkt? Dan kan dit bijvoorbeeld leiden tot verkeerde diagnoses.

Uitdaging 2: privacy niet helemaal beschermd

Een tweede uitdaging is dat synthetische data geen volledige garantie bieden op privacybescherming. Medische data bevatten vaak veel details. Daardoor blijft het risico bestaan dat een datapunt binnen de gesynthetiseerde dataset toch verwijst naar een specifiek persoon. Wie dit ontkent of veronachtzaamt, kan zich schuldig maken aan privacy washing. Daarbij doe je alsof het met de privacy wel goed zit.

Uitdaging 3: evaluatiemethode ontbreekt

Een derde uitdaging draait om het ontbreken van heldere kaders die de kwaliteit van synthetische data beoordelen. Er is momenteel geen consensus over wanneer synthetische data als goed genoeg kunnen worden beschouwd, laat staan over hoe die kwaliteit transparant kan worden vastgelegd. Zijn synthetische data goed wanneer ze zo nauwkeurig mogelijk overeenkomen met bestaande data? Of moeten ze bij een specifieke toepassing vergelijkbare resultaten opleveren als echte data? Of moeten ze juist zo zijn gegenereerd dat er geen herleiding naar individuen meer mogelijk is?

Het antwoord op de vraag naar de kwaliteit kan per toepassing verschillen. Synthetische data voor klinische besluitvorming moeten bijvoorbeeld aan andere kwaliteitseisen voldoen dan synthetische data voor het testen van software.

Het gebrek aan consensus over evaluatiecriteria leidt tot het risico dat de kwaliteit van synthetische data wel wordt geëvalueerd, maar niet op de juiste gronden. Onvoldoende, onduidelijke of ontoereikende kwaliteitsevaluaties kunnen onder andere leiden tot misleidende onderzoeksresultaten, onjuiste voorspellingen en zelfs ongelijke zorgtoegang. Partijen kunnen bovendien geneigd zijn de evaluatiemethoden zo te kiezen dat de uitkomsten positiever lijken. Daardoor ontstaat bijvoorbeeld de indruk dat patronen uit de werkelijkheid goed worden weerspiegeld, of dat privacy volledig is gewaarborgd, terwijl dat in feite niet zo is.

Waak voor wantrouwen

Uiteindelijk kunnen versterking van de realiteitskloof, privacyproblemen, en een gebrek aan een gestandaardiseerde en transparante evaluatiemethode leiden tot wantrouwen in synthetische data en een afwijzing van het gebruik ervan door zorginstellingen. Kortom, om het potentieel dat synthetische data het gezondheidsdomein bieden te benutten, zullen de uitdagingen moeten worden opgehelderd, begrepen en, idealiter, effectief worden aangepakt.

Hannah Venhuizen liep stage bij het Rathenau Instituut in de eerste helft van 2025. Haar begeleiders waren Francisca Wals, Rosanne Edelenbosch en Bo Hijstek. Hannah schreef dit artikel op basis van een literatuurstudie over de maatschappelijke implicaties van synthetische data op het gezondheidsdomein. Ze doet een master AI en een master filosofie van de cognitiewetenschappen aan de Radboud Universiteit in Nijmegen.

Gerelateerde artikelen over dit onderwerp: