calendar tag arrow download print
Doorgaan naar inhoud

Hoor wie het zegt

Rapport
20 oktober 2020
Handvatten voor het verantwoorde gebruik van spraaktechnologie

Foto: ANP

Image
Een vrouw spreekt tegen een spraakassistent. Coverfoto van het rapport 'Hoor wie het zegt'
De afgelopen jaren is spraaktechnologie gemeengoed geworden. Vele chauffeurs geven mondelinge instructies aan hun auto’s en sommige mensen staan ’s ochtends zelfs op met de stem van een digitale spraakassistent. We gaan steeds vaker met computers een gesprek aan – en dat heeft consequenties. Niets is immers menselijker dan onze spraak. In onze gesprekken drukken we onszelf uit en ontwikkelen we omgangsvormen.

Het Rathenau Instituut heeft deze studie daarom gewijd aan spraaktechnologie. Hoe werkt spraaktechnologie, waarvoor wordt zij gebruikt en welke ethische vragen roept ze op? We zoeken uit hoe de overheid, bedrijven en burgers kunnen bijdragen aan spraaktechnologie die onze samenleving en sociale relaties verrijkt, en niet verschraalt.

Downloads

Downloads

Samenvatting

Computers kunnen steeds beter menselijke spraak herkennen, interpreteren en produceren. Dankzij de verbeterde spraaktechnologie is het mogelijk om met computers in gesprek te gaan, en kunnen gebruikers met hun stem de digitale wereld aansturen. Spraaktechnologie wordt al veel gebruikt in de auto en in huis, en bedrijven en organisaties experimenteren ermee in tal van andere domeinen, waaronder de zorg en de veiligheidssector. De groeiende toepassing van spraaktechnologie heeft belangrijke gevolgen voor de samenleving. Onze spraak vormt een essentieel onderdeel van wie we zijn als mens, en van onze sociale relaties. Ook bevatten onze gesprekken zeer gevoelige informatie – over onze identiteit, over de gesprekken die we voeren, en zelfs over onze gezondheid en ons humeur. Onze spraak verdient dus bescherming. Deze studie onderzoekt hoe de samenleving deze bescherming vorm kan geven.

De studie is gebaseerd op deskresearch en interviews. De deskresearch bestond uit het bestuderen van een combinatie van academische literatuur en grijze literatuur, gezien de relatief recente doorbraak van spraaktechnologie. De interviews waren verkennend van aard, en bedoeld om een beter beeld te krijgen van de technische mogelijkheden van spraaktechnologie.

Spraaktechnologie wordt steeds beter
In deze studie analyseren we allereerst de technische stand van zaken: hoe werkt spraaktechnologie, en hoe goed is het? Spraaktechnologie bestaat uit drie centrale processen: het herkennen van spraak, het interpreteren van spraak, en het spreken zelf, dat spraaksynthese wordt genoemd (zie figuur 1). Op alle drie de terreinen is vooruitgang geboekt, met name dankzij rijkere en grotere datasets, geavanceerde machine learning-technologie en de snellere rekenkracht van computers. Maar ondanks de kwaliteitsverbetering is het beeld gemengd.

Three elements of speech technology
De drie elementen van spraaktechnologie

Spraakherkenning werkt al behoorlijk goed. Spraakcomputers behalen, in ideale omstandigheden, een foutmarge van rond de 5%. Maar de omstandigheden maken veel uit: de foutmarge neemt sterk toe op een rumoerige plek, als er technische woorden worden gebruikt of als het systeem luistert naar stemmen van groepen die minder sterk in de trainingsdata vertegenwoordigd zijn, zoals die van kinderen. Toch is de spraakherkenning voldoende nauwkeurig om tal van nuttige diensten te verlenen, bijvoorbeeld als het gaat om het op afstand bedienen van muziek of het transcriberen van een interview. Maar er zijn genoeg toepassingen te bedenken, zoals in de zorg of zware industrie, waarbij een dergelijke foutmarge niet acceptabel is.

Op het gebied van spraakinterpretatie is de voortgang minder eenduidig. Bij het uitvoeren van taken is hulp van de omgeving en de gebruiker nodig: hij of zij moet simpele commando’s geven en vragen op de juiste manier formuleren en beantwoorden. Hoewel de belofte was dat computers onze taal gingen leren, moet een mens zich nog steeds aanpassen aan de spraaktechnologie, wil hij goed geïnterpreteerd worden.

De spraaksynthese is juist veel beter geworden. Kortgezegd kunnen spraaksystemen zich al duidelijk verstaanbaar maken. Ontwikkelaars hebben de lat hoger gelegd: spraaksynthese moet zo goed zijn, dat mensen niet meer horen dat ze met een computer spreken. Bij verreweg de meeste toepassingen is dit nog niet het geval, maar de ontwikkelingen gaan hard. Sommige spraaksystemen, zoals Google Duplex, komen heel dichtbij het produceren van menselijke spraak, inclusief ‘uhhs’ en ‘mmhmmh’s’.

Spraaktechnologie is onze gids in de digitale wereld

Deze studie heeft ook de toepassing van spraaktechnologie in kaart gebracht. Met name in de auto en thuis wordt spraaktechnologie al breed toegepast. Daarnaast experimenteren technologieaanbieders en bedrijven volop met spraak. De toepassingen kan je onderverdelen in twee groepen: toepassingen die apparaten aansturen en toepassingen die diensten ondersteunen of overnemen. In de eerste categorie kennen we spraaktechnologie in de auto (handsfree bellen) en in huis (de spraakassistenten, zoals Google Assistant of Alexa van Amazon). Maar ook in de industrie kunnen machines via spraak worden aangestuurd. In de tweede categorie zien we onder meer spraakassistenten die reizen voor ons boeken, ons assisteren op kantoor, en onze identiteit checken, bijvoorbeeld als we bankzaken willen regelen.

Effecten op sociale relaties en normen

Ethical aspects speech technology
Figuur 2: Een overzicht van de ethische aspecten van spraaktechnologie

Deze brede waaier aan toepassingen brengt verschillende maatschappelijke en ethische vraagstukken met zich mee (zie figuur 2). Ten eerste mengt spraaktechnologie zich in het sociale leven van mensen. Dit roept vragen op over de gewenste relatie tussen mensen en computers: willen we, en moeten we altijd weten, dat we tegen een computer spreken in plaats van een mens? Horen we wel wie, of wat, iets zegt? Is het problematisch als gebruikers hun spraakassistent beschouwen als hun beste vriend? En hoe zorgen we dat spraaktechnologie bestaande sociale normen, bijvoorbeeld ten aanzien van gelijke behandeling en disciplinering, respecteert? We moeten ervoor waken dat spraaktechnologie onze waardigheid als mens onder druk zet.

De stem als nieuwe databron

Bovendien verzamelen al deze toepassingen data, door middel van gespreksverslagen én audio-opnames. Onze studie laat zien dat de stem zo fungeert als nieuwe databron. De data worden door ontwikkelaars gebruikt om spraaksystemen te personaliseren, en vormen de basis van analyses op het gebied van emotieherkenning en het diagnosticeren van ziekten. Die analyses zijn vaak niet wetenschappelijk bewezen, maar diverse bedrijven verwachten veel van de toekomstige mogelijkheden van audio-opnamen. Spraakdata bevatten zeer gevoelige data: juist in gesprekken thuis, in de auto en op het werk geven mensen zichzelf bloot. Dat vraagt om extra aandacht van ontwikkelaars en toezichthouders, zodat ons privé- en familieleven gerespecteerd blijft.

Onze autonomie staat op het spel

De inzet van spraaktechnologie heeft ook invloed op onze autonomie. De technologie helpt in tal van domeinen om taken uit te voeren, beslissingen te nemen en gebruikers een aangename ervaring te geven. Dit biedt kansen, maar brengt ook zorgen met zich mee. Leidt het gebruik van spraaktechnologie tot het verlies van vaardigheden, en vinden er oneigenlijke beïnvloeding en sturing plaats? Denk bijvoorbeeld aan deep fake video’s, waarin iemands uiterlijk en stem worden nagemaakt, (‘gekloond’), en die mensen om de tuin kunnen leiden en het publieke debat ondermijnen. Daarnaast geeft spraaktechnologie in vergelijking met schermen minder mogelijkheden voor nuance en doorvragen. Wie stuurt en bepaalt welk antwoord de spraakassistent geeft? Ten slotte kan een empathische en handige spraakassistent zo nuttig zijn, dat mensen er te veel gebruik van maken en verslaafd raken.

Het belang van veilig en gezond gebruik

Spraaktechnologie kan ook de veiligheid van mensen onder druk zetten. Spraakdata kan gestolen en misbruikt worden, bijvoorbeeld om identiteitsfraude mee te plegen. En ondanks de verbeteringen is spraaktechnologie niet foutloos en kunnen er ongelukken gebeuren. Voordat spraaktechnologie in kritieke toepassingen in de zorg, defensie of de maakindustrie wordt ingezet, zal de betrouwbaarheid van de technologie buiten kijf moeten staan, en geïnvesteerd moeten worden in technieken die misbruik juist tegengaan.

Groeiende marktmacht van techgiganten

De studie laat ten slotte zien dat de macht van diverse grote technologiebedrijven via spraaktechnologie nog verder aan het groeien is. De doelstelling van verschillende technologiegiganten zoals Google en Amazon is om een breed platform van spraaktoepassingen te creëren, en die te koppelen aan een spraakassistent, zoals Alexa en Google Assistant, die een veelheid aan taken kan uitvoeren. Daarmee nemen deze assistenten de rol aan van een gids die ons door de digitale wereld leidt, en ons zoveel mogelijk binnen de omgeving van een bepaald platform houdt. Om dit te bereiken kopen technologiegiganten daarbij start-ups op, en doen significante investeringen. Hoewel er ook andere partijen actief zijn op de markt voor spraaktechnologie, zoals het platform Houndify, en bedrijven soms zelfstandig spraakassistenten ontwikkelen, is het de vraag hoe deze partijen zich staande houden ten opzichte van de groeiende machtspositie van de techgiganten.

Aanbevelingen

Onze stemmen en gesprekken vormen een essentieel onderdeel van wie we zijn als mens, en van de relaties die we met anderen aangaan. Met spraaktechnologie krijgen we er op allerlei momenten – thuis, in de auto, op het werk en bij het winkelen – een gesprekspartner bij, en dat zal onze spraak en onze relaties – met elkaar én met computers – niet onberoerd laten. Bovendien creëert spraaktechnologie een nieuwe bron van data, die zeer gevoelige gegevens bevatten. Onze spraak staat op het spel.

Spraaktechnologie voegt een nieuwe dimensie toe aan de brede opdracht om digitale technologie in goede banen te leiden, en laat zien dat de overheid en het bedrijfsleven wederom aan zet zijn. Spraaktechnologie beïnvloedt namelijk niet alleen de individuele omgang met computers, maar ook de omgangsvormen die we samen ontwikkelen. Zij verandert niet alleen de manier waarop individuen kennis vergaren, maar ook de kennisbasis van het publieke debat. En zij heeft niet alleen impact op de relatie tussen klanten en bedrijven, maar ook op de platformeconomie als geheel.

Het Rathenau Instituut komt daarom met zes aanbevelingen aan de overheid en het bedrijfsleven om menselijke spraak te beschermen en de toepassingen van spraaktechnologie in juiste banen te leiden:

Recommendations
  1. Zorg voor effectieve privacybescherming
    Spraaktechnologie maakt het mogelijk om gevoelige stemdata van mensen te verzamelen en te gebruiken om mensen te beïnvloeden. Het gaat onder meer om biometrische gegevens en gegevens over gezondheid. De verwerking van stemdata levert zo risico’s op voor de mens en diens fundamentele rechten. Het is zaak de bestaande privacyregels krachtiger te handhaven. Daarom roept het Rathenau Instituut de overheid op om een vergunningsplicht voor biometrische stemanalyse in te voeren en strategieën te ontwikkelen om emotieherkenning en gezondheidsanalyse te reguleren. Ook is het van belang om de inzet van spraakanalyse door opsporingsdiensten te monitoren: is het wenselijk dat de politie stemdata van sociale media schraapt? Ten slotte is het aan het bedrijfsleven om in hun productontwikkeling en dienstverlening de privacyregels niet minimaal te volgen, maar krachtig vorm te geven – bijvoorbeeld door te investeren in technieken die het gebruik van data minimaliseren.
     
  2. Bevorder inclusieve spraaktechnologie
    Spraaktechnologie biedt kansen om informatie makkelijker toegankelijk te maken. Maar spraaksystemen kunnen ook groepen gebruikers uitsluiten, vooroordelen bevestigen, en discriminatie in de hand werken. Het is van groot belang om ervoor te zorgen dat iedereen spraaktechnologie kan benutten. De overheid kan daartoe investeren in een Nederlandse spraakdatabase, waar tal van partijen hun spraaktechnologie op kunnen baseren. Ook het bedrijfsleven heeft hier verantwoordelijkheden. Het Rathenau Instituut roept het bedrijfsleven in het bijzonder op om stereotypering tegen te gaan, bijvoorbeeld door een diverse reeks spraakassistenten aan te bieden.
     
  3. Creëer een eerlijke markt
    Er bestaan zorgen in de dataeconomie over de dominantie van enkele grote technologiebedrijven. Spraaktechnologie biedt deze bedrijven de mogelijkheid om deze machtspositie nog verder uit te breiden. Om de markt voor alle partijen toegankelijk en eerlijk te maken, kan de overheid het mededingingsrecht aanscherpen – daartoe worden op het Europese niveau stappen gezet. Ook is het zaak om mogelijkheden te bieden voor alternatieve aanbieders, en niet alleen samen te werken met de techgiganten. Het bedrijfsleven wordt aanbevolen om de rechten van consumenten, zoals het recht om informatie op te vragen, slagkrachtig en ruimhartig vorm te geven.
     
  4. Bescherm menselijke waardigheid
    Het Rathenau Instituut roept de overheid en het bedrijfsleven op om een ethische dialoog over spraaktechnologie te starten. Daarbij zou bijzondere aandacht uit moeten gaan naar het beschermen van menselijke waardigheid: het borgen van het recht op menselijk contact en het voorkomen van situaties waarin gebruikers computers en mensen met elkaar verwarren. Daarover zouden de overheid en het bedrijfsleven met elkaar afspraken moeten maken.
     
  5. Zorg dat spraaktechnologie betrouwbaar is
    Spraaktechnologie kan de samenleving veel bieden, maar moet wel betrouwbaar zijn. Het is zowel aan de overheid als aan het bedrijfsleven om hiertoe de volgende stappen te zetten: treed slagvaardig op tegen desinformatie en voice cloning, verlaag de foutmarge van spraaktechnologie, investeer in technologie die misbruik tegengaat en ontwikkel veiligheidsstandaarden.
     
  6. Investeer in technologisch burgerschap
    Een verantwoord en effectief gebruik van spraaktechnologie vereist ook kennis en vaardigheden, bijvoorbeeld ten aanzien van het zoeken naar kennis en het instellen van routines, en de informatie die de apparaten verzamelen. Het is daarom nodig burgers te ondersteunen bij de omgang met spraaktechnologie. Dit vereist investeringen in opleidingen en trainingen op het gebied van mediawijsheid. Daarnaast zijn van de overheid, kennisinstellingen en het bedrijfsleven investeringen in onderzoek nodig om de invloed van spraaktechnologie op onze fysieke en mentale gezondheid te analyseren. Ten slotte is er ook een belangrijke rol weggelegd voor burgers. Zij kunnen hun stem laten horen en spraaktechnologie op de agenda van het publieke debat zetten. Onze spraak is een kwetsbaar en betekenisvol goed – en een discussie meer dan waard.