Hoor wie het zegt

Handvatten voor het verantwoorde gebruik van spraaktechnologie

Digitalisering

Rapport

Downloads

Rapport

bestand type pdf - bestand formaat 2.04 MB
Download Hoor wie het zegt

Een vrouw spreekt tegen een spraakassistent. Coverfoto van het rapport 'Hoor wie het zegt' — Foto: ANP

De afgelopen jaren is spraaktechnologie gemeengoed geworden. Vele chauffeurs geven mondelinge instructies aan hun auto’s en sommige mensen staan ’s ochtends zelfs op met de stem van een digitale spraakassistent. We gaan steeds vaker met computers een gesprek aan – en dat heeft consequenties. Niets is immers menselijker dan onze spraak. In onze gesprekken drukken we onszelf uit en ontwikkelen we omgangsvormen.

Het Rathenau Instituut heeft deze studie daarom gewijd aan spraaktechnologie. Hoe werkt spraaktechnologie, waarvoor wordt zij gebruikt en welke ethische vragen roept ze op? We zoeken uit hoe de overheid, bedrijven en burgers kunnen bijdragen aan spraaktechnologie die onze samenleving en sociale relaties verrijkt, en niet verschraalt.

20 oktober 2020

Computers kunnen steeds beter menselijke spraak herkennen, interpreteren en produceren. Dankzij de verbeterde spraaktechnologie is het mogelijk om met computers in gesprek te gaan, en kunnen gebruikers met hun stem de digitale wereld aansturen. Spraaktechnologie wordt al veel gebruikt in de auto en in huis, en bedrijven en organisaties experimenteren ermee in tal van andere domeinen, waaronder de zorg en de veiligheidssector. De groeiende toepassing van spraaktechnologie heeft belangrijke gevolgen voor de samenleving. Onze spraak vormt een essentieel onderdeel van wie we zijn als mens, en van onze sociale relaties. Ook bevatten onze gesprekken zeer gevoelige informatie – over onze identiteit, over de gesprekken die we voeren, en zelfs over onze gezondheid en ons humeur. Onze spraak verdient dus bescherming. Deze studie onderzoekt hoe de samenleving deze bescherming vorm kan geven.

De studie is gebaseerd op deskresearch en interviews. De deskresearch bestond uit het bestuderen van een combinatie van academische literatuur en grijze literatuur, gezien de relatief recente doorbraak van spraaktechnologie. De interviews waren verkennend van aard, en bedoeld om een beter beeld te krijgen van de technische mogelijkheden van spraaktechnologie.

Spraaktechnologie wordt steeds beter
In deze studie analyseren we allereerst de technische stand van zaken: hoe werkt spraaktechnologie, en hoe goed is het? Spraaktechnologie bestaat uit drie centrale processen: het herkennen van spraak, het interpreteren van spraak, en het spreken zelf, dat spraaksynthese wordt genoemd (zie figuur 1). Op alle drie de terreinen is vooruitgang geboekt, met name dankzij rijkere en grotere datasets, geavanceerde machine learning-technologie en de snellere rekenkracht van computers. Maar ondanks de kwaliteitsverbetering is het beeld gemengd.

Three elements of speech technology — De drie elementen van spraaktechnologie

Spraakherkenning werkt al behoorlijk goed. Spraakcomputers behalen, in ideale omstandigheden, een foutmarge van rond de 5%. Maar de omstandigheden maken veel uit: de foutmarge neemt sterk toe op een rumoerige plek, als er technische woorden worden gebruikt of als het systeem luistert naar stemmen van groepen die minder sterk in de trainingsdata vertegenwoordigd zijn, zoals die van kinderen. Toch is de spraakherkenning voldoende nauwkeurig om tal van nuttige diensten te verlenen, bijvoorbeeld als het gaat om het op afstand bedienen van muziek of het transcriberen van een interview. Maar er zijn genoeg toepassingen te bedenken, zoals in de zorg of zware industrie, waarbij een dergelijke foutmarge niet acceptabel is.

Op het gebied van spraakinterpretatie is de voortgang minder eenduidig. Bij het uitvoeren van taken is hulp van de omgeving en de gebruiker nodig: hij of zij moet simpele commando’s geven en vragen op de juiste manier formuleren en beantwoorden. Hoewel de belofte was dat computers onze taal gingen leren, moet een mens zich nog steeds aanpassen aan de spraaktechnologie, wil hij goed geïnterpreteerd worden.

De spraaksynthese is juist veel beter geworden. Kortgezegd kunnen spraaksystemen zich al duidelijk verstaanbaar maken. Ontwikkelaars hebben de lat hoger gelegd: spraaksynthese moet zo goed zijn, dat mensen niet meer horen dat ze met een computer spreken. Bij verreweg de meeste toepassingen is dit nog niet het geval, maar de ontwikkelingen gaan hard. Sommige spraaksystemen, zoals Google Duplex, komen heel dichtbij het produceren van menselijke spraak, inclusief ‘uhhs’ en ‘mmhmmh’s’.

Spraaktechnologie is onze gids in de digitale wereld

Deze studie heeft ook de toepassing van spraaktechnologie in kaart gebracht. Met name in de auto en thuis wordt spraaktechnologie al breed toegepast. Daarnaast experimenteren technologieaanbieders en bedrijven volop met spraak. De toepassingen kan je onderverdelen in twee groepen: toepassingen die apparaten aansturen en toepassingen die diensten ondersteunen of overnemen. In de eerste categorie kennen we spraaktechnologie in de auto (handsfree bellen) en in huis (de spraakassistenten, zoals Google Assistant of Alexa van Amazon). Maar ook in de industrie kunnen machines via spraak worden aangestuurd. In de tweede categorie zien we onder meer spraakassistenten die reizen voor ons boeken, ons assisteren op kantoor, en onze identiteit checken, bijvoorbeeld als we bankzaken willen regelen.

Effecten op sociale relaties en normen

Deze brede waaier aan toepassingen brengt verschillende maatschappelijke en ethische vraagstukken met zich mee (zie figuur 2). Ten eerste mengt spraaktechnologie zich in het sociale leven van mensen. Dit roept vragen op over de gewenste relatie tussen mensen en computers: willen we, en moeten we altijd weten, dat we tegen een computer spreken in plaats van een mens? Horen we wel wie, of wat, iets zegt? Is het problematisch als gebruikers hun spraakassistent beschouwen als hun beste vriend? En hoe zorgen we dat spraaktechnologie bestaande sociale normen, bijvoorbeeld ten aanzien van gelijke behandeling en disciplinering, respecteert? We moeten ervoor waken dat spraaktechnologie onze waardigheid als mens onder druk zet.

De stem als nieuwe databron

Bovendien verzamelen al deze toepassingen data, door middel van gespreksverslagen én audio-opnames. Onze studie laat zien dat de stem zo fungeert als nieuwe databron. De data worden door ontwikkelaars gebruikt om spraaksystemen te personaliseren, en vormen de basis van analyses op het gebied van emotieherkenning en het diagnosticeren van ziekten. Die analyses zijn vaak niet wetenschappelijk bewezen, maar diverse bedrijven verwachten veel van de toekomstige mogelijkheden van audio-opnamen. Spraakdata bevatten zeer gevoelige data: juist in gesprekken thuis, in de auto en op het werk geven mensen zichzelf bloot. Dat vraagt om extra aandacht van ontwikkelaars en toezichthouders, zodat ons privé- en familieleven gerespecteerd blijft.

Onze autonomie staat op het spel

De inzet van spraaktechnologie heeft ook invloed op onze autonomie. De technologie helpt in tal van domeinen om taken uit te voeren, beslissingen te nemen en gebruikers een aangename ervaring te geven. Dit biedt kansen, maar brengt ook zorgen met zich mee. Leidt het gebruik van spraaktechnologie tot het verlies van vaardigheden, en vinden er oneigenlijke beïnvloeding en sturing plaats? Denk bijvoorbeeld aan deep fake video’s, waarin iemands uiterlijk en stem worden nagemaakt, (‘gekloond’), en die mensen om de tuin kunnen leiden en het publieke debat ondermijnen. Daarnaast geeft spraaktechnologie in vergelijking met schermen minder mogelijkheden voor nuance en doorvragen. Wie stuurt en bepaalt welk antwoord de spraakassistent geeft? Ten slotte kan een empathische en handige spraakassistent zo nuttig zijn, dat mensen er te veel gebruik van maken en verslaafd raken.

Het belang van veilig en gezond gebruik

Spraaktechnologie kan ook de veiligheid van mensen onder druk zetten. Spraakdata kan gestolen en misbruikt worden, bijvoorbeeld om identiteitsfraude mee te plegen. En ondanks de verbeteringen is spraaktechnologie niet foutloos en kunnen er ongelukken gebeuren. Voordat spraaktechnologie in kritieke toepassingen in de zorg, defensie of de maakindustrie wordt ingezet, zal de betrouwbaarheid van de technologie buiten kijf moeten staan, en geïnvesteerd moeten worden in technieken die misbruik juist tegengaan.

Groeiende marktmacht van techgiganten

De studie laat ten slotte zien dat de macht van diverse grote technologiebedrijven via spraaktechnologie nog verder aan het groeien is. De doelstelling van verschillende technologiegiganten zoals Google en Amazon is om een breed platform van spraaktoepassingen te creëren, en die te koppelen aan een spraakassistent, zoals Alexa en Google Assistant, die een veelheid aan taken kan uitvoeren. Daarmee nemen deze assistenten de rol aan van een gids die ons door de digitale wereld leidt, en ons zoveel mogelijk binnen de omgeving van een bepaald platform houdt. Om dit te bereiken kopen technologiegiganten daarbij start-ups op, en doen significante investeringen. Hoewel er ook andere partijen actief zijn op de markt voor spraaktechnologie, zoals het platform Houndify, en bedrijven soms zelfstandig spraakassistenten ontwikkelen, is het de vraag hoe deze partijen zich staande houden ten opzichte van de groeiende machtspositie van de techgiganten.

Ethical aspects speech technology — Figuur 2: Een overzicht van de ethische aspecten van spraaktechnologie

Onze stemmen en gesprekken vormen een essentieel onderdeel van wie we zijn als mens, en van de relaties die we met anderen aangaan. Met spraaktechnologie krijgen we er op allerlei momenten – thuis, in de auto, op het werk en bij het winkelen – een gesprekspartner bij, en dat zal onze spraak en onze relaties – met elkaar én met computers – niet onberoerd laten. Bovendien creëert spraaktechnologie een nieuwe bron van data, die zeer gevoelige gegevens bevatten. Onze spraak staat op het spel.

Spraaktechnologie voegt een nieuwe dimensie toe aan de brede opdracht om digitale technologie in goede banen te leiden, en laat zien dat de overheid en het bedrijfsleven wederom aan zet zijn. Spraaktechnologie beïnvloedt namelijk niet alleen de individuele omgang met computers, maar ook de omgangsvormen die we samen ontwikkelen. Zij verandert niet alleen de manier waarop individuen kennis vergaren, maar ook de kennisbasis van het publieke debat. En zij heeft niet alleen impact op de relatie tussen klanten en bedrijven, maar ook op de platformeconomie als geheel.

Het Rathenau Instituut komt daarom met zes aanbevelingen aan de overheid en het bedrijfsleven om menselijke spraak te beschermen en de toepassingen van spraaktechnologie in juiste banen te leiden:

Zorg voor effectieve privacybescherming
Spraaktechnologie maakt het mogelijk om gevoelige stemdata van mensen te verzamelen en te gebruiken om mensen te beïnvloeden. Het gaat onder meer om biometrische gegevens en gegevens over gezondheid. De verwerking van stemdata levert zo risico’s op voor de mens en diens fundamentele rechten. Het is zaak de bestaande privacyregels krachtiger te handhaven. Daarom roept het Rathenau Instituut de overheid op om een vergunningsplicht voor biometrische stemanalyse in te voeren en strategieën te ontwikkelen om emotieherkenning en gezondheidsanalyse te reguleren. Ook is het van belang om de inzet van spraakanalyse door opsporingsdiensten te monitoren: is het wenselijk dat de politie stemdata van sociale media schraapt? Ten slotte is het aan het bedrijfsleven om in hun productontwikkeling en dienstverlening de privacyregels niet minimaal te volgen, maar krachtig vorm te geven – bijvoorbeeld door te investeren in technieken die het gebruik van data minimaliseren.
Bevorder inclusieve spraaktechnologie
Spraaktechnologie biedt kansen om informatie makkelijker toegankelijk te maken. Maar spraaksystemen kunnen ook groepen gebruikers uitsluiten, vooroordelen bevestigen, en discriminatie in de hand werken. Het is van groot belang om ervoor te zorgen dat iedereen spraaktechnologie kan benutten. De overheid kan daartoe investeren in een Nederlandse spraakdatabase, waar tal van partijen hun spraaktechnologie op kunnen baseren. Ook het bedrijfsleven heeft hier verantwoordelijkheden. Het Rathenau Instituut roept het bedrijfsleven in het bijzonder op om stereotypering tegen te gaan, bijvoorbeeld door een diverse reeks spraakassistenten aan te bieden.
Creëer een eerlijke markt
Er bestaan zorgen in de dataeconomie over de dominantie van enkele grote technologiebedrijven. Spraaktechnologie biedt deze bedrijven de mogelijkheid om deze machtspositie nog verder uit te breiden. Om de markt voor alle partijen toegankelijk en eerlijk te maken, kan de overheid het mededingingsrecht aanscherpen – daartoe worden op het Europese niveau stappen gezet. Ook is het zaak om mogelijkheden te bieden voor alternatieve aanbieders, en niet alleen samen te werken met de techgiganten. Het bedrijfsleven wordt aanbevolen om de rechten van consumenten, zoals het recht om informatie op te vragen, slagkrachtig en ruimhartig vorm te geven.
Bescherm menselijke waardigheid
Het Rathenau Instituut roept de overheid en het bedrijfsleven op om een ethische dialoog over spraaktechnologie te starten. Daarbij zou bijzondere aandacht uit moeten gaan naar het beschermen van menselijke waardigheid: het borgen van het recht op menselijk contact en het voorkomen van situaties waarin gebruikers computers en mensen met elkaar verwarren. Daarover zouden de overheid en het bedrijfsleven met elkaar afspraken moeten maken.
Zorg dat spraaktechnologie betrouwbaar is
Spraaktechnologie kan de samenleving veel bieden, maar moet wel betrouwbaar zijn. Het is zowel aan de overheid als aan het bedrijfsleven om hiertoe de volgende stappen te zetten: treed slagvaardig op tegen desinformatie en voice cloning, verlaag de foutmarge van spraaktechnologie, investeer in technologie die misbruik tegengaat en ontwikkel veiligheidsstandaarden.
Investeer in technologisch burgerschap
Een verantwoord en effectief gebruik van spraaktechnologie vereist ook kennis en vaardigheden, bijvoorbeeld ten aanzien van het zoeken naar kennis en het instellen van routines, en de informatie die de apparaten verzamelen. Het is daarom nodig burgers te ondersteunen bij de omgang met spraaktechnologie. Dit vereist investeringen in opleidingen en trainingen op het gebied van mediawijsheid. Daarnaast zijn van de overheid, kennisinstellingen en het bedrijfsleven investeringen in onderzoek nodig om de invloed van spraaktechnologie op onze fysieke en mentale gezondheid te analyseren. Ten slotte is er ook een belangrijke rol weggelegd voor burgers. Zij kunnen hun stem laten horen en spraaktechnologie op de agenda van het publieke debat zetten. Onze spraak is een kwetsbaar en betekenisvol goed – en een discussie meer dan waard.

Veelgestelde vragen

Technologie die ervoor zorgt dat computers menselijke spraak kunnen herkennen, kunnen interpreteren en ook zelf kunnen spreken – samengevat als spraakherkenning, spraakinterpretatie en spraaksynthese (zie hoofdstuk twee in het rapport).

Niets is menselijker dan onze spraak. In onze gesprekken drukken we onszelf uit en ontwikkelen we omgangsvormen. Het is daarom van belang om spraaktechnologie in juiste banen te leiden. Daarnaast komt spraaktechnologie dichtbij ons: we installeren spraaksystemen in onze woonkamers en op onze kantoren. In de verkeerde handen is een spraakcomputer een surveillance-instrument waarmee onze geheimen ontsloten kunnen worden. Je kan zelfs stemmen klonen en iemand woorden in de mond leggen. Bovendien staat onze zelfbeschikking op het spel. Spraaktechnologie functioneert steeds meer als een gids die de gebruiker door de digitale wereld leidt. Maar deze gids wordt gemaakt door bedrijven die hun eigen belangen nastreven, en die sluiten niet per se aan bij de belangen en wensen van burgers.

De studie roept daarom op tot het ontwikkelen van ethische spraaktechnologie die, onder meer, inclusief is, ons privéleven respecteert en aangeboden wordt op een gezonde markt. De studie roept ook op tot maatschappelijke dialoog en politiek debat. De opkomst van spraaktechnologie brengt vragen met zich mee die we samen moeten beantwoorden. Willen we bijvoorbeeld gedisciplineerd worden door een spraakassistent? Voorheen zou deze vraag fantasierijk hebben geklonken, maar vandaag is hij reëel. Computers zijn gaan praten: tijd voor een goed gesprek.

De markt voor spraaktechnologie groeit momenteel snel. Zo heeft 6% van de Nederlandse huishoudens in 2018 een luidspreker aangeschaft die je met spraak kunt bedienen, en groeide dit percentage in 2019 tot 19% (Multiscope, 2020). En in Amerika en China gaan de ontwikkelingen nog harder (Kimmich, 2019). Volgens sommige analyses lijkt de opkomst van slimme luidsprekers daar zelfs sneller te gaan dan destijds de opkomst van mobiele telefoons – een apparaat dat je tegenwoordig ook steeds vaker met je stem kunt besturen (Kinsella & Mutchler, 2018). (Zie voor de gehele bronvermelding de publicatie.)

Ja, dit rapport over spraaktechnologie is het tweede rapport in de reeks over immersieve technologieën. Eind 2019 verscheen er al een studie naar Virtual Reality: 'Verantwoord virtueel - Bescherm consumenten in virtual reality'. Woensdag 21 oktober volgde de publicatie over augmented reality: Nep echt - verrijk de wereld met augmented reality.

Met de doorbraak van immersieve technologieën gaat de digitale samenleving een nieuwe fase in. De fysieke en digitale wereld raken meer dan ooit met elkaar verknoopt. Dat roept urgente maatschappelijke en politieke vragen op. Het Rathenau Instituut publiceerde daarom een manifest met tien ontwerpeisen aan de digitale samenleving van morgen.

Tijdens de Dutch Design Week organiseerden we een online talkshow: Enriching Reality: Designing human-centered AR, VR and Voice applications (Engelstalig gesprek). Tijdens deze talkshow ontvingen coördinator Rinie van Est en onderzoeker Jurriën Hamer inspirerende gasten, waarmee besproken werd hoe AR, VR en Voice de levens van mensen raken – en onder welke voorwaarden ze de samenleving kunnen verrijken. Kijk de talkshow terug op de website van de Dutch Design Week.

Op 26 november 2020 (15.30-17.00 uur) vindt ons jaarlijkse Rathenau Live evenement plaats. Dit jaar is het een online evenement dat volledig in het teken staat van Virtual Reality, Augmented Reality en Spraaktechnologie. Gezamenlijk gaan we in gesprek en ervaren we met elkaar wat deze technieken doen met onze perceptie van onszelf, anderen en de wereld om ons heen. Aanmelden en meer informatie op de evenementpagina.

Een computersysteem dat spraakherkenning, spraakinterpretatie en/of spraaksynthese kan uitvoeren, noemen we een spraaksysteem. Er zijn op de markt verschillende soorten spraaksystemen beschikbaar. De belangrijkste is de spraakassistent, een spraaksysteem dat doorgaans een breed aanbod van taken uit kan voeren. Bekende voorbeelden zijn Alexa van Amazon en de spraakassistent van Google. Deze assistenten kunnen op allerlei digitale apparaten, zoals een mobiele telefoon, een desktop pc, of een slimme luidspreker – een smart speaker – geïnstalleerd worden. De verkenning kijkt daarnaast ook naar andere spraaksystemen, zoals transcriptiesoftware en navigatiesystemen.

Spraakassistenten worden ook wel cognitieve of virtuele assistenten genoemd. Deze digitale systemen kunnen ook taken uitvoeren, en zijn doorgaans in staat om tekst te interpreteren. Ze hoeven niet gebaseerd te zijn op spraaktechnologie. In deze verkenning richten wij ons op systemen uitgerust met spraaktechnologie. We zullen daarom de term ‘spraakassistent’ gebruiken.

Hoor wie het zegt

Downloads

Rapport

Auteurs

Spraaktechnologie is onze gids in de digitale wereld

Veelgestelde vragen

De metaverse maakt het gesprek over de digitale samenleving nog urgenter

Spraaktechnologie is meer dan een interface

Rathenau Manifest: Stel nu 10 ontwerpeisen aan de digitale samenleving van morgen

Rathenau Instituut stelt 10 ontwerpeisen aan de digitale samenleving

Nep Echt

Rathenau Live Event 2020: ondergedompeld in AR, VR en spraaktechnologie

Verantwoord virtueel

Mensenrechten in het robottijdperk

Hoor wie het zegt

Downloads

Rapport

Auteurs

Samenvatting

Spraaktechnologie is onze gids in de digitale wereld

Aanbevelingen

Veelgestelde vragen

Wat is spraaktechnologie?

Waarom is deze publicatie over spraaktechnologie relevant?

In hoeverre is spraaktechnologie al in de samenleving aanwezig?

Zijn de effecten van andere immersieve technologieën zoals AR en VR ook onderzocht?

Kan ik meepraten over spraaktechnologie?

Wat is een spraakassistent?