Computers kunnen steeds beter menselijke spraak herkennen, interpreteren en produceren. Dankzij de verbeterde spraaktechnologie is het mogelijk om met computers in gesprek te gaan, en kunnen gebruikers met hun stem de digitale wereld aansturen. Spraaktechnologie wordt al veel gebruikt in de auto en in huis, en bedrijven en organisaties experimenteren ermee in tal van andere domeinen, waaronder de zorg en de veiligheidssector. De groeiende toepassing van spraaktechnologie heeft belangrijke gevolgen voor de samenleving. Onze spraak vormt een essentieel onderdeel van wie we zijn als mens, en van onze sociale relaties. Ook bevatten onze gesprekken zeer gevoelige informatie – over onze identiteit, over de gesprekken die we voeren, en zelfs over onze gezondheid en ons humeur. Onze spraak verdient dus bescherming. Deze studie onderzoekt hoe de samenleving deze bescherming vorm kan geven.
De studie is gebaseerd op deskresearch en interviews. De deskresearch bestond uit het bestuderen van een combinatie van academische literatuur en grijze literatuur, gezien de relatief recente doorbraak van spraaktechnologie. De interviews waren verkennend van aard, en bedoeld om een beter beeld te krijgen van de technische mogelijkheden van spraaktechnologie.
Spraaktechnologie wordt steeds beter
In deze studie analyseren we allereerst de technische stand van zaken: hoe werkt spraaktechnologie, en hoe goed is het? Spraaktechnologie bestaat uit drie centrale processen: het herkennen van spraak, het interpreteren van spraak, en het spreken zelf, dat spraaksynthese wordt genoemd (zie figuur 1). Op alle drie de terreinen is vooruitgang geboekt, met name dankzij rijkere en grotere datasets, geavanceerde machine learning-technologie en de snellere rekenkracht van computers. Maar ondanks de kwaliteitsverbetering is het beeld gemengd.
Spraakherkenning werkt al behoorlijk goed. Spraakcomputers behalen, in ideale omstandigheden, een foutmarge van rond de 5%. Maar de omstandigheden maken veel uit: de foutmarge neemt sterk toe op een rumoerige plek, als er technische woorden worden gebruikt of als het systeem luistert naar stemmen van groepen die minder sterk in de trainingsdata vertegenwoordigd zijn, zoals die van kinderen. Toch is de spraakherkenning voldoende nauwkeurig om tal van nuttige diensten te verlenen, bijvoorbeeld als het gaat om het op afstand bedienen van muziek of het transcriberen van een interview. Maar er zijn genoeg toepassingen te bedenken, zoals in de zorg of zware industrie, waarbij een dergelijke foutmarge niet acceptabel is.
Op het gebied van spraakinterpretatie is de voortgang minder eenduidig. Bij het uitvoeren van taken is hulp van de omgeving en de gebruiker nodig: hij of zij moet simpele commando’s geven en vragen op de juiste manier formuleren en beantwoorden. Hoewel de belofte was dat computers onze taal gingen leren, moet een mens zich nog steeds aanpassen aan de spraaktechnologie, wil hij goed geïnterpreteerd worden.
De spraaksynthese is juist veel beter geworden. Kortgezegd kunnen spraaksystemen zich al duidelijk verstaanbaar maken. Ontwikkelaars hebben de lat hoger gelegd: spraaksynthese moet zo goed zijn, dat mensen niet meer horen dat ze met een computer spreken. Bij verreweg de meeste toepassingen is dit nog niet het geval, maar de ontwikkelingen gaan hard. Sommige spraaksystemen, zoals Google Duplex, komen heel dichtbij het produceren van menselijke spraak, inclusief ‘uhhs’ en ‘mmhmmh’s’.
Deze studie heeft ook de toepassing van spraaktechnologie in kaart gebracht. Met name in de auto en thuis wordt spraaktechnologie al breed toegepast. Daarnaast experimenteren technologieaanbieders en bedrijven volop met spraak. De toepassingen kan je onderverdelen in twee groepen: toepassingen die apparaten aansturen en toepassingen die diensten ondersteunen of overnemen. In de eerste categorie kennen we spraaktechnologie in de auto (handsfree bellen) en in huis (de spraakassistenten, zoals Google Assistant of Alexa van Amazon). Maar ook in de industrie kunnen machines via spraak worden aangestuurd. In de tweede categorie zien we onder meer spraakassistenten die reizen voor ons boeken, ons assisteren op kantoor, en onze identiteit checken, bijvoorbeeld als we bankzaken willen regelen.
Effecten op sociale relaties en normen
Deze brede waaier aan toepassingen brengt verschillende maatschappelijke en ethische vraagstukken met zich mee (zie figuur 2). Ten eerste mengt spraaktechnologie zich in het sociale leven van mensen. Dit roept vragen op over de gewenste relatie tussen mensen en computers: willen we, en moeten we altijd weten, dat we tegen een computer spreken in plaats van een mens? Horen we wel wie, of wat, iets zegt? Is het problematisch als gebruikers hun spraakassistent beschouwen als hun beste vriend? En hoe zorgen we dat spraaktechnologie bestaande sociale normen, bijvoorbeeld ten aanzien van gelijke behandeling en disciplinering, respecteert? We moeten ervoor waken dat spraaktechnologie onze waardigheid als mens onder druk zet.
De stem als nieuwe databron
Bovendien verzamelen al deze toepassingen data, door middel van gespreksverslagen én audio-opnames. Onze studie laat zien dat de stem zo fungeert als nieuwe databron. De data worden door ontwikkelaars gebruikt om spraaksystemen te personaliseren, en vormen de basis van analyses op het gebied van emotieherkenning en het diagnosticeren van ziekten. Die analyses zijn vaak niet wetenschappelijk bewezen, maar diverse bedrijven verwachten veel van de toekomstige mogelijkheden van audio-opnamen. Spraakdata bevatten zeer gevoelige data: juist in gesprekken thuis, in de auto en op het werk geven mensen zichzelf bloot. Dat vraagt om extra aandacht van ontwikkelaars en toezichthouders, zodat ons privé- en familieleven gerespecteerd blijft.
Onze autonomie staat op het spel
De inzet van spraaktechnologie heeft ook invloed op onze autonomie. De technologie helpt in tal van domeinen om taken uit te voeren, beslissingen te nemen en gebruikers een aangename ervaring te geven. Dit biedt kansen, maar brengt ook zorgen met zich mee. Leidt het gebruik van spraaktechnologie tot het verlies van vaardigheden, en vinden er oneigenlijke beïnvloeding en sturing plaats? Denk bijvoorbeeld aan deep fake video’s, waarin iemands uiterlijk en stem worden nagemaakt, (‘gekloond’), en die mensen om de tuin kunnen leiden en het publieke debat ondermijnen. Daarnaast geeft spraaktechnologie in vergelijking met schermen minder mogelijkheden voor nuance en doorvragen. Wie stuurt en bepaalt welk antwoord de spraakassistent geeft? Ten slotte kan een empathische en handige spraakassistent zo nuttig zijn, dat mensen er te veel gebruik van maken en verslaafd raken.
Het belang van veilig en gezond gebruik
Spraaktechnologie kan ook de veiligheid van mensen onder druk zetten. Spraakdata kan gestolen en misbruikt worden, bijvoorbeeld om identiteitsfraude mee te plegen. En ondanks de verbeteringen is spraaktechnologie niet foutloos en kunnen er ongelukken gebeuren. Voordat spraaktechnologie in kritieke toepassingen in de zorg, defensie of de maakindustrie wordt ingezet, zal de betrouwbaarheid van de technologie buiten kijf moeten staan, en geïnvesteerd moeten worden in technieken die misbruik juist tegengaan.
Groeiende marktmacht van techgiganten
De studie laat ten slotte zien dat de macht van diverse grote technologiebedrijven via spraaktechnologie nog verder aan het groeien is. De doelstelling van verschillende technologiegiganten zoals Google en Amazon is om een breed platform van spraaktoepassingen te creëren, en die te koppelen aan een spraakassistent, zoals Alexa en Google Assistant, die een veelheid aan taken kan uitvoeren. Daarmee nemen deze assistenten de rol aan van een gids die ons door de digitale wereld leidt, en ons zoveel mogelijk binnen de omgeving van een bepaald platform houdt. Om dit te bereiken kopen technologiegiganten daarbij start-ups op, en doen significante investeringen. Hoewel er ook andere partijen actief zijn op de markt voor spraaktechnologie, zoals het platform Houndify, en bedrijven soms zelfstandig spraakassistenten ontwikkelen, is het de vraag hoe deze partijen zich staande houden ten opzichte van de groeiende machtspositie van de techgiganten.
Onze stemmen en gesprekken vormen een essentieel onderdeel van wie we zijn als mens, en van de relaties die we met anderen aangaan. Met spraaktechnologie krijgen we er op allerlei momenten – thuis, in de auto, op het werk en bij het winkelen – een gesprekspartner bij, en dat zal onze spraak en onze relaties – met elkaar én met computers – niet onberoerd laten. Bovendien creëert spraaktechnologie een nieuwe bron van data, die zeer gevoelige gegevens bevatten. Onze spraak staat op het spel.
Spraaktechnologie voegt een nieuwe dimensie toe aan de brede opdracht om digitale technologie in goede banen te leiden, en laat zien dat de overheid en het bedrijfsleven wederom aan zet zijn. Spraaktechnologie beïnvloedt namelijk niet alleen de individuele omgang met computers, maar ook de omgangsvormen die we samen ontwikkelen. Zij verandert niet alleen de manier waarop individuen kennis vergaren, maar ook de kennisbasis van het publieke debat. En zij heeft niet alleen impact op de relatie tussen klanten en bedrijven, maar ook op de platformeconomie als geheel.
Het Rathenau Instituut komt daarom met zes aanbevelingen aan de overheid en het bedrijfsleven om menselijke spraak te beschermen en de toepassingen van spraaktechnologie in juiste banen te leiden: