nlaic logo


 

Spraakherkenning

Transcript:

Een aantal voorbeelden zijn gegeven:   kattenplaatjes, beelden van  de radioloog, of MRI-scans. Werkt het ook zo met met de stem? Dat  als ik nu tegen mijn Samsung Bigsby,   of mijn Apple Siri praat, is  dat ook een neuraal netwerk? Ja, dat is wel een zogeheten pipeline.  Dus er zitten verschillende elementen in. Het eerste deel is het audiosignaal  omzetten naar woorden, nou dat is   zo'n diep neuraal netwerk waarbij eerst het  audiosignaal wordt omgezet naar een plaatje.   Dat heet een spectrogram. Dat wil zeggen: in een  klein blokje tijd kijk je naar alle frequenties. Van elke letter en elke klank? Ja, van het hele signaal dat binnenkomt. En dan  krijg je dus zo'n plaatje met over de tijd alle frequenties,  dat heet een spectrogram. Daar ga  je met zo'n diep neuraal netwerk op analyseren,   vele lagen, en komt er een voorspelling  uit welk woord op dat moment gezegd wordt. Dan ben je nog niet helemaal klaar, want dat  neurale netwerk weet nog niet van grammatica.   Het heeft nog geen taalmodel in zich. Dus dan is  er een taalmodel wat daar naar kijkt en die zegt: "Die twee woorden naast elkaar dat is zeer  onwaarschijnlijk. Dat ga ik corrigeren." of    "Van deze zinsconstructie is de grammatica zeer  onwaarschijnlijk, dus die ga ik veranderen."   Wanneer dat allemaal gebeurt is, dan heeft je  telefoon dus uiteindelijk begrepen wat je zei..

 

Tags

 

 VIDEO

Deze video wordt aangeboden door Nederlandse AI Coalitie onder een Creative Commons-licentie.