Spraakherkenning
Transcript:
Een aantal voorbeelden zijn gegeven: kattenplaatjes, beelden van de radioloog, of MRI-scans. Werkt het ook zo met met de stem? Dat als ik nu tegen mijn Samsung Bigsby, of mijn Apple Siri praat, is dat ook een neuraal netwerk? Ja, dat is wel een zogeheten pipeline. Dus er zitten verschillende elementen in. Het eerste deel is het audiosignaal omzetten naar woorden, nou dat is zo'n diep neuraal netwerk waarbij eerst het audiosignaal wordt omgezet naar een plaatje. Dat heet een spectrogram. Dat wil zeggen: in een klein blokje tijd kijk je naar alle frequenties. Van elke letter en elke klank? Ja, van het hele signaal dat binnenkomt. En dan krijg je dus zo'n plaatje met over de tijd alle frequenties, dat heet een spectrogram. Daar ga je met zo'n diep neuraal netwerk op analyseren, vele lagen, en komt er een voorspelling uit welk woord op dat moment gezegd wordt. Dan ben je nog niet helemaal klaar, want dat neurale netwerk weet nog niet van grammatica. Het heeft nog geen taalmodel in zich. Dus dan is er een taalmodel wat daar naar kijkt en die zegt: "Die twee woorden naast elkaar dat is zeer onwaarschijnlijk. Dat ga ik corrigeren." of "Van deze zinsconstructie is de grammatica zeer onwaarschijnlijk, dus die ga ik veranderen." Wanneer dat allemaal gebeurt is, dan heeft je telefoon dus uiteindelijk begrepen wat je zei..