Deep Learning: Van Eenvoud naar Herkenning
Net zoals in je hersenen, verwerkt deep learning informatie over meerdere lagen. Professor Cees Snoek (UvA) legt uit.
Transcript:
Jouw specialisme is deep learning. Dat betekent dus dat er een input laag is. Er komt bijvoorbeeld een plaatje in, stel ik me zo voor, en dan wordt aan het einde gezegd wat dat plaatje is. Daartussen gebeurt iets magisch? Er gebeurt iets magisch, ja zo zou je het kunnen omschrijven. Dus wat we vroeger deden is... we specificeren op basis van de kennis in ons hoofd. Bijvoorbeeld: "Een stoel heeft vier poten, daar kun je op zitten. Het heeft ook een rugleuning..." Nou, dat programmeren we uit. Vervolgens zie je: "Nou, dat ging best goed." Dan kon je inderdaad stoelen classificeren. Maar er was altijd wel een stoel te verzinnen die niet voldeed aan de beschrijvingen. Dus bij een Rietveldstoel dan ga je al de mist in. De doorbraak van deep learning is dus: Aan de hand van voorbeelden zelf die beslisregels als het ware uit de data filteren, en daar die beslissingen mee maken. Die beslisregels kunnen we er alleen niet meer uit distilleren, die zitten ingebakken. Wat we wel weten dat deep learning doet is dat er bij elke laag een abstractie komt. Dus als je bijvoorbeeld gezichten wilt herkennen in een plaatje dan zie je dus op het eerste niveau basale patronen die je typisch ziet in je gezicht. Dus een stukje oog, of een stukje neus, of een stukje van een oor. Hij gaat het plaatje dus steeds heel minutieus bekijken? Ja, hele kleine basiselementen worden dan gevonden. En elke laag verder wordt het steeds meer, wordt het groter. Dus opeens heb je niet één neusgat, maar twee neusgaten. Een stukje van de neus begint zich te ontwikkelen. Dat kun je met oren doen, met je jukbeenderen, met je wangen, etcetera. En nu een paar lager verder? En aan het eind van die laag wordt het een gezicht, en wordt het misschien een vrouwengezicht of een mannengezicht, of dat van een kind, enzovoort. Dus het wordt steeds dieper, een hogere laag van abstractie en het wordt steeds meer het object zoals wij het ook zouden herkennen. Dat is wat deep learning heeft bereikt. We hebben nu beeldherkenning en gezichtsherkenning. Nu snap ik niet hoe je dat ook met video kan, want daar heb je zoveel rekenkracht voor nodig, dat is bijna niet te doen. Rekenkracht is één dimensie. Je kan een video ook bekijken als een opeenvolgende set van plaatjes dus elk framepje uit de video behandel je als een plaatje en dan is het eigenlijk gewoon hetzelfde als plaatjes herkennen. Dat doen ook veel mensen zo. Video heeft nog een aantal additionele aspecten. De tijdsdimensie bezit ook heel veel informatie. Al die framepjes lijken heel erg op elkaar. Er zit veel herhaling in. Dat kan je benutten om versnellingen te realiseren. Je hoeft niet elk plaatje de bekijken want als je er één van de tien doet dan kom je er ook wel uit. Rekenkracht is zeker wel een onderwerp, dat moet je goed uitbalanceren, maar het is niet een beperkende factor nee..