nlaic logo


 

Pixels

Transcript:

Jouw specialisme is deep learning.  Dat betekent dus dat er een input   laag is. Er komt bijvoorbeeld een  plaatje in, stel ik me zo voor,   en dan wordt aan het einde gezegd wat dat  plaatje is. Daartussen gebeurt iets magisch? Er gebeurt iets magisch, ja zo zou je het  kunnen omschrijven. Dus wat we vroeger   deden is... we specificeren op basis van  de kennis in ons hoofd. Bijvoorbeeld:   "Een stoel heeft vier poten, daar kun je  op zitten. Het heeft ook een rugleuning..." Nou, dat programmeren we uit. Vervolgens  zie je: "Nou, dat ging best goed." Dan kon je inderdaad stoelen classificeren.  Maar er was altijd wel een stoel te verzinnen   die niet voldeed aan de beschrijvingen. Dus  bij een Rietveldstoel dan ga je al de mist in. De doorbraak van deep learning is dus: Aan  de hand van voorbeelden zelf die beslisregels   als het ware uit de data filteren,  en daar die beslissingen mee maken. Die beslisregels kunnen we er alleen niet  meer uit distilleren, die zitten ingebakken. Wat we wel weten dat deep learning doet is  dat er bij elke laag een abstractie komt. Dus als je bijvoorbeeld gezichten wilt  herkennen in een plaatje dan zie je   dus op het eerste niveau basale  patronen die je typisch ziet in   je gezicht. Dus een stukje oog, of een  stukje neus, of een stukje van een oor. Hij gaat het plaatje dus  steeds heel minutieus bekijken? Ja, hele kleine basiselementen worden  dan gevonden. En elke laag verder wordt   het steeds meer, wordt het groter.  Dus opeens heb je niet één neusgat,   maar twee neusgaten. Een stukje van de neus begint  zich te ontwikkelen. Dat kun je met oren doen,   met je jukbeenderen, met je wangen, etcetera. En nu een paar lager verder? En aan het eind van die  laag wordt het een gezicht,   en wordt het misschien een vrouwengezicht of een  mannengezicht, of dat van een kind, enzovoort. Dus het wordt steeds dieper, een hogere laag  van abstractie en het wordt steeds meer het   object zoals wij het ook zouden herkennen.  Dat is wat deep learning heeft bereikt. We hebben nu beeldherkenning en  gezichtsherkenning. Nu snap ik niet hoe   je dat ook met video kan, want daar heb je zoveel  rekenkracht voor nodig, dat is bijna niet te doen. Rekenkracht is één dimensie. Je kan een  video ook bekijken als een opeenvolgende set   van plaatjes dus elk framepje uit de video  behandel je als een plaatje en dan is het   eigenlijk gewoon hetzelfde als plaatjes  herkennen. Dat doen ook veel mensen zo. Video heeft nog een aantal additionele aspecten. De tijdsdimensie bezit ook heel veel informatie. Al die framepjes lijken heel erg op  elkaar. Er zit veel herhaling in. Dat kan je benutten om versnellingen te  realiseren. Je hoeft niet elk plaatje   de bekijken want als je er één van de  tien doet dan kom je er ook wel uit. Rekenkracht is zeker wel een onderwerp,  dat moet je goed uitbalanceren,   maar het is niet een beperkende factor nee..