nlaic logo


 

Bookarang

Om te begrijpen hoe machine learning in de praktijk wordt toegepast, spreken we met Nina Nannini (NBD Biblion) en Victor Bergen Henegouwen (Bookarang).

Transcript:

Mijn naam is Nina Nannini, ik ben directeur van NBD Biblion. NBD Biblion is een bibliotheek  service organisatie die allerlei diensten ontwikkelt  ten behoeve van  de openbare bibliotheken in Nederland. Je moet je voorstellen dat er twee miljoen boeken  per jaar richting de openbare bibliotheken gaan. Die zijn in ieder geval  door ons pand heen geweest. Ook de data die je nodig hebt om die  boeken aan te schaffen en te ontsluiten. Het probleem was dat het gemiddeld  tot 6 maanden duurde voordat een bibliotheekboek   in de bibliotheek kwam. In 2018 wilden bibliotheken toch wel heel graag  dat die boeken sneller naar hun toe zouden komen. Nou een onderdeel van het proces  is het beschrijven van een boek,   en dat is een heel tijdrovend  arbeidsintensief proces. Ze vroegen aan ons: 'Kan dat niet sneller en goedkoper?  Kun je dat niet efficiënter  inrichten dan je dat nu doet?  Zodat we ook die nieuwe titels veel  sneller in de bibliotheek kunnen hebben. Want we willen leners die de moeite nemen om naar de bibliotheek te komen   niet teleurstellen als het gaat om nieuwe boeken.' Nou als je zo'n heel groot vraagstuk moet oplossen, dan moet je denken aan automatisering. Dus heb ik gedacht van: 'Nou,   volgens mij zouden we daar heel goed  met Bookarang naar kunnen kijken.' Met name omdat Bookarang zich  had gespecialiseerd in boeken,   en er zijn maar weinig AI bedrijven die  echt gespecialiseerd zijn in dit segment. Mijn naam is Victor Bergen Henegouwen. Ik ben directeur van Bookarang. Bookarang heeft één ambitie en dat is de  alwetende digitale bibliothecaris te zijn. We komen eigenlijk uit de muziekindustrie. Niels, mijn compagnon komt uit de muziekindustrie,  en Frederique komt de uitgeefwereld. In 2013 zagen we dat de recommendations  begonnen in de wereld van de muziek,  maar dat er eigenlijk nog niets was behalve   'andere mensen kochten ook' in de wereld van de literatuur. Daar hebben we ons toen op gestort. Nou, ieder probleem wat je probeert op te lossen vereist zijn eigen systeem. Je gaat ieder probleem apart bekijken en  zoeken naar de beste methode om dat te doen. Soms kan het heel simpel, bijvoorbeeld woorden tellen, iedereen begrijpt dat als in een boek   een wereldoorlog voorkomt en Duitsers en nazi's, dat het dan over de tweede wereldoorlog zal gaan. Maar een systeem kan veel complexer zijn dan dat. Je kunt dus ook naar combinaties van woorden  kijken, je kunt naar clusters kijken,   zitten er veel werkwoorden in, zitten en weinig werkwoorden in, zit er veel vaart in? Allemaal van dat soort facetten  kan een model naar voren brengen. Op die manier kun je als je het goed doet,  lezen als een mens maar dan met een computer. De titels die we hebben geselecteerd voor het project waren titels die we  daadwerkelijk hebben beschreven. Eerst op de oude manier, en daarna zijn  we die nog een keer gaan gebruiken   om de computer te trainen om het op de nieuwe manier te doen. Je traint het systeem en op een gegeven moment  heb je dat systeem ook gecontroleerd. Je kijkt naar de uitkomsten, en dan weet je met  een bepaalde zekerheid dat antwoorden goed zijn. Dat wil niet zeggen dat alle antwoorden altijd  % goed zijn, maar wel 95 of 99% goed. Dus heel veel zaken worden  ook niet meer achteraf gecontroleerd door mensen   omdat je  weet dat het meestal goed gaat. Sommige dingen zijn heel raar. Bijvoorbeeld een titel die maar uit één letter bestaat. Nou dan zegt ons systeem van  'Hey dat is een rare titel.'  en dan kijkt er een mens naar. Het kan natuurlijk wel degelijk dat  de titel maar uit één letter bestaat,  maar dat soort dingen worden  gecontroleerd als het abnormaal is In principe kun je dus vaststellen  dat een systeem de gewone dingen kan. Dus de dingen die veel voorkomen, waar die veel voorbeelden van heeft gezien. Dat is makkelijk voor het systeem. Dingen die heel zeldzaam zijn, ja daar slaat ie op hol. Een mooi voorbeeld vind ik zelf  'Het Baggerboek' van Ilja Pfeiffer. Dat heeft zinnen van pagina's lang waar iemand  alleen maar aan het schelden en tieren is. Dat is een dusdanig andere  tekst dan een gewoon boek. Daar snapt het algoritme niks van en  daar komen hele rare uitkomsten uit. Maar dat wordt ook meteen geconstateerd. Omdat het vreemde uitkomsten  zijn gaat het weer naar een mens. Ik ben zeker tevreden. We hebben vorige week een werkgroep van bibliotheken  aan het woord gelaten en  gevraagd: 'Wat vinden jullie er van?' Want zij zien nu voor het eerst de resultaten. Als het gaat om de kwaliteit van de metadata  zijn ze voor het grootste deel dik tevreden,   en de snelheid spreekt ze ook aan. Er is wat discussie over een tekst  die gemaakt wordt door de computer   en dat is nog 'work in progress', dus daar gaan we de komende periode   nog met feedback vanuit de bibliotheek naar  kijken van 'Wat kunnen we daarmee   en hoe kan de computer daar nog beter in worden?' of als de computer het niet kan:  'Hoe kunnen we dan eventueel tegemoetkomen aan de  wensen die de bibliotheken hebben over die tekst.'.

 

Tags

 

 VIDEO

Deze video wordt aangeboden door Nederlandse AI Coalitie onder een Creative Commons-licentie.