Bookarang
Om te begrijpen hoe machine learning in de praktijk wordt toegepast, spreken we met Nina Nannini (NBD Biblion) en Victor Bergen Henegouwen (Bookarang).
Transcript:
Mijn naam is Nina Nannini, ik ben directeur van NBD Biblion. NBD Biblion is een bibliotheek service organisatie die allerlei diensten ontwikkelt ten behoeve van de openbare bibliotheken in Nederland. Je moet je voorstellen dat er twee miljoen boeken per jaar richting de openbare bibliotheken gaan. Die zijn in ieder geval door ons pand heen geweest. Ook de data die je nodig hebt om die boeken aan te schaffen en te ontsluiten. Het probleem was dat het gemiddeld tot 6 maanden duurde voordat een bibliotheekboek in de bibliotheek kwam. In 2018 wilden bibliotheken toch wel heel graag dat die boeken sneller naar hun toe zouden komen. Nou een onderdeel van het proces is het beschrijven van een boek, en dat is een heel tijdrovend arbeidsintensief proces. Ze vroegen aan ons: 'Kan dat niet sneller en goedkoper? Kun je dat niet efficiënter inrichten dan je dat nu doet? Zodat we ook die nieuwe titels veel sneller in de bibliotheek kunnen hebben. Want we willen leners die de moeite nemen om naar de bibliotheek te komen niet teleurstellen als het gaat om nieuwe boeken.' Nou als je zo'n heel groot vraagstuk moet oplossen, dan moet je denken aan automatisering. Dus heb ik gedacht van: 'Nou, volgens mij zouden we daar heel goed met Bookarang naar kunnen kijken.' Met name omdat Bookarang zich had gespecialiseerd in boeken, en er zijn maar weinig AI bedrijven die echt gespecialiseerd zijn in dit segment. Mijn naam is Victor Bergen Henegouwen. Ik ben directeur van Bookarang. Bookarang heeft één ambitie en dat is de alwetende digitale bibliothecaris te zijn. We komen eigenlijk uit de muziekindustrie. Niels, mijn compagnon komt uit de muziekindustrie, en Frederique komt de uitgeefwereld. In 2013 zagen we dat de recommendations begonnen in de wereld van de muziek, maar dat er eigenlijk nog niets was behalve 'andere mensen kochten ook' in de wereld van de literatuur. Daar hebben we ons toen op gestort. Nou, ieder probleem wat je probeert op te lossen vereist zijn eigen systeem. Je gaat ieder probleem apart bekijken en zoeken naar de beste methode om dat te doen. Soms kan het heel simpel, bijvoorbeeld woorden tellen, iedereen begrijpt dat als in een boek een wereldoorlog voorkomt en Duitsers en nazi's, dat het dan over de tweede wereldoorlog zal gaan. Maar een systeem kan veel complexer zijn dan dat. Je kunt dus ook naar combinaties van woorden kijken, je kunt naar clusters kijken, zitten er veel werkwoorden in, zitten en weinig werkwoorden in, zit er veel vaart in? Allemaal van dat soort facetten kan een model naar voren brengen. Op die manier kun je als je het goed doet, lezen als een mens maar dan met een computer. De titels die we hebben geselecteerd voor het project waren titels die we daadwerkelijk hebben beschreven. Eerst op de oude manier, en daarna zijn we die nog een keer gaan gebruiken om de computer te trainen om het op de nieuwe manier te doen. Je traint het systeem en op een gegeven moment heb je dat systeem ook gecontroleerd. Je kijkt naar de uitkomsten, en dan weet je met een bepaalde zekerheid dat antwoorden goed zijn. Dat wil niet zeggen dat alle antwoorden altijd % goed zijn, maar wel 95 of 99% goed. Dus heel veel zaken worden ook niet meer achteraf gecontroleerd door mensen omdat je weet dat het meestal goed gaat. Sommige dingen zijn heel raar. Bijvoorbeeld een titel die maar uit één letter bestaat. Nou dan zegt ons systeem van 'Hey dat is een rare titel.' en dan kijkt er een mens naar. Het kan natuurlijk wel degelijk dat de titel maar uit één letter bestaat, maar dat soort dingen worden gecontroleerd als het abnormaal is In principe kun je dus vaststellen dat een systeem de gewone dingen kan. Dus de dingen die veel voorkomen, waar die veel voorbeelden van heeft gezien. Dat is makkelijk voor het systeem. Dingen die heel zeldzaam zijn, ja daar slaat ie op hol. Een mooi voorbeeld vind ik zelf 'Het Baggerboek' van Ilja Pfeiffer. Dat heeft zinnen van pagina's lang waar iemand alleen maar aan het schelden en tieren is. Dat is een dusdanig andere tekst dan een gewoon boek. Daar snapt het algoritme niks van en daar komen hele rare uitkomsten uit. Maar dat wordt ook meteen geconstateerd. Omdat het vreemde uitkomsten zijn gaat het weer naar een mens. Ik ben zeker tevreden. We hebben vorige week een werkgroep van bibliotheken aan het woord gelaten en gevraagd: 'Wat vinden jullie er van?' Want zij zien nu voor het eerst de resultaten. Als het gaat om de kwaliteit van de metadata zijn ze voor het grootste deel dik tevreden, en de snelheid spreekt ze ook aan. Er is wat discussie over een tekst die gemaakt wordt door de computer en dat is nog 'work in progress', dus daar gaan we de komende periode nog met feedback vanuit de bibliotheek naar kijken van 'Wat kunnen we daarmee en hoe kan de computer daar nog beter in worden?' of als de computer het niet kan: 'Hoe kunnen we dan eventueel tegemoetkomen aan de wensen die de bibliotheken hebben over die tekst.'.