Overslaan en naar hoofdinhoud gaan

Data & Intelligence oktober 12, 2018

Hoe machine learning zorgt voor jouw portie favoriete content

https://www.deptagency.com/wp-content/uploads/2018/10/Luis-Bitencourt-Emilio.jpeg

350 miljoen gebruikers, meer dan 10 miljoen posts per maand en tonnen aan data. Achter de schermen van de sociale nieuwswebsite Reddit hoeven ze zich niet te vervelen. Maar hoe zorg je ervoor dat je gebruikers in de overvloed aan content net dát ene artikel te zien krijgen waar ze naar zoeken? Luis Bitencourt-Emilio vertelt op Dept Festival hoe machine learning daar een grote en onmisbare rol in speelt.

Van de gezondheidszorg tot slimme auto’s en van marketing tot beveiliging: machine learning wordt tegenwoordig in verschillende sectoren ingezet, ook in de digitale wereld, wat ons leven op allerlei vlakken raakt. Zo worden zelflerende algoritmes steeds meer gebruikt voor het automatiseren van complexe campagnes en dynamische content. Hoe dat achter de schermen in zijn werk gaat, weet Luis Bitencourt-Emilio als geen ander. Eerder werkte hij voor giganten als Microsoft en IBM en later stapte hij aan boord bij Reddit.

Voor wie dat laatste platform nog niet kent, Reddit is een sociale nieuwswebsite annex online community waar je niet snel uitgekeken raakt. “Je kan er eindeloos op zoek naar kattenfilmpjes, maar je vindt er ook hartverwarmende verhalen, zoals van iemand die haar nierdonor heeft gevonden via het platform”, licht Luis toe. Voor iedere gebruiker dus wat wils. Maar hoe zorg je ervoor dat gebruikers uit die duizenden onderwerpen precies die content vinden waar ze naar op zoek zijn?

De minpunten van het plusje en het minnetje

Ondanks het feit dat Reddit over gigantisch veel data beschikt, heeft het een aardig tijdje geduurd voordat duidelijk was hoe machine learning het best toegepast kon worden. De eerste stap naar machine learning algoritmes was de introductie van de ‘recommended’ tab. Met de collaborative filtering techniek creëerden ze bij Reddit een vector van jou als gebruiker, die was gebaseerd op wat jij een plusje of een minnetje gaf. Zo werd je gelinkt aan content van mensen die al eerder dezelfde dingen leuk hebben gevonden als jij.

“Een van de minpunten die hieraan kleefde, was dat maar 10% van de Redditors daadwerkelijk stemde op posts die ze wel of niet leuk vonden”, merkte Luis op. “En als ze het al deden, was het vaak maar één vote per dag.” Omdat er op deze manier te weinig content was om op te bouwen, waren machines nog niet in staat de juiste content te koppelen aan de juiste gebruiker. Wat nodig was, was toch, jawel, een goed staaltje menselijk inzicht.

Van populaire content naar persoonlijke content

Als er iemand was die dat menselijk inzicht had, was het Luis wel. Samen met zijn team keek hij naar hoe ze machine learning in konden zetten om de verschillende subpagina’s die Reddit rijk is nog verder te personaliseren. Deze pagina’s, ook wel subreddits genoemd, variëren van politiek, machines, sport en GIFjes. Door personalisatie niet meer af te laten hangen van collaborative filtering, maar van content-based methodes, kon er een nieuw model ontwikkeld worden dat gebruikers wist te koppelen aan de content waar ze specifiek naar op zoek waren. Zodat iemand die het platform afspeurt naar een pagina vol high-fivende katten niet wordt gekoppeld aan een subreddit over politieke verhoudingen in Europa.

Om ook de befaamde startpagina erbij te betrekken, keken Luis en zijn team hoe ze ook hier specifieke posts konden koppelen aan gebruikers. “Onze startpagina was twaalf jaar lang afhankelijk van een algoritme dat puur en alleen kon filteren op populariteit, dus ook daar wilden we een slimmer algoritme inzetten.”

Laat je retention rate niet links liggen

En dat goede, persoonlijke content werkt, blijkt wel uit de resultaten. De nieuwe technische infrastructuur die is ontwikkeld, had een positief effect op de gebruikerservaring. Door machine learning zagen mensen minder vaak ‘aanbevolen content’ die niet aansloot op hun interesses en bleven ze langer op de website hangen. “Vooral dat laatste is belangrijk, want juist deze ‘retention rate’ laat – in tegenstelling tot een ‘click rate’ – zien of je je gebruikers niet vermoeit met content die ze niet willen zien”, voegt Luis nog toe. “In andere woorden, een hoge ‘click rate’ zegt vrij weinig als mensen je website in no-time verlaten.”

Zoveel mensen, zoveel wensen

De overvloed aan data is zowel een zegen als een vloek. Het kan ons gigantisch veel inzicht bieden, maar zonder de juiste tooling wordt het een enorme opgave om door de bomen het bos te zien. Als er iets is dat Luis duidelijk heeft gemaakt, is dat Machine Learning niet iets is om bang voor te zijn, maar juist iets is dat we met open armen moeten ontvangen. Het kan ons datgene bieden dat we het liefst willen lezen en zien. Dus als je als actieve Redditor een pagina vol kattenplaatjes te zien krijgt, hoef je niet meer verrast te zijn, want nu je weet wat er allemaal achter de schermen vooraf gaat. Of misschien krijg je, zoals Luis, eindeloos veel hondenfilmpjes te zien. “Want zeg nou eerlijk,” voegt hij nog grappend toe, “honden zijn toch veel leuker dan katten?”

Vragen? We helpen je graag!