Machine-learningtechnieken om churn te voorspellen

SIDN Labs gebruikt AI als middel om een probleem op te lossen, niet als doel op zich

SIDN Labs gebruikt AI – of beter gezegd machine learning – om slimme oplossingen voor problemen te bedenken. Om het DNS en de .nl-zone veiliger te maken en veilig te houden, ontwikkelde Labs eerder de logoherkenningstool LogoMotive, dat nu te vinden is in SIDN Merkbewaking en samen met DNS Belgium de tool RegCheck. Op dit moment onderzoeken research engineers Thijs van den Hout en Thymen Wabeke samen met het marketingdatateam of we met behulp van machine learning kunnen voorspellen of een domeinnaam binnenkort opgezegd wordt. Waardevolle kennis voor iedereen die met .nl-domeinnamen werkt.

Machine learning is het middel

Portret van Thijs van den Hout
Thijs van den Hout, research engineer bij SIDN Labs

Thijs en Thymen houden zich binnen SIDN Labs onder meer bezig met AI, maar zelf gebruiken ze liever de preciezere term machine learning. “AI is nu een beetje een catch-all phrase. Je kan aan 10 mensen vragen wat AI betekent en dan krijg je dus 10 verschillende definities. Dat maakt discussies erover gewoon lastig,” volgens Thijs.

Thymen: “Wij leggen het meestal zo uit: kunstmatige intelligentie is het doel, je wilt dat je computer iets intelligents doet. Bijvoorbeeld dat hij een goede tekst produceert of een relevante suggestie voor een domeinnaam doet. Een methode om dat te bereiken is door patronen in data te analyseren en daar kun je machine learning voor gebruiken.” Een ander verschil met het populaire gebruik van de term AI, is dat SIDN Labs zich meer bezighoudt met voorspellende AI en veel minder met generatieve AI, zoals OpenAI dat met ChatGPT doet.

Machine learning voor grootschalige analyses

Machine learning is uitermate geschikt voor het analyseren van patronen in grote hoeveelheden data. Neem het DNS-verkeer als voorbeeld. SIDN verwerkt per dag meer dan 4 miljard zoekopdrachten voor .nl. Thymen: “Als je daarin op grote schaal wilt grasduinen, is het onmogelijk om dit nog zelf te doen. Dan heb je machine learning nodig. Dan kan je bijvoorbeeld onderzoeken hoe je je netwerkconfiguratie kunt optimaliseren. Dat proberen we met ons autocastproject te doen: wereldwijd kijken naar waar we het beste nameservers kunnen plaatsen.”

Kansen voor registrars

Voor registrars biedt deze analyse van grote hoeveelheden data die we tot onze beschikking hebben met machine learning ook kansen. Ons logoherkenningstool in SIDN Merkbewaking is een typisch voorbeeld van het gebruik van machinelearningtechnieken. Maar ook RegCheck is een goed voorbeeld. Voor deze tool gebruiken we machine learning om een risico-inschatting te kunnen maken op basis van hoe groot de kans is dat een domeinnaamregistratie gebruikt wordt voor malafide doeleinden.

Het gebruik van dit soort tools om misbruik te detecteren is voor de meeste registrars interessant, omdat ze het potentiële misbruik op voorhand kunnen tegenhouden. Dat scheelt mogelijke slachtoffers van phishing, en voor domeinnaambeheerders wat opschoonwerk achteraf.

Indicatoren voor churn

Thymen Wabeke, research engineer bij SIDN Labs

Naast het gebruik van machine learning tegen misbruik, onderzoeken de research engineers ook andere kansen. SIDN Labs crawlt elke maand alle .nl-websites en analyseert de HTML-content. Deze data analyseren we om te zien hoe websites gebruikt worden. Staat er marketingcontent op, of een webshop? De resultaten kunnen we vervolgens categoriseren.

Maar met deze data kan SIDN Labs ook onderzoeken of er indicatoren te vinden zijn voor het opzeggen van een domeinnaam. “Dus als een domeinnaam bijvoorbeeld lange tijd niet actief gebruikt wordt, heeft die waarschijnlijk een hogere kans om het komende jaar opgezegd te worden. En zo zijn er misschien wel andere indicatoren te bedenken. Dat zijn we nu een het bedenken samen met onze collega’s van Business & Support”, zegt Thijs

Dit onderzoek naar de identificatie van factoren die misschien van invloed zijn op churn, bevindt zich nog in de beginfase. “We betrekken ook CENTR, er zijn 12 registry’s – de helft van alle CENTR-leden – die interesse hebben in het project en willen meewerken. Dit vraagstuk leeft dus bij heel veel andere registry’s. Maar voorlopig is de vraag nog: kúnnen we indicatoren ontdekken die voorspellen welke domeinnamen een grotere kans hebben om opgezegd te worden?”

Een positieve bijkomstigheid van dit project is dat de 2 datateams binnen SIDN nu meer actief de samenwerking opzoeken. “Bij Labs kijken we vanuit securityoogpunt naar onze datasets en bij Business & Support doet het datateam voornamelijk marketinganalyses. Het is leuk om te zien dat we nu echt de samenwerking opzoeken in dit project en van elkaars zienswijze leren. Ook dat is een doel binnen SIDN, om de teams meer bij elkaar te brengen.”

AI als middel, geen doel

Naast deze kansen, zijn er ook bedreigingen. Daarom hanteert SIDN Labs altijd het principe ‘human-in-the-loop’. Onze systemen nemen geen geautomatiseerde besluiten over wijzigingen aan domeinnamen, er zit altijd een menselijke factor tussen.

Daarnaast is het volgens Thijs en Thymen ook noodzakelijk om het doel voor ogen te houden. Thijs: “Ik vind het belangrijk dat AI als middel wordt gebruikt om een doel te realiseren, niet als doel op zich. Er zijn nu heel veel bedrijven die AI willen gebruiken, omdat het leuk is om te vertellen aan hun stakeholders. Maar het is belangrijker dat AI als tool wordt gebruikt om een probleem op te lossen. Vaak is er geen probleem en proberen ze toch iets te bouwen met AI.”

Thymen is het hiermee eens, maar hij wil ook per probleem nauwkeurig bekijken of AI wel het juiste middel is om het gestelde doel te bereiken. “AI wordt nog wel eens gezien als een tovermiddel. We pakken een beetje AI van de plank en het werkt. Maar zo eenvoudig is het niet.” Thymen ziet dat voor heel veel problemen AI niet de geschikte tool is. “Systeem Risico Indicatie (SyRI) en de toeslagenaffaire zijn 2 bekende Nederlandse voorbeelden waarbij beslissingen op basis van data en algoritmes verkeerd uitpakten.

Hij ziet het als zijn persoonlijke missie om te zorgen dat we de juiste dingen doen en de investeringen die we doen ook terugkrijgen. “We denken bij SIDN goed na over de probleemstelling en aanpak voordat we naar de AI-gereedschapskist grijpen. Op deze manier voorkomen we desinvestering en kunnen we denk ik trots zijn op een aantal mooie resultaten waarbij we machine learning succesvol hebben toegepast.”

Dit churnonderzoek doen wij ook om .nl-registrars te steunen. Wij houden jullie op de hoogte van de onderzoeksresultaten en vervolgstappen die voor jullie relevant zijn.