Datamining is een relatief jonge bezigheid die erop gericht is (statistische) verbanden te vinden in grote datasets. De naam komt van graven en iets waardevols vinden. "Het uiteindelijke doel is iets over de toekomst te kunnen zeggen en verschijnselen uit het verleden kunnen beschrijven en uitleggen", licht managing partner Nico Kuijper van Cmotions toe. Datamining is niet alleen het toepassen van (statistische) technieken, maar ook een proces, waarmee analyses als proces kunnen worden ingericht (belangrijk voor hergebruik) en voor allerlei toepassingen ingezet kunnen worden. De moderne datamining tools ondersteunen dit soort processen en automatiseren zoveel mogelijk tijdrovend handwerk van de analist. Zijn bedrijf richt dataminingprocessen in en analyseert datasets afkomstig van de top van het Nederlandse bedrijfsleven, maar datamining kan voor ieder bedrijf dat met grotere hoeveelheden data werkt nuttig zijn.
Redenen om het wel te doen
Wanneer biedt datamining voor bedrijven een meerwaarde? Kuijper noemt daarvoor vijf redenen, te weten:
- Inrichten van een goed gestructureerd analyseproces. Eventueel is het mogelijk met moderne dataminingtools een virtueel datawarehouse, maar zeker een goede analysedataset te bouwen.
- Voorspellende modellering: organisaties willen graag een model waarmee ze iets kunnen zeggen over de toekomst, zoals risico dat klanten vetrekken, next-best offer next-best action acties, etc..
- Segmentatie of clustering: In de grote datasets moeten bijvoorbeeld verschillende klant- en/of productgroepen gevonden worden.
- Basketanalyses: wat zegt het aankoopgedrag van klanten over producten diensten die mogelijk interessant zijn om aan te bieden aan klanten die een bepaald product (nog) niet hebben (als PC en Printer dan ook een scanner)
- Summarisatie en visualisatie: manieren om data samen te vatten en verbanden zichtbaar te maken voor gebruikers
- Afwijkingendetectie: wat wijkt af van de normale waarden en kunnen we daar iets mee (fraude detectie)?
Et cetera.
Als voorbeelden van vraagstukken waar datamining om de hoek komt kijken, kun je denken aan een verzekeraar die wil weten of er een verband is tussen het aantal ongelukken(claims) en allerlei gegevens van klanten (bijvoorbeeld provincie). Is er een verband, dan zou de verzekeraar kunnen besluiten de premie in provincies met een groot risico te verhogen. Een andere vraag kan bijvoorbeeld zijn dat een telecomprovider wil weten welke klanten hun abonnement zullen gaan opzeggen door het gedrag van opzeggers over een bepaalde periode te analyseren. Zulke verbanden kun je er met datamining uithalen. Datamining is niet het simpelweg crunchen van grote hoeveelheden bulk data. primair is dat er een grondige probleem analyse plaatsvindt en vooraf wordt nagedacht welke data nodig zijn om bepaalde inzichten te verkrijgen en wat er vervolgens met mogelijke uitkomsten kan worden gedaan. Immers het vinden van interessante verbanden waar vervolgens geen actie op kan worden ondernomen, helpt de organisatie niet veel verder.
Redenen om het niet te doen
Idealiter schept analyse met een dataminingtool een model waarmee het gedrag van mensen of systemen redelijk nauwkeurig voorspeld kan worden. Of het levert een uitkomst op die vermoed werd maar die op het eerste gezicht juist niet voor de hand lag (beleidsondergravend cq beleidsondersteunend). Toch gebeurt het nog te vaak dat vol goede moed met een datamining traject begonnen wordt, maar de exercitie uiteindelijk niets oplevert. Volgens Kuijper kan dat aan de organisatie liggen die misschien wat al te enthousiast, maar onvoldoende voorbereid met datamining wil beginnen. Doe het niet wanneer:
- Er geen vermoeden is van wat er aan de hand zou kunnen zijn (business of domeinkennis is noodzakelijk). "Je moet weten waar je naar zoekt, anders vind je het ook niet", zegt Kuijper. Met andere woorden: weet waar je mee bezig bent. Anders gezegd datamining is geen tovermiddel die automatisch dingen voor je kan ontdekken,
- Als databeheer in de organisatie ontbreekt: is de data slecht, dan haal je daar ook niets uit.
- Als domeinkennis ontbreekt: als de betrokken personen bij het datamining project geen verstand van het omliggende domein hebben, dan is de kans op succes klein.
- Als statische kennis ontbreekt: datamining vereist gedegen statische kennis om gevonden verbanden te kunnen interpreteren en schijnverbanden van relevante uitkomsten te onderscheiden. Maar die kennis is ook nodig voor een gedegen datapreparatie.
- Als cruciale data ontbreekt: wil je iets weten over jouw prijsstelling, maar je hebt geen gegevens over de markt, dan kun je daar weinig over zeggen na datamining.
"Pas ook op voor niets zeggende verbanden", zegt Kuijper. "Je ziet vaak genoeg dat heel gemakkelijk verbanden worden gelegd die er eigenlijk niet zijn. Bijvoorbeeld dat mensen met een automatische incasso eerder bereid zijn om sneller hun factuur te voldoen. Of dat eigenaren van Mercedessen meer premie zouden moeten betalen omdat hun auto's vaker dan Rolls Royce's betrokken zijn bij ongelukken."
Het bepalen van de juiste vraagstelling en de opzet van het onderzoek is cruciaal voor het succes meent Kuijper. "Het belang van een goede beginfase is zeker 80% van het werk. De uitvoering slechts 20%. Je ziet dat organisaties veel meer tijd in de uitvoeringsfase steken. Ik zou zeggen: stop genoeg tijd in die voorbereiding!"
'Datakwaliteit is enorm belangrijk'
Zoals eerder gemeld, dient de datakwaliteit op orde te zijn. Hier kan ontzettend veel tijd in gaan zitten, waarschuwt Kuijper.
- Zijn er dubbele gegevens? Voorbeeld: Staan klanten maar echt één keer in het systeem?
- Zijn de gegevens volledig? Bijvoorbeeld is bij iedere persoon ook het inkomen vastgesteld?
- Zijn de gegevens actueel? Kan met zekerheid gezegd worden dat er geen overleden personen in de database staan?
- Zijn de gegevens correct? Klopt het e-mailadres eindigend op @hetnet.nl nog?
- Zijn de gegevens plausibel? Bijvoorbeeld kan het zijn dat de klant van 19 jaar oud een kind van 24 heeft?
- Klopt de metadata? Heeft de data nog steeds dezelfde betekenis als voorheen?
Waar het volgens Kuijper ook vaak misgaat is als lastige uitkomsten worden genegeerd, uitkomsten buiten de gestelde range worden geëxtrapoleerd of als steekproeven uit de losse pols worden gedaan.
CRISP
Een vaak gehanteerde methode bij datamining is CRISP, wat staat voor Cross Industry Standard Process for Data Mining. Dit procesmodel beschrijft een aantal best practices voor dataminers. Met CRISP wordt de exercitie opgedeeld in zes fasen: kennis van de business, kennis van de data, preparatie van de data, modellering, evaluatie en deployment. Het voordeel van het gebruik van CRISP is dat het voor alle branches werkt en met alle beschikbare tools compatible is. Daarnaast biedt het raamwerk houvast en sjablonen om analyse te kunnen doen.
Reageer
Preview