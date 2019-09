Data mining is pas echt zinvol als het wordt aangevuld met text mining - Dat data in potentie een schat aan informatie bezitten, is geen heel groot geheim meer. Binnen veel organisaties zijn dataspecialisten dan ook naarstig bezig met wat ook wel data mining genoemd wordt.



Data mining is de zoektocht naar bruikbare, relevante databronnen voor business intelligence-toepassingen. Wat niet iedereen weet, is dat data mining een belangrijk deel van de schat aan informatie buiten beschouwing laat. Data mining is pas echt zinvol als het wordt aangevuld met een complexere variant: text mining.

Cyrill Tiwon, Director Presales Benelux & Nordics bij OpenText, vertelt over het verschil tussen data mining en text mining. "Data mining en text mining hebben allebei een andere aanpak wanneer het op analytics aankomt. Wat ze echter gemeen hebben, is dat ze allebei niet op één technologie leunen, maar gebruikmaken van verschillende methodes om beschikbare data om te zetten in waardevolle inzichten en kennis."



Data mining

Bij gestructureerde data kan een combinatie van statistieken, kunstmatige intelligentie en machine learning worden toegepast, met verschillende doeleinden:





Associatie bepaalt hoe waarschijnlijk het is dat twee zaken (ongeveer) tegelijkertijd voorkomen in de toekomst. Bijvoorbeeld; bij salestrajecten kan de associatiefunctie het patroon van het tegelijkertijd kopen van melk en cornflakes aan het licht brengen.

Classificatie laat patronen zien die worden gebruikt om de klasse te voorspellen waarin de data belanden. Denk hierbij aan weersvoorspellingen die aangeven of het zonnig of bewolkt zal zijn op basis van weersomstandigheden.

Clustering structureert data op basis van overeenkomsten en groepeert het in clusters om zo nieuwe feiten over die data te herkennen. Dit wordt bijvoorbeeld gebruikt voor marktsegmentatie.

Regressie voorspelt een waarde in cijfers aan de hand van variabelen uit een bepaalde dataset. Zo wordt de prijs van een tweedehandsauto bepaald op basis van kilometerstand en andere variabelen.

Analytics en business intelligence platforms kunnen snel informatie herkennen en terugvinden in grote sets gestructureerde data en door data mining modellen creëren die descriptive, predictive en prescriptive analytics mogelijk maken.



Text mining

Bij text mining komt er een extra tussenstap aan te pas. "Aangezien de data nog ongestructureerd is, moet er eerst structuur worden aangebracht om het te kunnen analyseren," zegt Tiwon. "Hier is slimme statistische en taalkundige techniek voor nodig; zo kan een breed spectrum aan ongestructureerde tekstuele dataformats worden geanalyseerd en voorzien van metadata, zoals auteur, datum, en inhoud." Dit proces wordt doorgaans gelinkt aan een AI-techniek genaamd Natural Language Processing, waardoor het systeem de betekenis in mensentaal begrijpt. De metadata is cruciaal in het structureren van dit soort data. Zodra de data eenmaal voorzien is van meta-tags en gedefinieerd is, kunnen machines deze data lezen en analyseren.



De voordelen van data en text mining

Aangezien data mining gebruik maakt van het gestructureerde deel van de bedrijfsdata, levert deze methode vooral operationele en bedrijfsvoordelen. Bijvoorbeeld: het analyseren van data uit IoT-systemen om zo onderhoud van fabrieksmateriaal in te plannen, of het combineren van verkoopcijfers uit het verleden met klantgedrag om zo verkoopgedrag en de daarbij behorende vraag te voorspellen.

Text mining gaat volgens Tiwon nog een stapje verder: "Door grote hoeveelheden content te bundelen tot eenvoudig behapbare informatie krijg je inzicht in wat er over je wordt gezegd." Een veelgebruikte variant van text mining is Sentiment analysis, waarmee ude meningen en opvattingen van klanten en partners over uw bedrijf kunt monitoren door social content te analyseren.

Tot voor kort werd bij de meeste bedrijven voor het analyseren van data vanzelfsprekend voor data mining gekozen, aangezien dat meer grip geeft op de gestructureerde data. Er is echter een kentering gaande. De datavolumes rijzen de pan uit, het gros daarvan is ongestructureerd. Bedrijven weten inmiddels dat ze gebruik moeten maken van text mining om de waarde die in content en ongestructureerde communicatie verstopt zit, te benutten.

"In deze nieuwe wereld vol big data zijn de meeste bedrijven op zoek naar de ultieme combinatie van gestructureerde en ongestructureerde data om betere zichtbaarheid en inzicht in hun bedrijf en processen te krijgen," aldus Tiwon. "Om daadwerkelijk beslissingen te kunnen nemen op basis van data, is zowel data als text mining onmisbaar."



Mining versus mining



Data mining Text mining



Overzicht Een techniek waarmee naar Een techniek waarmee

patronen en onderlinge ongestructureerde tekstuele

verbanden in gestructureerde data in gestructureerde

data wordt gezocht informatie wordt omgezet, om

data-analyse mogelijk te maken



Type data Gestructureerde data uit grote Ongestructureerde tekstuele

datasets die te vinden zijn in data die je vindt in e-mails,

bijvoorbeeld databases, documenten, presentaties,

spreadsheets, ERP, CRM en video’s, file shares, sociale

boekhoudapplicaties media en online



Ophalen data Gestructureerde data is Ongestructureerde tekstuele

homogeen en geordend, data komt in vele verschillende

waardoor het makkelijk te vormen voor, op veel

vinden is verschillende applicaties en

systemen



Voorbereiding data Data die gestructureerd is, Taalkundige en statistische

maakt het verwerken van data technieken – zoals NLP –

in analytische modellen moeten worden toegepast om

eenvoudig ongestructureerde data

bruikbaar te maken voor

verdere analyse



Behoefte aan syste- Een overkoepelende Aangezien ongestructureerde

matiek taxonomie voor text mining is tekst in veel verschillende

niet nodig vormen en formats voorkomt,

is een overkoepelende

taxonomie voor de data

onmisbaar. Alleen zo past de

data in een algemeen

framework