Data Mining

„Everything that informs us of something useful that we didn’t already know is a potential signal. If it matters and deserves a response, it’s potential is actualized.”
John, Naisbett

Data Mining bezeichnet die computergestützte Analyse umfangreicher Datenbestände mit Hilfe von Algorithmen, künstlicher Intelligenz, Statistik und Programmen um die darin verborgenen Muster und Zusammenhänge aufzufinden. Mittels Data Mining können wir alles für die Zielsetzung Wichtige aus Datenbeständen analysieren und extrahieren und machen Big Data zu Smart Data. Diese Strukturen werden anschließend als Basis für Predictive Analytics und andere Verfahren genutzt.

Die Daten-Analyse erfolgt nach der Definition einer bestimmten Fragestellung (Problem). Welche Methode danach zum Einsatz kommt, hängt davon ab, welches Ziel die Daten-Untersuchung hat. Ist das Ziel eine Daten-Klassifikation, teilt man den gewählten Datenbestand in bestimmte Daten-Klassen ein. Die Segmentierung fasst Daten mit gemeinsamen Merkmalen zu möglichst homogenen Gruppen zusammen. Mithilfe einer Abweichungsanalyse ermittelt man Datenbestände, die unabhängig von zusammenhängenden Daten existieren (statistische Ausreißer). Abhängigkeitsanalysen identifizieren kausale Beziehungen, die entweder zwischen verschiedenen Datenmengen oder innerhalb eines einzigen Datenbestandes bestehen (Daten mit mehreren Merkmalen). Ist es Ziel, eine Vorhersage zu treffen, tut man dies anhand der entdeckten Merkmale der verwendeten Datenmenge.

Für die Untersuchung der Daten werden beispielsweise Hochleistungsdatenbanken wie Google Big Table und Cassandra genutzt. Dies ist ein verteiltes Datenbank-Verwaltungssystem, das sich dank seiner hohen Funktionssicherheit und umfassenden Skalierbarkeit bewährt hat. Außerdem kommen verteilte Datei-Systeme und spezielle Graph-Datenbanken zur Anwendung. Vor dem Start der computergestützten Daten-Analyse werden die gewählten Daten gespeichert und in einzelne Teilbereiche gegliedert. Je nach gewählter Zielsetzung kann man sie nach einer einfachen Wenn-Dann-Beziehung oder nach komplexeren, miteinander verstrickten Mustern untersuchen. Detailliertere Informationen erhält man, wenn man die Analyse beispielsweise auf saisonal angebotene Produkte beschränkt. Die Daten-Analyse läuft in mehreren Schritten ab: