Data Mining

Data Mining ist der Prozess der Entdeckung von Mustern in großen Datensätzen mit Methoden an der Schnittstelle von maschinellem Lernen, Statistik und Datenbanksystemen. Data Mining ist ein interdisziplinäres Teilgebiet der Informatik mit dem übergeordneten Ziel, Informationen (mit intelligenten Methoden) aus einem Datensatz zu extrahieren und in eine verständliche Struktur zur weiteren Verwendung zu transformieren. Data Mining ist der Analyseschritt des Prozesses "Knowledge Discovery in Datenbanken", kurz KDD. Neben dem Schritt der Rohanalyse beinhaltet es auch Aspekte des Datenbank- und Datenmanagements, der Datenvorverarbeitung, der Modell- und Inferenzüberlegungen, der Zinsmetrik, der Komplexitätsüberlegungen, der Nachbearbeitung entdeckter Strukturen, der Visualisierung und der Online-Updates.

Der Begriff "Data Mining" ist in der Tat ein Irrtum, denn das Ziel ist die Extraktion von Mustern und Wissen aus großen Datenmengen, nicht die Extraktion (Mining) von Daten selbst. Es ist auch ein Schlagwort und wird häufig auf jede Form von groß angelegter Daten- oder Informationsverarbeitung (Sammlung, Extraktion, Lagerung, Analyse und Statistik) sowie auf jede Anwendung von computergestützten Entscheidungsunterstützungssystemen angewendet, einschließlich künstlicher Intelligenz (z.B. maschinelles Lernen) und Business Intelligence. Das Buch Data Mining: Praktische maschinelle Lernwerkzeuge und -techniken mit Java (das hauptsächlich maschinelles Lernmaterial umfasst) sollten ursprünglich nur als praktisches maschinelles Lernen bezeichnet werden, und der Begriff Data Mining wurde nur aus Marketinggründen hinzugefügt. Häufig sind die allgemeineren Begriffe (groß angelegte) Datenanalyse und -analyse - oder, wenn man sich auf aktuelle Methoden bezieht, künstliche Intelligenz und maschinelles Lernen - angemessener.

Die eigentliche Data-Mining-Aufgabe ist die halbautomatische oder automatische Analyse großer Datenmengen zur Extraktion bisher unbekannter, interessanter Muster wie Datensatzgruppen (Clusteranalyse), ungewöhnlicher Datensätze (Anomalieerkennung) und Abhängigkeiten (Assoziationsregel-Mining, sequentielles Muster-Mining). Dabei werden in der Regel Datenbanktechniken wie räumliche Indizes eingesetzt. Diese Muster können dann als eine Art Zusammenfassung der Eingabedaten angesehen werden und können für weitere Analysen oder z.B. für das maschinelle Lernen und die prädiktive Analytik verwendet werden. So kann beispielsweise der Data-Mining-Schritt mehrere Gruppen in den Daten identifizieren, die dann verwendet werden können, um genauere Vorhersageergebnisse durch ein Entscheidungsunterstützungssystem zu erhalten. Weder die Datenerhebung, Datenaufbereitung noch die Ergebnisinterpretation und -berichterstattung sind Teil des Data-Mining-Schritts, sondern gehören als zusätzliche Schritte zum gesamten KDD-Prozess.

Die verwandten Begriffe Datenbaggerung, Datenfischerei und Data Snooping beziehen sich auf die Verwendung von Data-Mining-Methoden zur Stichprobenziehung von Teilen eines größeren Populationsdatensatzes, die zu klein sind (oder sein können), um zuverlässige statistische Rückschlüsse auf die Gültigkeit der entdeckten Muster ziehen zu können. Diese Methoden können jedoch bei der Erstellung neuer Hypothesen verwendet werden, um gegen die größeren Datenpopulationen zu testen.

 

Hintergrund

Die manuelle Extraktion von Mustern aus Daten erfolgt seit Jahrhunderten. Frühe Methoden zur Identifizierung von Mustern in Daten beinhalten Bayes' Theorem (1700er Jahre) und Regressionsanalyse (1800er Jahre). Die Verbreitung, Allgegenwart und zunehmende Leistungsfähigkeit der Computertechnologie hat die Fähigkeit zur Datenerfassung, -speicherung und -manipulation dramatisch erhöht. Da die Datensätze an Größe und Komplexität zugenommen haben, wurde die direkte "praktische" Datenanalyse zunehmend durch indirekte, automatisierte Datenverarbeitung ergänzt, unterstützt durch andere Entdeckungen in der Informatik, wie neuronale Netze, Clusteranalyse, genetische Algorithmen (1950er Jahre), Decision Trees und Entscheidungsregeln (1960er Jahre) und Support-Vektor-Maschinen (1990er Jahre). Data Mining ist der Prozess der Anwendung dieser Methoden mit der Absicht, versteckte Muster in großen Datensätzen aufzudecken. Es schließt die Lücke von der angewandten Statistik und der künstlichen Intelligenz (die in der Regel den mathematischen Hintergrund liefern) zum Datenbankmanagement, indem es die Art und Weise nutzt, wie Daten in Datenbanken gespeichert und indiziert werden, um die eigentlichen Lern- und Discovery-Algorithmen effizienter auszuführen, so dass solche Methoden auf immer größere Datensätze angewendet werden können.

Prozess

Der Prozess der Wissensentdeckung in Datenbanken (KDD) wird normalerweise mit den Phasen:

  1. Auswahl
  2. Vorverarbeitung
  3. Transformation
  4. Data Mining
  5. Interpretation/Bewertung

    definiert.

Es existieren jedoch viele Variationen zu diesem Thema, wie z.B. dem Cross Industry Standard Process for Data Mining (CRISP-DM), der sechs Phasen definiert:

  1. Geschäftsverständnis
  2. Datenverständnis
  3. Datenaufbereitung
  4. Modellierung
  5. Bewertung
  6. Bereitstellung

oder einen vereinfachten Prozess wie (1) Vorverarbeitung, (2) Data Mining und (3) Ergebnisvalidierung.

Umfragen, die in den Jahren 2002, 2004, 2007 und 2014 durchgeführt wurden, zeigen, dass die CRISP-DM-Methodik die führende Methodik der Data Miner ist. Der einzige andere in diesen Umfragen genannte Data-Mining-Standard war SEMMA. Allerdings berichteten 3-4 mal so viele Menschen über die Verwendung von CRISP-DM. Mehrere Forscherteams haben Rezensionen von Data-Mining-Prozessmodellen veröffentlicht, und Azevedo und Santos führten 2008 einen Vergleich von CRISP-DM und SEMMA durch.

 

Data Mining

Data Mining umfasst sechs gemeinsame Aufgabenbereiche:

  1. Anomalieerkennung (Ausreißer-, Änderungs- und Abweichungserkennung) - Die Identifizierung ungewöhnlicher Datensätze, die interessant sein könnten, oder Datenfehler, die eine weitere Untersuchung erfordern.
  2. Lernen von Assoziationsregeln (Abhängigkeitsmodellierung) - Sucht nach Beziehungen zwischen Variablen. So kann beispielsweise ein Supermarkt Daten über das Kaufverhalten der Kunden erheben. Durch das Lernen von Assoziationsregeln kann der Supermarkt feststellen, welche Produkte häufig zusammen gekauft werden und diese Informationen für Marketingzwecke nutzen. Dies wird manchmal als Warenkorbanalyse bezeichnet.
  3. Clustering - ist die Aufgabe, Gruppen und Strukturen in den Daten zu entdecken, die auf die eine oder andere Weise "ähnlich" sind, ohne bekannte Strukturen in den Daten zu verwenden.
  4. Klassifizierung - ist die Aufgabe der Verallgemeinerung der bekannten Struktur, um sie auf neue Daten anzuwenden. So kann beispielsweise ein E-Mail-Programm versuchen, eine E-Mail als "legitim" oder "Spam" zu klassifizieren.
  5. Regression - versucht, eine Funktion zu finden, die die Daten mit dem geringsten Fehler modelliert, nämlich zum Schätzen der Beziehungen zwischen Daten oder Datensätzen.
  6. Zusammenfassung - bietet eine kompaktere Darstellung des Datensatzes, einschließlich Visualisierung und Berichtserstellung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.