Was ist Data Mining

 

Mit Data Mining mehr Erfolg im Online Business

Wer einen Onlineshop hat oder als Unternehmer noch zusätzlich eine Webseite betreibt, ist natürlich daran interessiert, einen möglichst großen Kundenstamm zu haben. Darüber hinaus möchte er die Beziehung zu den bereits vorhandenen Käufern intensivieren. Da die Methoden des Online Marketing dafür jedoch nicht ausreichen, bietet es sich an, dafür auch noch Data Mining zu Hilfe zu nehmen. Denn nur wer sich möglichst genau auf die Bedürfnisse seiner Kunden einstellt, kann sich gegenüber der Konkurrenz am Markt behaupten.

Was versteht man unter Data Mining?

Data Mining nennt man die computergestützte Analyse umfangreicher Datenbestände und sogar des Big Data. Sie erfolgt mit dem Ziel, die darin verborgenen Muster und Zusammenhänge aufzuspüren und daraus eine Prognose abzuleiten. Diese hat wegen der sehr umfangreichen Datenanalyse eine hohe Wahrscheinlichkeit einzutreffen. Der ermittelte Trend erleichtert dann die Entscheidungsfindung des Unternehmers. Die rechnergestützte Datenanalyse erfolgt mithilfe spezieller Algorithmen, die wiederum auf mathematischen (Logik) und statistischen Methoden basieren. Sie ist sogar anhand von Big Data möglich. Das sind riesige Mengen digitaler Informationen, die sich mit den herkömmlichen Verfahren nur mühsam und wenig effizient untersuchen lassen.

Die Datenanalyse verwendet in der Vergangenheit gesammelte Daten, gibt die aktuelle Situation wieder und lässt im Unterschied zu den üblichen statistischen Verfahren, die nur Hypothesen überprüfen, sogar Schlüsse darauf zu, wie man die jeweilige Situation noch verbessern kann. Sie ist ein Teilgebiet des sogenannten Knowledge Discovery in Databases (KDD) Prozesses. Die mithilfe der computergestützten Datenanalyse entdeckten Muster sind für die Mehrheit der untersuchten Daten gültig (valide).

Der Begriff Predictive Analytics taucht oft im Zusammenhang mit Daten-Analysen auf. Er bezieht sich vorzugsweise auf statistisch orientierte Data-Mining-Verfahren. Wird die Untersuchung der umfangreichen Datenbestände zur Lösung betriebswirtschaftlicher Probleme in der Industrie angewandt, spricht man vom sogenannten CRISP-DM (Cross-industry standard process for data mining). Als Text Mining bezeichnet man die Analyse unstrukturierter Text-Daten. Diese Data-Mining-Sonderform nutzt dieselbe Methode, um die wichtigsten Informationen aus umfangreichen Text-Mengen wie beispielsweise Fachartikeln und Social Media Inhalten zu extrahieren.

Wie funktioniert Data Mining?

Die Daten-Analyse erfolgt nach der Definition einer bestimmten Fragestellung (Problem). Welche Methode danach zum Einsatz kommt, hängt davon ab, welches Ziel die Daten-Untersuchung hat. Ist das Ziel eine Daten-Klassifikation, teilt man den gewählten Datenbestand in bestimmte Daten-Klassen ein. Die Segmentierung fasst Daten mit gemeinsamen Merkmalen zu möglichst homogenen Gruppen zusammen. Mithilfe einer Abweichungsanalyse ermittelt man Datenbestände, die unabhängig von zusammenhängenden Daten existieren (statistische Ausreißer). Abhängigkeitsanalysen identifizieren kausale Beziehungen, die entweder zwischen verschiedenen Datenmengen oder innerhalb eines einzigen Datenbestandes bestehen (Daten mit mehreren Merkmalen). Ist es Ziel, eine Vorhersage zu treffen, tut man dies anhand der entdeckten Merkmale der verwendeten Datenmenge.

Für die Untersuchung der Daten werden beispielsweise Hochleistungsdatenbanken wie Google Big Table und Cassandra genutzt. Dies ist ein verteiltes Datenbank-Verwaltungssystem, das sich dank seiner hohen Funktionssicherheit und umfassenden Skalierbarkeit bewährt hat. Außerdem kommen verteilte Datei-Systeme und spezielle Graph-Datenbanken zur Anwendung. Vor dem Start der computergestützten Daten-Analyse werden die gewählten Daten gespeichert und in einzelne Teilbereiche gegliedert. Je nach gewählter Zielsetzung kann man sie nach einer einfachen Wenn-Dann-Beziehung oder nach komplexeren, miteinander verstrickten Mustern untersuchen. Detailliertere Informationen erhält man, wenn man die Analyse beispielsweise auf saisonal angebotene Produkte beschränkt. Die Daten-Analyse läuft in mehreren Schritten ab:
 

    • Auswahl der Daten, die für die definierte Fragestellung (Problem) relevant sind
    • Aufbereitung des Datenbestandes wie beispielsweise die Zusammenführung von Daten aus mehreren Quellen
    • Bereinigung der Datenmenge (Entfernen von Fehlern, Ersetzen fehlender Daten, Hinzufügen weiterer Merkmale, falls erforderlich)
    • Wahl des geeigneten Analyse-Verfahrens
    • Transformation der Daten in die erforderliche Form
    • Einsatz mathematischer Algorithmen zur Muster-Erkennung
    • Interpretation der Muster im Zusammenhang mit der Fragestellung
    • Überprüfung der gewonnenen Erkenntnisse auf ihre Anwendbarkeit auf das Problem

      Kann das Data Mining die Fragestellung nicht befriedigend lösen, greift der Daten-Experte auf eine der früheren Phasen des Analyse-Prozesses zurück und erzielt so eine Verbesserung des Ergebnisses. Data Mining arbeitet mit verschiedenen Verfahren wie Entscheidungsbäumen, künstlichen neuronalen Netzen, Clustern, Assoziations- und Regressionsanalyse.Um eine Klassifikation zu erstellen, nutzt der Daten-Experte das Entscheidungsbaum-Verfahren. Er teilt den Datenbestand in eine Test- und eine Trainingsmenge auf. Aus letzterer macht er mehrere Teilmengen, die in Bezug auf die jeweiligen Klassifikationsvariablen eine größtmögliche Homogenität haben. Anschließend entwickelt er ein Modell mit Baumstruktur, das er danach mithilfe der Testmenge kontrolliert. Ist die Fehlklassifikationsrate zu hoch, muss er sein Modell dahingehend überprüfen und korrigieren.Künstliche neuronale Netze (KNN) ähneln der Funktionsweise des menschlichen Nervensystems. Sie setzen sich aus Neuronen und ihren Kontaktstellen (Verknüpfungspunkten) zusammen. Die Neuronen verarbeiten die Daten über eine Input-, Aktivierungs- und Output-Funktion. Der Daten-Experte definiert bei diesem Verfahren zuerst den Typ, die Zahl und die Anordnung der Neuronen im Netzwerk und die Wertigkeit der einzelnen Verbindungen. Überschreitet der Input-Wert einen zuvor definierten Schwellenwert, aktiviert er damit zugleich das jeweilige Neuron. Der Output-Wert wird dann an die nachgelagerten Neuronen weitergeleitet. Im letzten Arbeitsschritt überprüft der Daten-Spezialist sein Modell, indem er die Gewichtung der Verbindungen einzeln verändert. Künstliche neuronale Netzwerke dienen der Erstellung von Klassifikationen und Clustern.

      Cluster-Verfahren sorgen dafür, dass die gebildeten Daten-Cluster in ihrem Innern so homogen wie möglich sind und sich Daten, die zu verschiedenen Clustern gehören, voneinander unterscheiden. Dafür verwendet der Daten-Spezialist Ähnlichkeits- und Entfernungsmaße. Die Assoziationsanalyse dient der Feststellung von Abhängigkeiten zwischen den einzelnen Merkmalen des Datenbestandes. Sie folgt der Regel: Wenn A vorhanden ist, gilt das auch für B. Die Regressionsanalyse ist ein Verfahren, das zur Klassifikation von Daten herangezogen wird. Mit ihrer Hilfe stellt man die Beziehung abhängiger zu unabhängigen Variablen fest. Bei der linearen Regression nimmt man einen linearen Zusammenhang zwischen den Variablen an (X wirkt auf Y ein). Die logische Regression legt einen kausalen Zusammenhang zwischen X und Y zugrunde. Ziel ist es, eine Prognose abgeben zu können.

      Wo wendet man Data Mining an?

      Das Verfahren zur Analyse großer Datenbestände wird heutzutage von/in

 

    • Finanzwirtschaft
    • Versicherungsunternehmen
    • Marketing
    • Online-Marketing
    • produzierenden Unternehmen (Industrie)
    • den Wirtschaftswissenschaften
    • der Medizin

      erfolgreich genutzt. Banken lassen damit die Bonität ihrer Kunden überprüfen, Versicherungsunternehmen Risiko-Analysen durchführen. Dazu werden vor allem künstliche neuronale Netze gebildet und ausgewertet. Kreditinstitute untersuchen die Daten von Kunden, die bereits einen Kredit von ihnen erhielten, und teilen sie entsprechend ihrer finanziellen Situation zum Zeitpunkt der Kredit-Zusage in vier Klassen ein. Diese Informationen dienen zur Entwicklung eines Prognose-Modells mit Kombinationen von Merkmalen, die den Kunden daran hindern, den erhaltenen Kredit zurückzuzahlen.Im Marketing untersucht man die umfangreichen Datenbestände, um genauere Aussagen über das Kaufverhalten der Kunden machen zu können. Produzierende Unternehmen setzen das Data Mining ein, um herauszufinden, wie sich die produzierten Stückzahlen eines bestimmten Produkts in einer bestimmten Region entwickeln und warum dies so ist. Das Online Marketing verwendet die Daten-Analyse, um mithilfe künstlicher neuronaler Netze und Cluster-Analysen Werbe-Adressaten in Zielgruppen einzuteilen. Das Assoziationsverfahren hat die Aufgabe, Marktkörbe detailliert zu untersuchen. Wirtschaftswissenschaften und Marketing bedienen sich der Cluster-Analyse, um Marktsegmente zu identifizieren. In der Medizin verwendet man die technische Big Data Analyse, um eine automatisierte Diagnostik durchführen und dynamische Prozesse innerhalb lebender Zellen untersuchen zu können. Außerdem ist das Data Mining bei der Genexpressionsanalyse hilfreich.

      Data Mining und Online Marketing

      Data Mining, das im Online-Marketing zum Einsatz kommt, nennt man auch Data Driven Marketing (datengetriebenes Marketing). Seine wichtigsten Ziele sind:

 

  • Optimierung angebotener Produkte entsprechend den Kunden-Bedürfnissen
  • Verbesserung der (Online) Marketing-Strategie
  • Ermittlung bevorzugter Produkte durch Auswertung der Warenkörbe
  • Förderung des Absatzes von Cross-Selling-Produkten
  • Identifizierung vorhandener Markt-Segmente
  • Bestimmung der Nachfrage nach bestimmten Produkten
  • Ermittlung der Merkmale der Zielkunden (Buyer Persona)
  • Steigerung der Umsätze
  • Bestimmung der Kunden-Interessen zwecks Stärkung der Kundenbindung
  • verbesserte Planung von Verkaufsveranstaltungen und Messeständen
  • Erhöhung der Nutzerfreundlichkeit von Verkaufswebseiten
  • Vorhersage von Verkaufstrends für das Folgejahr
  • Einschätzung der Stärke der Konkurrenten am Markt

    Das Data Mining SEO-Tool Keyword Planer beispielsweise hilft dem Online Marketer, die geeigneten Keywords und damit verbundene relevante Suchbegriffe zu finden. Der mit seiner Hilfe optimierte Webseiten-Content erhält höhere Besucherzahlen und mehr Kauf-Interessenten und Käufer. Außerdem verwenden Online Marketer die von Social Media wie Facebook und der Suchmaschine Google gesammelten Nutzer-Informationen wie Keywords, Wohnort, Freizeit-Aktivitäten, Lieblingsessen und andere Daten für ihre Werbe-Aktivitäten: Sie blenden dem jeweiligen User zielgerichtete Werbeanzeigen entsprechend seinen persönlichen Merkmalen ein, während er sich auf der betreffenden Seite aufhält. Wer also bei Facebook postet, dass er Kuchen-Fan ist, in der Stadt XY lebt und gerade Besuch erwartet, erhält während seines Aufenthalts bei Facebook plötzlich eine Werbeanzeige der nahe gelegenen Konditorei auf seinen Display. Google analysiert die über G-Mail verschickten E-Mails und die Suchanfragen bei Google Search, um dann im Rahmen des Data Driven Marketing zielgenaue Werbung versenden zu können. Da der Internet-Nutzer bei seinem Surfen oft Cookies in seinen Browser und PC gesetzt bekommt, bekommt er Werbeanzeigen zu den zu den Keywords seiner Google Suche passenden Produkten eingeblendet.Mithilfe des Data Mining lässt sich auch das Cross Selling deutlich verbessern. Der Einzelhandel sammelt kontinuierlich Big Data zum Kaufverhalten seiner Kunden. Dabei fand er heraus, dass junge Väter im Supermarkt außer Windeln oft noch zusätzlich Bier einkauften. Die Experten des Data Driven Marketing interpretierten diesen Umstand folgendermaßen: Junge Väter sind durch die Beaufsichtigung ihrer Kinder sehr gestresst und gönnen sich daher am Abend ihr wohlverdientes Bier. Eine erfolgreiche Cross-Selling Strategie mithilfe des Data Driven Marketing betreibt auch der Online-Gigant Amazon. Ruft der nach einem bestimmten Artikel Suchende die jeweilige Produkt-Seite auf, findet er dort weiter unten die Anmerkung: Kunden, die nach (dem Artikel) A suchten, kauften auch (die Produkte) B, C und D. Dabei handelt es sich um die anonymisierte Angabe der anderen Warenkorb-Artikel.Die Extraktion relevanter Informationen aus den CRM-Datenbanken mittels Data Mining hat nicht nur die Aufgabe, die aktiven von den nicht mehr aktiven Kunden zu trennen. Die aktiven Käufer sollen entsprechend ihrer individuellen Merkmale (Eigenschaften, Interessen, Vorlieben) mit noch besser passender E-Mail-Werbung beliefert werden. Die Interpretation der Kundendaten lässt sogar Prognosen darüber zu, ob sich der Kunde in naher Zukunft einen anderen Anbieter suchen wird. Da es für das werbende Unternehmen kostengünstiger ist, den Bestandskunden mit geeigneteren Angeboten zu halten, als einen neuen Kunden zu gewinnen, führt die Marketing-Abteilung die entsprechenden Verbesserungen durch.

    Betreiber von Onlineshops nutzen die mittels Data Mining (Cookies) gewonnenen Erkenntnisse über das Surf-Verhalten der Shop-Besucher dafür, die Seite inhaltlich und strukturell zu verbessern. Damit erzielen sie zugleich höhere Besucher- und letztlich auch Käufer-Zahlen. B2B-Unternehmen profitieren, indem sie die anlässlich einer Werbeveranstaltung durchgeführte Besucher-Umfrage mittels Data Mining auswerten lassen: So erfahren sie, welche Werbe-Stände und Aktivitäten von den Besuchern am besten angenommen wurden und können dann ihr zukünftiges Event-Marketing darauf abstimmen.

    Was ist Predictive Analytics?

    Predictive Analytics nennt man die Untersuchung von Datenmengen und Big Data, um danach Prognosen aufstellen zu können. Es bedient sich des klassischen Data Mining und außerdem noch statistischer Berechnungen, der Spieltheorie und Verfahren wie Simulation und Optimierungsrechnung. Die Daten-Analyse nutzt Datenbestände, die sich auf Vorgänge in der Vergangenheit beziehen, verknüpft sie mit aktuellen Daten und leitet daraus Aussagen über zukünftige Entwicklungen ab. Da die zur Untersuchung verwendeten Daten sehr umfangreich sind, erhöht sich damit automatisch auch die Genauigkeit der Vorhersagen. Ein typisches Beispiel für Predictive Analytics ist das Kredit-Scoring, die Abschätzung des Risikos, mit dem ein Bewerber seinen Kredit später nicht zurückzahlen kann.

    Personen, die im B2B-Vertrieb arbeiten, bewerten beispielsweise die bestehenden Leads in Bezug auf ein möglicherweise vorhandenes größeres finanzielles Volumen oder die Wahrscheinlichkeit eines erfolgreichen Kaufabschlusses. Im Online Marketing verwendet man die Analysen, um herauszufinden, welche Anzeige auf welcher Webseite eines bestimmten Werbe-Mediums am besten platziert ist. Außerdem nutzen Betreiber von Onlineshops die Methode, um festzustellen, mit welcher Wahrscheinlichkeit ihre Kaufinteressenten oder Bestandskunden ihre Kauf-Empfehlungen annehmen. Über die Gewinnung dieser Smart Customer Data ermöglicht die Methode noch zusätzlich Erkenntnisse über den Markt und hilft, Innovationen zu initiieren und voranzutreiben. Sind die auszuwertenden Daten Texte (Text Mining) wie Tweets, Facebook-Posts und Blogs, werden auch noch die wissenschaftlichen Erkenntnisse der Linguistik zur Interpretation herangezogen.

    Data Mining bei der Global Interlacing Group

    Global Interlacing unterstützt Unternehmenskunden mithilfe der Predictive Analytics. Die Data Mining-Spezialisten von Global Interlacing optimieren sämtliche Projekte des Suchmaschinen-Marketings. Sie nutzen die jeweils geeigneten Algorithmen und kombinieren sie zur Optimierung des Werbeerfolgs mit den bewährten Methoden des modernen Online Marketing. So kann Global Interlacing dazu beitragen, die Umsätze deutlich zu erhöhen. Da Global Interlacing über riesige internationale Datenbanken verfügt, lassen sich die Vorhersagen mit hoher Genauigkeit treffen.