Datenanalyse

Die Datenanalyse ist ein Prozess der Überprüfung, Bereinigung, Transformation und Modellierung von Daten mit dem Ziel, nützliche Informationen zu entdecken, Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Die Datenanalyse hat mehrere Facetten und Ansätze, die verschiedene Techniken unter verschiedenen Namen umfassen und in verschiedenen Bereichen der Wirtschafts-, Wissenschafts- und Sozialwissenschaften eingesetzt werden.

Data Mining ist eine spezielle Datenanalyse-Technik, die sich auf die Modellierung und Wissensermittlung für prädiktive und nicht nur für rein deskriptive Zwecke konzentriert, während Business Intelligence die Datenanalyse umfasst, die stark auf Aggregation basiert und sich hauptsächlich auf Geschäftsinformationen konzentriert. In statistischen Anwendungen kann die Datenanalyse in deskriptive Statistiken, explorative Datenanalyse (EDA) und bestätigende Datenanalyse (CDA) unterteilt werden. Die EDA konzentriert sich auf die Entdeckung neuer Merkmale in den Daten, während sich die CDA auf die Bestätigung oder Verfälschung bestehender Hypothesen konzentriert. Predictive Analytics konzentriert sich auf die Anwendung statistischer Modelle für die prädiktive Vorhersage oder Klassifizierung, während die Textanalytik statistische, linguistische und strukturelle Techniken anwendet, um Informationen aus Textquellen, einer Art unstrukturierter Daten, zu extrahieren und zu klassifizieren. Alle der oben genannten Punkte sind Varianten der Datenanalyse.

Die Datenintegration ist ein Vorläufer der Datenanalyse und die Datenanalyse ist eng mit der Datenvisualisierung und Datenverbreitung verbunden. Der Begriff Datenanalyse wird manchmal als Synonym für Datenmodellierung verwendet.

 

Prozess der Datenanalyse

 

Unter Datenanalyse versteht man das Zerlegen eines Ganzen in seine einzelnen Komponenten zur individuellen Untersuchung. Die Datenanalyse ist ein Prozess zur Gewinnung von Rohdaten und deren Umwandlung in Informationen, die für die Entscheidungsfindung der Benutzer nützlich sind. Die Daten werden gesammelt und analysiert, um Fragen zu beantworten, Hypothesen zu testen oder Theorien zu widerlegen.

Der Statistiker John Tukey definierte die Datenanalyse 1961 wie folgt: "Verfahren zur Datenanalyse, Techniken zur Interpretation der Ergebnisse solcher Verfahren, Methoden zur Planung der Datenerfassung, um ihre Analyse einfacher, genauer oder genauer zu machen, und alle Maschinen und Ergebnisse von (mathematischen) Statistiken, die für die Datenanalyse gelten".

Es gibt mehrere Phasen, die unterschieden werden können, wie im Folgenden beschrieben. Die Phasen sind iterativ, da Rückkopplungen aus späteren Phasen zu Mehrarbeit in früheren Phasen führen können.

Datenanforderungen
Die Daten sind als Input für die Analyse notwendig, die auf der Grundlage der Anforderungen derjenigen, die die Analyse leiten, oder der Kunden (die das Endprodukt der Analyse verwenden werden) festgelegt wird. Die allgemeine Art der Einheit, über die die Daten erhoben werden, wird als Versuchseinheit bezeichnet (z.B. eine Person oder Population von Personen). Spezifische Variablen für eine Population (z.B. Alter und Einkommen) können angegeben und erhalten werden. Die Daten können numerisch oder kategorisch sein (z.B. ein Textlabel für Zahlen).

Datenerhebung
Die Daten werden aus einer Vielzahl von Quellen erhoben. Die Anforderungen können von Analysten an die Verwahrer der Daten übermittelt werden, z.B. an das Personal der Informationstechnologie innerhalb eines Unternehmens. Die Daten können auch von Sensoren in der Umgebung, wie z.B. Verkehrskameras, Satelliten, Aufzeichnungsgeräten usw., erfasst werden. Es kann auch durch Interviews, Downloads aus Online-Quellen oder das Lesen von Dokumentationen erworben werden.

Datenverarbeitung
Die Phasen des Intelligenzzyklus, in denen Rohinformationen in verwertbare Intelligenz oder Wissen umgewandelt werden, ähneln konzeptionell den Phasen der Datenanalyse.

Datenbereinigung
Einmal verarbeitet und organisiert, können die Daten unvollständig sein, Duplikate enthalten oder Fehler enthalten. Die Notwendigkeit der Datenreinigung ergibt sich aus Problemen bei der Erfassung und Speicherung von Daten. Die Datenbereinigung ist der Prozess der Vermeidung und Behebung dieser Fehler. Zu den häufigen Aufgaben gehören der Datensatzabgleich, die Identifizierung von Ungenauigkeiten der Daten, die Gesamtqualität der vorhandenen Daten, die Deduplizierung und die Spaltensegmentierung. Solche Datenprobleme können auch durch eine Vielzahl von Analyseverfahren identifiziert werden. So können beispielsweise bei Finanzinformationen die Summen für bestimmte Variablen mit separat veröffentlichten Zahlen verglichen werden, die als zuverlässig angesehen werden. Ungewöhnliche Beträge, die über oder unter den vorgegebenen Schwellenwerten liegen, können ebenfalls überprüft werden. Es gibt mehrere Arten der Datenreinigung, die von der Art der Daten abhängen, wie z.B. Telefonnummern, E-Mail-Adressen, Arbeitgeber usw. Quantitative Datenmethoden zur Ausreißererkennung können verwendet werden, um wahrscheinlich falsch eingegebene Daten zu beseitigen. Die Rechtschreibprüfung für Textdaten kann verwendet werden, um die Anzahl der falsch eingegebenen Wörter zu verringern, aber es ist schwieriger zu sagen, ob die Wörter selbst korrekt sind.

Explorative Datenanalyse
Sobald die Daten bereinigt sind, können sie analysiert werden. Analysten können eine Vielzahl von Techniken anwenden, die als explorative Datenanalyse bezeichnet werden, um mit dem Verständnis der in den Daten enthaltenen Nachrichten zu beginnen. Der Prozess der Exploration kann zu zusätzlichen Datenreinigungen oder zusätzlichen Datenanforderungen führen, so dass diese Aktivitäten iterativer Natur sein können. Es können deskriptive Statistiken wie der Durchschnitt oder Median erstellt werden, um das Verständnis der Daten zu erleichtern. Die Datenvisualisierung kann auch verwendet werden, um die Daten in grafischer Form zu untersuchen und zusätzliche Einblicke in die Nachrichten innerhalb der Daten zu erhalten.

Modellierung und Algorithmen
Mathematische Formeln oder Modelle, die als Algorithmen bezeichnet werden, können auf die Daten angewendet werden, um Beziehungen zwischen den Variablen zu identifizieren, wie beispielsweise Korrelation oder Kausalität. Im Allgemeinen können Modelle entwickelt werden, um eine bestimmte Variable in den Daten basierend auf anderen Variablen in den Daten zu bewerten, mit einem Restfehler in Abhängigkeit von der Modellgenauigkeit (z.B. Data = Model + Error).

Inferenzstatistiken beinhalten Techniken zur Messung von Beziehungen zwischen bestimmten Variablen. So kann beispielsweise mit Hilfe der Regressionsanalyse modelliert werden, ob eine Werbeänderung (unabhängige Variable X) die Umsatzvariation erklärt (abhängige Variable Y). Mathematisch gesehen ist Y (Umsatz) eine Funktion von X (Werbung). Es kann als Y = aX + b + Fehler beschrieben werden, wobei das Modell so konstruiert ist, dass a und b den Fehler minimieren, wenn das Modell Y für einen bestimmten Wertebereich von X voraussagt. Analysten können versuchen, Modelle zu erstellen, die die Daten beschreiben, um die Analyse zu vereinfachen und die Ergebnisse zu kommunizieren.

Datenprodukt
Ein Datenprodukt ist eine Computeranwendung, die Dateneingaben entgegennimmt und Ausgaben erzeugt und diese in die Umgebung zurückführt. Es kann auf einem Modell oder Algorithmus basieren. Ein Beispiel ist eine Anwendung, die Daten über die Kaufhistorie des Kunden analysiert und andere Einkäufe empfiehlt, die dem Kunden gefallen könnten.

 

Stephen Few beschrieb acht Arten von quantitativen Nachrichten, die Benutzer versuchen können, aus einem Datensatz und den zugehörigen Grafiken zu verstehen oder zu kommunizieren, die zur Kommunikation der Nachricht verwendet werden. Kunden, die Anforderungen angeben, und Analysten, die die Datenanalyse durchführen, können diese Nachrichten im Laufe des Prozesses berücksichtigen.

  • Zeitreihen: Eine einzige Variable wird über einen bestimmten Zeitraum erfasst, wie beispielsweise die Arbeitslosenquote über einen Zeitraum von 10 Jahren. Zur Darstellung des Trends kann ein Liniendiagramm verwendet werden.
  • Rangliste: Kategorische Unterteilungen werden in aufsteigender oder absteigender Reihenfolge geordnet, wie z.B. eine Bewertung der Umsatzleistung (die Kennzahl) durch Verkäufer (die Kategorie, bei jeder Verkäuferin eine kategorische Unterteilung) während eines einzelnen Zeitraums. Ein Balkendiagramm kann verwendet werden, um den Vergleich zwischen den Verkäufern darzustellen.
  • Teil-zu-Ganz: Kategorische Unterteilungen werden als Verhältnis zum Ganzen gemessen (d.h. ein Prozentsatz von 100%). Ein Torten- oder Balkendiagramm kann den Vergleich von Kennzahlen darstellen, wie beispielsweise den Marktanteil der Wettbewerber in einem Markt.
  • Abweichung: Kategorische Unterteilungen werden mit einer Referenz verglichen, z.B. einem Vergleich der tatsächlichen vs. budgetäre Ausgaben für mehrere Abteilungen eines Unternehmens für einen bestimmten Zeitraum. Ein Balkendiagramm kann den Vergleich des Ist-Wertes mit dem Referenzwert darstellen.
  • Häufigkeitsverteilung: Zeigt die Anzahl der Beobachtungen einer bestimmten Variablen für ein bestimmtes Intervall, wie z.B. die Anzahl der Jahre, in denen die Börsenrendite zwischen Intervallen wie 0-10%, 11-20% usw. liegt. Für diese Analyse kann ein Histogramm, eine Art Balkendiagramm, verwendet werden.
  • Korrelation: Vergleich zwischen Beobachtungen, die durch zwei Variablen (X,Y) dargestellt werden, um festzustellen, ob sie dazu neigen, sich in die gleiche oder entgegengesetzte Richtung zu bewegen. Zum Beispiel die Darstellung von Arbeitslosigkeit (X) und Inflation (Y) für eine Stichprobe von Monaten. Typischerweise wird für diese Nachricht ein Streudiagramm verwendet.
  • Nominalvergleich: Vergleich kategorischer Unterteilungen in keiner bestimmten Reihenfolge, wie z.B. der Umsatz nach Produktcode. Für diesen Vergleich kann ein Balkendiagramm verwendet werden.
  • Geographisch oder geografisch: Vergleich einer Variablen über eine Karte oder ein Layout, wie z.B. die Arbeitslosenquote nach Bundesländern oder die Anzahl der Personen in den verschiedenen Stockwerken eines Gebäudes. Ein Kartogramm ist eine typische verwendete Grafik.

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.