Klein ist schön: Der Wert von strukturierten Daten

Structured Data

Obwohl große Datenmengen immer wichtiger werden, können es einfache, strukturierte Daten sein, die Ihnen alle Antworten geben, die Sie benötigen.

 

Es wird Sie nicht überraschen, wenn Sie erfahren, dass während ich dies schreibe, #bigdata durchschnittlich 1.400 Mal pro Stunde nach hashtags.org getwittert wird. Die Fähigkeit von Big Data, das Nutzerverhalten aufzuklären, ist mehr oder weniger der heiligste wirtschaftliche Gradmesser – und das schon seit einiger Zeit. Jedes Unternehmen will seine Verbraucher besser verstehen, und all die fragmentierten, unstrukturierten Informationen, die die Verbraucher in ihrem digitalen Nachlauf hinterlassen, versprechen dieses Verständnis.

 

Das Problem ist, dass große Datenmengen aufgrund ihrer Größe und Komplexität notorisch schwer zu bewältigen sind. Abgesehen davon, dass viele Unternehmen Zugang zu großen Datenmengen haben, die sie nicht selbst produzieren, kann der Prozess der Pflege von Daten für Reporting und Analyse sehr teuer sein. So stellen sich Unternehmen aller Größen und Glaubensrichtungen die Frage: Brauchen wir große Datenmengen? Wenn nicht, werden wir es eines Tages bald brauchen? Wenn wir uns nicht darauf vorbereiten, was werden wir dann verlieren, wenn es zu einem Gebot wird?

 

Was genau ist Big Data?

 

Unser erster Schritt bei der Beantwortung dieser Fragen ist die Disambiguierung großer Datenmengen, die im Laufe der Jahre eine Vielzahl von Bedeutungen angenommen haben. Beginnen wir mit einer konkreten Definition: Große Daten sind eine Masse von Informationen, die sich durch ihr hohes Volumen, ihre Geschwindigkeit und Vielfalt auszeichnen. Hohe Lautstärke bedeutet, dass es eine Menge Daten gibt, hohe Geschwindigkeit bedeutet, dass es immer mehr davon gibt, und hohe Vielfalt bedeutet, dass es in vielen verschiedenen Formaten erhältlich ist – nicht nur in Ihren Standardzeichenketten, ganzen Zahlen und Daten, sondern auch in Geodaten, Audio- und Videomedien, dreidimensionalen Arrays und mehr.

 

Der jüngste Hype um große Datenmengen hat diese Grunddefinition verwässert und auf eine Reihe anderer datenbezogener Prozesse ausgedehnt. Für die Zwecke dieses Artikels, denken Sie daran, was große Daten nicht sind.

 

  • Big Data ist keine Business Intelligence. Business Intelligence (BI)-Tools können verwendet werden, um Berichte über große Datenmengen zu analysieren und zu erstellen, aber große Datenmengen zu haben, ist nicht dasselbe wie eine Möglichkeit, diese zu analysieren.

 

  • Big Data ist nicht nur digital. Obwohl das Internet weitgehend für die Verbreitung großer Datenmengen verantwortlich ist, kann es auch aus traditionellen Quellen stammen.

 

  • Big Data sind nicht nur Daten von außerhalb Ihres Unternehmens. Unternehmen können und werden ihre eigenen großen Daten mit Hilfe von Anwendungen, Tracking-Systemen und Geräten ihrer eigenen Erstellung und/oder Implementierung generieren.

 

  • Big Data ist keine KI. Beide gehen jedoch Hand in Hand. Große Daten sind komplex genug, um Algorithmen der künstlichen Intelligenz zu “lehren”, wie man nach Mustern sucht und Ergebnisse basierend auf vorhandenen Informationen vorhersagt, aber große Daten zu haben, ist nicht dasselbe wie eine KI zu haben, um sie zu analysieren.

 

 

Verständnis für unstrukturierte Daten

 

Im Kern sind große Daten wirklich nur eine riesige Menge an Informationen. Aufgrund ihres hohen Volumens, ihrer Geschwindigkeit und Vielfalt passen große Daten jedoch nicht genau in die Tabellen, aus denen sich relationale Datenbanken zusammensetzen. Infolgedessen werden viele große Daten stattdessen in Schlüsselwertpaaren gesammelt. Vergleichen Sie dieses ordentliche Beispiel einer traditionellen Datentabelle, die Sie in einem RDBMS wie MySQL finden könnten, mit den darunter liegenden Wertepaaren.

 

 

Structured Relational Data

p1

 

Unstrukturierte große Datenmengen

 

<FacebookUser12345_Color, “Red”>

<Google+User23456_Beverage, “Dry Martini with a Twist”>

<FacebookUser12345_Beverage, “White Wine”>

<Google+Benutzer23456_Color, “Totally Teal”>

 

Während die strukturierten Datenwerte alle auf derselben Tabelle liegen und auf demselben Server gespeichert sind, existieren die Wertepaare in keiner bestimmten Reihenfolge und stehen in keinem inhärenten Zusammenhang zueinander. Sie können sogar auf verschiedenen Maschinen gelagert werden! Messiness ist der Preis, den wir für die Flexibilität und das Potenzial unstrukturierter Daten zahlen. Unstrukturierte Daten werden in nicht-relationalen Datenbanken wie MongoDB und Hadoop gespeichert, aber um daraus Berichte zu generieren, benötigen BI-Lösungen eine Art Organisationsschicht. Apache Hive ist eine solche Ebene. Es handelt sich um eine Data-Warehouse-Infrastruktur mit einer SQL-ähnlichen Schnittstelle, die auf Hadoop aufsetzt und BI-Anwendungen den Zugriff auf die unstrukturierten Daten über einen Konnektor wie ODBC ermöglicht. Aufgrund all dieser Schichten kann die sinnvolle Verwendung unstrukturierter Daten eine echte Herausforderung darstellen.

 

Das Erlernen der Organisation und Verwaltung Ihrer “kleinen Daten”, die oft als Betriebsdaten bezeichnet werden, kann dazu beitragen, zukünftige Ausflüge in große Datenmengen zu ermöglichen.

 

Die Feinheiten kleiner Datenmengen

 

Was heute als “kleine Daten” gilt, wurde früher nur noch als Daten bezeichnet. Der Begriff wurde geprägt, um strukturierte Daten von großen Daten zu unterscheiden, und trägt heute das Stigma, alltäglich und veraltet zu sein, zumindest aus medialer Sicht.

Auch wenn sie strukturierter sind als große Daten, sind kleine Daten alles andere als einfach. Strukturierte Daten beginnen ihren Lebenszyklus als so genannte Transaktionsdaten oder denormalisierte Daten, und sie müssen einen Normalisierungsprozess (ein Teil von ETL) durchlaufen, um berichtsfähig zu werden. Der Transformationsteil dieses Prozesses umfasst Schritte wie die Beseitigung von Datenredundanz, die Übersetzung kodierter Werte, das Zusammenführen von Tabellen und die Bereinigung von Benutzerfehlern.

Transaktionsdaten können so ankommen:

 

p2

 

und muss für Berichtszwecke in diese umgewandelt werden:

 

p3

 

Beachten Sie, dass die Vornamen der Benutzer von ihren Nachnamen getrennt wurden, Unterschiede im Eingabeformat korrigiert wurden und die dem Geschlecht jedes Benutzers entsprechenden Zahlenwerte durch Zeichenkettenwerte ersetzt wurden. Dies ist ein vereinfachtes Beispiel für einen Prozess, der für einige Unternehmen für Tausende von Tabellen wiederholt werden muss, die Hunderte von Zeilen enthalten und von Hunderten von Mandantengruppen mit unterschiedlichen Bedürfnissen und Berechtigungen aufgerufen werden. Es ist auch wichtig, ein Gleichgewicht zwischen normalisierten und denormalisierten Tabellen für Berichtszwecke herzustellen, denn je normalisierter ein Datensatz ist, desto mehr Tabellen hat er und desto unhandlicher wird er.

 

Die Daten so aufzubereiten, dass sie sich so verhalten, wie Sie es benötigen, kann eine profunde Lernerfahrung sein, ebenso wie die Analyse dieser Daten. Die Erstellung von Berichten und Visualisierungen zeigt oft, wo Ihr ETL-Prozess Verbesserungen bringen könnte.

 

Die richtigen Daten, groß oder klein

 

Das Wichtigste für Sie ist zu wissen, welche Art von Fragen Ihr Unternehmen und seine Wettbewerber stellen. Stellen sie Fragen, die von ihren Betriebsdaten leicht beantwortet werden können, oder sind sie auf der Suche nach Informationen, die sie noch nicht haben?

 

Maxwell Wessel, Geschäftsführer von SAP.io, bemerkt, dass “die meisten Unternehmen zu viel Zeit auf dem Altar der großen Daten verbringen”, wenn die kleinen Daten, die sie bereits haben, die Antworten auf ihre Fragen enthalten. Was Unternehmen tun müssen, ist, im Einklang mit ihrer jeweiligen Branche zu bleiben und zu üben, das Signal vom Rauschen zu trennen. Wenn eine kritische Masse von Menschen anfängt, Fragen zu stellen, die ohne große Daten wirklich unbeantwortbar sind – wenn große Daten auch die richtigen Daten sind – ist es an der Zeit, in die Nutzung unstrukturierter Informationen zu investieren.

 

In der Zwischenzeit ist der ungehinderte Zugriff auf strukturierte, operative Daten ein guter Ausgangspunkt, insbesondere wenn es sich um Ihren ersten Ausflug in die Geschäftsanalyse handelt. Dabei gibt es viel zu lernen, das Ihnen helfen kann, sich auf die Herausforderung der kommenden großen Datenmengen vorzubereiten.