Wolfgang Kelz, Tibco Software, über Data Wrangling Self-Service-Datenaufbereitung für schnellere Ergebnisse

Autor / Redakteur: Wolfgang Kelz / Nico Litzel

Der Erfolg von Analytics steht und fällt mit der Datenqualität: Das bedeutet: Wie akkurat, strukturiert und gut formatiert sind die zu analysierenden Daten?Bei den meisten Analyseprojekten wird bis zu 80 Prozent der Projektzeit für das Aufbereiten der Daten verschwendet, weil die Daten chaotisch, fehlerhaft und für eine Analyse nicht unmittelbar verwendbar sind.

Anbieter zum Thema

Der Autor: Wolfgang Kelz ist VP Solution Consulting EMEA bei Tibco Software
Der Autor: Wolfgang Kelz ist VP Solution Consulting EMEA bei Tibco Software
(Bild: Tibco Software)

Es gibt jedoch mittlerweile Analytics Tools wie Tibco Spotfire, die genau an diesem Problem ansetzen und das Leben der Datenanalysten erleichtern. Mit beispielsweise einer Inline-Datenanalyse, die eine einheitliche visuelle Analyse- und Aufbereitungsoberfläche bietet, werden Daten bereits bereinigt, während sie im Analyseprozess verarbeitet werden.

Was ist unter Data Wrangling zu verstehen?

Das Ziel von Data Wrangling ist es, Daten akkurat in einem Format vorliegen zu haben, das sich dazu eignet, ein ausgewähltes Analyseverfahren anzuwenden und visuelle und statische Auswertungen vorzunehmen. Dazu werden Methoden zum Sortieren und Umwandeln von Daten von einem Format in ein anderes verwendet.

Datenzugang einfach gemacht

Die Daten bereitzustellen ist der erste Schritt bei der Analyse. Erst wenn man mit der Analyse beginnt und in der Tiefe nach Antworten sucht, wird es in der Regel notwendig, Informationen aus verschiedenen Datenquellen zu verknüpfen und zu kombinieren.

Eine Datenaufbereitung ist immer vor einer Analyse notwendig. Der Haken dabei ist aber, dass Anwender meist nicht wissen, welche bzw. wie genau die Daten aufbereitet werden müssen bevor sie diese nicht untersucht haben. Von daher ist es sinnvoll, dass die Datenaufbereitung (Data Wrangling) auch während der Datenanalyse stattfinden kann. Denn sobald Anwender mit den Daten arbeiten, erkennen sie schnell, wo beispielsweise der Bedarf für neue Attribute, Gruppen und Kalkulationen besteht.

Auch in puncto Datenvalidität kann Data Wrangling einen wertvollen Beitrag leisten. Wenn in Datensätzen Änderungen vorgenommen werden, ist es wichtig diese im Nachgang nachvollziehen zu können. Eine visuelle Übersicht über Datenquellen, -verbindungen, -operationen und -transformationen in einem Schema-Diagramm ist dafür sehr hilfreich. Egal ob man Daten von verschiedenen Quellen bereinigt, diese kombiniert oder bereichert und transformiert, sollte man stets detaillierte Informationen über die Datenoperationen, die man vorgenommen hat, abrufen und sich idealerweise auch eine grafisch aufbereitete Vorschau der Ergebnisse darstellen lassen können. Ein verlässliches und eindeutiges Schema-Diagramm ermöglicht Anwendern, Best Practice Prozesse aufzustellen, zu managen und agil zu bleiben ohne dabei die Steuerung bzw. den Überblick zu verlieren.

Ein Überblick über Data-Wrangling-Funktionen

Für Analysten verringert sich der Aufwand erheblich, wenn sie Data-Wrangling-Funktionen direkt im Analyseprozess zur Hand haben. Zu den arbeitserleichternden Datenaufbereitungsfunktionen zählen beispielsweise folgende:

  • Das Zurücksetzen von Spalten unübersichtlicher Datensätze mit einem Klick in Spaltenwerte (Unpivot),
  • das Verändern der Reihenfolge und Kategorisierung von Daten,
  • das Verändern von Spaltennamen,
  • das Erstellen von Gruppenspalten,
  • das Verändern von Datentypen,
  • das Erstellen von neuen Spalten bzw. das Teilen von Spalten,
  • das Berechnen von Spaltenwerten,
  • das Ausfüllen von leeren Zellen sowie
  • das Formatieren von Zellen.

Data Wrangling im Einsatz

Rohdaten, die beispielsweise von Sensoren, Umformern, Detektoren oder Labormessgeräten stammen, können unterschiedliche Formate aufweisen, die eine Analyse schwierig machen. In einigen Fällen erfordert die Erhebungsmethode oder die Datenbankspeicherung, dass Daten in einem strukturierten Format vorliegen, das wiederum nicht für die Analyse oder das Erstellen von Visualisierungen geeignet ist.

So kann es zum Beispiel dazu kommen, dass Daten in einer Textdatei vorliegen, in der alle Datenwerte zusammengelegt worden sind, und Anwender für eine Analyse bzw. Visualisierung zunächst die Spalten in verschiedene Spaltenwerte mit unterschiedlichen Teilinformationen aufteilen müssen. Moderne Analytics- bzw. BI-Lösungen, die integrierte Datenaufbereitungsfunktionen haben, ermöglichen Anwendern mit nur wenigen Klicks ihre Daten optimal für eine Analyse und Visualisierung aufzubereiten.

Daten zum Standort in Längen- und Breitengrad-Spalten aufteilen
Daten zum Standort in Längen- und Breitengrad-Spalten aufteilen
(Bild: Tibco Software)

Breitengrad-Spalten aufteilen

Liegen beispielsweise in einer Standort-Spalte sowohl Längen- als auch Breitengrad vor, die mit einem Komma getrennt sind, müssen Anwender lediglich das Trennzeichen, in diesem Fall das Kommata, und die Anzahl der zu erstellenden Spalten eingeben, um neue Spalten zu bilden und die Datenwerte so vorliegen zu haben, dass sie für die Analyse genutzt werden können. Die Originalspalte mit den zusammengefassten Werten kann für die Analyse ausgeblendet werden.

Den Anfang bzw. das Ende eines Spaltenwertes entfernen
Den Anfang bzw. das Ende eines Spaltenwertes entfernen
(Bild: Tibco Software)

Ein weiteres Beispiel ist, wenn nicht relevante Zeichen in einer Spalte die Übersichtlichkeit der Daten verhindert. Mit Data-Wrangling-Funktionen können am Anfang oder auch am Ende eines Spaltenwertes eine gewünschte Anzahl an Zeichen mit einem Klick entfernt werden.

Neue Spalte für Werte automatisiert erstellen
Neue Spalte für Werte automatisiert erstellen
(Bild: Tibco Software)

Data-Wrangling-Funktionen können auch dann Abhilfe schaffen, wenn beispielsweise in einer Spalte mehrere Werte wie etwa Farben zusammengefasst sind. Der Anwender muss hier nur das Trennzeichen für das Teilen der Werte eingeben, die Anzahl der neu zu erstellenden Spalten berechnet die Analyselösung eigenständig. Sind beispielsweise fünf Farben in der Originalspalte zusammengefasst worden und es gibt im Datensatz keine Spalte, die mehr als fünf Farben aufweist, werden dementsprechend fünf Spalten generiert. Durch das Teilen des Spaltenwertes in neue logische Spalten, können Anwender die Daten, in diesem Fall die Farben, für eine Analyse nutzen.

Das große Potenzial von Data Wrangling

Unabhängig davon, wie groß die zu analysierenden Datenberge sind, können Data-Wrangling-Lösungen enorm dazu beitragen, die aufwendige und zeit-intensive manuelle Arbeit der Datenaufbereitung zu erleichtern. Die bislang komplexen Aufgaben werden vereinfacht und der Analyseprozess drastisch beschleunigt, was sich letztendlich auch positiv auf die Entscheidungsfindung auswirkt.

(ID:44504286)