Kommentar von Mathias Golombek, Exasol In-Memory-Datenbanken sind Wegbereiter für BI und das IoT

Autor / Redakteur: Mathias Golombek / Nico Litzel

Es ist heute kein Problem mehr, die exorbitant wachsenden Datenmengen zu speichern. Sollen diese Daten dem Unternehmen jedoch etwas nützen, muss der schnelle und flexible Zugriff auf sie gewährleistet sein. Dafür brauchen Unternehmen eine Datenstrategie und Technologien, die keinen Flaschenhals zwischen Datenspeicherung und Anwendung entstehen lassen.

Anbieter zum Thema

Der Autor: Mathias Golombek ist CTO bei Exasol
Der Autor: Mathias Golombek ist CTO bei Exasol
(Bild: Exasol)

Big Data war erst der Anfang. Denn viele Daten zu erfassen, ist nur ein Teil der Herausforderung auf dem Weg zu einem datenbasierten Unternehmen. Sollen valide Geschäftsentscheidungen auf der Basis möglichst aktueller Zahlen getroffen werden, reichen monatliche oder wöchentliche Management-Reports nicht aus. Vielmehr sollten jederzeit flexibel Reports erstellt werden können, nicht nur management-, sondern ebenfalls fachabteilungsgetrieben – und beliebige Korrelationen sollten auswertbar sein. Die

Einbindung verschiedener Datenquellen und weiterer Systeme ist ebenfalls dringend notwendig. Erst dann wird aus Big Data Business Intelligence und kann über ein BI Reporting hinaus zu einem Operation BI entwickelt werden – der automatisierten Steuerung von Geschäftsentscheidungen aufgrund von Datenanalysen.

Noch geschäftskritischer ist die Echtzeit-Auswertung großer Datenmengen, wenn IoT-Szenarien (Internet of Things) umgesetzt werden sollen. In Industrie-Umgebungen beispielsweise, in denen IoT-Daten benutzt werden, um Laufzeit-Optimierungen zu erreichen oder aufwendige Predictive-Maintenance-Modelle zu errechnen, ist die Verarbeitung riesiger Datenmengen aus mehreren Quellen in Echtzeit notwendig.

Vorteile der In-Memory-Technologie

Diskbasierte Speichersysteme wie Festplatten können zwar große Datenmengen aufnehmen, der Zugriff darauf ist für diese Anforderungen jedoch zu langsam. Deutlich kürzere Zugriffszeiten bieten In-Memory-Datenbanken (IMDB). Die Technologie ist schon einige Jahre alt, gewinnt aber aufgrund der aktuellen Big-Data-Anforderungen zunehmend an Bedeutung. Inzwischen bieten alle großen Hersteller von Oracle bis IBM In-Memory als Option auf ihre Datenbank-Lösung an. Es gibt aber auch Anbieter wie Exasol, die ihre Datenbank von Beginn an als IMDB entwickelten und die deshalb auf anderen, für analytische Zwecke optimierten Algorithmen basieren.

IMDBs nutzen den Hauptspeicher (RAM) als effizienten Beschleunigungs-Cache und können deshalb viel schneller darauf zugreifen. Das hat entscheidenden Einfluss auf die IT-Infrastruktur: Die Größe des Hauptspeichers bekommt eine übergeordnete Bedeutung. Noch bis vor einigen Jahren lag hier auch der entscheidende Kostennachteil der In-Memory-Technologie, denn RAM war deutlich teurer als Disk-Systeme. Inzwischen sind die RAM-Preise erheblich gesunken und Cloud-Infrastrukturen bieten weitere Möglichkeiten, Infrastruktur effizient nach Bedarf zu beziehen. Zwar wird mehr Hauptspeicher als bei herkömmlichen Datenbank-Systemen benötigt, überdimensioniert muss er aber auch nicht sein: Intelligente Systeme führen die Anfrage im Hauptspeicher durch, holen sich die Daten aber bei Bedarf aus anderen Speichersystemen. So genügt es zumeist, wenn der Hauptspeicher etwa zehn Prozent der Gesamtdatenmenge fasst. Vollautomatische Algorithmen sorgen dafür, dass die richtigen Daten im richtigen Moment im Hauptspeicher sind.

Was passiert jedoch mit den Daten beispielsweise bei einem Stromausfall oder Systemabsturz? RAM ist ein flüchtiger Speicher – ist die Energiezufuhr unterbrochen geht der Speicherinhalt verloren, die Persistenz der Daten kann ohne zusätzliche Maßnahmen nicht sichergestellt werden. Tatsächlich besteht dieses Problem nur bei IMDB-Systemen, die den Hauptspeicher für die Ablage der gesamten Datenmenge nutzen. Bei Lösungen, die den RAM als Beschleunigungs-Cache nutzen, liegen die gerade nicht genutzten Daten passiv auf der Festplatte, bis sie benötigt werden.

Ein typisches Merkmal von IMDBs ist zudem die massiv-parallele Datenverarbeitung. Vor allem entwickelt, um nicht auf den Hauptspeicher eines Systems begrenzt zu sein, trägt sie maßgeblich zur hohen Performance bei. Abfragen werden dabei automatisch auf alle Knoten eines Clusters verteilt. Jeder Server ist entsprechend mit einem Prozessor, Hauptspeicher sowie I/O für Festplatten-Zugriffe sowie einer Netzwerkverbindung zwischen den Servern ausgestattet und zwar so, dass mehr Daten gleichzeitig verarbeitet werden können. Diese sogenannte Shared-Nothing-Architektur ermöglicht es, durch das Zusammenschalten von vergleichsweise günstigen Standard-Rechnern hochperformante Cluster zu vereinen.

Auswahlkriterien für In-Memory-Datenbanken

Vor der Wahl eines geeigneten IMDB-Systems steht die Definition der Datenstrategie, denn ohne eine solche kann die In-Memory-Technologie ihre eigentlichen Vorteile kaum ausspielen. Nicht die reine Datenmenge ist entscheidend, sondern was mit den Daten geschehen soll. Unternehmen benötigen ein Konzept für alle Belange rund um die Datenerfassung, die Datenspeicherung und die Datenanalyse. Viele Unternehmen wissen Stand heute nicht oder nicht genau, welche Daten sie zu welchem Zweck erfassen und wo genau diese gespeichert sind.

Auch wenn die Anforderungen der Datenschutzgrundverordnung (DSGVO) hier einiges in Bewegung gebracht haben, sind durch die Digitalisierung in den letzten Jahren eher noch mehr Datensilos entstanden. Treiber sind hierbei Big Data, auf Hadoop basierende Projekte, die bereits erwähnten IoT-Initiativen, aber auch moderne Softwareentwicklungs- und Projektmethoden wie Agile Development.

Grundsätzlich ist es sinnvoll, wenn das gewählte IMDB-System zunächst als Erweiterung bestehender Infrastruktur eingesetzt werden kann. Die Lösung sollte deshalb hoch integrativ sein und mit den gängigsten Datenbanken, wie etwa Oracle oder Microsoft SQL, zusammenarbeiten. Die neue IMDB kann dann zunächst einzelne Prozesse beschleunigen, wie zum Beispiel die Erstellung von Analysen in Echtzeit nach variablen Kriterien von allen Fachabteilungen, um dann organisch in das Unternehmen hineinzuwachsen.

Bei In-Memory-Datenbanken geht es vor allem um die Performance. Mithilfe standardisierter Benchmarks lassen sich die verschiedenen Systeme gut und unabhängig vergleichen. So bietet beispielsweise die Non-Profit Organisation TPC (Transaction Processing Performance Council) Benchmark-Tests an, die die Leistungsfähigkeit von Transaktions- und Datenbanksystemen veranschaulichen. Mit einem Proof-of-Concept – dank Cloud-Infrastrukturen zumeist recht unkompliziert aufsetzbar – können Unternehmen ihren individuellen Case selbst testen und ihren eigenen Benchmark erstellen.

Entscheidend für die Wahl des geeigneten IMDB-Systems können zudem die Integration von Data-Science-Sprachen wie R, Python oder SQL sowie die zertifizierte Unterstützung einer breiten Palette von BI-Tools sein.

Für Anwendungen ganz unterschiedlicher Art

Aufgrund ihrer Performance eignet sich die In-Memory-Technologie für die Echtzeit-Analyse großer Datenmengen. Längst fallen nicht mehr nur im Finanzwesen – beispielsweise bei der Analyse von Aktienkursen – Unmengen an Daten an, die blitzschnell analysiert werden müssen und auf deren Basis weitere Entscheidungen getroffen werden. Auch im Online-Handel gewinnen Echtzeit-Analysen an Bedeutung, sollen Kunden gezielt während ihres Einkaufs die genau passenden Produkte empfohlen bekommen.

Ein Praxisbeispiel ganz anderer Art liefern Krankenhausbetreiber: Um Infektionen vorzubeugen, werden zahlreiche Metriken jedes eingelieferten Patienten erfasst und zeitnah ausgewertet. Tritt eine Infektion auf, kann innerhalb kürzester Zeit die Ursache ermittelt werden. Dass die Analyse hier schnell gehen und die Informationen den Mitarbeitern zur Verfügung gestellt werden muss, liegt auf der Hand. In zahlreichen weiteren Branchen, von IoT-Anwendungen im Industriebereich bis hin zu Social-Media-Plattformen, entstehen heute so viele Daten, dass es nur mit hochperformanter Technologie möglich ist, Flaschenhälse und Wartezeiten zu vermeiden.

Das Unternehmen mit IoT wirklich Geld sparen können, zeigt ein Beispiel aus der System-Gastronomie und dem stationären Handel. Durch die Vernetzung von allem was Strom verbraucht – von Kühlschränken bis zur Beleuchtung – mit vorgefertigten elektronischen Schaltschränken, die in der Lage sind, zahlreiche Daten zu erfassen und auszuwerten, lassen sich die Temperatur oder die Helligkeit automatisch dem Bedarf anpassen. Wird der Waren-Kühlschrank zur Haupteinkaufszeit dauernd geöffnet, wird mehr gekühlt. Bleibt er zu weniger frequentierten Zeiten meist geschlossen, wird die Energiezufuhr nach unten geregelt. Enorme Einsparungen bei den Stromkosten werden erreicht.

Fazit

Business Intelligence bedeutet mehr als Datenerfassung. Erst wenn die Daten genutzt werden, um bei Bedarf einen Prozess anzupassen oder eine Entscheidung zu treffen, können sie ihr Potenzial entfalten. Und schließlich ist es das Wesen digitaler Geschäftsmodelle und des IoT, auf Daten zu basieren. Dazu brauchen Unternehmen zum einen eine Strategie, was mit ihren Daten möglich ist und zum anderen eine Technologie wie In-Memory, die schnell und flexibel große Datenmengen bewältigen kann.

(ID:45493152)