Was bringt ein Data Lake?

Der Schatz im Datensee

Grosse Mengen an Rohdaten, wie sie etwa von Sensoren in Industrie-4.0-Prozessen oder aus Social-Media-Datenströmen gewonnen werden, können von herkömmlichen Datenbanksystemen nicht auf gleich flexible Weise analysiert werden wie mit einem Data Lake. Eignet sich die Methode auch für KMU?

21.06.2018Text: tnt-graphics0 Kommentare
Datensee Schatz

Viele Unternehmen sammeln für Analysen grosse Datenmengen aus unterschiedlichen Quellen. So lange die Fragestellungen der Analysen im Voraus bekannt und die Datenmengen nicht sehr gross sind, können die Datenbeziehungen in einer herkömmlichen Datenbank gespeichert und jederzeit abgefragt werden. Wenn aber sehr grosse Mengen an Rohdaten auf unterschiedliche Weise ausgewertet werden sollen, bedarf es einer flexiblen Speicherlösung. «Wenn der Verwendungszweck einer Datensammlung im Vornherein noch nicht definiert ist, oder wenn die Daten als Trainingsgrundlage für maschinelles Lernen dienen sollen, ist der Data Lake die richtige Lösung», sagt Roland Krummenacher, Senior Software Architekt bei bbv.

Ein Data Lake eignet sich für flexible Analysen grosser Datenmengen. Solche können etwa in der Industrie 4.0 anfallen oder in der Analyse von Logdaten und Klick-Streams, in der Logistik, bei IoT-Anwendungen, aber auch bei grossen Mengen an Verkaufs-Transaktionen oder Video- oder Audio-Dateien.

Das Konzept des Data Lake

Um Rohdaten nutzen zu können, müssen sie zentral gespeichert sein. Dies sieht die Speicherung im Business Data Lake vor – also in einem «See» von Daten, der aus verschiedenen Quellen gefüllt wird. Der grosse Vorteil des Data Lake liegt in der beliebigen Nutzung der Daten. Insbesondere dann, wenn während der Datensammlung noch nicht klar ist, welche Analysen künftig gemacht werden sollen, lassen sich aus den heterogen Datensätzen nützliche Erkenntnisse generieren. Mit einem Data Lake bleibt ein Unternehmen also flexibler als mit einem Data Warehouse.

Eine anschauliche Definition des Data Lake gibt James Dixon, Gründer des Big-Data-Analysenunternehmens Pentaho, in seinem Blog: »Einen Data Mart kann man sich als ein Lager mit in Flaschen abgefülltem Wasser vorstellen, in denen die Flüssigkeit abgepackt und für den Gebrauch vorbereitet (strukturiert) ist. Im Gegensatz dazu steht das Wasser im Data Lake den Nutzern offen zur Verfügung, so dass verschiedene Nutzer das Wasser untersuchen, darin eintauchen oder Proben entnehmen können.»

Komplexe Analysen direkt im Data Lake

Insbesondere für komplexe Analysen sei der Data Lake gut geeignet. Die Abfrage ist im Moment noch komplex und eher für Spezialisten gedacht. Bei Data Warehouse können auch Endbenutzer mit Tools Abfragen einfach durchführen. «Die Analysesoftware kann direkt darauf zugreifen und die Resultate der Analyse ebenfalls im Data Lake speichern, von wo sie danach weiterverarbeitet werden können», sagt Krummenacher. «Sollen Abfragen gemacht, also zum Beispiel semantische Fragen beantwortet werden, die eine inhaltliche Interpretation ermöglichen, müssen die Daten im Data Lake vorliegen. So ist eine tiefere Analyse möglich.»

«Ob gesammelte Daten für ein Machine-Learning-Modell wertvoll sind, zeigt sich manchmal erst nach einer gewissen Zeit.»

Roland Krummenacher, Senior Software Architekt bei bbv

Wissensspeicher für Machine Learning

Datensammlungen im Data Lake können beispielsweise auch dazu verwendet werden, KI-Systeme zu trainieren. «Für Flugzeugbauer und Autohersteller können permanente Tonaufnahmen oder Vibrationsaufzeichnungen von Turbinen und Motoren dazu dienen, Prognosen zu künftigen Ausfällen zu machen», erklärt Krummenacher. Werden grosse Mengen an entsprechenden Aufzeichnungen in einem Data Lake miteinander verglichen, hilft dies dem KI-System festzustellen, welche Veränderungen bereits vor einem Betriebsausfall erkennbar sind.

Ähnliche Anwendungen können gemäss Roland Krummenacher beispielsweise auch in industriellen Anlagen oder mit jeglicher Art von vernetzten Geräten betrieben werden. «Ob gesammelte Daten für ein Machine-Learning-Modell wertvoll sind, zeigt sich manchmal erst nach einer gewissen Zeit.» So können latente Zusammenhänge aus dem Datensee «herausgefischt» werden, die mit anderen Speichermethoden verborgen geblieben wären.

Datenfriedhöfe vermeiden

Das Datensammeln auf Vorrat macht aber nur Sinn, wenn man einen konkreten Verwendungszweck vorsieht. Auf keinen Fall sollte man einfach sämtliche Daten sammeln, die anfallen, sondern bereits in der Planung berücksichtigen, welche Daten zu welchem Zweck gespeichert werden. Ansonsten entstehen teure Datenfriedhöfe, also Unmengen von Daten, die nie verwendet werden.

Ein Data Lake kann entweder im Unternehmen aufgebaut werden, was eine Investition in Hardware und Know-how bedingt, oder in der Cloud gemietet werden. In beiden Fällen werden dazu in der Regel entweder Werkzeuge aus dem Hadoop-Ökosystem oder von nicht-relationalen Datenbanken verwendet. Die Security-Vorkehrungen gestalten sich ähnlich wie beim traditionellen Datawarehouse. Doch «bei der Daten-Governance sind die Vorkehrungen etwas aufwändiger als bei herkömmlichen, relationalen Datenbanken», sagt Krummenacher. Für das Zuweisen von Zugriffsberechtigungen oder etwa das Aufzeichnen von Benutzerzugriffen gibt es weniger Routine-Lösungen als bei herkömmlichen Speichersystemen. Deshalb kann die Integration ins Unternehmensumfeld bei einem Data Lake komplexer werden als bei herkömmlichen Datenbanklösungen. Schliesslich muss man sich auch bei einem Data Lake Gedanken über Struktur und Organisation der Daten machen, sonst wird der See unbeherrschbar.

Der Experte

Roland Krummenacher

Roland Krummenacher war Cloud-Experte bei bbv. Während seiner Zeit bei bbv hat er über 40 Unternehmen zu Cloud-Themen beraten und in diversen Cloud-Projekten die technische Verantwortung getragen. Er war Microsoft Most Valuable Professional (MVP) für Azure und leitete die Cloud-Community von bbv.

Revenue Design

In vier Schritten zu neuen Ertragsquellen

Digitale Transformation
Digitalisierung im Gesundheitswesen

«Die Digitalisierung scheitert, wenn sie dem Menschen die Autonomie nimmt»

Digitalisierung
Digital Survey Experience für DemoSCOPE

Smarte Sozialforschung mit App neu definiert

Digitalisierung

Beachtung!

Entschuldigung, bisher haben wir nur Inhalte in English für diesen Abschnitt.

Achtung!

Entschuldigung, bisher haben wir für diesen Abschnitt nur deutschsprachige Inhalte.