Seit dem ersten Auftreten eines Computers sind Daten die unabdingbare Voraussetzung und Daseinsberechtigung. Computer verarbeiten und analysieren Daten in allen Bereichen unseres täglichen Lebens. Zu Beginn wurden Daten verarbeitet, um beispielsweise Kundenbeziehungen passiv zu verarbeiten. Rechnungen wurden erstellt und gedruckt für bestellte Waren. Kundenkonten wurden verwaltet, Dienstleistungen festgehalten, Flugbuchungen getätigt oder Arbeitsabläufe in der Produktion dokumentiert. Mit fortschreitender Technologie und immer leistungsfähigeren Maschinen wurde auch das Datenvolumen immer größer und die Bedeutung der Daten veränderte sich. Daten, die bisher eher dokumentatorisch waren und administrativ genutzt wurden, dienen immer mehr zur Strategieausrichtung und Planung zum Weiter- bzw. Ausbau von Geschäftsfeldern.

Daten in der modernen IT werden gesammelt und zentral in einer Cloud abgelegt. Das ist eine der Hauptaufgaben von tcVISION.

Basisdaten und Änderungsdaten aus traditionellen Datei- und Datenbanksystemen eines IBM Mainframes oder Basisdaten und Änderungsdaten aus Datenbanken von LINUX, Unix und Windowsplattformen zu gewinnen und einem oder mehreren Zielsystemen zur Verfügung zu stellen.

Für Unternehmen ist es wichtig, möglichst viele Daten ihrer Kunden zu erhalten, um diese und ihre Wünsche und Ansprüche besser zu verstehen. Um dieses Ziel zu erreichen, wurden Data Warehouses eingerichtet, die mit ihrem Aufbau überwiegend für Analytics und Reporting genutzt werden.

Daneben finden sich neue Konzepte für ein Datenmanagement: Data Lakes und Data Hubs.

Bevor wir die Unterschiede beleuchten, ist festzustellen, dass beide Konzepte Kandidaten für den Abbau von Datensilos, sind.

Sowohl Data Lake als auch Data Hub sind so aufgebaut, dass sie bereichsübergreifend auf dieselben Daten zugreifen können.

Dieser Artikel versucht, die Unterschiede zwischen diesen beiden Konzepten herauszustellen.

Data Lake

Wikipedia beschreibt einen Data Lake wie folgt:

Ein Data Lake ist ein System oder Repository von Daten, die in ihrem natürlichen/rohen Format gespeichert werden, üblicherweise Objekt-Blobs oder Dateien. Ein Data Lake ist in der Regel ein einzelner Datenspeicher, der Rohkopien von Quellsystemdaten, Sensordaten, sozialen Daten usw. enthält, sowie transformierte Daten, die für Aufgaben wie Reporting, Visualisierung, erweiterte Analysen und maschinelles Lernen verwendet werden.

Data Lakes wurden populär mit dem Erfolg von Hadoop, einem System, mit dessen Hilfe es sehr einfach möglich ist, Daten im Rohzustand in ein zentrales Repository zu senden und dort kostengünstig zu speichern. Beliebige strukturierte als auch unstrukturierte Daten aus relationalen Datenbanken, komma-separierte Daten, Daten im XML-Format, Daten aus PDF-Dokumenten oder E-Mails, Audio-, Video- oder Bilddateien können in einem Data Lake gespeichert werden, ohne Notwendigkeit, die Daten zu übersetzen. Da alle Daten in einem Data Lake aufgenommen werden, dient dieser als Aufbewahrungsort für Daten aus allen Teilen eines Unternehmens.

Allerdings müssen die Daten wieder abgerufen werden und die technischen Fähigkeiten und Hilfsmittel sind notwendig, um die originären Daten zu verarbeiten. Anbieter wie Amazon Web Services oder Microsoft unterstützten Data Lake Architekturen.

Ansonsten ist der Data Lake im Vergleich zu anderen Speicherlösungen eine einfache Art der Datenspeicherung.

Data Hub

Wikipedia beschreibt einen Data Hub wie folgt:

Ein Daten-Hub ist eine Sammlung von Daten aus mehreren Quellen, die zur Verteilung, gemeinsamen Nutzung und oft auch zur Unterteilung und gemeinsamen Nutzung organisiert sind.

In einem Data Hub sind die Daten homogenisiert und möglicherweise in mehreren gewünschten Formaten bereitgestellt. Oberstes Ziel ist die Bereitstellung und Vereinigung unternehmenskritischer Daten, um die Nutzung dieser Daten von mehreren Anwendungen zu ermöglichen. Die Datenintegrität bleibt dabei voll erhalten.

Data Hubs sind sehr gut geeignet für die Integration von mehrfach strukturierten, sich ändernden Daten. Sie bieten Agilität sowohl in Bezug auf die Dateneingabe als auch auf die schnelle Bereitstellung von Werten.

Data Hubs sind idealerweise die Anlaufstelle für Daten innerhalb eines Unternehmens. Bisher genutzte Point-to-Point-Verbindungen zwischen Anrufern (Caller) und Datenlieferanten (Supplier) müssen dafür nicht extra hergestellt werden.

tcVISION

tcVISION arbeitet sowohl mit Data Lakes als auch mit Data Hubs zusammen.

tcVISION ist eine äußerst leistungsfähige und agile Replikationsplattform. Sie agiert als der zentrale Lieferant von Daten, die sowohl aus der Online-Verarbeitung auf einem Mainframe-System entstehen (CICS, IMS/DB, Adabas/Natural, CA IDMS) sowie aus transaktionellen Daten aus Anwendungen aus dem Distributed Umfeld und verschiedener Cloud-Systeme. Änderungen an den Datenbeständen auf allen Plattformen werden von tcVISION in Echtzeit erfasst (Change Data Capturing) und in die Ziel-Systeme repliziert oder als Datenstrom übermittelt.

Die tcVISION-Lösung ist bestens dazu geeignet, Daten auf dem traditionellen Mainframe für alle Z Mainframe Betriebssysteme wie z/OS, z/VSE sowie z Linux mit einer Vielzahl von Datenbanksystemen im Distributed Umfeld, einer Big Data Umgebung oder Cloud-Systemen zu synchronisieren.

Eine Übersicht aller unterstützter Eingabe- und Ausgabeziele finden Sie hier.