Change Data Capture (CDC) – das Fundament der heterogenen IT
Wir haben uns in diesem Blog bereits mehrfach mit den unterschiedlichen Ansätzen befasst, die notwendig sind, um erfolgreich eine heterogene IT mit einer transparenten und gemeinsamen Datenbasis zu betreiben. Eine heterogene IT mit einem Mainframe und den Betriebssystemen z/OS und z/VSE stellt eine besondere Herausforderung dar. Die Gründe liegen auf der Hand und sind in diesem Blog bereits mehrfach beschrieben worden:
- historisch gewachsene Datenbestände
- nicht relationale Datenbanksysteme
- Satz- und Datenstrukturen, die nicht mit modernen Datenbanken kompatibel sind
In der Regel sind die Mainframe basierten Datenbestände für ein Unternehmen unverzichtbar und in der Regel auch die Basis für die Erweiterung der IT in Richtung neuer Systeme und Technologien.
Die Frage stellt sich, wie man diese Datenbestände in eine heterogene IT integrieren kann.
Die erste Stufe des Ausbaus einer monogamen in eine heterogene IT ist Laden (Bulk) der neuen Datenbanken mit den bestehenden Daten des Mainframes. Ab diesem Zeitpunkt sollten sowohl die Daten des Mainframes als auch die Daten der anderen Plattform(en) synchron gehalten werden.
Unterschiedliche Konzepte können hier auftreten:
Master-Slave
Die Daten des Mainframes werden ständig aktualisiert und repliziert auf die neue(n) Plattform(en) - für beispielsweise Analytics, Data Warehouse, Reporting, Cloud oder BigData.
Master-Master
Sowohl die Daten des Mainframes als auch die gleichen Daten der anderen Plattform(en) werden aktualisiert und müssen auf die jeweilige(n) Partnerplattform(en) repliziert werden. Diese bidirektionale Replikation muss gewährleisten, dass alle Änderungen in der Quelle festgestellt und in das Ziel appliziert, aber nicht mehr als Änderung zurückrepliziert wird.
Für beide Konzepte gilt, dass die jeweiligen Plattformdaten möglichst zeitnah aktuell sind.
Eine Grundvoraussetzung für eine aktuelle Entscheidungsfindung und Marktreaktion eines Unternehmens.
Ein regelmässiges Loading (BULK) der Datenbanken ist zu zeitaufwendig, fehleranfällig und vor allem nicht zeitnah
Die Lösung dieses Problems stellt die Fokussierung auf Änderungsdaten und auf die Ermittlung der Änderungsdaten dar: das Change Data Capture.
Change Data Capture (CDC) ist die Methode zur Durchführung des Datenreplikationsprozesses.
Wikipedia beschreibt CDC wie folgt:
CDC ist ein Ansatz zur Datenintegration, der auf der Identifizierung, Erfassung und Bereitstellung von Änderungen an Unternehmensdatenquellen basiert.
tcVISION ist eine Lösung mit einer großen Vielfalt von CDC Prozessoren für die unterschiedlichsten Datenbanken und Plattformen.
Alle nachfolgend aufgeführten Punkte treffen somit in vollem Umfang auf tcVISION zu.
tcVISION CDC erfasst die Änderungen an einem Datenspeicher (Datei oder Datenbank) und repliziert diese Änderungen (UPDATE, DELETE, INSERT) in ein oder mehrere Zielsysteme.
Für eine Mainframe-Umgebung ist es eminent wichtig, dass CDC mit geringem Overhead durchgeführt wird und die Verarbeitung und Transformation der Änderungsdaten auf der Zielplattform (Linux, Unix, Windows) durchgeführt wird.
Im Falle einer bidirektionalen Replikation unter Beteiligung eines Mainframes als Ziel und CDC auf einer Nicht-Mainframe-Plattform sollte nur das Einspielen (Apply) der Änderungsdaten auf dem Mainframe erfolgen und alle anderen Arbeitsschritte (Verarbeitung und Transformation) auf der Quelle.
Warum ist CDC – im Vergleich zum Kopieren der Daten – so wichtig?
CDC von tcVISION bietet eine Reihe von Vorteilen:
Synchrone Datenverarbeitung
CDC ist eine Echtzeit- bzw. zeitnahe Replikationsform und garantiert Datenaktualität für alle Geschäftsprozesse.
Unser Blog zu diesem Thema:
Realtime oder Near Realtime, das ist oft die Frage
Verbesserte Entscheidungsgrundlagen
Produktive Daten können in Echtzeit (oder geringer Latenz) für analytische Zwecke repliziert werden. Dies können Umgebungen sein für ein Data Warehouse, Cloud-Systeme oder BigData.
Kostenreduktion
Die mit CDC ermittelten Daten werden über das Netzwerk (WAN) in komprimierter Form übertragen. Die Kosten werden somit deutlich reduziert, da nur die Änderungen in komprimierter Form übertragen werden.
Die Vorteile, die Change Data Capture im Vergleich zu Verfahren wie ETL (Extract, Transfer, Load) oder einfaches Kopieren von ganzen Datenbeständen sind somit offenbar.
Ein weiterer wichtiger Punkt bei der Implementation einer Synchronisationslösung ist die Latenz. Wie schnell müssen die Änderungsdaten nach ihrem Entstehen ermittelt und verarbeitet werden? Die Frage stellt sich also: Muss die Ermittlung der Änderungsdaten in Real-Time erfolgen oder reicht eine Near Real-Time Ermittlung aus?
Realtime oder Echtzeit-Verarbeitung bedeutet, dass die Daten unmittelbar nach der Änderung erfasst und verarbeitet werden. Auch hier ist eine Latenzzeit zu erkennen, die sich jedoch in Bereichen unter einer Sekunde bewegt und so dem Begriff Echtzeit nicht entgegensteht.
Ist die gewählte Verarbeitung für die Datensynchronisation auf archivierte Logdateien bzw. Journals ausgelegt, sprechen wir von einer Near Realtime Verarbeitung. Diese Art der Verarbeitung wird oft in den Bereichen Analytics, Reporting und BigData eingesetzt.
tcVISION bietet sowohl Capture Methoden für Real-Time / Near Real-Time CDC als auch Methoden für Log Verarbeitung an. Diese seien hier noch einmal erwähnt:
Real-Time / Near Real-Time
Operating system | Method | Source |
---|---|---|
z/OS | Logstreams | CICS, Shared VSAM, tcVISION Logstreams |
Active Logs | Db2, IMS, ADABAS,DATACOM, IDMS | |
z/VSE | tcVISION collector | VSAM, Db2, DLI |
Active Logs | ADABAS, DATACOM, IDMS | |
Windows/UNIX, Linux | Active Logs | Db2, MS SQL-Server, Oracle, MySQL/MariaDB, ADABAS, PostgreSQL and more |
Log Verarbeitung
Operating system | Method | Source |
---|---|---|
z/OS | Archive Logs* | Db2, IMS, ADABAS,DATACOM, IDMS |
z/VSE | Archive Logs* | ADABAS, DATACOM, IDMS |
Windows/UNIX, Linux | Archive Logs* | Db2, MS SQL-Server, Oracle, MySQL/MariaDB, ADABAS, PostgreSQL and more |
*Archivierte Logs können entweder auf dem Mainframe oder auf einer Windows, Unix, Linux Plattform verarbeitet werden.
tcVISION ist eine extrem flexible, systemübergreifende Lösung für die zeitnahe, bidirektionale Datensynchronisation und Replikation auf Basis von Änderungsdaten:
- Datenaustausch wird zur Single-Step-Operation.
- Der Einsatz von Middleware oder Message Queueing ist nicht notwendig.
- Der Datenaustausch erfolgt im Raw-Format in komprimierter Form und reduziert sich auf das Delta von Änderungsdaten.
- Daten können in Echtzeit, zeitgesteuert oder ereignisgesteuert sowohl uni- als auch bidirektional bewegt werden.
Wenn Sie mehr erfahren wollen, setzen Sie sich mit uns in Verbindung oder melden Sie sich für unseren Newsletter an.