Big Data: Neues Validierungstool prüft bei Cross-Plattform-Migration von Daten

Googles Data Validation Tool ist Open Source und kompatibel mit BigQuery, Cloud SQL, MySQL, Oracle, Teradata sowie weiteren Datenbanken und Dateisystemen.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen

(Bild: ronstik/Shutterstock.com)

Von
  • Silke Hahn

Google hat ein neues Tool vorgestellt, mit dem sich Big Data bei der Migration aus so unterschiedlichen Quellen wie Data Warehouses, Datenbanken sowie Data Lakes validieren lässt. Das Data Validation Tool (DVT) ist Open Source und soll sicherstellen, dass beim Übertragen strukturierter oder teilstrukturierter Daten die Inhalte der Quellen und Zieltabellen identisch sind. Ausgangspunkt ist die Datenübertragung von der und in die Google Cloud, allerdings soll das Werkzeug gemäß DVT-Team herstellerübergreifend funktionieren.

Laut Ankündigung im Google-Blog ist das Tool in der Lage, das Matching von Daten nach jeder Bewegung automatisiert durchzuführen. Demnach prüft es unter anderem nach der Migration von Daten und Schema, nach der Übersetzung des SQL-Skripts und nach der ETL-Migration (Extract, Transform, Load) die übertragenen Daten auf ihre Übereinstimmung mit den Ausgangsdaten.

Laut Herausgebern war die Motivation zum Erstellen des Tools, dass die plattformübergreifende Validierung von Daten komplex und zeitaufwendig ist. Mit dem Data Validation Tool erhalten beispielsweise Nutzerinnen und Nutzer der Google Cloud die Möglichkeit, übertragene und empfangene Daten mit dem Datenbestand ihrer On-Premises-Systeme abzugleichen. Bislang scheint es keine Software für die automatisierte Validierung gegeben zu haben. Das von Google entwickelte Tool ist laut Blogeintrag insbesondere für die Integration in Google-Cloud-Dienste wie Cloud Composer, Cloud Functions und Cloud Run geeignet. Als quelloffenes Werkzeug steht es jedoch allen Interessierten für die Integration in der jeweils bevorzugten Umgebung zur Verfügung.

Plattformübergreifende Datenanalyse: Data Validation Tool als validierende Schnittstelle zwischen Datenbank- und Dateisystemen

(Bild: Google)

DVT ist ein in der Programmiersprache Python geschriebenes CLI-Tool (Command-Line Interface), das auf dem Ibis-Framework beruht. Bei Ibis handelt es sich um ein ebenfalls in Python erstelltes Framework zur Datenanalyse, mit dem sich unterschiedliche Datenquellen einbinden lassen und das die Konnektivität zu zahlreichen Datenbank- und Dateisystemen herstellen kann. Ibis soll laut Projektbeschreibung eine Brücke bauen zwischen lokalen Python-Umgebungen, Remote-Speichern und Ausführungssystemen wie SQL-Datenbanken und Hadoop-Komponenten (beispielsweise Spark, Hive, Impala). Das darauf aufsetzende Data Validation Tool ist unter anderem kompatibel mit den folgenden Verbindungstypen: BigQuery, Cloud Spanner, Teradata und Cloud SQL, aber auch mit Snowflake, Redshift, Postgres, FileSystem (GCS, S3 oder lokale Dateien).

Lesen Sie auch

Bei der Prüfung gleicht DVT vom Niveau der Tabelle bis zum Zeilenniveau Daten ab. Zunächst müssen Nutzerinnen und Nutzer eine Verbindung zu ihrer Datenquelle herstellen, dann die Validierung anstoßen. Hierbei können sie offenbar wählen zwischen dem Zählen der Tabellenzeilen, dem Zählen der Gruppen (nach Zeilen), dem Aggregieren von Spalten und weitere Filter erstellen. Auf dem Niveau einzelner Zeilen lässt sich zumindest bei BigQuery ein Hash-Vergleich durchführen.

Die vollständige Ankündigung ist im Google-Blog veröffentlicht. Wer sich für das Tool interessiert, kann die Projektbeschreibung des Data Validator bei PyPI einsehen. Dort finden sich Anleitungen zum Konfigurieren von Abfragen und zum Durchführen von Überprüfungen. Der Sourcecode zu DVT ist bei GitHub gehostet, wo sich die Entwicklung verfolgen lässt.

(sih)