ETL-Prozess
Der ETL-Prozess gehört zu den Informatik-Grundlagen. Er ermöglicht es, Daten aus unterschiedlichen Quellen in wertvolles Wissen umzuwandeln. Auf dieser Seite erfahren Sie mehr über die Details!
Was ist der ETL-Prozess?
Der ETL-Prozess besteht aus den Einzelschritten Extract (E), Transform (T) und Load (L). Diese Methode aus der Informatik ermöglicht es, Daten aus verschiedensten Quellen zu lesen, aufzubereiten und in einem zentralen System zur Verfügung zu stellen.
Unternehmensrelevante Daten stammen heute aus unterschiedlichsten internen und externen Quellen. Um all diese Informationen nutzbar zu machen, müssen die verschiedenen Datenquellen zunächst erschlossen werden. Da es sich um verschiedene Formate handelt und nicht jeder einzelne Datensatz relevant ist, erfolgt im zweiten Schritt eine Bereinigung und Aufbereitung der Rohdaten.
Das Ziel ist es hierbei, die Daten in entscheidungsrelevante Informationen umzuwandeln. Abschließend werden die aufbereiteten Daten dann in einer zentralen Datenbank bzw. einem Data Warehouse (Datenbanksystem für Analysen) bereitgestellt, um sie für die Anwender zugänglich zu machen.
Die drei Schritte des ETL-Prozesses stellen sich zusammengefasst wie folgt dar:
- Extract / Extraktion („Herausziehen“) der Rohdaten aus unterschiedlichen Datenquellen
- Transform / Transformation (Umwandlung) in das Format und die Struktur der zentralen Zieldatenbank
- Load / Laden (Bereitstellen) der Daten im Zielsystem
Wann ist der ETL-Prozess sinnvoll?
Die Implementierung eines ETL-Prozesses ist immer dann empfehlenswert, wenn ein Unternehmen Zugriff auf Daten aus unterschiedlichen Quellen benötigt, um (unter Einsatz von Business Intelligence) fundierte Management-Entscheidungen zu treffen. Insbesondere, wenn Datenabfragen mit vorhandenen Mitteln schwer umzusetzen, fehlerbehaftet oder gänzlich unmöglich sind, macht die Einführung von ETL Sinn. Gleiches gilt, wenn ein Unternehmen eine zentrale Instanz für alle Datenanalysen realisieren möchte.
Ein weiterer Aspekt, der eng mit dem ETL-Schema in Verbindung steht, sind Big-Data-Analysen. Gemeint ist hiermit die Erschließung und Auswertung äußerst umfangreicher Daten unterschiedlichster Formate. Im Übrigen ist ETL nicht nur für Großunternehmen relevant. Auch für KMU mit wachsenden Datenmengen und Marktanforderungen ist der Ansatz von Bedeutung.
Nicht zuletzt wird der ETL-Prozess zur Migration von Daten zwischen verschiedenen Anwendungen und zur Datenreplikation zu Sicherungszwecken angewandt.
Warum ist ETL so wichtig?
ETL ist heute ein bedeutsamer Bestandteil von Business Intelligence (BI). Mit der Einführung ETL-basierter Prozesse und Tools verschaffen sich Unternehmen einen Wettbewerbsvorteil, da sie vorhandene Rohdaten in wertvolles Wissen transformieren und somit datengetriebene Entscheidungen treffen können. Kurz gesagt: ETL erhöht die Verfügbarkeit und den Wert von Daten deutlich.
Bedeutsam ist der ETL-Prozess jedoch nicht nur in puncto Datenerschließung, sondern auch hinsichtlich der Datenqualität. Selbstverständlich kann es nicht das Ziel von Unternehmen sein, Daten aus unterschiedlichen internen und externen Quellen ungeprüft für Analysen heranzuziehen. ETL sorgt deshalb auch dafür, dass nur konsistente und bereinigte Daten in Data Warehouses und BI-Tools gelangen.
Was sind die Vorteile eines ETL-Prozesses?
Neben dem bereits erwähnten Hauptvorteil - der Erschließung wertvoller Informationen - bringt der ETL-Prozess weitere Verbesserungen für Unternehmen mit sich. So sorgt er durch Integration dafür, dass sämtliche Unternehmensbereiche auf Basis einheitlicher Daten agieren. Er stellt zudem nicht nur Management-Informationen bereit, sondern ermöglicht es auch den Fachabteilungen, jederzeit Analysen zu unterschiedlichen Fragestellungen durchzuführen. Insgesamt ist der Datenzugriff außerdem weitaus schneller möglich, als bei traditionellen Ansätzen.
Dank der Transformation und Aggregation können die Quelldaten zudem in betriebswirtschaftliche Kennzahlen (KPIs) überführt werden. Folgeschritte wie grafische Darstellungen sind somit ebenfalls problemlos umsetzbar.
Download
Whitepaper "Die Datenfabrik"Finden Sie heraus, wie eine optimale Migrationsstrategie aussehen kann und was dafür erforderlich ist.
Wie läuft ein ETL-Prozess aus technischer Sicht ab?
In diesem Abschnitt möchten wir stärker ins Detail gehen und erklären, wie die Teilprozesse Extraktion, Transformation und Laden aus technischer Sicht ablaufen. Hierbei existieren durchaus verschiedene Herangehensweisen, die wir ebenfalls aufzeigen.
Schritt 1: ETL-Extraktionsprozess
Damit die Extraktion beginnen kann, werden in diesem Schritt zunächst Konventionen für die Verbindungsarten zu den verschiedenen Quellsystemen definiert. Zudem werden die Übertragungsarten festgelegt.
Weiterhin wird der Aktualisierungsrhythmus definiert. Hierbei kann zwischen einer synchronen und asynchronen Extraktion unterschieden werden. Bei der synchronen Extraktion werden Datenbestände fortlaufend aktualisiert. Sie befinden sich somit jederzeit auf dem neuesten Stand. Dieses Verfahren verursacht jedoch eine erhöhte Auslastung des Netzwerks. Aus diesem Grund nutzen einige Unternehmen die ressourcenschonende asynchrone Extraktion. Diese lässt sich für Zeitfenster einplanen, in denen ausreichende Ressourcen zur Verfügung stehen - etwa nachts.
Ferner kann die Extraktion anhand Ihres Umfangs unterschieden werden. Hier sind folgende Ausprägungen möglich:
- Statische Extraktion: Es wird ein komplettes Abbild der Datenbank erstellt (relevant für die Erstbefüllung und Wiederherstellung)
- Inkrementelle Extraktion: Nur die Änderungen zwischen der aktuellen und der letzten Extraktion werden ausgelesen
Schritt 2: ETL-Transformationsprozess
Der zweite Schritt des ETL-Prozesses ist die Datentransformation. Sie ist dafür zuständig, die Daten aus unterschiedlichen Quellen auf ein einheitliches, unternehmensintern verwertbares Format zu bringen. Unter anderem werden hierbei folgende Aktionen ausgeführt:
- Anpassung auf einheitliche Datentypen
- Konvertierung oder Neu-Codierung (z. B. bei Ländercodierungen)
- Vereinheitlichung von Zeichenketten und Zeitangaben
- Neuberechnung von Maßeinheiten
Neben der Auflösung struktureller (technischer) Unterschiede erfolgt auch eine inhaltliche (fachliche) Bereinigung von Differenzen. Dies geschieht mithilfe eines Korrekturschemas, das folgende Punkte berücksichtigt:
- Fehlerhafte (inkonsistente) Daten
- Redundante (doppelte) Daten
- Veraltete Daten
- Fehlende Werte
Zudem kann in dieser ETL-Phase eine betriebswirtschaftliche Harmonisierung und Aggregation der Daten erfolgen. Ebenso ist eine Anreicherung um Zusatzdaten und Kennzahlen möglich.
Schritt 3: ETL-Ladeprozess
Der Load-Prozess sorgt dafür, dass die transformierten Daten aus dem Arbeitsbereich („Staging Area“) direkt in das eingesetzte Data Warehouse geladen werden. Während dieses Vorgangs ist das Data Warehouse im Regelfall gesperrt, um fehlerhafte Auswertungen zu verhindern. Handelt es sich um eine Aktualisierung, können die bereits vorhandenen Datensätze wahlweise überschrieben oder neu angelegt werden. Veränderungen lassen sich zusätzlich protokollieren, wodurch auch ein Rückgriff auf frühere Versionsstände möglich ist.
Abschließend ist nach der „Betankung“ der Data-Warehouse-Datenbank auch eine Aktualisierung der Analysesysteme (z. B. BI-Software) erforderlich.
ETL im Data Warehouse: Beispiele und Anwendungsmöglichkeiten
Der ETL-Prozess ist integraler Bestandteil von Data Warehouses und bietet zahlreiche Anwendungsmöglichkeiten in Unternehmen und Organisationen. Es werden nicht nur Berichte, Statistiken und Kennzahlen flexibel zur Verfügung gestellt. Auch das Aufdecken bisher verborgener Zusammenhänge ist möglich. Einige Anwendungsbeispiele sind:
- Konsumgüterbranche: Sentimentanalysen mit Daten aus sozialen Netzwerken zum Analysieren von Markttrends, Kombination von Marktdaten mit vorliegenden Daten aus dem eigenen CRM-System
- Medizin: Verknüpfung von Patientenakten, Laborergebnissen und Bildern aus der Radiologie zur Ermittlung von Erkrankungsrisiken
- Energiebranche: Erfassung von Verbrauchsdaten, getrennt nach Region, Alter, Geschlecht oder Art des Haushalts
- Luftfahrt: Verknüpfung von Daten wie Zuladung, Strecke, Flugzeugtyp und Kerosinverbrauch zur Identifikation rentabler und unrentabler Flugrouten
Was ist der Unterschied zwischen ETL und ELT?
Wie die Abkürzung bereits andeutet, erfolgt das Laden der Daten beim ELT-Prozess vor der Transformation. Die Umwandlung erfolgt bei ELT - im Gegensatz zu ETL - erst in der Zieldatenbank. Beide Ansätze haben Vor-und Nachteile. Wann welche Methode eingesetzt werden sollte, hängt vom individuellen Szenario ab.
Aufgrund der Tatsache, dass Daten beim ELT-Prozess ohne vorgeschalteten Verarbeitungsserver vollständig an den endgültigen Zielort übertragen werden, ist der Zeitversatz zwischen Extraktion und Bereitstellung deutlich kürzer. Allerdings sind die Daten nicht sofort nutzbar, da sie für Analysen erst noch transformiert werden müssen.
Ist also eine hohe Aufnahmegeschwindigkeit gefordert, kann ELT die bessere Wahl sein. Zudem kann auch die Zugriffsmöglichkeit auf Rohdaten als Pluspunkt gewertet werden, sofern sich beispielsweise Data Scientists mit der Auswertung befassen. Insbesondere im Big-Data-Umfeld wird ELT gegenüber ETL mittlerweile oftmals bevorzugt.
Welche ETL-Tools (ETL-Software) gibt es?
Mit klassischen ETL-Tools ist es zunehmend schwierig, Big Data einfach, schnell und qualitätsgesichert verfügbar zu machen. Die Anbieter sind deshalb dazu übergegangen, ihre Produkte um Datentools zur Verarbeitung von Echtzeitdaten zu erweitern. Die Rede ist hierbei auch von Datenintegrationslösungen. Verfügbar sind sowohl Open-Source-Produkte als auch kommerzielle Systeme.
Führende Anbieter von kommerziellen Tools zur Datenintegration sind Technologie-Unternehmen wie IBM, Microsoft, Oracle, Informatica und SAS Institute. Doch auch ERP-Anbieter wie SAP haben im Rahmen von Business Intelligence eigene ETL-Tools etabliert. Wichtige SAP-Lösungen sind in diesem Bereich SAP BusinessObjects Data Integrator, SAP Data Services und SAP HANA Smart Data Integration (SDI). Betrachten wir diese Produkte im Folgenden näher.
SAP BusinessObjects Data Integrator
SAP BusinessObjects Data Integrator ist eine Funktion der Business-Intelligence-Lösung SAP BusinessObjects. Anwender haben mit dem Tool die Möglichkeit, Daten aus externen Systemen wie Microsoft Office und Salesforce zu integrieren, um Analysen und Reports vorzunehmen.
SAP Data Services
SAP Data Services ist eine Software für die Integration und Transformation von Daten. Hierfür bezieht die Lösung ihre Daten aus zahlreichen Quellen (Datenbanken, Anwendungen, Web-Services, Cloud-Systemen etc.), die auch Data Stores genannt werden. Zusätzlich zu den herkömmlichen ETL-Funktionalitäten bietet SAP Data Services Features wie Textanalysen und Data Profiling (automatisierte Analyse der Datenqualität). Neben der traditionellen Batch-Verarbeitung unterstützt das Tool auch Echtzeit-Services - also Datenabfragen mit unmittelbaren Antworten. Innerhalb einer SAP-Landschaft arbeitet SAP Data Services mit Produkten wie SAP Master Data Management (MDM), SAP Business Warehouse und SAP Data Quality Management zusammen.
SAP HANA Smart Data Integration (SDI)
In Bezug auf die neue SAP-Datenbankgeneration HANA gilt das Tool SAP HANA Smart Data Integration (SDI) als Nachfolger bisheriger Integrationstechnologien wie SAP Data Services. SDI verfügt über eine Vielzahl von Konnektoren zu typischen Datenquellen und arbeitet mit sogenannten Flowgraphs. Hierbei handelt es sich um eine flussbasierte ETL-Technologie. Unterstützt wird sowohl die Batch- als auch die Realtime-Verarbeitung.
Insbesondere ist HANA Smart Data Integration derzeit jedoch die einzige SAP-Technologie, die den ETL-Prozess, Echtzeitreplikation und Virtualisierung in einem Produkt kombiniert. Ist die Zieldatenbank eine HANA-Datenbank, ist somit keine weitere Komponente für die Datenintegration mehr erforderlich.
Welche infrastrukturellen Anforderungen stellt der ETL-Prozess?
Sofern der ETL-Prozess im eigenen Hause durchlaufen werden soll, sind enorme Speicher- und Rechenkapazitäten erforderlich. Da wertvolle Daten an einem zentralen Ort gespeichert werden, sind zudem umfangreiche Maßnahmen zum Schutz vor Ausfällen, Datenverlust, Fehlern, Diebstahl und Naturkatastrophen zu treffen. Entsprechend abgesicherte Rechenzentren verursachen hohe Kosten.
In den kommenden Jahren ist von folgender Entwicklung auszugehen:
- Die Datenmenge, die durch Unternehmen fließt, wird weiterhin stark anwachsen.
- Auch der Wert der Daten wird weiter steigen.
- Der Bedarf an Rechenleistung und geeigneten ETL-Tools wird sich analog erhöhen.
All diese Faktoren erfordern eine performante, skalierbare IT-Infrastruktur, die nur mit hohem Aufwand mit einem eigenen Rechenzentrum abgebildet werden kann. Der Trend geht daher klar in Richtung cloudbasierter ETL-Prozesse („ETL-as-a-Service“).
Welche Bedeutung hat ETL-as-a-Service?
Als Alternative zum klassischen Inhouse-Betrieb kann ETL mittlerweile auch als Service aus der Cloud bezogen werden. Für die Nutzung sind mit Ausnahme von Endgeräten wie PCs keine eigenen IT-Infrastrukturen erforderlich. Cloudnative ETL-Prozesse folgen dem traditionellen Schema, die Schritte werden jedoch in einer anderen Abfolge durchlaufen.
Die Etablierung cloudbasierter ETL-Prozesse ist insbesondere der Technologie Apache Hadoop zu verdanken. Hadoop verteilt Rechenprozesse, wodurch folgende Aktionen möglich sind:
- Daten aus verschiedenen Quellsystemen remote extrahieren
- Daten über ein Rechner-Netzwerk transformieren
- Daten für lokale Analysen in einem Zielsystem laden
Die Rechenressourcen können dank Hadoop auf der ganzen Welt verteilt sein. Mit der Technologie werden sie jedoch vereint, um gewaltige Rechenaufgaben gemeinsam erbringen zu können. Hierdurch wird eine wesentlich höhere Geschwindigkeit als bei traditionellen ETL-Prozessen erreicht.
Im Übrigen ist es nicht nur der ETL-Prozess, der sich zunehmend in die Cloud verlagert. Mittlerweile stehen umfangreiche, vollständig gemanagte Plattformen für die Anwendungs- und Datenintegration zur Verfügung. Die Rede ist hierbei auch von iPaaS (Integration Platform as a Service).
Meinolf Schäfer, Senior Director Sales & Marketing
Haben Sie Fragen? Ich helfe gerne weiter.+49 2241 8845-623