0
0 Stimmen
50
40
30
20
10
Webseite: Website besuchen
Preis: kostenlos
Lizenz: Open Source
Betriebssystem: Linux, Windows, Mac
Download-Größe: keine Angabe
Downloadrang: 33227
Datensatz zuletzt aktualisiert: 20.05.2026
Alle Angaben ohne Gewähr

Apache Airflow ist eine quelloffene Plattform, mit der sich Datenpipelines und Arbeitsabläufe programmatisch erstellen, planen und überwachen lassen. Die Software stellt Workflows als gerichtete azyklische Graphen dar, die in Python definiert werden. Apache Airflow eignet sich für die Orchestrierung von Datenverarbeitungsprozessen, ETL-Strecken (Extract, Transform, Load) und KI-gestützte Arbeitsabläufe mit Sprachmodellen.

Mit Airflow Trends erkennen: So überwachen Sie Youtube-Kanäle & Co bei heise+

Bild 1 von 1

Apache Airflow

Komponenten von Apache Airflow

Die Kernkomponenten von Apache Airflow umfassen einen Webserver für die grafische Oberfläche, einen Scheduler zur zeitlichen Steuerung der Aufgaben sowie eine Kommandozeilenschnittstelle. Über die Weboberfläche lassen sich laufende Directed Acyclic Graphs (DAG) einsehen, Protokolle prüfen und einzelne Aufgaben manuell auslösen. Ergänzend dazu existiert mit airflowctl eine Kommandozeile, die ausschließlich über die REST-Schnittstelle mit der Plattform kommuniziert und somit Zugriffe ohne direkten Kontakt zur Metadaten-Datenbank ermöglicht.

Aufgaben erstellen

Das Task SDK stellt eine Python-Schnittstelle bereit, mit der sich DAGs definieren und Aufgaben in isolierten Subprozessen ausführen lassen. Es entkoppelt die Erstellung der Workflows von internen Bestandteilen wie Scheduler oder API-Server, wodurch eine stabile Schnittstelle über verschiedene Airflow-Versionen hinweg entsteht. Während der Laufzeit greifen Aufgaben über das SDK auf Ressourcen wie Verbindungen, Variablen, XComs, Protokolle und OpenLineage-Ereignisse zu.

Apache Airflow mit Diensten verbinden

Über sogenannte Provider-Pakete lässt sich Apache Airflow mit zahlreichen externen Diensten verbinden, darunter Amazon Web Services, Google Cloud, Microsoft Azure, Snowflake, Databricks, PostgreSQL, MySQL, Apache Kafka und Apache Spark. Die Pakete werden unabhängig vom Kern versioniert und veröffentlicht. Mit dem Common-AI-Provider kam eine Integration für große Sprachmodelle (Large Language Models, kurz LLMs) und KI-Agenten hinzu. Weitere Anbindungen bestehen unter anderem zu OpenAI, Cohere, Pinecone, Weaviate und Qdrant.

Verfügbarkeit

Apache Airflow steht unter der Apache-Lizenz kostenfrei zur Verfügung. Für die Installation existieren eine offizielle Datei für Docker samt Image auf Docker Hub sowie ein Helm Chart, womit sich die Software in Kubernetes-Umgebungen auf eigenen Servern oder bei Cloud-Anbietern betreiben lässt. Zusätzlich bietet das Projekt einen offiziellen Python-API-Client, mit dem sich die REST-Schnittstelle aus eigenen Skripten ansprechen lässt.

Alternativen zu Apache Airflow

Neben Apache Airflow existieren weitere Werkzeuge zur Workflow-Orchestrierung. Prefect und Dagster verfolgen ähnliche Ziele, setzen jedoch teils auf andere Konzepte. Dagster legt einen stärkeren Schwerpunkt auf Daten-Assets statt auf Aufgaben, während Prefect dynamische Workflows zur Laufzeit einfacher abbilden soll. Luigi von Spotify ist älter und schlanker, bietet aber weniger Komfortfunktionen und keine vergleichbar umfangreiche Weboberfläche. Im Bereich kommerzieller Lösungen stehen außerdem Dienste wie AWS Step Functions oder Google Cloud Composer bereit, wobei Letzteres auf Apache Airflow selbst aufbaut.

Kommentare

Kommentare ({{commentsTotalLength}}) Weitere Kommentare laden...

Das könnte dich auch interessieren