Überspringen und Hauptinhalt zeigen

Von unseren Depsters March 19, 2020

Data Engineering

Image

Was macht ein Data Engineer eigentlich?

Auf diese Frage gibt es viele unterschiedliche Antworten. Hier ist eine, der die Meisten zustimmen werden: Data Engineers stellen sicher, dass Daten für Entscheidungsträger zugänglich sind. In ihrer täglichen Arbeit konzentrieren sie sich darauf, Daten von einem Ort zum anderen zu bewegen. Stellen wir uns vor, wir arbeiten in einer Fabrik: Wenn Daten unser Produkt sind, dann ist es als Data Engineer unser Job Daten-Workflows, Daten-Pipelines und ETL-Prozesse zu managen.

Aber wie unterscheidet sich das von der Arbeit eines Softwareentwicklers, Business Intelligence-Ingenieurs oder Datenwissenschaftlers?

Im Kern ist Data Engineering eine Mischung aus all diesen Berufen. Daten gibt es in allen Formen und Facetten, verstreut in Datenbanken und unterschiedlichen Dateiformaten. Hier kommen Data Engineers ins Spiel – wie von Zauberhand transformieren sie Daten in Formate, die von Datenwissenschaftlern oder in der Business Intelligence gleichermaßen verwendet werden können. Zweidimensional betrachtet ist Data Engineering näher an Softwaretechnik, als der tiefen Analyse der Daten. Dennoch ist die Arbeit von Data Engineers oft weniger sichtbar. Man könnte sagen: Sie arbeiten im Dunkeln, um dem Licht zu dienen (Bonuspunkte für alle, die erraten, woher dieses Zitat stammt).

Was ist Big Data? Und drehen sich auch Data Engineers nur um Buzzwords?

Der Begriff “Big Data” wurde in den letzten Jahren ziemlich oft benutzt und leider auch missbraucht – zum Beispiel in Verkaufsgesprächen. Aber Big Data (was gerne in einem Satz mit “Petabytes” genannt wird) ist einfach nur eine riesige Datenmenge, die mit handelsüblicher Hardware nicht zu verarbeiten ist. Mit anderen Worten: Es funktioniert nicht mehr, unkonventionelle Probleme (also Big Data) mit konventionellen Methoden zu lösen. Allerdings ist Data Engineering nicht auf Big Data beschränkt. Big Data ist vielmehr ein Oberbegriff, der den größten Anwendungsfall für Data Engineers beschreibt. Um mit Big Data umgehen zu können, wurden Technologien wie Hadoop und NoSQL entwickelt. Aber auch die Nutzung komplexer Hardware und verteilter Systeme – wie Computer, die verbunden an einer Thematik arbeiten – wurden entwickelt. Wie Sie hier gut erkennen können, ist die Anzahl der Technologien, die für den Umgang mit Big Data genutzt werden können, beachtlich.

Was muss man tun, um ein Data Engineer zu werden?

Grundsätzlich sind Data Engineers keine homogene Gruppe, was ihnen zugute kommt, um die unterschiedlichsten Daten bearbeiten zu können. Denn so können sie Daten für unterschiedliche Anwendungen (wie z.B. Streaming, Batches, etc.) aufbereiten. Aber was soll man nun tun, wenn man Data Engineer werden möchte? Ich würde mit diesen drei Dingen beginnen (in der Reihenfolge):

  1. Master-SQL-Level erreichen
  2. Python lernen
  3. Datenstrukturen und Algorithmen verstehen

Kompetente Data Engineers müssen sich mit Datenbanken auskennen – und SQL ist eine Möglichkeit, mit einer Datenbank zu interagieren – und ein erster Schritt, um den Weg zum guten Data Engineer zu ebnen. Darüber hinaus wird es helfen, sich auf den Zweck und nicht die Mittel zu konzentrieren, denn SQL ist eine deklarative Abfragesprache und damit ergebnisorientiert. Damit ist gemeint, dass man sich mit SQL mehr auf die Daten und weniger auf die zugrundeliegenden technischen Aspekte konzentrieren kann. Mit SQL werden diese nicht nur mit einer Logik versehen, die man im Business braucht, sondern man kann auch eine ganze Armee von Tabellen erstellen und wieder zerstören – um datenhungrige Kollegen im Unternehmen zu füttern.

Sobald Sie SQL beherrschen, sollte man einen Schritt zurücktreten und über das große Ganze nachdenken. Zwar wissen Sie jetzt, was Sie tun müssen, aber Ihnen fehlt der “Dirigent”, also ein Orchesterleiter, der dafür sorgt, dass die Daten-Symphonie auch in Harmonie erklingt. Einem Data Engineer mangelt es nicht an Programmiersprachen in seinem Arsenal. Scala, Java und Python sind weit verbreitete Instrumente, die er nutzen kann. Für einen guten Start würde ich jedoch Python empfehlen. Je mehr Programmiersprachen man lernt, desto einfacher wird es. Von der Datenanalyse bis zur Datentechnik: Python ist ein echtes Kraftpaket im Language-Stack der Unternehmen und wird bereits mit voller Kraft ausgeliefert. Eine Programmiersprache, die Out-of-the-box umfangreich unterstützt und über eine elegante Syntax verfügt.

Last but not least geht es um Datenstrukturen und Algorithmen. Ein tiefergehendes Verständnis der Informatik-Theorie ist zwar nicht unbedingt notwendig, um Data Engineer zu werden, will man jedoch richtig gut werden, dann ist es entscheidend. Data Engineers verbringen viel Zeit damit, Prozesse zu optimieren und den besten Weg zu finden, Probleme zu lösen. Ein Verständnis für Algorithmen zu haben, ist eine gute Grundlage für die Lösung alltäglicher Probleme. Darüber hinaus hilft die Kenntnis von Datenstrukturen, Lösungen für Hindernisse zu visualisieren und Daten optimal aufzubereiten.

Wer nun Lust hat, Data Engineer bei Dept zu werden oder Unterstützung beim Data Management im eigenen Unternehmen sucht, der kann sich gerne bei mir melden! 

Wir bei Dept finden die passende Lösung.

Fragen? Wir sind hier, um zu helfen!

Hoppla!

If you're reading this, you unfortunately can't see the form that's supposed to be here. You probably have an ad blocker installed. Please switch off your adblocker in order to see this form.

Still encountering problems? Open this page in a different browser or get in touch with us: [email protected]