English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

Gast
1 / ?

Was ist Data Science? [BLOCK_TYPE SECTION/STEP]

Data Science ist nicht nur Machine Learning. Es ist nicht nur Statistik. Es ist nicht nur Programmierung. [BLOCK_TYPE SECTION/STEP]

Data Science ist die Disziplin, nützliches Wissen aus Daten zu gewinnen. Der Großteil dieser Arbeit ist nicht glamourös: es geht um das Säubern von messy spreadsheets, das Stellen richtiger Fragen und das Kommunizieren von Ergebnissen zu Menschen, die sich nicht für deinen Code interessieren. [BLOCK_TYPE SECTION/STEP]

Data Science Pipeline [BLOCK_TYPE SECTION/STEP]

Die typische Data-Science-Pipeline sieht folgendermaßen aus:

1. Collect: Rohdaten aus Datenbanken, APIs, CSVs oder Web Scraping sammeln

2. Clean: Fehlende Werte behandeln, Datentypen korrigieren, Duplikate entfernen

3. Explore: Verteilungen visualisieren, Muster finden, Fragen stellen

4. Engineer: Neue Features erstellen, die Modellen beim Lernen helfen

5. Model: Algorithmen trainieren, Leistung evaluieren, iterieren

6. Communicate: Ergebnisse gegenüber Stakeholdern präsentieren, die Entscheidungen treffen

Wenn du schon einmal Excel-Pivot-Tabellen, bedingte Formatierung oder VLOOKUP verwendet hast, hast du bereits die Schritte 1-3 gemacht. Diese Lektion überbrückt diese Erfahrung zur Python-basierten Arbeitsweise, die in der Industrie verwendet wird.

Warm-Up

Deine Datenerfahrung

Jeder hat schon einmal mit Daten gearbeitet: in einem Budget-Tabellenblatt, einem Notentracker, einer Fitness-App oder sogar einer Playlist mit Abspielzahlen.

Beschreibe eine Situation, in der du mit Daten in einem Tabellenblatt oder einer App gearbeitet hast. Was wolltest du herausfinden, und hat dir die Datenanalyse die Antwort geliefert?

Müll rein, Müll raus

Warum Datenbereinigung wichtig ist

Data Scientists verbringen 60–80 % ihrer Zeit mit der Datenbereinigung. Das ist keine Übertreibung: Es handelt sich um ein konsistentes Ergebnis aus verschiedenen Branchenumfragen.

Der Grund ist einfach: garbage in, garbage out. Wenn Ihre Daten Fehler, fehlende Werte oder inkonsistente Formate aufweisen, wird jede darauf aufbauende Analyse falsch sein. Ein perfektes Modell, das mit fehlerhaften Daten trainiert wird, liefert mit Sicherheit falsche Antworten.


Häufige Datenprobleme

- Fehlende Werte: Zellen sind leer. Wurde der Wert nicht erhoben oder ist der Wert tatsächlich null? Diese beiden Situationen erfordern unterschiedliche Behandlungen.

- Falsche Datentypen: Eine Spalte mit Zahlen, die als Text gespeichert sind, oder Daten in inkonsistenten Datumsformaten (01/02/2024: ist der 2. Januar oder der 1. Februar?)

- Ausreißer: Eine Gehaltsspalte enthält einen Eintrag von 1.000.000.000 $. Ist das real oder ein Tippfehler? In jedem Fall verzerren solche Werte den Durchschnitt.

- Duplikate: derselbe Datensatz erscheint zweimal, weil zwei Systeme unvollständig zusammengeführt wurden

- Kategorische Kodierung: eine Spalte enthält 'Yes', 'yes', 'Y', 'TRUE' und '1'. Diese bedeuten alle dasselbe, aber der Computer weiß das nicht.


In pandas (der Standard-Python-Datenbibliothek) behandeln Sie diese mit Methoden wie dropna(), fillna(), astype() und drop_duplicates(). Aber der schwierige Teil ist nicht der Code: es ist die Entscheidung, was mit jedem Problem zu tun ist.

Common Data Problems

Bereinigungsentscheidungen

Entscheidung, was zu tun ist

Hier ist ein reales Szenario. Sie haben einen Datensatz mit 10.000 Kundendatensätzen. Die Spalte 'age' hat 500 fehlende Werte.

Deine Optionen:

- Zeilen löschen: alle 500 Datensätze entfernen. Einfach, aber du verlierst 5 % deiner Daten. Wenn diese 500 Kunden eine gemeinsame Eigenschaft teilen (z. B. haben sie das Altersfeld aus Datenschutzgründen übersprungen), führt das Löschen zu Verzerrungen.

- Mit dem Mittelwert auffüllen: fehlende Werte durch das Durchschnittsalter ersetzen. Schnell, aber reduziert künstlich die Streuung der Altersspalte.

- Mit dem Median auffüllen: besser als der Mittelwert, wenn die Altersverteilung verzerrt ist (einige sehr alte oder sehr junge Kunden ziehen den Durchschnitt).

- Flag verwenden: eine neue Spalte namens 'age_missing' erstellen (1 oder 0) und den Originalwert mit dem Median auffüllen. Nun kann dein Modell lernen, ob das Fehlen selbst informativ ist.

Es gibt keine universelle richtige Antwort. Die Wahl hängt davon ab, warum die Daten fehlen und wofür du sie verwenden willst.

Du hast einen Datensatz von Mitarbeitergehältern. 200 von 5.000 Datensätzen haben fehlende Gehaltswerte. Du nimmst wahr, dass ein Großteil der fehlenden Werte von Führungskräften stammt. Würdest du diese Zeilen löschen, mit dem Mittelwert auffüllen oder etwas anderes machen? Erkläre deine Begründung.

Die richtigen Fragen stellen

Explorative Datenanalyse (EDA)

Bevor du ein Modell baust, musst du deine Daten verstehen. EDA ist der Prozess, bei dem du einen Datensatz zusammenfasst, visualisierst und hinterfragst, um Muster, Anomalien und Beziehungen zu finden.


Wichtige Werkzeuge

- Histogramme: zeigen die Verteilung einer einzelnen Variable. Ist sie glockenförmig? Schief? Bimodal (zwei Gipfel)? Ein Histogramm von Einkommen ist immer rechtsschief, weil wenige Menschen deutlich mehr verdienen als die Mehrheit.

- Streudiagramme: zeigen die Beziehung zwischen zwei Variablen. Sind größere Menschen schwerer? Korrespondiert mehr Lernzeit mit höheren Noten? Das Muster (oder das Vorhandensein bzw. Fehlen eines solchen) gibt Aufschluss darüber, ob eine Beziehung existiert.

- Korrelation: eine Zahl zwischen -1 und +1, die die lineare Assoziation misst. +1 bedeutet eine perfekte positive Beziehung, -1 bedeutet eine perfekte negative, 0 bedeutet keine lineare Beziehung. Aber Korrelation bedeutet nicht Kausalität: Eisverkäufe und Ertrinkungstote sind korreliert, weil beide im Sommer ansteigen.

- Zusammenfassende Statistiken: Mittelwert, Median, Standard偏差, Min, Max. In pandas: df.describe() gibt dir alle diese Werte auf einer Zeile.


Die echte Fähigkeit

Die Tools sind leicht zu lernen. Der schwierige Teil ist das Stellen der richtigen Fragen. Schlechte Frage: 'Was sagt die Daten?' Gute Frage: 'Haben Kunden, die innerhalb der ersten Woche den Support kontaktieren, höhere Retention-Raten?'

EDA Tools

Korrelationstrick

Korrelation vs. Kausalität

Das ist das wichtigste Konzept in der Datenkompetenz. Zwei Variablen können stark korreliert sein, ohne dass die eine die andere verursacht.

Klassische Beispiele:

- Städte mit mehr Feuerwehrleuten haben mehr Brände. (Größere Städte haben beides.)

- Schüler, die frühstücken, haben bessere Noten. (Vielleicht sind wohlhabendere Familien eher dazu bereit, Frühstück UND akademische Unterstützung bereitzustellen.)

- Länder, die mehr Schokolade konsumieren, gewinnen mehr Nobelpreise. (Beide korrelieren mit dem nationalen Wohlstand.)

Der versteckte Faktor wird Störvariable genannt: eine dritte Variable, die beide der betrachteten Variablen beeinflusst.

Korrelation vs. Kausalität

Ein Unternehmen stellt fest, dass Mitarbeiter, die das Firmenfitnessstudio nutzen, 30 % weniger Krankheitstage haben. Der CEO möchte, dass alle Mitarbeiter das Fitnessstudio nutzen. Was ist an dieser Überlegung falsch? Welche Störvariablen könnten die Korrelation erklären?

Erstellen nützlicher Variablen

Was ist Feature Engineering?

Ein Feature ist eine Eingabevariable, die ein Modell zur Vorhersage verwendet. Feature Engineering ist die Kunst, neue Features aus Rohdaten zu erstellen, um Modellen dabei zu helfen, Muster zu erkennen, die sie sonst nicht sehen könnten.

Rohdaten liegen selten in der Form vor, die Modelle benötigen. Betrachten Sie einen Datensatz mit einer Spalte „Geburtsdatum“. Ein Modell kann mit rohen Daten wenig anfangen. Aber wenn Sie daraus ein „Alter“-Feature erstellen, kann das Modell plötzlich altersbasierte Muster erkennen.


Häufige Techniken

- Normalisierung: Skalierung von Zahlen auf einen gemeinsamen Bereich (0 bis 1, oder Mittelwert=0 und Standardabweichung=1). Ohne diese Skalierung würde eine in Tausenden gemessene Variable (Gehalt) eine in Einzelziffern gemessene Variable (Berufserfahrung) dominieren.

- One-Hot-Encoding: Umwandlung von kategorialen Variablen in binäre Spalten. Eine Spalte „Farbe“ mit den Werten [rot, blau, grün] wird zu drei Spalten: „Farbe_rot“, „Farbe_blau“, „Farbe_grün“, jede mit 0 oder 1.

- Binning: Umwandlung einer kontinuierlichen Variable in Kategorien. Alter 0–17 wird zu „Minderjähriger“, 18–64 wird zu „Erwachsener“, 65+ wird zu „Senior“. Dies hilft, wenn der Zusammenhang nicht linear ist.

- Interaktionsmerkmale: Multiplikation zweier Merkmale miteinander. „Wohnfläche mal Anzahl der Badezimmer“ könnte den Hauspreis besser vorhersagen als jedes Merkmal allein.

- Fachwissen: die mächtigste Technik. Ein Arzt, der Merkmale für ein medizinisches Modell erstellt, weiß, welche Laborwerte wichtig sind。 Ein Marketingexperte weiß, dass „Tage seit letztem Kauf“ nützlicher als „Kaufdatum“ ist. Kein Algorithmus kann dieses Fachwissen ersetzen.

Feature Engineering Techniques

Feature Practice

Anwendung von Feature Engineering

Stellen Sie sich vor, Sie bauen ein Modell, um vorherzusagen, welche Kunden ihre Streaming-Abo im nächsten Monat kündigen werden. Ihre Rohdaten umfassen:

- Datum der Kontoerstellung

- Datum des letzten Logins

- Anzahl der im letzten Monat angesehenen Shows

- Monatlicher Zahlungsbetrag

- Anzahl der eingereichten Kundensupport-Tickets

- Land

Aus den oben genannten Rohdaten heraus, schlagen Sie mindestens drei neue Features vor, die Sie entwickeln würden. Erklären Sie bei jedem, was es erfasst und warum es helfen könnte, Kündigungen zu vorhersagen.

Train/Test-Split

Warum du deine Daten splittest

Die wichtigste Regel beim Modellieren: Niemals ein Modell auf denselben Daten evaluieren, auf denen es trainiert wurde.

Wenn du das tust, kann das Modell einfach die Antworten auswendig lernen. Es wird auf den Trainingsdaten perfekt abschneiden, aber bei neuen, ungesehenen Daten versagen. Dies wird als Overfitting bezeichnet: Das Modell hat das Rauschen in deinem spezifischen Datensatz gelernt statt der echten Muster.

Die Standardpraxis ist es, deine Daten aufzuteilen:

- Trainingsdaten (typischerweise 70-80%): das Modell lernt aus diesen

- Testdaten (typischerweise 20-30%): zurückgehalten, nur zur Evaluierung des finalen Modells verwendet

In scikit-learn: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)


Häufige Algorithmen

- Lineare Regression: zeichnet die beste Gerade durch die Daten. Einfach, interpretierbar, funktioniert, wenn das Verhältnis ungefähr linear ist. Sagt eine Zahl voraus (Preis, Temperatur, Punktzahl).

- Entscheidungsbäume: ein Flussdiagramm aus Ja/Nein-Fragen. Einfach zu verstehen und zu erklären. Anfällig für Overfitting, es sei denn, sie werden beschnitten oder in der Tiefe limitiert.

- Random Forests: viele Entscheidungsbäume, die gemeinsam abstimmen. Genauer als ein einzelner Baum, weniger anfällig für Overfitting, but harder to explain.


Overfitting vs. Underfitting

- Overfitting: Das Modell ist zu komplex. Es merkt sich Trainingsdaten, einschließlich Rauschen. Hohe Genauigkeit auf den Trainingsdaten, niedrige Genauigkeit auf den Testdaten.

- Underfitting: Das Modell ist too simple. Es kann die realen Muster nicht erfassen. Niedrige Genauigkeit auf both training and test data.

The goal is the sweet spot in between.

Train/Test Split and Bias-Variance Tradeoff

Evaluierungsmetriken

Wie wissen Sie, ob Ihr Modell gut ist?

Genauigkeit allein kann irreführend sein. Wenn 95 % der E-Mails kein Spam sind, ist ein Modell, das immer „kein Spam“ sagt, zu 95 % genau – aber völlig nutzlos.

Wichtige Metriken:

- Genauigkeit: Prozentsatz der korrekten Vorhersagen. Nützlich, wenn Klassen ausgewogen sind.

- Precision: Von allen Dingen, die das Modell als positiv markiert hat, wie viele waren es tatsächlich? Hohe Precision bedeutet wenige Fehlalarme.

- Recall: Von allen tatsächlichen Positiven, wie viele hat das Modell erfasst? Hohe Recall bedeutet wenige übersehene Fälle.

- F1-Score: das harmonische Mittel aus Precision und Recall. Nützlich, wenn beide Werte ausbalanciert werden müssen.

- RMSE (Root Mean Squared Error): für Regression (Zahlen vorhersagen). Wie weit liegen die Vorhersagen im Durchschnitt daneben?

Welche Metrik am wichtigsten ist, hängt vom Problem ab. Bei der Krebserkennung ist Recall wichtiger: Man möchte keinen Fall übersehen. Bei der Spam-Filterung ist Precision wichtiger: Man möchte keine echte E-Mail löschen.

Evaluation Metrics and Confusion Matrix

Du baust ein Modell, um betrügerische Kreditkarten-Transaktionen zu erkennen. Nur 0,1 % der Transaktionen sind tatsächlich betrügerisch. Wenn dein Modell jede Transaktion als legitim vorhersagt, was ist dann seine Accuracy? Warum ist Accuracy hier eine schlechte Metrik, & welche Metrik würdest du stattdessen verwenden?

Data Analyst vs. Data Scientist vs. ML Engineer

Drei unterschiedliche Rollen

Das Datenfeld hat drei Haupt-Karrierewege, und sie erfordern unterschiedliche Fähigkeiten.


Data Analyst

- Fokus: Beantwortung von Geschäftsfragen mit vorhandenen Daten

- Tools: SQL, Excel, Tableau, grundlegendes Python oder R

- Alltag: Dashboards, Berichte, A/B-Test-Analysen, Stakeholder-Präsentationen

- Einstieg: oft am zugänglichsten. Viele Analysten starten ohne Informatik-Abschluss.


Data Scientist

- Fokus: Erstellung von Vorhersagemodellen & Mustererkennung in komplexen Daten

- Tools: Python (pandas, scikit-learn, matplotlib), Statistik, SQL, Jupyter-Notebooks

- Day-to-day: EDA, Feature Engineering, Modellbau, Experimentation

- Entry path: erfordert in der Regel einen Statistik- oder quantitativen Hintergrund. Bootcamps & Selbststudium sind möglich.


Machine Learning Engineer

- Focus: Bereitstellung & Skalierung von Modellen in Produktionssystemen

- Tools: Python, TensorFlow/PyTorch, Docker, Cloud-Plattformen (AWS/GCP), APIs

- Day-to-day: Modelloptimierung, Pipeline-Infrastruktur, Überwachung von Produktionsmodellen

- Entry path: erfordert in der Regel starke Software-Engineering-Kenntnisse plus ML-Wissen.


Portfolio aufbauen

Hiring Manager interessieren sich mehr dafür, was du leisten kannst, als danach, wo du studiert hast. Ein Portfolio mit 3-5 soliden Projekten auf GitHub ist wichtiger als Zertifikate. Gute Projekte verwenden echte (keine Spielzeug-)Datensätze, enthalten klare Dokumentation und zeigen die gesamte Pipeline: von den rohen Daten bis hin zu verwertbaren Erkenntnissen.

Data Career Paths

Deine nächsten Schritte

Wohin von hier aus?

Die Werkzeuge des Handwerks sind kostenlos und zugänglich:

- pandas: die Standard-Python-Bibliothek für Datenmanipulation

- matplotlib / seaborn: Visualisierungsbibliotheken

- scikit-learn: das Arbeitspferd für klassisches Machine Learning

- Jupyter notebooks: interaktive Coding-Umgebungen, in denen du Code, Ergebnisse und Notizen mischen kannst

- Kaggle: kostenlose Datensätze, Wettbewerbe und eine Community von Praktikern

Starte mit einem echten Datensatz, der dich interessiert. Lade ihn herunter, bereinige ihn, erkunde ihn und versuche, eine Frage zu beantworten. Dieses einzelne Projekt wird dich mehr lehren als jeder Kurs.

Basierend auf dem, was du in dieser Lektion gelernt hast, welches der drei Rollen (Data Analyst, Data Scientist oder ML Engineer) interessiert dich am meisten? Was ist ein konkreter Schritt, den du diese Woche unternehmen könntest, um Fertigkeiten für diese Rolle zu entwickeln?