Lernziele
Nach dieser Fallstudie …
- kann ich einen Rohdatensatz gezielt bereinigen und zwischen technischen Fehlern und inhaltlich plausiblen Ausreissern unterscheiden.
- bin ich in der Lage, deskriptive Kennzahlen zu berechnen, Ausreisser mit der IQR-Regel zu identifizieren und im Praxiskontext zu diskutieren.
- kann ich Korrelationen berechnen, visualisieren und korrekt von Kausalität abgrenzen.
- bin ich in der Lage, ein Konfidenzintervall für den Erwartungswert zu berechnen und korrekt zu interpretieren.
- kann ich einen Zwei-Stichproben-t-Test und einen Chi²-Test inkl. Voraussetzungsprüfung vollständig durchführen und die Ergebnisse in den Praxiskontext einordnen.
- bin ich in der Lage, eine lineare Einfachregression zu schätzen, die LINE-Voraussetzungen grafisch zu prüfen und die Koeffizienten inhaltlich zu interpretieren.
Sie arbeiten als Junior-Datenanalystin bei der Zürcher Personalberatung SwissTech Recruiting AG. Ihr Vorgesetzter legt Ihnen einen Rohdatensatz mit Gehaltsinformationen von 120 IT-Fachkräften aus der ganzen Schweiz vor – erhoben aus anonymisierten Bewerbungsunterlagen und Gehaltsverhandlungen des vergangenen Jahres.
Die Geschäftsleitung stellt Ihnen drei konkrete Fragen:
- Verdienstlücke: Verdienen Frontend- und Backend-Entwicklerinnen und -Entwickler gleich viel?
- Ausbildung & Spezialisierung: Besteht ein Zusammenhang zwischen dem Ausbildungsabschluss und dem gewählten Technologie-Stack?
- Prognose: Kann man das Gehalt anhand der Berufserfahrung vorhersagen?
Bereiten Sie die Daten auf, beschreiben Sie den Markt statistisch, und beantworten Sie die drei Fragen mit geeigneten statistischen Methoden.
Einleitung
Der Schweizer IT-Arbeitsmarkt gilt als einer der attraktivsten Europas. Doch wie stark unterscheiden sich die Gehälter tatsächlich zwischen verschiedenen Spezialisierungen, und welche Rolle spielt die Berufserfahrung?
Sie erhalten einen Rohdatensatz (it_gehaelter.csv). Ihre Aufgabe ist es, diesen zu verstehen, zu bereinigen und statistisch auszuwerten. Dokumentieren Sie jeden Analyseschritt nachvollziehbar in Ihrem Quarto-Dokument und interpretieren Sie Ihre Ergebnisse stets im Praxiskontext.
Datensatzbeschreibung
| Variable | Typ | Bedeutung |
|---|---|---|
id |
numerisch | Eindeutige Beobachtungs-ID |
erfahrung |
numerisch | Berufserfahrung in Jahren |
abschluss |
kategorial | Ausbildungsabschluss (BSc / MSc / Ohne) |
stack |
kategorial | Technologie-Stack (Frontend / Backend / Data) |
firmengroesse |
kategorial | Grösse des Arbeitgebers (KMU / Gross) |
homeoffice |
numerisch | Homeoffice-Anteil in % |
kanton |
kategorial | Arbeitsort |
gehalt_chf |
numerisch | Jahresgehalt in CHF |
a) Data Cleaning
Aufgabe 1: Importieren Sie den Datensatz und verschaffen Sie sich mit glimpse() und summary() einen ersten Überblick. Identifizieren Sie alle Datenqualitätsprobleme, listen Sie diese explizit auf, und bereinigen Sie den Datensatz. Begründen Sie jeden Bereinigungsschritt in einem kurzen Kommentar.
Der Datensatz enthält sowohl technische Fehler (z.B. falsche Einheiten, Tippfehler) als auch inhaltlich plausible Extremwerte. Entfernen Sie im Cleaning-Schritt nur offensichtliche Datenfehler. Die Diskussion der verbleibenden Ausreisser folgt im nächsten Abschnitt.
Verständnisfrage 1
Sie entfernen alle Zeilen mit fehlenden Gehaltswerten. Unter welchen Umständen könnte dieses Vorgehen die Analyse verzerren – und was müsste man prüfen, bevor man fehlende Werte löscht?
b) Deskriptive Statistik und Ausreisser
Kennzahlen und Visualisierung
Aufgabe 2: Berechnen Sie die wichtigsten Lagemasse (Mittelwert, Median) und Streuungsmasse (Standardabweichung, IQR) des Jahresgehalts – sowohl für den Gesamtdatensatz als auch getrennt nach Technologie-Stack. Visualisieren Sie die Gehaltsverteilung mit einem Boxplot (nach Stack) und einem Histogramm.
Ausreisser identifizieren und diskutieren
Aufgabe 3: Der Boxplot zeigt einzelne Punkte ausserhalb der Whisker. Identifizieren Sie diese Beobachtungen und wenden Sie die IQR-Regel an, um die Ausreissergrenzen rechnerisch zu bestimmen:
\[\text{Untere Grenze} = Q_1 - 1.5 \cdot \text{IQR} \qquad \text{Obere Grenze} = Q_3 + 1.5 \cdot \text{IQR}\]
Untersuchen Sie jeden Ausreisser anhand der übrigen Variablen (erfahrung, abschluss, stack, firmengroesse) und beantworten Sie für jeden Fall:
- Welche Werte hat diese Person in den anderen Variablen?
- Ist das Gehalt angesichts dieser Merkmale realistisch oder nicht?
- Behalten oder entfernen Sie diese Beobachtung – und warum?
Diskutieren Sie abschliessend, warum extreme Gehälter im IT-Sektor realistisch auftreten können, und was es bedeuten würde, sie pauschal zu entfernen.
Verständnisfrage 2
Ein Kollege sagt: „Alle Punkte ausserhalb der Boxplot-Whisker sind Fehler und müssen entfernt werden.” – Warum ist diese Aussage falsch? Was ist der Unterschied zwischen einem statistischen Ausreisser und einem Datenfehler?
c) Korrelationsanalyse
Aufgabe 4: Untersuchen Sie den linearen Zusammenhang zwischen dem Jahresgehalt und den numerischen Variablen erfahrung und homeoffice. Berechnen Sie jeweils den Pearson-Korrelationskoeffizienten und visualisieren Sie die Zusammenhänge mit Streudiagrammen inkl. Regressionsgerade.
Interpretieren Sie Stärke und Richtung beider Korrelationen. Welche Drittvariable könnte den Zusammenhang zwischen Homeoffice-Anteil und Gehalt erklären?
Verständnisfrage 3
Sie berechnen \(r = 0.86\) zwischen Erfahrungsjahren und Gehalt. Ihr Kollege sagt: „86% der Gehaltsunterschiede werden also durch die Erfahrung erklärt, und mehr Erfahrung verursacht ein höheres Gehalt.” – Welche zwei Fehler stecken in dieser Aussage? Was wäre der korrekte Wert für den erklärten Varianzanteil?
d) Konfidenzintervall
Aufgabe 5: Schätzen Sie den mittleren Jahreslohn aller IT-Fachkräfte in der Schweiz mit einem 95%-Konfidenzintervall. Begründen Sie, warum hier die \(t\)-Verteilung und nicht die Normalverteilung verwendet wird.
Berechnen Sie zusätzlich ein 99%-Konfidenzintervall und vergleichen Sie die Breite der beiden Intervalle. Interpretieren Sie das 95%-Konfidenzintervall in einem Satz, den Sie der Geschäftsführerin verständlich erklären würden.
Verständnisfrage 4
Die Geschäftsführerin liest das Ergebnis und sagt: „Das Konfidenzintervall liegt zwischen CHF 140’000 und CHF 154’000 – das heisst, 95% aller IT-Fachkräfte verdienen in diesem Bereich.” – Was ist an dieser Interpretation falsch? Formulieren Sie eine korrekte Interpretation.
e) Hypothesentests
e1) Verdienen Frontend- und Backend-Entwickler gleich viel?
Aufgabe 6: Führen Sie einen geeigneten Hypothesentest durch, um zu prüfen, ob sich die mittleren Jahresgehälter von Frontend- und Backend-Entwicklerinnen und -Entwicklern unterscheiden. Verwenden Sie \(\alpha = 0.05\).
Gehen Sie dabei wie folgt vor:
- Formulieren Sie \(H_0\) und \(H_1\) explizit.
- Prüfen Sie die Voraussetzungen (Normalverteilung, Varianzhomogenität) und dokumentieren Sie die Ergebnisse.
- Führen Sie den Test durch und begründen Sie Ihre Wahl von
var.equal. - Treffen Sie eine Testentscheidung und interpretieren Sie das Ergebnis für die Geschäftsleitung.
- Diskutieren Sie: Ist ein statistisch signifikanter Unterschied auch praktisch relevant?
e2) Hängen Ausbildungsabschluss und Technologie-Stack zusammen?
Aufgabe 7: Prüfen Sie, ob ein statistischer Zusammenhang zwischen dem Ausbildungsabschluss und dem gewählten Technologie-Stack besteht.
Gehen Sie dabei wie folgt vor:
- Formulieren Sie \(H_0\) und \(H_1\) explizit.
- Erstellen Sie die Kontingenztafel und prüfen Sie die Voraussetzung (erwartete Häufigkeiten \(\geq 5\)).
- Führen Sie den Test durch.
- Interpretieren Sie die standardisierten Residuen: In welchen Kombinationen weichen die beobachteten von den erwarteten Häufigkeiten am stärksten ab?
Verständnisfrage 5
Der Chi²-Test ergibt \(p = 0.003\). Ihr Kollege schliesst: „Der Abschluss beeinflusst also den Stack – MSc-Absolventen werden gezielt in Data-Rollen gedrängt.” – Welche zwei grundlegenden Interpretationsfehler macht er?
f) Lineare Regression
Aufgabe 8: Untersuchen Sie, ob und wie gut das Jahresgehalt durch die Berufserfahrung vorhergesagt werden kann.
Gehen Sie dabei wie folgt vor:
- Visualisieren Sie den Zusammenhang mit einem Streudiagramm inkl. Regressionsgerade.
- Schätzen Sie das Modell (\(\widehat{\text{Gehalt}} = \hat{\beta}_0 + \hat{\beta}_1 \cdot \text{Erfahrung}\)) und interpretieren Sie beide Koeffizienten inhaltlich in CHF.
- Prüfen Sie die LINE-Voraussetzungen anhand der vier Diagnostikplots und diskutieren Sie, ob das Modell gültig ist.
- Schätzen Sie das Jahresgehalt einer Bewerberin mit 8 Jahren Erfahrung als Punktschätzung und mit einem 95%-Prognoseintervall. Erklären Sie, warum das Prognoseintervall deutlich breiter ist als das Konfidenzintervall für den Mittelwert.
- Beurteilen Sie \(R^2\): Wie gut erklärt das Modell die Gehaltsunterschiede, und welche weiteren Variablen würden das Modell sinnvoll ergänzen?
Zusammenfassung
Aufgabe 9: Fassen Sie Ihre drei Antworten an die Geschäftsleitung in je zwei bis drei Sätzen zusammen. Formulieren Sie konkrete Handlungsempfehlungen für die SwissTech Recruiting AG und benennen Sie die Grenzen Ihrer Analyse.