MĂŒnchen Stadtrat Analytics

Methodik & Transparenz

So entstehen die Zahlen: von der Datenerhebung bis zur Auswertung.

Zur Startseite

1. Datenquellen

  • Basis ist die öffentlich zugĂ€ngliche Ratsinformations-Plattform der Stadt MĂŒnchen.
  • Dokumente werden per Crawler geladen und in data.csv abgelegt (Spalten u. a.: Drucksachen-Nr., Titel, Typ, Gestellt am, Erledigt am, Gestellt von, ZustĂ€ndiges Referat, document_content).
  • Personen- und Fraktionsnamen stammen ausschließlich aus den veröffentlichten Dokumenten.

2. Vorverarbeitung

  • Alle Texte werden als String gespeichert, Datumsspalten in Datumsformate konvertiert (ungĂŒltige Daten werden verworfen).
  • Keine automatische Korrektur oder Normalisierung des Inhalts; eventuelle OCR-/Formatierungsartefakte bleiben bestehen.
  • Optional können Filter nach Antragstyp (typ_filter) angewandt werden (OR-Logik ĂŒber ausgewĂ€hlte Typen).

3. Such- und ZĂ€hlregeln

  • Suche erfolgt regex-basiert, case-insensitive, pro Suchwort.
  • Freie Stichwortsuche: Es kann jedes Wort bzw. jede Phrase gesucht werden.
  • Schwelle: MIN_OCCURRENCES_PER_DOC = 1. Ein Dokument zĂ€hlt als Treffer, sobald das Suchwort mindestens einmal vorkommt.
  • BinĂ€r pro Dokument: Ein Dokument trĂ€gt maximal 1 zum ZĂ€hler bei, auch wenn das Wort mehrfach vorkommt.
  • Theme-Expansion (aktiv): Suchbegriffe werden ĂŒber THEME_MAP um thematisch verwandte Phrasen erweitert (z. B. "Wohnen" → Wohnung, Miete, Zimmer ...). Dadurch steigen Trefferzahlen, weil Synonyme mitgezĂ€hlt werden. Abschaltbar via expand_with_themes=False.
  • Mehrere Suchwörter: Trefferlisten werden vereinigt (Union). total_word_count zĂ€hlt jedes Dokument höchstens einmal ĂŒber alle Suchbegriffe.
  • Lemmatisierung: FĂŒr Theme-Expansion wird spaCy auf Lemmebene eingesetzt; die eigentliche ZĂ€hlung bleibt regex-basiert.

4. Theme-Expansion und semantische Suche

Wie ein Suchbegriff zu mehreren Suchbegriffen wird:

Um die Suchergebnisse zu verbessern, gibt es die Möglichkeit, mit einem Suchbegriff automatisch verwandte Begriffe zu finden. Dieses System heißt Theme-Expansion und funktioniert folgendermaßen:

  • Der Nutzer klickt einen Theme-Button (z. B. „Wohnen") auf der Startseite oder gibt einen Suchbegriff ein.
  • Das System prĂŒft, ob dieser Begriff einem Theme in der THEME_MAP entspricht oder einer der zugeordneten Phrasen.
  • Falls ja: Alle Phrasen dieses Themes werden zur Suche hinzugefĂŒgt. Z. B. werden bei „Wohnen" automatisch auch „Wohnung", „Miete", „Mietspiegel", etc. gesucht.
  • Die Regex-basierte Suche wird dann fĂŒr jeden dieser expandierten Begriffe durchgefĂŒhrt.
  • Die Ergebnisse werden zusammengefasst (Union), sodass jedes Dokument maximal einmal gezĂ€hlt wird.

Technischer Hintergrund: Die Theme-Expansion ist lexikon-basiert (rule-based) und nutzt spaCy auf Lemma-Ebene fĂŒr die Erkennung von Themenbegriffen in Texten. Die eigentliche ZĂ€hlung bleibt regex-basiert fĂŒr optimale Performance. Die Theme-Expansion ist standardmĂ€ĂŸig aktiviert, kann aber ĂŒber expand_with_themes=False deaktiviert werden.

VerfĂŒgbare Themes und ihre Suchbegriffe

Hier ist eine Übersicht aller Themes und ihrer zugeordneten Suchbegriffe:

🏠 Wohnen

Wohnung, Miete, Mietspiegel, Wohnraum, Zimmer, Vermietung, Untermiete

🚌 Mobilitaet

ÖPNV, Bus, Tram, Straßenbahn, U-Bahn, S-Bahn, Fahrrad, Radweg, Parkplatz

📚 Bildung

Schule, Kita, Kindergarten, UniversitÀt, Hochschule, Ausbildung

🌍 Umwelt

Klimaschutz, CO2, Emissionen, Nachhaltigkeit, Energiewende, Solaranlagen, GrĂŒnflĂ€chen, Parks, BĂ€ume, BegrĂŒnung, Abfallwirtschaft, Recycling

đŸ€ Soziales

Sozialhilfe, Grundsicherung, Armut, Obdachlosigkeit, Migration, Integration, FlĂŒchtlinge, Chancengleichheit, Familien

🎭 Kultur

Theater, Museen, Kunstförderung, Kulturzentren, Bibliotheken, Kulturelle Vielfalt, Denkmalschutz, Architektur

⚕ Gesundheit

KrankenhĂ€user, Ärzte, Gesundheitsversorgung, Psychiatrie, Pflege, Altenbetreuung, Behindertenbetreuung, Pandemie

đŸ’Œ Wirtschaft

Arbeitsmarkt, ArbeitsplÀtze, Unternehmensförderung, Gewerbebetriebe, Handwerk, Startups, FachkrÀftemangel

🚔 Sicherheit

Polizei, Feuerwehr, KriminalitÀt, Ordnung, Sauberkeit, Verkehrssicherheit, PrÀvention

⚜ Sport

Sportanlagen, Freizeiteinrichtungen, SchwimmbÀder, SpielplÀtze, Sportförderung, Jugendangebote

đŸ’» Digitalisierung

Breitband, Glasfaser, 5G, Smart City, Digitalisierung, IT-Infrastruktur, Online-Dienste

🔌 Versorgung

Wasser, Energieversorgung, Tierschutz, Kinderrechte, Verbraucherschutz

5. Auswertungen

  • Zeitslider-Hinweis: Zeigt die Inhaltsabdeckung (Anteil der AntrĂ€ge mit Textinhalt) fĂŒr das Jahr unter dem Regler. Die Prozentwerte werden je Jahr aus document_content berechnet und in Kategorien zusammengefasst.
  • KPI Verarbeitung: Durchschnittliche Bearbeitungszeit (Erledigt am − Gestellt am) nur fĂŒr erledigte VorgĂ€nge; offene/geschlossene ZĂ€hler basieren auf Vorhandensein des Erledigt-Datums; Referats-Breakdown ĂŒber erledigte VorgĂ€nge.
  • Trend (absolut): Gruppierung nach Monat (YYYY-MM) und Summe der binĂ€ren count-Spalte; Tooltips zeigen Typ-Breakdown und Gesamtzahl.
  • Trend (Anteil): Anteil der Treffer pro Monat (count/total); Tooltips zeigen Anteil sowie Treffer/gesamt.
  • Trend (korrigiert): Korrektur der Monatszahlen mit der PDF-VerfĂŒgbarkeit (SchĂ€tzung fehlender Inhalte).
  • Fraktionen/Einreicher: Feld Gestellt von wird an Kommata gesplittet, pro Name summiert; Tooltips zeigen Typ-Breakdowns.
  • Anteil pro Fraktion: VerhĂ€ltnis (Treffer / alle Dokumente je Fraktion); Tooltips zeigen Anteil und Treffer/gesamt.
  • Bearbeitungsdauer nach Referat: Durchschnittliche Tage pro Referat; Tooltips zeigen Ø‑Tage und Typ-Breakdown.
  • Stadtteilkarte: Kreisdiagramme je Stadtteil, normalisiert nach GesamtaktivitĂ€t der Fraktionen; KreisgrĂ¶ĂŸe = ErwĂ€hnungen. Diese Karte ist statisch.
  • Antragsliste: Kartenansicht mit Titel, Datum und Kurzbeschreibung; Klick öffnet das Dokument (falls vorhanden).

6. Visualisierung

  • Frontend nutzt D3.js; Daten werden ĂŒber JSON-Endpunkte aus Flask geladen.
  • Keine clientseitige Nachfilterung außer Darstellung (Tooltips, Sortierungen auf Basis der gelieferten Aggregationen).
  • Tooltips zeigen zusĂ€tzliche Details (z. B. Typ-Breakdowns, Anteile und Treffer/gesamt).
  • Die Stadtteilkarte ist vorgerendert und wird nicht durch die Filter beeinflusst.

7. Grenzen & Bias

  • Regex- und Theme-Expansion können Über- oder UnterzĂ€hlungen verursachen (z. B. Teilwörter, fehlende Synonyme).
  • BinĂ€re ZĂ€hlung ignoriert Mehrfachnennungen innerhalb eines Dokuments.
  • QualitĂ€t der Ergebnisse hĂ€ngt von DatenvollstĂ€ndigkeit und Richtigkeit der Quelle ab.
  • Kein automatisches Entfernen von Stoppwörtern in der ZĂ€hlung; Theme-Expansion ist kuratiert und kann unvollstĂ€ndig sein.

© 2026 Elena Zimmermann, Anna Labchir, Matthias Staritz, Tobias Pfeifle

Impressum DatenschutzerklÀrung Haftungsausschluss Methodik