1. Datenquellen
- Basis ist die öffentlich zugĂ€ngliche Ratsinformations-Plattform der Stadt MĂŒnchen.
- Dokumente werden per Crawler geladen und in
data.csvabgelegt (Spalten u. a.: Drucksachen-Nr., Titel, Typ, Gestellt am, Erledigt am, Gestellt von, ZustĂ€ndiges Referat, document_content). - Personen- und Fraktionsnamen stammen ausschlieĂlich aus den veröffentlichten Dokumenten.
2. Vorverarbeitung
- Alle Texte werden als String gespeichert, Datumsspalten in Datumsformate konvertiert (ungĂŒltige Daten werden verworfen).
- Keine automatische Korrektur oder Normalisierung des Inhalts; eventuelle OCR-/Formatierungsartefakte bleiben bestehen.
- Optional können Filter nach Antragstyp (
typ_filter) angewandt werden (OR-Logik ĂŒber ausgewĂ€hlte Typen).
3. Such- und ZĂ€hlregeln
- Suche erfolgt regex-basiert, case-insensitive, pro Suchwort.
- Freie Stichwortsuche: Es kann jedes Wort bzw. jede Phrase gesucht werden.
- Schwelle:
MIN_OCCURRENCES_PER_DOC = 1. Ein Dokument zÀhlt als Treffer, sobald das Suchwort mindestens einmal vorkommt. - BinÀr pro Dokument: Ein Dokument trÀgt maximal 1 zum ZÀhler bei, auch wenn das Wort mehrfach vorkommt.
- Theme-Expansion (aktiv): Suchbegriffe werden ĂŒber
THEME_MAPum thematisch verwandte Phrasen erweitert (z. B. "Wohnen" â Wohnung, Miete, Zimmer ...). Dadurch steigen Trefferzahlen, weil Synonyme mitgezĂ€hlt werden. Abschaltbar viaexpand_with_themes=False. - Mehrere Suchwörter: Trefferlisten werden vereinigt (Union).
total_word_countzĂ€hlt jedes Dokument höchstens einmal ĂŒber alle Suchbegriffe. - Lemmatisierung: FĂŒr Theme-Expansion wird spaCy auf Lemmebene eingesetzt; die eigentliche ZĂ€hlung bleibt regex-basiert.
4. Theme-Expansion und semantische Suche
Wie ein Suchbegriff zu mehreren Suchbegriffen wird:
Um die Suchergebnisse zu verbessern, gibt es die Möglichkeit, mit einem Suchbegriff automatisch verwandte Begriffe zu finden. Dieses System heiĂt Theme-Expansion und funktioniert folgendermaĂen:
- Der Nutzer klickt einen Theme-Button (z. B. âWohnen") auf der Startseite oder gibt einen Suchbegriff ein.
- Das System prĂŒft, ob dieser Begriff einem Theme in der THEME_MAP entspricht oder einer der zugeordneten Phrasen.
- Falls ja: Alle Phrasen dieses Themes werden zur Suche hinzugefĂŒgt. Z. B. werden bei âWohnen" automatisch auch âWohnung", âMiete", âMietspiegel", etc. gesucht.
- Die Regex-basierte Suche wird dann fĂŒr jeden dieser expandierten Begriffe durchgefĂŒhrt.
- Die Ergebnisse werden zusammengefasst (Union), sodass jedes Dokument maximal einmal gezÀhlt wird.
Technischer Hintergrund: Die Theme-Expansion ist lexikon-basiert (rule-based) und nutzt spaCy auf Lemma-Ebene fĂŒr die Erkennung von Themenbegriffen in Texten. Die eigentliche ZĂ€hlung bleibt regex-basiert fĂŒr optimale Performance. Die Theme-Expansion ist standardmĂ€Ăig aktiviert, kann aber ĂŒber expand_with_themes=False deaktiviert werden.
VerfĂŒgbare Themes und ihre Suchbegriffe
Hier ist eine Ăbersicht aller Themes und ihrer zugeordneten Suchbegriffe:
đ Wohnen
Wohnung, Miete, Mietspiegel, Wohnraum, Zimmer, Vermietung, Untermiete
đ Mobilitaet
ĂPNV, Bus, Tram, StraĂenbahn, U-Bahn, S-Bahn, Fahrrad, Radweg, Parkplatz
đ Bildung
Schule, Kita, Kindergarten, UniversitÀt, Hochschule, Ausbildung
đ Umwelt
Klimaschutz, CO2, Emissionen, Nachhaltigkeit, Energiewende, Solaranlagen, GrĂŒnflĂ€chen, Parks, BĂ€ume, BegrĂŒnung, Abfallwirtschaft, Recycling
đ€ Soziales
Sozialhilfe, Grundsicherung, Armut, Obdachlosigkeit, Migration, Integration, FlĂŒchtlinge, Chancengleichheit, Familien
đ Kultur
Theater, Museen, Kunstförderung, Kulturzentren, Bibliotheken, Kulturelle Vielfalt, Denkmalschutz, Architektur
âïž Gesundheit
KrankenhĂ€user, Ărzte, Gesundheitsversorgung, Psychiatrie, Pflege, Altenbetreuung, Behindertenbetreuung, Pandemie
đŒ Wirtschaft
Arbeitsmarkt, ArbeitsplÀtze, Unternehmensförderung, Gewerbebetriebe, Handwerk, Startups, FachkrÀftemangel
đ Sicherheit
Polizei, Feuerwehr, KriminalitÀt, Ordnung, Sauberkeit, Verkehrssicherheit, PrÀvention
✠Sport
Sportanlagen, Freizeiteinrichtungen, SchwimmbÀder, SpielplÀtze, Sportförderung, Jugendangebote
đ» Digitalisierung
Breitband, Glasfaser, 5G, Smart City, Digitalisierung, IT-Infrastruktur, Online-Dienste
đ Versorgung
Wasser, Energieversorgung, Tierschutz, Kinderrechte, Verbraucherschutz
5. Auswertungen
- Zeitslider-Hinweis: Zeigt die Inhaltsabdeckung (Anteil der AntrĂ€ge mit Textinhalt) fĂŒr das Jahr unter dem Regler. Die Prozentwerte werden je Jahr aus
document_contentberechnet und in Kategorien zusammengefasst. - KPI Verarbeitung: Durchschnittliche Bearbeitungszeit (Erledigt am â Gestellt am) nur fĂŒr erledigte VorgĂ€nge; offene/geschlossene ZĂ€hler basieren auf Vorhandensein des Erledigt-Datums; Referats-Breakdown ĂŒber erledigte VorgĂ€nge.
- Trend (absolut): Gruppierung nach Monat (YYYY-MM) und Summe der binÀren
count-Spalte; Tooltips zeigen Typ-Breakdown und Gesamtzahl. - Trend (Anteil): Anteil der Treffer pro Monat (
count/total); Tooltips zeigen Anteil sowie Treffer/gesamt. - Trend (korrigiert): Korrektur der Monatszahlen mit der PDF-VerfĂŒgbarkeit (SchĂ€tzung fehlender Inhalte).
- Fraktionen/Einreicher: Feld
Gestellt vonwird an Kommata gesplittet, pro Name summiert; Tooltips zeigen Typ-Breakdowns. - Anteil pro Fraktion: VerhÀltnis (Treffer / alle Dokumente je Fraktion); Tooltips zeigen Anteil und Treffer/gesamt.
- Bearbeitungsdauer nach Referat: Durchschnittliche Tage pro Referat; Tooltips zeigen ĂâTage und Typ-Breakdown.
- Stadtteilkarte: Kreisdiagramme je Stadtteil, normalisiert nach GesamtaktivitĂ€t der Fraktionen; KreisgröĂe = ErwĂ€hnungen. Diese Karte ist statisch.
- Antragsliste: Kartenansicht mit Titel, Datum und Kurzbeschreibung; Klick öffnet das Dokument (falls vorhanden).
6. Visualisierung
- Frontend nutzt D3.js; Daten werden ĂŒber JSON-Endpunkte aus Flask geladen.
- Keine clientseitige Nachfilterung auĂer Darstellung (Tooltips, Sortierungen auf Basis der gelieferten Aggregationen).
- Tooltips zeigen zusÀtzliche Details (z. B. Typ-Breakdowns, Anteile und Treffer/gesamt).
- Die Stadtteilkarte ist vorgerendert und wird nicht durch die Filter beeinflusst.
7. Grenzen & Bias
- Regex- und Theme-Expansion können Ăber- oder UnterzĂ€hlungen verursachen (z. B. Teilwörter, fehlende Synonyme).
- BinÀre ZÀhlung ignoriert Mehrfachnennungen innerhalb eines Dokuments.
- QualitÀt der Ergebnisse hÀngt von DatenvollstÀndigkeit und Richtigkeit der Quelle ab.
- Kein automatisches Entfernen von Stoppwörtern in der ZÀhlung; Theme-Expansion ist kuratiert und kann unvollstÀndig sein.