Asset-Herausgeber

Der Musterdatenkatalog: Ein Beitrag für mehr Open Data in Kommunen

Bertelsmann Stiftung

Der Musterdatenkatalog: Ein Beitrag für mehr Open Data in Kommunen

von und

Mario Wiedemann arbeitet als Project Manager im Projekt »Smart Country« der Bertelsmann Stiftung. Er hat Politische Wissenschaft, Neuere Geschichte und Medienwissenschaft studiert. Einer seiner Arbeitsschwerpunkte ist Open Data in Kommunen. In früheren Projekten hat er sich u. a. für offene Inhalte engagiert, z. B. beim Aufbau eines Portals für freie Bildungsmaterialien des Deutschen Instituts für Erwachsenenbildung. Er ist Mitgründer und Vorsitzender des Vereins Future Challenges e.V., der sich in der digitalen Menschenrechtsarbeit engagiert. Auf Twitter ist er unter @mariosorg zu finden.
Mila Frerichs ist Gründer von Civic Vision (https://civicvision.de), einer Softwarefirma mit Fokus auf Offenen Daten und Open-Source-Anwendungen für kommunale und zivilgesellschaftliche Themen. Er hilft zivilgesellschaftlichen Organisationen und Kommunen, das Potenzial von Offenen Daten voll auszuschöpfen. Er ist seit Gründung von Code for Germany Teil der Community und war lange Zeit Lab Lead in Münster. Er war mit seinem Projekt »Automatischer Open Data City Zensus« Teil des Prototypefunds. Auf Twitter ist er unter @milafrerichs zu finden.

Die Bertelsmann Stiftung stellte diesen Sommer ihren Musterdatenkatalog für Kommunen vor. Dieser ist Teil eines Gemeinschaftprojekts zu Open Data von der Bertelsmann Stiftung, GovData, dem KDZ-Zentrum für Verwaltungsforschung und der Open Knowledge Foundation Deutschland. Welche Kommune veröffentlicht welche Daten? Darauf gibt der Musterdatenkatalog eine Antwort, indem er über 2.000 Datensätze aus NRW rund 300 Musterdatensätzen zuordnet.

Im Sommer 2020 lohnte sich ein Blick nach Düsseldorf. Zumindest für jene Leser:innen, die sich für Open Data interessieren. In der nordrhein-westfälischen Landeshauptstadt wurde das Open.NRW-Portal für Kommunen geöffnet. Somit muss nicht mehr jede Kommune ein eigenes Open-Data-Portal betreiben. Von der Bereitstellung der technischen Infrastruktur für die Veröffentlichung offener Daten dürften vor allem kleinere Kommunen profitieren. Viele der großen Städte in Nordrhein-Westfalen haben ihr eigenes Open-Data-Portal bereits etabliert.

Die fehlende technische Infrastruktur war bisher sicherlich nicht der alleinige, ausschlaggebende Grund dafür, dass nach wie vor nur ca. ein Prozent der Kommunen (ca. 130 von 11.000 deutschlandweit) Open Data veröffentlichen. Fehlendes Know-how und ein fehlender gesetzlicher Auftrag zur Herausgabe der Daten sind weitere Gründe, wie aus einer kürzlich veröffentlichten Open-Data-Umfrage der Bertelsmann Stiftung und des Deutschen Instituts für Urbanistik in über 200 Kommunen hervorgeht.

Abbildung 1: Open Data in Kommunen Grafik von Mila Frerichs, Quelle: GovData & Thomas Tursics, Erstellt mit Datawrapper

Einfache Suche und gute Übersicht mit dem Musterdatenkatalog

Alle Ansätze, mehr Kommunen im Sinne von Open Government dazu zu bewegen, offene Daten zu veröffentlichen und somit die Vorteile, die sich aus ihrer Nutzung ergeben, zu nutzen, sind zu begrüßen.

Einen Beitrag auf diesem Weg leistet auch der Musterdatenkatalog für offene Daten in Kommunen, den die Projektpartner Bertelsmann Stiftung, GovData, KDZ – Zentrum für Verwaltungsforschung, die Open Knowledge Foundation und Open.NRW im April 2020 veröffentlicht haben. Der Musterdatenkatalog schafft Vergleichbarkeit zwischen den Kommunen: Welche Kommune veröffentlicht welche Daten? Darauf gibt der Musterdatenkatalog eine Antwort, indem er über 2.000 Datensätze aus NRW-Kommunen rund 300 Musterdatensätzen zuordnet. Diese Musterdatensätze lauten z.B.

  • Abfallwirtschaft – Abfallmengen
  • Radverkehr – Ladestationen
  • Wahlen – Kommunalwahl.

Eine vergleichbare übersichtliche Einordnung kommunaler Daten hat es bisher nicht gegeben. Durch die einfache Suche und gute Übersicht im Musterdatenkatalog können sich Kommunen, die mit der Veröffentlichung offener Daten beginnen wollen, Anregung holen. Außerdem können sich Kommunen, die im Musterdatenkatalog aufgenommen sind, ihr »Potenzial« anzeigen lassen. Durch den Abgleich mit anderen Open-Data-Kommunen kann festgestellt werden, welche Daten, die in anderen Kommunen bereits zugänglich sind, eine Kommune noch als Open Data veröffentlichen könnte.

In einem ersten Schritt wurde im April 2020 der Musterdatenkatalog für Nordrhein-Westfalen veröffentlicht. Im größten Bundesland gibt es auch mit Abstand die meisten Open-Data-Kommunen. So konnten mehr als 40 Kommunen in den NRW-Katalog mit aufgenommen werden. Viele NRW-Kommunen wie die Städte Köln, Bonn, Düsseldorf und Moers haben sich an der Konzipierung des Musterdatenkatalogs beteiligt.

Herausforderungen auf dem Weg zu einem bundesweiten Musterdatenkatalog

Aktuell arbeiten wir an einer bundesweiten Version des Musterdatenkatalogs. Während die Zuordnungen der kommunalen Datensätze zu den entsprechenden Musterdatensätzen in der NRW-Version noch manuell erfolgten, soll dies in Zukunft ein Algorithmus leisten. Damit könnte der künftige Aufwand zum Betrieb des Musterdatenkatalogs deutlich reduziert werden. Doch es gibt einige Herausforderungen zu überwinden. Die größte unter ihnen ist die Datengrundlage.

Der Algorithmus verwendet die Metadaten (Daten die Daten beschreiben) der Datenbereitsteller, um eine Entscheidung über den Musterdatensatz treffen zu können. Maschinenalgorithmen müssen auf Daten trainiert werden. Dies erfolgte in der NRW-Version auf Basis der manuellen Zuordnungen und wird stetig erweitert und verbessert.

Metadaten werden nur unzureichend gepflegt

Da die Metadaten nicht einheitlich von den Kommunen gepflegt werden, gibt es ganz unterschiedliche Ergebnisse. Je mehr Metadaten vorhanden sind und je genauer ein Datensatz beschrieben wird, umso einfacher ist es für den Algorithmus und umso genauer ist das Ergebnis.

Die wichtigsten Metadaten sind der Titel und die Beschreibung eines Datensatzes. Doch auch der Titel bringt eine Herausforderung mit sich: Von Kommune zu Kommune gibt es für ein und denselben Datensatz oft unterschiedliche Titel. Aus diesem Grund ist der Titel nur ein Teil der Datengrundlage für den Algorithmus.

Der Beschreibung eines Datensatzes kommt besondere Bedeutung zu, denn hier liegt das größte Potenzial für einen Algorithmus. Doch in den Kommunen zeigen sich deutliche Unterschiede. Während nur wenige Kommunen sehr ausführliche Beschreibungen ihrer Datensätze liefern, gibt es auch viele, die nur sehr kurze bis gar keine Beschreibung liefern. Das macht es sehr viel schwerer den Datensatz zuzuordnen.

Sogar die Frage, welcher Datensatz aus welcher Kommune und aus welchem kommunalen Unternehmen kommt, ist heute automatisiert gar nicht so einfach zu beantworten. Leider gibt es aktuell noch keine Übersicht über die kommunalen Open-Data-Portale und somit darüber, welche Kommunen Daten veröffentlichen. Diese Funktion wird der neue Musterdatenkatalog bieten. Da es noch kein Metadatenfeld gibt, das eine Kommune identifiziert, mussten die 20.000 Datenbereitsteller auf govdata manuell durchforstet und einer Kommune zugeordnet werden.

Der Musterdatenkatalog kann Entwicklungen auf kommunaler Ebene anstoßen

Die Erstellung eines bundesweiten Musterdatenkatalogs, der regelmäßig und in möglichst hohem Maße automatisiert aktualisiert wird ist kompliziert und auch etwas aufwändiger als wir dies zu Beginn des Projekts Musterdatenkatalog erwartet hatten.

Viele Gespräche mit kommunalen Vertreter:innen und das Interesse am Musterdatenkatalog insgesamt haben uns aber gezeigt, dass dieser einen nachhaltigen Mehrwert liefert. Der Musterdatenkatalog kann Ausgangsbasis sein, um weitere Entwicklungen im Bereich der kommunalen Daten anzustoßen, wie zum Beispiel eine Vereinheitlichung von Datensatzbezeichnungen.

Wir richten unseren Fokus aktuell darauf, den bundesweiten Musterdatenkatalog so schnell wie möglich veröffentlichen zu können und führen parallel gerne Gespräche über mögliche Entwicklungsschritte, die das Thema Open Data in Kommunen voranbringen.


Veröffentlicht: 23.11.2020