OpenData

Berliner Open Data-Statistiken

Sebastian Meier (@seb_meier) | 24/07/2018

Im Juni hat Berlin Online aktuelle Zugriffsstatistiken zum Open Data-Portal der Hauptstadt veröffentlicht. Da wir im Rahmen von ODIS die Weiterentwicklung des Berliner Datenangebotes strategisch unterstützen, haben wir diese Zahlen einer ausführlichen Analyse unterzogen. Im Folgenden geben wir einen kleinen Einblick in die Entwicklung des Portals seit 2013, zeigen Trends und fassen die wesentlichen Einsichten zusammen.

Zugriffszahlen Die Kurve links zeigt die Zugriffszahlen seid April 2013.

Klicke auf weiter um mehr zu erfahren.

Die wichtigsten Erkenntnisse

1. Die Gesamtentwicklung ist positiv

Mit dem Anwachsen des Datenbestandes sind im letzten Jahr auch die Zugriffszahlen gestiegen. Ein breiteres Angebot führt also – wenig überraschend – auch zu intensiverer Nutzung. Die positive Tendenz zeigt, dass tatsächlich ein Bedarf an offenen Verwaltungsdaten besteht und diese kontinuierlich nachgefragt werden.

2. Der Großteil der Downloads entfällt auf wenige Datensätze

Während einige wenige Datensätze mehrere tausend Zugriffe verzeichnen, wird der größte Teil auch über längere Zeiträume nur selten aufgerufen. Allerdings taugt die Zahl der Aufrufe nur bedingt als Erfolgsindikator, denn schon aus einem einzelnen Download kann eine relevante Anwendung entstehen. Trotzdem sollte bei einer solchen Verteilung ein besonderes Augenmerk darauf liegen, dass die wenigen wirklich stark nachgefragten Datensätze hohen Qualitäts- und Aktualitätsansprüchen genügen.

3. Die Interesse an Daten hängt stark von äußeren Faktoren ab

Ungewöhnlich hohe Zugriffszahlen hängen fast immer mit äußeren Faktoren zusammen. Das kann eine Verlinkung auf einem Online-Medium oder ein datenjournalistisches Projekt sein, oft aber auch Ereignisse wie Wahlen, oder der Beginn der Badesaison. Starke Nachfrage lässt sich immer dort verzeichnen, wo es einen direkten Bezug der Daten zur Lebensrealität der Bürger*innen gibt. Das bedeutet umgekehrt: Eine Orientierung an konkreten Bedarfen zahlt sich für Datenbereitsteller fast immer aus und schlägt sich in deutlich höheren Zugriffszahlen nieder.

Detailanalysen

Eine einschränkende Anmerkung vorab: In den Zugriffszahlen tauchen nur jene Aufrufe auf, die auch tatsächlich über das Open Data-Portal erfolgen. Falls User*innen ihre Daten direkt aus anderen Portalangeboten des Landes (z.B. FIS Broker, GSI oder AfS) beziehen, erscheinen diese nicht in den Statistiken. Trotzdem erlauben die veröffentlichten Zahlen zahlreiche interessante Einsichten. Im Folgenden zeigen wir detailliertere Analysen zu einzelnen Aspekten des Berliner Open Data-Bestandes. Wer sich darüber hinaus für den Stand von offenen Daten in Berlin interessiert, dem sei auch unser Report Open Data in der Berliner Verwaltung empfohlen.

Verteilung

Ein Blick auf die individuelle Verteilung der Zugriffe macht deutlich, dass eine kleine Gruppe von Datensätzen den Großteil der Zugriffe ausmacht.

Gesamtzahl der Zugriffe auf einen Datensatz

Durchschnittliche monatliche Zugriffe (Mean)

Mittelwert monatlicher Downloads (Median)

Auch der Großteil neu hochgeladener Datensätze bekommt kaum Zugriffe. Nur wenige Datensätze können auch über einen längeren Zeitraum konstant hohe Abrufzahlen verzeichnen

Die ersten 24 Monate nach Bereitstellung eines Datensatzes

Zeitliche Muster

Der Anteil der verfügbaren Daten ist während dieser Zeit kontinuierlich angewachsen. Immer wieder gab es konzentrierte Initiativen, größere Pakete an Daten in das Portal zu bringen (Batch-Uploads, Harvesting anderer Portale).

Auch die Nachfrage ist stetig gestiegen. Die folgende Grafik zeigt, auf wieviel Prozent der Daten im jeweiligen Monat zugegriffen wurde. Anfangs waren es um die 15%, mittlerweile sind es mehr als 30% (schwarze Linie). Daten, die in den letzten vier Monaten hochgeladen wurden erhalten etwas mehr Aufmerksamkeit (graue Linie). Ein interessantes Muster, das wir dabei entdeckten: Alle vier Monate gibt es einen Peak an Anfragen, als würde automatisiert eine größere Gruppe an Daten abgefragt werden. Hierfür konnten wir bisher keine Erklärung finden. Die auffälligen Daten stammen größtenteils vom GSI-Portal.

Über das Jahr hinweg gibt es ein durchgehendes Muster, nämlich das Abflauen der Anfragen im Winter. Im Sommer lässt sich bislang keine rechte Regelmäßigkeit erkennen.

Die Ausreißer

Immer wieder finden sich in den Zahlen ungewöhnliche Ausreißer, wenn einzelne Datensätze zu einem bestimmten Zeitpunkt besonders nachgefragt werden. Hier einige Beispiele

Zugriffe nach Themen, Herkunft und Lizenzen

Über alle Datensätze hinweg besteht das größte Interesse an räumlichen Informationen, gefolgt von Datensätzen rund um das Thema Demographie. Das Amt für Statistik Berlin Brandenburg bleibt der wichtigste Bereitsteller offener Daten in Berlin. Bei den Lizenzen hat sich die international verbreitete Creative Commons-Lizenz weitgehend durchgesetzt.

Zugriffszahlen nach Thema

 

Zugriffszahlen nach Bereitsteller

 

Zugriffszahlen nach Lizenzen

 

Top-Datensätze

Abschließend noch die Top-Ten der beliebtesten Datensätze. Übrigens: Die beliebtesten Berliner Vornamen des letzten Jahres waren "Emilia" und "Ben". Wer es in den Rohdaten nachsehen will: Hier entlang .

Gesamtzugriffe seit 2013

Durchschnittliche monatliche Zugriffe

Gruppierte Zugriffe seit 2013

Gruppierte durchschnittliche monatliche Zugriffe

Project on Github open-data-stats
Projekt auf GitHub
Sebastian Meier

Über den Autor

Sebastian Meier

Sebastian Meier ist Data Scientist bei der Technologiestiftung Berlin. Er studierte Kommunikations-, Interface-Design und promovierte im Bereich der Geoinformatik an der Uni Potsdam. Der Fokus von Sebastians Arbeit liegt auf der Analyse und Visualisierung räumlicher Daten, sowie menschzentrierter Perspektiven bei der Entwicklung von Mensch-Maschine-Schnittstellen.