datenqualität auf offenen datenportalen

Post on 08-Feb-2017

159 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Qualitätsmanagement von (offenen) Verwaltungsdaten

Jürgen Umbrich Vienna University of Economics and Business juergen.umbrich@wu.ac.at

Johann Höchtl Donau-Universität Krems johann.hoechtl@donau-uni.ac.at

InhaltWarum ist die Datenqualiät von Bedeutung für Open Data?

Wer kann sich an der Qualitäts-Verbesserung beteiligen?

Das Projekt ADEQUATe - Zielsetzungen

Metriken zur Datenqualitätsmessung auf offenen Datenportalen

Funktionen eines Qualitäts-Community-Portals

Fragestellungen und Ausblick

2

Datenqualität im Life Cycle - Perspektivenwandel

Anforderung / Wunsch

Datenmonitoring

Priorisierung

Veröffentlichung

Kommunikation

Nutzung

3Krabina, Bernhard, Thomas Prorok, und Brigitte Lutz. 2012. „Open Government Vorgehensmodell“. Vorgehensmodell V2.0. Wien: KDZ. http://www.kdz.eu/de/webfm_send/1206.

Campi, Alessandro, Matteo Aletti, Yao Cheng, Piero Franceschini, Mariangela Rizzo, und Davide Sanapo. 2016. „Empowering the E-government data life cycle“. Zugegriffen Juni 6. https://www.w3.org/2013/04/odw/odw13_submission_16.pdf

Wünsche der DatenbenutzerInnen

4

Dateninhalte und Formate○ I would really prefer to have the data themselves consistent. [...]

metadata does not match; standards regarding the representation of their content

○ It would be really great if we could shift somehow to UTF-8

○ meta data for CSV files were incomplete [...] header for CSV was missing

○ no static identifiers for objects in data sets. This in turn leads to problems if you want to track changes related to these objects over time

Wünsche und Berichte der DatenbenutzerInnen

5

Kommunikation○ central communication point for exchanging experiences and

issues

○ Meta data should be written in English language

Zuverlässigkeit○ Servers are restarted every day [...] hosted data becomes

unavailable

Wünsche und Berichte der DatenbenutzerInnen

6

Verfügbarkeit von Daten?

7

Wer kann sich an der Qualitäts-Verbesserung beteiligen?

Publishers Algorithms Community

8

Beteiligung an der Qualitäts-Verbesserung (1/2)

DatenbereitstellerKorrektheit und Vollständigkeit der Metadaten und Daten

Verfügbarkeitsgarantie

Kontaktadresse und Bereitschaft für Feedback/Diskussionen

AlgorithmenAutomatische Verbesserung

Qualitätskontrolle (Verfügbarkeitsüberprüfung, Fehlende oder falsche Informationen)

Verbesserung der Metadaten ( z.b. Korrektes Format, Grösse, Encoding)

Verbesserung der Daten (encoding, umwandeln von “;” auf “,”)

Semi-automatische Verbesserung

Empfehlungen für änhliche Daten

...

9

Beteiligung an der Qualitäts-Verbesserung (2/2)

CommunityFeedback an den Datenbereitsteller (z.b. Wenn daten nicht verügbar sind, oder für

Verbesserungsvorschläge)

“Forken” von Daten

Einen bestehenden Datensatz kopieren und die verbesserte Version bereitstellen

….

Mehr Informationen dazu später in der Präsentation

10

FFG Projecthttp://www.adequate.at

11

Was ist ?

12

Was ist ? ✓ 3 Partners:

1.Semantic Web Company

2.Donau Universität Krems

3.WU Wien

✓ 30 Monate Projektlaufzeit von Okt. 2015 - Mai 2018

✓ 2 Usecase Partner: data.gv.at & opendataportal.at

✓ Ziel: Verbesserung der Datenqualität durch Qualitätsmonitoring & Kontrolle

Automatische Algorithmen

Verbesserung der Daten durch die Anwender ( Community)

13

Metriken zur Datenqualitätsmessung auf offenen Datenportalen

14

Verschiedene Dimensionen und Details (1/2)Wie ausführlich sind die Daten beschrieben?

Gibt es Informationen zur Lizenz, Format, Grösse, Beschreibung, zeitliche und räumliche Ausdehnung, Kontaktstellen, unterschiedliche Sprachen

Wie komplett sind die Daten?Fehlende Werte, Fehlende Headers bei CSV

Verfügbarkeit von Daten?

Sind die Daten ein einer offenen Lizenz und Format verfügbar?CC-BY, CSV vs. XLS

15

Konformanz mit existierenden Standards?Dateiformat

Lizenz ID

Datumsangaben (ISO standard?)

Wie akkurate sind die Daten beschrieben?Richtiges Dateiformat, Grösse, Encoding, Updatezyklus, zeitliche & räumliche Ausdehnung

Wie einheitlich sind die Daten veröffentlicht?Gleiches Schema für unterschiedliche Versionen ( e.g. gleiche Headers und anzahl Spalten)

Gibt es unregelmässigkeit in den Werten ( Ausreisser)?

Verschiedene Dimensionen und Details (2/2)

16

In ADEQUATe: 11 Dimensionen & 46 Metriken

17

Open Data Portal Watch261 Open Data

portals

Weekly snapshots & Quality assessment

6 QUality dimensions

19 quality metrics

Focused on metadata

http://data.wu.ac.at/portalwatch/ 18

Funktionen eines Community-Portals

19https://open.wien.gv.at/site/riesenbaum-in-wien-entdeckt/#more-87184

Identifizieren - Beheben - Zurückgeben

20

1 47 11

2 48 15

1 47 11

2 48 151

1 47 11

2 47 15

2

Identifizieren - Beheben - Zurückgeben

21

Identifizieren - Beheben - Zurückgeben

22

Kontrolle von automatisierten Datenverbesserungen: Formate, Encodings, Identifikation von Konzepten

Behebung von Datenfehlern

Anreicherungen und Transformationen von Daten

https://github.com/antontarasenko/gpq/blob/master/notebooks/contracts_intro.ipynb

Kontakt und Team

23

Jürgen Umbrich Vienna University of Economics and Business Juergen.umbrich @ wu.ac.at

Johann Höchtl Donau-Universität Krems Johann.hoechtl @ donau-uni.ac.at

http://adequate.at/

http://vienna.theodi.org

top related