datenqualität auf offenen datenportalen

23
Qualitätsmanagement von (offenen) Verwaltungsdaten Jürgen Umbrich Vienna University of Economics and Business [email protected] Johann Höchtl Donau-Universität Krems [email protected]

Upload: johann-hoechtl

Post on 08-Feb-2017

159 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Datenqualität auf Offenen Datenportalen

Qualitätsmanagement von (offenen) Verwaltungsdaten

Jürgen Umbrich Vienna University of Economics and Business [email protected]

Johann Höchtl Donau-Universität Krems [email protected]

Page 2: Datenqualität auf Offenen Datenportalen

InhaltWarum ist die Datenqualiät von Bedeutung für Open Data?

Wer kann sich an der Qualitäts-Verbesserung beteiligen?

Das Projekt ADEQUATe - Zielsetzungen

Metriken zur Datenqualitätsmessung auf offenen Datenportalen

Funktionen eines Qualitäts-Community-Portals

Fragestellungen und Ausblick

2

Page 3: Datenqualität auf Offenen Datenportalen

Datenqualität im Life Cycle - Perspektivenwandel

Anforderung / Wunsch

Datenmonitoring

Priorisierung

Veröffentlichung

Kommunikation

Nutzung

3Krabina, Bernhard, Thomas Prorok, und Brigitte Lutz. 2012. „Open Government Vorgehensmodell“. Vorgehensmodell V2.0. Wien: KDZ. http://www.kdz.eu/de/webfm_send/1206.

Campi, Alessandro, Matteo Aletti, Yao Cheng, Piero Franceschini, Mariangela Rizzo, und Davide Sanapo. 2016. „Empowering the E-government data life cycle“. Zugegriffen Juni 6. https://www.w3.org/2013/04/odw/odw13_submission_16.pdf

Page 4: Datenqualität auf Offenen Datenportalen

Wünsche der DatenbenutzerInnen

4

Page 5: Datenqualität auf Offenen Datenportalen

Dateninhalte und Formate○ I would really prefer to have the data themselves consistent. [...]

metadata does not match; standards regarding the representation of their content

○ It would be really great if we could shift somehow to UTF-8

○ meta data for CSV files were incomplete [...] header for CSV was missing

○ no static identifiers for objects in data sets. This in turn leads to problems if you want to track changes related to these objects over time

Wünsche und Berichte der DatenbenutzerInnen

5

Page 6: Datenqualität auf Offenen Datenportalen

Kommunikation○ central communication point for exchanging experiences and

issues

○ Meta data should be written in English language

Zuverlässigkeit○ Servers are restarted every day [...] hosted data becomes

unavailable

Wünsche und Berichte der DatenbenutzerInnen

6

Page 7: Datenqualität auf Offenen Datenportalen

Verfügbarkeit von Daten?

7

Page 8: Datenqualität auf Offenen Datenportalen

Wer kann sich an der Qualitäts-Verbesserung beteiligen?

Publishers Algorithms Community

8

Page 9: Datenqualität auf Offenen Datenportalen

Beteiligung an der Qualitäts-Verbesserung (1/2)

DatenbereitstellerKorrektheit und Vollständigkeit der Metadaten und Daten

Verfügbarkeitsgarantie

Kontaktadresse und Bereitschaft für Feedback/Diskussionen

AlgorithmenAutomatische Verbesserung

Qualitätskontrolle (Verfügbarkeitsüberprüfung, Fehlende oder falsche Informationen)

Verbesserung der Metadaten ( z.b. Korrektes Format, Grösse, Encoding)

Verbesserung der Daten (encoding, umwandeln von “;” auf “,”)

Semi-automatische Verbesserung

Empfehlungen für änhliche Daten

...

9

Page 10: Datenqualität auf Offenen Datenportalen

Beteiligung an der Qualitäts-Verbesserung (2/2)

CommunityFeedback an den Datenbereitsteller (z.b. Wenn daten nicht verügbar sind, oder für

Verbesserungsvorschläge)

“Forken” von Daten

Einen bestehenden Datensatz kopieren und die verbesserte Version bereitstellen

….

Mehr Informationen dazu später in der Präsentation

10

Page 11: Datenqualität auf Offenen Datenportalen

FFG Projecthttp://www.adequate.at

11

Page 12: Datenqualität auf Offenen Datenportalen

Was ist ?

12

Page 13: Datenqualität auf Offenen Datenportalen

Was ist ? ✓ 3 Partners:

1.Semantic Web Company

2.Donau Universität Krems

3.WU Wien

✓ 30 Monate Projektlaufzeit von Okt. 2015 - Mai 2018

✓ 2 Usecase Partner: data.gv.at & opendataportal.at

✓ Ziel: Verbesserung der Datenqualität durch Qualitätsmonitoring & Kontrolle

Automatische Algorithmen

Verbesserung der Daten durch die Anwender ( Community)

13

Page 14: Datenqualität auf Offenen Datenportalen

Metriken zur Datenqualitätsmessung auf offenen Datenportalen

14

Page 15: Datenqualität auf Offenen Datenportalen

Verschiedene Dimensionen und Details (1/2)Wie ausführlich sind die Daten beschrieben?

Gibt es Informationen zur Lizenz, Format, Grösse, Beschreibung, zeitliche und räumliche Ausdehnung, Kontaktstellen, unterschiedliche Sprachen

Wie komplett sind die Daten?Fehlende Werte, Fehlende Headers bei CSV

Verfügbarkeit von Daten?

Sind die Daten ein einer offenen Lizenz und Format verfügbar?CC-BY, CSV vs. XLS

15

Page 16: Datenqualität auf Offenen Datenportalen

Konformanz mit existierenden Standards?Dateiformat

Lizenz ID

Datumsangaben (ISO standard?)

Wie akkurate sind die Daten beschrieben?Richtiges Dateiformat, Grösse, Encoding, Updatezyklus, zeitliche & räumliche Ausdehnung

Wie einheitlich sind die Daten veröffentlicht?Gleiches Schema für unterschiedliche Versionen ( e.g. gleiche Headers und anzahl Spalten)

Gibt es unregelmässigkeit in den Werten ( Ausreisser)?

Verschiedene Dimensionen und Details (2/2)

16

Page 17: Datenqualität auf Offenen Datenportalen

In ADEQUATe: 11 Dimensionen & 46 Metriken

17

Page 18: Datenqualität auf Offenen Datenportalen

Open Data Portal Watch261 Open Data

portals

Weekly snapshots & Quality assessment

6 QUality dimensions

19 quality metrics

Focused on metadata

http://data.wu.ac.at/portalwatch/ 18

Page 19: Datenqualität auf Offenen Datenportalen

Funktionen eines Community-Portals

19https://open.wien.gv.at/site/riesenbaum-in-wien-entdeckt/#more-87184

Page 20: Datenqualität auf Offenen Datenportalen

Identifizieren - Beheben - Zurückgeben

20

1 47 11

2 48 15

1 47 11

2 48 151

1 47 11

2 47 15

2

Page 21: Datenqualität auf Offenen Datenportalen

Identifizieren - Beheben - Zurückgeben

21

Page 22: Datenqualität auf Offenen Datenportalen

Identifizieren - Beheben - Zurückgeben

22

Kontrolle von automatisierten Datenverbesserungen: Formate, Encodings, Identifikation von Konzepten

Behebung von Datenfehlern

Anreicherungen und Transformationen von Daten

https://github.com/antontarasenko/gpq/blob/master/notebooks/contracts_intro.ipynb

Page 23: Datenqualität auf Offenen Datenportalen

Kontakt und Team

23

Jürgen Umbrich Vienna University of Economics and Business Juergen.umbrich @ wu.ac.at

Johann Höchtl Donau-Universität Krems Johann.hoechtl @ donau-uni.ac.at

http://adequate.at/

http://vienna.theodi.org