ckan by friedrich lindenberg

Post on 29-Jun-2015

822 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Presentation at the OGD2011 conference taking place in Vienna on the 16th of June 2011 as well as at the LOD2 CKAn workshop on 15th of June 2011: CKAN by Friedrich Lindenberg, Open Knowledge Foundation.(License: CC-BY 3.0)

TRANSCRIPT

LOD2 CKAN Workshop Wien - 15.6.2011

Warum?

✓ Welche Lizenz?

✓ Welche Formate?

✓ Welche Inhalte?

✓ Dann:

✓ Aktualität

✓ Vollständigkeit

✓ Bezugsraum, ...

Kernfragen

Informationsarchitektur

Daten-Ökosystem

Beispiel: Ausgaben UK

November 2011:

Veröffentlichung Ausgaben der zentralen Regierung > £ 25.000, lokal: > £ 500

7 Monate später

• 557 Datenpakete

• 588 Behörden

• 3327 Tabellen (CSV, Excel, HTML)

Datenbereinigung

• Abruf per CKAN-API (data.gov.uk)

• Formatkonvertierung (SQLite)

• Vereinheitlichung von Ministerien und Behörden (Google Spreadsheet)

• Verbindung mit OpenCorporates (Unternehmens-Registernummern)

• Als neues CKAN-Paket bereit gestellt (ckan.net)

Weiternutzung

Was ist CKAN? (I)

• Open Source-Projekt, etwa 12 Kernentwickler

• Nutzer: data.gov.uk, data.norge.no, hri.fi, register.data.overheid.nl, iatiregistry.org

• ckan.net und ~ 24 Community-Instanzen

Was ist CKAN? (II)

• Datenkatalog, kein Repositorium

• (Archiv & Speicherung als Erweiterung)

• flexibles Metadatenschema

• Kernelemente ~ Dublin Core + Ressourcen

• Versionierung aller Metadaten

Was ist CKAN? (III)• Ein Wiki für Metadaten

• Vision: GitHub/SourceForge für Datenquellen

• Community von aktiven Datennutzern einbinden (auch für Regierungsseiten)

• Verschiedene Metaphern (CPAN = Perl Packet-Verzeichnis)

Beispiel: LOD Cloud

Metadaten

• Kernelemente und “Extras”

• anpassbare Formulare im Webfrontend

• durch data.gov.uk: Konventionen für Extra-Felder (auch in data.norge.no, hri.fi, overheid.nl)

Theming

Content Management

• “Wordpresser”-Erweiterung zur Anbindung an Wordpress

• Integration mit Drupal bei data.gov.uk (Open Source)

Geodaten (I)

Geodaten (II)• CSW-Harvester und Endpunkt

• GEMINI 2.1 (~> INSPIRE)

• sammelt Kataloge aus England und den anghängten Ländern

• Übergabe via Ordnance Survey an EC

• Experimentelle Geo-Suche, WMS-Preview

Publisher

• Institutionen-Modell

• Freischaltung von Behörden

• Nutzergruppen

Moderierte Eingaben

Schnittstelle

• REST-API mit JSON und RDF-Support

• Bibliotheken für Python, PHP, Ruby

• Nutzung:

• Paketimport (Excel-Sheets)

• Metadatenanreicherung

Metadatenbereinigung

publicdata.eu

• Portal als Forschungs-Prototyp für data.eu

• Föderierung von Datenkatalogen aus Europa

• Integration & Anreicherung der Metadaten

• Standardisierung von DCat

Scraping

DCat• Standardisierungsdiskussion läuft (Workshop

Anfang Mai)

• Partner: RPI, CTIC, LOD2, CSI Piemonte etc.

• RDF mit DC Terms und Ressourcen

• Gemeinsame Harvesting-API

• datacatalogs.org

• GLD WG im W3C neu gestartet

• SKOS?

• 430 Teilnehmer aus 23 EU-Staaten

• Preisvergabe bei der Digital Assembly

Apps-Katalog

Ressourcen

• CKAN Projektseite - http://ckan.org

• CKAN Wiki - http//wiki.ckan.net

• PublicData.eu-Portal - http://publicdata.eu

• Open Data Manual - http://www.opendatamanual.org

• Open Defintion - http://opendefintion.org

• Allg. Informationen - http://opengovernmentdata.org/

Folien: CC-BY, Friedrich Lindenberg, genutzte Bilder: London Traffic Lights (Wikimedia Commons); Francis Maude at data.gov.uk Event (Guardian), Screenshots

Teil II: Hands-on

Technik

• Python-Anwendung, Pylons MVC-Framework

• PostgreSQL-Datenbank

• Apache/mod_wsgi oder uwsgi

• Optionale Abh.: Apache Solr, RabbitMQ

Modularisierung

Installation

• Debian Packages für Ubuntu LTS

• Extensions werden als Packages verteilt

• Solr und RabbitMQ getrennt installieren

Anpassung

• ckanext-exampletheme ableiten

• Formulare als Python-Modul anpassen

• Themes sind Template-Overlays

• HTML-Struktur enspricht Wordpress

• Lokalisierung via transifex.net

Sicherheit

• Authentifizierung via Login, OpenID, API Key

• Authorisierung via Rollen und Aktionen

• ACL für jedes Packet, jede Gruppe

• globale Defaults sind konfigurierbar

• AuthzGroups für Nutzergruppen

API

• /api/X/rest - Versioniert

• /api/2/rest/package - REST Collection (GET, POST), auf Entities: GET, PUT.

• Beispiele in ckanext-pdeu/scripts

Revisionen

• Copy on Write in Spiegel-Tabelle

• Revisionen können gelöscht werden

• Quelle für RSS-Feeds

Queue

• Hintergrundverarbeitung durch Queue

• Solr Index Aktualisierung

• Triple Store sync

• Archivierung

• Webhooks

Speicherung

• Noch im Beta-Stadium

• Nutzt Dateisystemabstraktion (OFS)

• S3, Archive.org, Google Storage

• REST Forward, Pairtree Dateisystem

top related