análisis, preparación y visualización de datos usando herramientas open source
Post on 12-Jan-2017
634 Views
Preview:
TRANSCRIPT
Workshop
“Análisis, preparación y visualización de datos usando herramientas Open Source”
05 - Marzo - 2016
Open Data Day - UIO
OPEN DATA
¿QUÉ ES OPEN DATA?
❏ Poner a disposición de la sociedad los datos gestionados por la administración pública
❏ Sin restricciones de derecho de autor
❏ Los datos son abiertos cuando:
➔ Accedidos➔ Usados➔ Modificados➔ Compartidos
HISTORIA
❏ El 17 de noviembre de 2003, la Directiva del Parlamento Europeo, presentaba un Tratado sobre el acceso de los datos
❏ En el año 2009 el gobierno de Estados Unidos comunicaba su iniciativa de liberar los datos
❏ El 30 de Noviembre de 2010 el Reino Unido liberó una licencia gubernamental
PRINCIPIOS DEL OPEN DATA
❏ Los datos deben ser:
➔ Públicos➔ Detallados➔ Actualizados➔ Accesibles➔ Automatizados➔ Sin Registro➔ Abiertos➔ Libres
BENEFICIOS DEL OPEN DATA
❏ Construir nuevo conocimiento
❏ Más eficiencia en los servicios gubernamentales
y la administración pública
❏ Genera nuevos indicadores económicos y
sociales
❏ Mide el impacto de las políticas públicas
OPEN DATA Y POLITICA
FUNDACIÓN CIUDADANO INTELIGENTE
PROYECTOS
OBSERVATORIO ANTICORRUPCION
ENFOQUE DE SOLUCIÓN
PROCEDIMIENTO
1 Preguntas a responder
2 Obtener losDatos
3 Explorar losDatos
4Modelar losDatos
Comunicar y Visualizar
Resultados5
ALGUNAS FUENTES DE DATOS
❏ Archivos➔ Formatos Abiertos: CSV, XML, JSON➔ Formatos Propietarios: Excel, SPSS
❏ Bases de Datos➔ PostgreSQL, MySQL, Oracle
❏ APIs➔ Servicios Web SOAP: XML➔ Servicios REST: XML/JSON
❏ Documentos (PDFs, páginas web, etc.)
❏ Redes Sociales
FORMATOS ABIERTOS - CSV
Cabecera (Header) Separador (, ; |)
Enclosure (")
Registros (Rows)
FORMATOS ABIERTOS - XML
Etiquetas (Tags)
<tag>...</tag>
Codificación
FORMATOS ABIERTOS - JSON
Valor
Atributo
Arreglo
[ ]
Objeto
{ }
APIs - OPEN DATA BANCO MUNDIAL
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=xml
❏ Invocación para obtener XML
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=json
❏ Invocación para obtener JSON
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=csv
❏ Invocación para obtener CSV
ARQUITECTURA DE LA SOLUCIÓN
ARQUITECTURA
DATA_MODEL
(DIMENSIONAL)CSV
ETLsCSV
CUBO DE
DATOS
ANÁLISIS
Y
VISUALIZACIÓN
SQL POWER
ARCHITECT
PENTAHO DATA
INTEGRATION
PENTAHO SCHEMA
WORKBENCH
PENTAHO BI SERVER
SAIKU ANALYTICS
SOFTWARE OPEN SOURCE A USAR
❏ Procesamiento de Datos➔ Pentaho Data Integration CE v5.4
❏ Entrega de Información➔ Pentaho Schema Workbench v5.4➔ Pentaho BI Server CE v5.4, Saiku Analytics
➔ PostgreSQL v9.3
➔ SQL Power Architect v1.0.8❏ Modelamiento
➔ Oracle JDK v1.7 (Java) ❏ Base de Datos
❏ Software Base
MODELAMIENTO DIMENSIONAL
CONCEPTOS
❏ Consiste en modelar hechos y dimensiones para llegar a lo que se conoce como Modelo Estrella
DIMENSIÓN 1
DIMENSIÓN 2
...
DIMENSIÓN N
HECHOS
CONCEPTOS
DIMENSIONES❏ Datos Cualitativos❏ Representan información de una entidad. Ej.
País, Región, Sucursal, Producto
HECHOS❏ Datos Cuantitativos❏ Representan un indicador o medida. Ej. ventas,
deuda externa, comisiones❏ Los indicadores pueden ser agregados (sum,
avg, max, min, count)
EJEMPLO
FECHA
CLIENTE PRODUCTO
LOCAL
VENDEDOR
HECHOS
VENTAS
1..*
POSTGRESQL
❏ Abrir Terminal y abrir pgAdmin III
❏ Ir a File > Add Server
❏ Crear la base de datos data_model
SQL POWER ARCHITECT
❏ Abrir Files
❏ Ir al siguiente directorio
Computer > /opt/pentaho/architect-1.0.8
❏ Iniciar la aplicación architect.jar
❏ Conexión: Connections > Add Source Connection > New Connection
❏ Creación del modelo: Tools > Forward Engineer
PROCESAMIENTO DE DATOS
PENTAHO DATA INTEGRATION
❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en el directorio src_data y descomprimir
❏ Crear el directorio src_data en ➔ /home/vagrant/Documents/workshop
../workshop/src_data/DeudaExterna
catalogo_indicadores.csv
catalogo_paises.csv
deuda_externa.csv
PENTAHO DATA INTEGRATION
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/data-integration
➔ ./spoon.sh
❏ Seleccionar el repositorio workshop
❏ Conexión: Tools > Repository > Connections > data_model
CUBOS DE DATOS
CONCEPTOS
❏ Un cubo es una colección de múltiples dimensiones y medidas
FECHA TABLET
VENDEDO
R
2013
2014
PRODU
CTOPC
2015
SMARTP
HONE
JUAN
PEDRO
ANDREA
MEDIDAS
- VENTAS
- COMISIONES
- CANTIDAD
DIMENSIONES
CUBOS, DIMENSIONES Y MEDIDAS
Analogía❏ Las dimensiones del cubo son a las
dimensiones del modelo dimensional❏ Las medidas del cubo son a los hechos del
modelo dimensional
Visualización❏ Un cubo se lo visualiza como una tabla
cruzada o tabla pivot
VISUALIZACIÓN DE UN CUBO
FECHA TABLET
VENDEDO
R
2013
2014
PRODU
CTOPC
2015
SMARTP
HONE
JUAN
PEDRO
ANDREA
TABLET PC SMARTPHONE
2013 2014 2015 2013 2014 2015 2013 2014 2015
JUAN 12 8 14 - - - - - -
PEDRO - - - 22 45 16 - - -
ANDREA - - - - - - 134 122 245
TABLA PIVOT / CRUZADA
PENTAHO SCHEMA WORKBENCH
❏ Conexión: Options > Connection > data_model
❏ Publicación del Cubo: File > PublishAdmin|password|data_model
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/schema-workbench
➔ ./workbench.sh
PENTAHO BI-SERVER
❏ Abrir Firefox: http://localhost:8080
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/biserver-ce
➔ ./start-pentaho.sh
➔ sudo su - pentaho
❏ Conexión: Manage Data Sources > New Connection > data_model
LINKS DE INTERÉS
❏ Blog Data Warehousing / Business Intelligence con herramientas Open Source: http://ingmmurillo-dwh-bi.blogspot.com/
❏ Documentación API Banco Mundial: http://data.worldbank.org/developers/api-overview/basic-call-structure
❏ Evaluador JSONPath en línea: http://jsonpath.com
❏ Pentaho CE https://sourceforge.net/projects/pentaho/files https://sourceforge.net/projects/mondrian/files
MUCHAS GRACIASPara preguntas o sugerencias:
Gabriela Chasifan | gchasifan@thoughtworks.com
Byron Torres | btorres@thoughtworks.com
Mauricio Murillo | mmurillo@thoughtworks.com
Carlos Fuentes | cfuentes@thoughtworks.com
top related