pentaho pdi

23
Pentaho Data Integration (Kettle) Pentaho Data Integration (Kettle) Ing. Marcos Pierri SIU-Datawarehouse [email protected] Ing. Marcos Pierri SIU-Datawarehouse [email protected] Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Upload: marcos-pierri

Post on 26-May-2015

3.891 views

Category:

Technology


5 download

DESCRIPTION

Presentación sobre Pentaho Data Integration

TRANSCRIPT

Page 1: Pentaho PDI

Pentaho Data Integration(Kettle)

Pentaho Data Integration(Kettle)

Ing. Marcos PierriSIU-Datawarehouse

[email protected]

Ing. Marcos PierriSIU-Datawarehouse

[email protected]

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Page 2: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Proyecto open source adquirido por Pentaho en 2006

Desarrollado por Matt Casters

Anteriormente conocido como KettleKDE Extraction, Transportation, Transformation andLoading Environment

Proyecto open source adquirido por Pentaho en 2006

Desarrollado por Matt Casters

Anteriormente conocido como KettleKDE Extraction, Transportation, Transformation andLoading Environment

Page 3: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Usos comunes

Carga de datawarehouses y datamarts

Integración de datos

Limpieza de datos (Data cleansing)

Migración y depuración de datos

Exportación de datos

...

Usos comunes

Carga de datawarehouses y datamarts

Integración de datos

Limpieza de datos (Data cleansing)

Migración y depuración de datos

Exportación de datos

...

Page 4: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Cargando datos en un DW o datamartCargando datos en un DW o datamart

Proceso de Proceso de ETLETL

Proceso de Proceso de ETLETL TransformaciónTransformaciónTransformaciónTransformación

ExtracciónExtracciónExtracciónExtracción

CargaCargaCargaCarga

Page 5: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

validación y descarte validación y descarte de datos de acuerdo de datos de acuerdo a reglas y patronesa reglas y patrones

validación y descarte validación y descarte de datos de acuerdo de datos de acuerdo a reglas y patronesa reglas y patrones

de datos de diferentes de datos de diferentes fuentes y formatos fuentes y formatos

de datos de diferentes de datos de diferentes fuentes y formatos fuentes y formatos ExtracciónExtracciónExtracciónExtracción

Conversión de tipos de Conversión de tipos de datos, filtrado de datos,datos, filtrado de datos,

sumarizacionessumarizaciones

Conversión de tipos de Conversión de tipos de datos, filtrado de datos,datos, filtrado de datos,

sumarizacionessumarizaciones

de datos de acuerdode datos de acuerdocon requisitos con requisitos

técnicos y del negociotécnicos y del negocio

de datos de acuerdode datos de acuerdocon requisitos con requisitos

técnicos y del negociotécnicos y del negocioTransformaciónTransformaciónTransformaciónTransformación

Reescritura de datos Reescritura de datos y adición de y adición de

nueva informaciónnueva información

Reescritura de datos Reescritura de datos y adición de y adición de

nueva informaciónnueva información

de datos de datos transformados en transformados en una base de datosuna base de datos

de datos de datos transformados en transformados en una base de datosuna base de datos

CargaCargaCargaCarga

Page 6: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

ExtracciónExtracciónTransformaciónTransformación

CargaCarga

Page 7: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Actividades de Extracción

Captura de datos

* Lectura a partir de diversas fuentes.

* Identificación de cambios desde la última extracción.

Staging

* Almacenamiento temporario de datos.

Actividades de Extracción

Captura de datos

* Lectura a partir de diversas fuentes.

* Identificación de cambios desde la última extracción.

Staging

* Almacenamiento temporario de datos.

Page 8: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Fuentes de entrada de datosFuentes de entrada de datos

AccesAcces ExcelExcel Tabla BDTabla BD

XmlXml TxtTxt RSSRSS

Page 9: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Actividades de Transformación

Validación de datos

* Verificar que los datos sean correctos y precisos.

* Filtrado de datos inválidos.

Limpieza de datos

* Corrección de datos inválidos.

Agregación

Generación y gestión de claves

* SK – Claves subrogadas.

Actividades de Transformación

Validación de datos

* Verificar que los datos sean correctos y precisos.

* Filtrado de datos inválidos.

Limpieza de datos

* Corrección de datos inválidos.

Agregación

Generación y gestión de claves

* SK – Claves subrogadas.

Page 10: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Actividades de Carga

- Carga de tablas de hechos

* Adicionar registros a la tabla de hechos.

- Carga y mantenimiento de las tablas de dimensiones

* Adicionar y actualizar los registros de las tablas de Dimensiones.

Actividades de Carga

- Carga de tablas de hechos

* Adicionar registros a la tabla de hechos.

- Carga y mantenimiento de las tablas de dimensiones

* Adicionar y actualizar los registros de las tablas de Dimensiones.

Page 11: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Instalando PDI

Pre-requisitos

* JRE (ou JDK) 5.x o superior.

Descarga

* http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * 4.1.0 – 106.5 MB

Instalando PDI

Pre-requisitos

* JRE (ou JDK) 5.x o superior.

Descarga

* http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * 4.1.0 – 106.5 MB

Page 12: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Después de descomprimir el archivo

* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)

Después de descomprimir el archivo

* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)

Page 13: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Pantalla de BienvenidaPantalla de Bienvenida

Page 14: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

- Opciones de configuración del área de trabajo de Spoon

Solapa “General” * Show tips at startup? * Show welcome page at startup? * ...

Solapa “Look & Feel” * Preferred Language * ...

- Opciones de configuración del área de trabajo de Spoon

Solapa “General” * Show tips at startup? * Show welcome page at startup? * ...

Solapa “Look & Feel” * Preferred Language * ...

- Los cambios serán aplicados al reiniciar Spoon- Los cambios serán aplicados al reiniciar Spoon

Page 15: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Principales Componentes de PDI

PDI trabaja con dos tipos básicos de componentes:

* Transformaciones * Trabajos (Jobs)

Características de las transformaciones y trabajos

* Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL - Descripción de los datos. - Fuentes de entrada y salida. - Scheduling. - Scripting.

Principales Componentes de PDI

PDI trabaja con dos tipos básicos de componentes:

* Transformaciones * Trabajos (Jobs)

Características de las transformaciones y trabajos

* Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL - Descripción de los datos. - Fuentes de entrada y salida. - Scheduling. - Scripting.

Page 16: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

¿Cómo se ejecutan las transformaciones y trabajos?

* Una transformación o trabajo consiste en una colección de pasos (steps) interconectados

¿Cómo se ejecutan las transformaciones y trabajos?

* Una transformación o trabajo consiste en una colección de pasos (steps) interconectados

Page 17: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Conexiones entre los pasos de las transformacionesy trabajos

* Saltos (Hop's): Representa un flujo de registros entre dos pasos.

Conexiones entre los pasos de las transformacionesy trabajos

* Saltos (Hop's): Representa un flujo de registros entre dos pasos.

Page 18: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

- Steps, Hops y flujo de registros - Steps, Hops y flujo de registros

(Bouman and Dongen – Pentaho Solutions, 2009)(Bouman and Dongen – Pentaho Solutions, 2009)

Page 19: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Transformaciones

* Consiste en una colección de Steps de transformación.

* Cada Step denota una operación del proceso de ETL.

* La salida de un Step produce un conjunto de registros.

* Los Steps de la transformación se ejecutan de forma simultánea y asincrónica.

* Archivos .ktr

Transformaciones

* Consiste en una colección de Steps de transformación.

* Cada Step denota una operación del proceso de ETL.

* La salida de un Step produce un conjunto de registros.

* Los Steps de la transformación se ejecutan de forma simultánea y asincrónica.

* Archivos .ktr

Trabajos (Jobs)

* Consiste en una colección de transformaciones o de Steps de trabajos.

* Cada Step del trabajo denota una tarea del proceso de ETL.

* La salida de cada Step del trabajo produce un Status de ejecución.

* Los Steps del trabajo se ejecutan de forma secuencial.

* Archivos .kjb

Trabajos (Jobs)

* Consiste en una colección de transformaciones o de Steps de trabajos.

* Cada Step del trabajo denota una tarea del proceso de ETL.

* La salida de cada Step del trabajo produce un Status de ejecución.

* Los Steps del trabajo se ejecutan de forma secuencial.

* Archivos .kjb

Page 20: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Otros componentes de PDI

Repositorio

* Los metadatos de las transformaciones y trabajos pueden ser almacenados en una base de datos.

Aplicaciones

Spoon: IDE para desarrollo.

Pan: Ejecución de transformaciones por línea de comando.

Kitchen: Ejecución de trabajos por línea de comando.

Carte: Servidor para ejecutar de forma remota transformaciones y trabajos.

Otros componentes de PDI

Repositorio

* Los metadatos de las transformaciones y trabajos pueden ser almacenados en una base de datos.

Aplicaciones

Spoon: IDE para desarrollo.

Pan: Ejecución de transformaciones por línea de comando.

Kitchen: Ejecución de trabajos por línea de comando.

Carte: Servidor para ejecutar de forma remota transformaciones y trabajos.

Page 21: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Arquitectura de PDIArquitectura de PDI

(Bouman and Dongen – Pentaho Solutions, 2009)(Bouman and Dongen – Pentaho Solutions, 2009)

Page 22: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

BibliografíaBibliografía

Sitio de PDI: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/

http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi

Sitio de PDI: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/

http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi

Page 23: Pentaho PDI

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

¿Preguntas?¿Preguntas?¿Preguntas?¿Preguntas?