Download - Pentaho PDI
Pentaho Data Integration(Kettle)
Pentaho Data Integration(Kettle)
Ing. Marcos PierriSIU-Datawarehouse
Ing. Marcos PierriSIU-Datawarehouse
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Proyecto open source adquirido por Pentaho en 2006
Desarrollado por Matt Casters
Anteriormente conocido como KettleKDE Extraction, Transportation, Transformation andLoading Environment
Proyecto open source adquirido por Pentaho en 2006
Desarrollado por Matt Casters
Anteriormente conocido como KettleKDE Extraction, Transportation, Transformation andLoading Environment
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Usos comunes
Carga de datawarehouses y datamarts
Integración de datos
Limpieza de datos (Data cleansing)
Migración y depuración de datos
Exportación de datos
...
Usos comunes
Carga de datawarehouses y datamarts
Integración de datos
Limpieza de datos (Data cleansing)
Migración y depuración de datos
Exportación de datos
...
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Cargando datos en un DW o datamartCargando datos en un DW o datamart
Proceso de Proceso de ETLETL
Proceso de Proceso de ETLETL TransformaciónTransformaciónTransformaciónTransformación
ExtracciónExtracciónExtracciónExtracción
CargaCargaCargaCarga
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
validación y descarte validación y descarte de datos de acuerdo de datos de acuerdo a reglas y patronesa reglas y patrones
validación y descarte validación y descarte de datos de acuerdo de datos de acuerdo a reglas y patronesa reglas y patrones
de datos de diferentes de datos de diferentes fuentes y formatos fuentes y formatos
de datos de diferentes de datos de diferentes fuentes y formatos fuentes y formatos ExtracciónExtracciónExtracciónExtracción
Conversión de tipos de Conversión de tipos de datos, filtrado de datos,datos, filtrado de datos,
sumarizacionessumarizaciones
Conversión de tipos de Conversión de tipos de datos, filtrado de datos,datos, filtrado de datos,
sumarizacionessumarizaciones
de datos de acuerdode datos de acuerdocon requisitos con requisitos
técnicos y del negociotécnicos y del negocio
de datos de acuerdode datos de acuerdocon requisitos con requisitos
técnicos y del negociotécnicos y del negocioTransformaciónTransformaciónTransformaciónTransformación
Reescritura de datos Reescritura de datos y adición de y adición de
nueva informaciónnueva información
Reescritura de datos Reescritura de datos y adición de y adición de
nueva informaciónnueva información
de datos de datos transformados en transformados en una base de datosuna base de datos
de datos de datos transformados en transformados en una base de datosuna base de datos
CargaCargaCargaCarga
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
ExtracciónExtracciónTransformaciónTransformación
CargaCarga
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Extracción
Captura de datos
* Lectura a partir de diversas fuentes.
* Identificación de cambios desde la última extracción.
Staging
* Almacenamiento temporario de datos.
Actividades de Extracción
Captura de datos
* Lectura a partir de diversas fuentes.
* Identificación de cambios desde la última extracción.
Staging
* Almacenamiento temporario de datos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Fuentes de entrada de datosFuentes de entrada de datos
AccesAcces ExcelExcel Tabla BDTabla BD
XmlXml TxtTxt RSSRSS
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Transformación
Validación de datos
* Verificar que los datos sean correctos y precisos.
* Filtrado de datos inválidos.
Limpieza de datos
* Corrección de datos inválidos.
Agregación
Generación y gestión de claves
* SK – Claves subrogadas.
Actividades de Transformación
Validación de datos
* Verificar que los datos sean correctos y precisos.
* Filtrado de datos inválidos.
Limpieza de datos
* Corrección de datos inválidos.
Agregación
Generación y gestión de claves
* SK – Claves subrogadas.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Carga
- Carga de tablas de hechos
* Adicionar registros a la tabla de hechos.
- Carga y mantenimiento de las tablas de dimensiones
* Adicionar y actualizar los registros de las tablas de Dimensiones.
Actividades de Carga
- Carga de tablas de hechos
* Adicionar registros a la tabla de hechos.
- Carga y mantenimiento de las tablas de dimensiones
* Adicionar y actualizar los registros de las tablas de Dimensiones.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Instalando PDI
Pre-requisitos
* JRE (ou JDK) 5.x o superior.
Descarga
* http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * 4.1.0 – 106.5 MB
Instalando PDI
Pre-requisitos
* JRE (ou JDK) 5.x o superior.
Descarga
* http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * 4.1.0 – 106.5 MB
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Después de descomprimir el archivo
* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
Después de descomprimir el archivo
* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Pantalla de BienvenidaPantalla de Bienvenida
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
- Opciones de configuración del área de trabajo de Spoon
Solapa “General” * Show tips at startup? * Show welcome page at startup? * ...
Solapa “Look & Feel” * Preferred Language * ...
- Opciones de configuración del área de trabajo de Spoon
Solapa “General” * Show tips at startup? * Show welcome page at startup? * ...
Solapa “Look & Feel” * Preferred Language * ...
- Los cambios serán aplicados al reiniciar Spoon- Los cambios serán aplicados al reiniciar Spoon
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Principales Componentes de PDI
PDI trabaja con dos tipos básicos de componentes:
* Transformaciones * Trabajos (Jobs)
Características de las transformaciones y trabajos
* Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL - Descripción de los datos. - Fuentes de entrada y salida. - Scheduling. - Scripting.
Principales Componentes de PDI
PDI trabaja con dos tipos básicos de componentes:
* Transformaciones * Trabajos (Jobs)
Características de las transformaciones y trabajos
* Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL - Descripción de los datos. - Fuentes de entrada y salida. - Scheduling. - Scripting.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
¿Cómo se ejecutan las transformaciones y trabajos?
* Una transformación o trabajo consiste en una colección de pasos (steps) interconectados
¿Cómo se ejecutan las transformaciones y trabajos?
* Una transformación o trabajo consiste en una colección de pasos (steps) interconectados
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Conexiones entre los pasos de las transformacionesy trabajos
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.
Conexiones entre los pasos de las transformacionesy trabajos
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
- Steps, Hops y flujo de registros - Steps, Hops y flujo de registros
(Bouman and Dongen – Pentaho Solutions, 2009)(Bouman and Dongen – Pentaho Solutions, 2009)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Transformaciones
* Consiste en una colección de Steps de transformación.
* Cada Step denota una operación del proceso de ETL.
* La salida de un Step produce un conjunto de registros.
* Los Steps de la transformación se ejecutan de forma simultánea y asincrónica.
* Archivos .ktr
Transformaciones
* Consiste en una colección de Steps de transformación.
* Cada Step denota una operación del proceso de ETL.
* La salida de un Step produce un conjunto de registros.
* Los Steps de la transformación se ejecutan de forma simultánea y asincrónica.
* Archivos .ktr
Trabajos (Jobs)
* Consiste en una colección de transformaciones o de Steps de trabajos.
* Cada Step del trabajo denota una tarea del proceso de ETL.
* La salida de cada Step del trabajo produce un Status de ejecución.
* Los Steps del trabajo se ejecutan de forma secuencial.
* Archivos .kjb
Trabajos (Jobs)
* Consiste en una colección de transformaciones o de Steps de trabajos.
* Cada Step del trabajo denota una tarea del proceso de ETL.
* La salida de cada Step del trabajo produce un Status de ejecución.
* Los Steps del trabajo se ejecutan de forma secuencial.
* Archivos .kjb
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Otros componentes de PDI
Repositorio
* Los metadatos de las transformaciones y trabajos pueden ser almacenados en una base de datos.
Aplicaciones
Spoon: IDE para desarrollo.
Pan: Ejecución de transformaciones por línea de comando.
Kitchen: Ejecución de trabajos por línea de comando.
Carte: Servidor para ejecutar de forma remota transformaciones y trabajos.
Otros componentes de PDI
Repositorio
* Los metadatos de las transformaciones y trabajos pueden ser almacenados en una base de datos.
Aplicaciones
Spoon: IDE para desarrollo.
Pan: Ejecución de transformaciones por línea de comando.
Kitchen: Ejecución de trabajos por línea de comando.
Carte: Servidor para ejecutar de forma remota transformaciones y trabajos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Arquitectura de PDIArquitectura de PDI
(Bouman and Dongen – Pentaho Solutions, 2009)(Bouman and Dongen – Pentaho Solutions, 2009)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
BibliografíaBibliografía
Sitio de PDI: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/
http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi
Sitio de PDI: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/
http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
¿Preguntas?¿Preguntas?¿Preguntas?¿Preguntas?