clase 01 liempieza de datos e importaci n
TRANSCRIPT
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
1/19
Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para
aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial
xcel
Mini-Curso: Analizando Datos
con Microsoft Excel 2013
Edición
2015Clase 01: Limpieza de Datos e Importación
www.excelfree.weebl .com
Miguel CaballeroAutor del Canal: Excel Free Blog
Fabian Torres
Co-Autor del Libro: Tablas
Dinámicas, La Quinta Dimensión
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
2/19
1
Esta Página fue dejada en blanco intencionalmente
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
3/19
2
Clase 01 • Limpieza de Datos e Importación
1.1 Importación de datos
Antes de poder limpiar los datos para posteriormente hacer un
análisis, es necesario generarlos. La recolección de datos hoy por
hoy se hace de una cantidad inimaginable de maneras y es
mérito para un curso completo sobre ello, no obstante, lo que
es importante, lo que está en el corazón del tema, es como
obtener datos que se encuentren codificados en distintosformatos a una hoja de cálculo de Excel.
La Importación de datos es el proceso de extraer datos desde
alguna instancia u origen que los contenga, los cuales fueron
creados con otro programa, o que pertenece a versiones
antiguas, o que fueron generados por la misma versión en un
momento previo y no están disponible en el documento actual.
1.2 Formatos en Excel
Microsoft Excel Puede abrir una gran variedad de formatos de
manera directa, los cuales se agrupan de manera simplificada en
las siguientes categorías:
Formatos de Hojas de Cálculo
Formatos de Gestores de Bases de Datos
Formatos de Archivos de Texto
Archivos HTML
Archivos XML
Formato
La manera en la cual se
codifica un archivo para
que el sistema operativoo S.O lo pueda leer, se
denomina formato.
Figura 1. 1 Tal vez no hayas
escuchado hablar mucho de
formatos, pero estamos
familiarizados con ellos a
veces sin darnos cuenta, tal es
el caso del formato PDF.
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
4/19
Clase 01 • Limpieza de Datos e Importación 3
La tabla presentada a continuación describe brevemente cada
formato agrupado en su categoría.
Formato Detalle
HojasdeCálculo
XLSX Hojas de Cálculos de Excel 2007 yPosteriores.
XLSM Hojas de Cálculos de Excel 2007 y Posteriores
Habilitada para macros.
XLSB Hojas Binarias de Excel 2007 y PosterioresHabilitada para Macros.
XLTXPlantillas de Excel 2007 y Posteriores.
XLAM Archivo de Excel 2007 y posteriores paracomplementos.
XLS Hojas de Cálculos Excel 2003, 2002, 2000, 97,98 y 4.
XLM Libro para macros en Excel 2003, 2002, 2000,97, 98 y 4 (No incluye datos).
XLT Archivo de Plantilla en Excel 2003, 2002, 2000,97, 98 y 4.
XLA Archivo de Excel 2003 y anteriores paracomplementos.
DB
MDBBase de datos Access 2003 y anteriores.
ACCDBBase de datos Access 2007 y posteriores.
Tabla 1.1Extensión
Cada formato se identifica
por una serie de letras y/o
números que
generalmente son 3
caracteres precedidos deun punto después del
nombre.
La función de las
extensiones es poder
distinguir de qué manera
esta codificado del
archivo, lo cual esfundamental para que el
sistema operativo
disponga del
procedimiento necesario
para poder leerlo,
interpretarlo y ejecutarlo.
ontinúa…
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
5/19
4
Clase 01 • Limpieza de Datos e Importación
1
La forma más adecuada de importar es bastante sencilla:
Pestaña: [Datos] Grupo: [Obtener Datos Externos]
Allí va poder apreciar las categorías de formatos mencionadas
anteriormente, así como otras fuentes externas. En la figura 1.2
puede ver esto.
Formato Detalle
ArchivosdeTexto
CSVLas columnas se separan con
Coma y las filas con un retorno de carro.
TXTValores separados por TAB: las columnas se separan
con TAB y las filas con un retorno de carro.
PRNLas columnas se separan con varios espacios y las filas
con retorno de carro.
DIFVisiCalc: Primera hoja de cálculo para computadoras
personales. (Raramente utilizado)
SYLKMultiPlan: Primera hoja de cálculo distribuida por
Microsoft. (Raramente Utilizado)
Web
HTML
Excel puede abrir HTML localizado en nuestro PC o
en la WEB.
XML Excel Puede abrir datos almacenados en XML.
Obtener Datos Externos
[1.1]
Continuación
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
6/19
Clase 01 • Limpieza de Datos e Importación 5
Ejemplo Base de Datos
Solución
Obtener Datos desde Tabla de Access
E
Importar datos es bastante sencillo, pero consideremos los dos
casos presentados enseguida.
Figura 1. 2 Grupo Obtener datos para importar orígenes de datos externos
Considere que tiene que importar la tabla de datos en la base de datos Access
AdventureWorks llamada Production_ProductInventory.
(A) Vamos a obtener datos externos [1.1] y pulsamos clic en el comando
desde Access.
(B)
Ubicamos la base de datos AdventureWorks.accdb en nuestro
computador y pulsamos clic en abrir.
(C) En el cuadro de diálogo emergente navegamos mediante el Scroll y
ubicamos la tabla solicitada: Production_ProductInventory, Clic enAceptar.
Figura 1. 3 Seleccionar la tabla en la base de datos
ontinúa…
Aquí aparecen
todas las tablas en
la base de datos
AdventureWorks
Scroll hasta
ubicar la tabla
Seleccionar la Tabla
Clic en el
botón Aceptar
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
7/19
6
Clase 01 • Limpieza de Datos e Importación
(D) El cuadro de diálogo que aparece a continuación nos brinda la opción
de ubicar la tabla en un rango en específico, por ejemplo $D$1.
(E)
Clic en el botón Aceptar.
(F)
Ahora la tabla es exportada
Figura 1. 4 Exportar una tabla a un rango específico
Continuación
Figura 1. 5 Tabla Production_ProductInventory Importada en Excel
Asegúrese de que
la opción tabla este
seleccionada
Especifique la
celda desde
donde desea que
aparezca la tabla
Si los datos están preparados
puede crear directamente una tabla
o gráfico dinámico.
Si estás listo para
utilizar el corazón
de PowerPivot,
esta es la opción
Si el origen cambia,
podemos actualizar
esta tabla para que
detecte los cambios
utilizando el
comando actualizar
todo, que se
encuentra en la
pestaña DATOS o
simplemente
pulsando clic
derecho encima de la
tabla y actualizar
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
8/19
Clase 01 • Limpieza de Datos e Importación 7
Ejemplo Archivo de Texto
Solución
Obtener Datos desde un CSV
E
Considere que tiene que importar los datos Abalone Data que se encuentran en
formato CSV
(A)
Vamos a obtener datos externos y pulsamos clic en el comando: DesdeTexto.
(B) Ubicamos el archivo CSV, para este caso Abalone.CSV y clic en
importar.
(C) En el cuadro de diálogo que aparece pulsamos clic en siguiente
asegurando de dejar la opción Delimitados activada. En el paso
siguiente deseleccionamos tabulación y seleccionamos Coma.
(D) Clic en siguiente y Finalizar.
(E)
Clic en Aceptar.
Figura 1. 6 Delimitado por comas
Ratifique que
únicamente la
casilla Coma este
seleccionada
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
9/19
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
10/19
Clase 01 • Limpieza de Datos e Importación 9
Formato de Datos Tabular
El formato tabular es la manera de representar los datos en filas
y columnas; donde cada columna, denominada campo, tiene una
etiqueta que la define claramente. Cada fila, llamada registro,
representa un objeto en su totalidad. El formato tabular no tiene
etiquetas que agrupen filas, figura 1.7, ni filas vacías que
segmenten la tabla, ni tampoco cálculos predefinidos como
totales y subtotales.
Si bien la tabla puede contener datos vacíos, es recomendable que
se eviten, principalmente para no tener que manipular las funciones de
resume SUMA Y CUENTA en la creación de un reporte de tabla
dinámica. Filas figura 1.8 muestra el formato tabular.
Propiedades del formato tabular
Organización: Organización filas y columnas Claras.
Etiquetación: Etiquetas claras y bien definidas solo para columnas.
Entereza: Ausencia de filas vacías y columnas vacías.
Ausentismo: Ausencia total de cálculos prefinidos, sin totales ni
subtotales.
Categorización: Cada elemento de un campo de texto debe regirsepor subcategorías estándar, por ejemplo: Bogota y Bogotá son
diferentes por el acento en la letra a. Debido a esto siempre se
debe definir un estándar para que los elementos queden
uniformes.
No celdas vacías (Opcionales): Preferiblemente ninguna celda vacía
y definir estándares para aquellas que lo tienen. Esto es
especialmente útil para la creación de reportes de tabla dinámica.
Figura 1. 7 Formato no Tabular
Nombre Qj-Promedio
Sandra 0.6375988
Andrés 0.6759436
Dayana 0.5682193
Camilo 0.517822
Sonia 0.4521236
Alejandro 0.7808237Angélica 0.9155153
Carlos 0.3051751
Gina 0.1453039
Jorge 0.2177068
Natalia 0.9410365
David 0.298831
Tatiana 0.0053683
Victor 0.1470424
Valeria 0.1446448
Alvaro 0.2910655
Contabilidad
Servicioa
l
Cliente
Procesos
Por cada departamento, los
datos se segmentan
mediante una fila en blanco
Validación de Datos
Utilice validación de datos
cuando se recolectan los
datos, de esta manera
garantizar uniformidad.
Figura 1. 8 Formato Tabular
Nombre Qj-Promedio
Sandra 0.6375988
Andrés 0.6759436
Dayana 0.5682193
Camilo 0.517822
David 0.298831
Tatiana 0.0053683
Victor 0.1470424
Valeria 0.1446448
Alvaro 0.2910655
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
11/19
10
Clase 01 • Limpieza de Datos e Importación
Tip Rápido: Para cambiar un conjunto de celdas vacías por
algún carácter o palabras estándar escogida a) seleccione lacolumna donde va a reemplazar b) pulse la combinación Ctrl +
I y clic en especial en el cuadro de diálogo que aparece c) Active
la opción Celdas en blanco en el cuadro de diálogo Ir as especial,
y aceptar d) pulse la tecla F2 e) digite el carácter o palabra y f)
pulse la combinación de teclas Ctrl + Enter.
Formato de Columnas Consistente
Cuando importamos datos numéricos a veces el separador
decimal y el separador de miles no coinciden, es decir, están
invertidos. Por ejemplo nuestro Excel puede que este
configurado para que lea los números de la siguiente manera:
147,456.99 mientras que en el origen de datos puede venirconfigurado de la siguiente forma: 147.456,99. Cuando esto
sucede Excel lo interpreta como texto. La solución a este
problema es bastante sencilla porque en el último paso de
importación podemos hacer clic en el botón Avanzadas y allí
especificar cuál es el separador decimal y el separador de miles.
Figura 1.9.
Figura 1. 9
Especificar separadores
Formato Igual
También cerciórese que
el formato aplicado a
uno y cada uno de los
datos en una columna
en particular sean
exactamente iguales.
Clic en el Botón
Avanzadas
Especifique los
se aradores.
Aceptar y
Finalizar.
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
12/19
Clase 01 • Limpieza de Datos e Importación 11
Solución
Ejemplo Duplicados Eliminar registros duplicados
E
Eliminar Registros Duplicados
Si los datos son extraídos de múltiples fuente es probable que
existan filas duplicadas, las cuales no son deseadas para un
análisis porque inflan los resultados obteniendo conclusiones no
muy confiables, por lo anterior en la mayoría de la situaciones se
debe eliminar las filas duplicadas.
Veamos cómo hacer este sencillo procedimiento con un ejemplo
Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el
Archivo de Excel Beers. La figura 1.10 la muestra parcialmente
(A) Ubique la celda activa dentro de la tabla.
(B) Pestaña: [Datos] Grupo: [Herramientas de Datos] Comando: [Quitar
duplicados]
(C)
Clic en Aceptar.
(D) Opcional . Si solamente desea que la eliminación se lleve a cabo con
solo la coincidencia de algunas columnas, entonces, en el cuadro de
diálogo remover duplicados, que parece en el paso previo,
deselecciona las que columnas que no aplican.
Los valores duplicados son determinados por como se muestran y no
necesariamente como son almacenados, por ejemplo, los valores $20.53 y
20.53 no son considerados iguales.
Figura 1. 10 Tabla BeersScore
mostrada parcialmente. Esta tablacontiene filas duplicadas como es
el caso de la cerveza Guinness
ID Score Beer Price
6347 92 Guinness $20.35
5092 85 Samuel Adams Boston $5.73
7646 80 Sierra Nevada $11.61
7220 79 Blue Moon $13.96
7646 80 Sierra Nevada $11.61
6347 92 Guinness $20.35
1212 69 Fat Tire $5.03
1212 69 Fat Tire $5.03
7076 62 P ilsner Urquell $4.69
5115 60 Grolsch $12.70
7181 59 Budweiser $17.78
1212 69 Fat Tire $5.03
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
13/19
12
Clase 01 • Limpieza de Datos e Importación
Tratamiento de Valores Faltantes
Los datos faltantes o valores faltantes ocurren cuando no se
tiene ninguna información acerca de ellos, por lo tanto son
completamente desconocido para nosotros. Los valores
faltantes aparecen porque no hay respuesta, porque es
ambiguo, porque la recolección de datos se hizo de manera
errónea, porque al momento de ingresar el dato se hizo de
manera inapropiada, etc.
Para abordar los valores faltantes podemos utilizar cualquiera
de las siguientes “técnicas”:
No manipulación
Imputación
Imputación Parcial
Eliminación
Full Analysis
Interpolación
Frecuentemente asumimos que no existen tales valores o
simplemente los trabajamos como un elementos distintos
desconocidos, sin embargo, pueden existir argumentos válidos
del porque estos valores estén ausentes, tal vez por decisión.
No Manipulación
Como su nombre lo indica, no se debe hacer nada con ellos y
llevar el acabo el análisis, esto puede ser porque la muestra sigue
siendo significativa o porque se va a llevar a cabo un análisis de
los valores faltantes.
Tipos de Datos
Faltantes
Entender la razón por la
cual hay valores
faltantes, facilita que tipo
de tratamiento abordar,
por ejemplo, si los datos
faltantes son aleatorios
,
entonces la muestra de
los datos sigue siendo
representativa para la
población. Por otra
parte, si lo datos
faltantes están ausentes
de manera sistemática,entonces sí que requiere
un análisis exhaustivo, y
todo esta temática es
acreedora de su propio
capítulo e incluso de su
propio libro.
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
14/19
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
15/19
14
Clase 01 • Limpieza de Datos e Importación
Solución
E em lo Du licados
Por ejemplo: si se está recolectando información acerca de los
ingresos de los graduados en una universidad, podemos saberque los recién graduados son menos propensos a revelar su
salario, por lo que se pueden clasificar fácilmente estos salarios
en un intervalo previamente conocido y sustituir los faltantes
por dichos datos.
Tip Rápido: Para sustituir un conjunto de celdas que contienen
un carácter o frase especial a) seleccione el rango de celdasdonde va a reemplazar b) pulse la combinación Ctrl + B y clic en
la pestaña reemplazar en el cuadro de diálogo que aparece c)
En el cuadro de texto Buscar, digite la palabra o frase a
reemplazar, ejemplo: Desconocido d) En el cuadro de texto
reemplazar con, escriba el valor por el cual serán sustituidos los
valores e) Clic en el botón reemplazar todo.
Eliminación
La técnica de imputación más simple consiste en reducir el
tamaño de los datos, de la muestra, mediante la eliminación de
todas aquellas filas que contienen un valor faltante.
Eliminar registros duplicados
E
Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado
que son pocos faltantes lo que se pide es su eliminación completa. Figura 1.12
(A)
Convierta la tabla tabular en una tabla estructurada de Excel si esta noestá de esta forma. Pulse la combinación Ctrl + T y Aceptar.
ontinúa…
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
16/19
Clase 01 • Limpieza de Datos e Importación 15
Tip Rápido: No es necesario convertir los datos en una tablaestructurada, lo importante es activar los filtros en los campos.
También puede utilizar la combinación de teclas Ctrl + Shift + L
para activar los autofiltros.
(B) Ubique el campo que contiene los valores faltantes, allí en la flecha de
selección despliegue las opciones y filtre todos los #N/A
Continuación
Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carácter,
palabra o frase para denotarlos, entonces, debe filtrar el de su uso.
Filtrar por el
campo que
contiene los
valores faltantes
Filtrar los #N/A o
el carácter,
palabra o frase
que utilice para
denotarlos
ontinúa…
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
17/19
16
Clase 01 • Limpieza de Datos e Importación
Full Analysis
Full analysis consiste en varios métodos que toman toda la
información disponible y mediante algoritmos iterativos
encuentra la mayor probabilidad de que un valor faltante
corresponda un datos especifico, hay que advertir que el estudio
de estos métodos esta por fuera de este artículo.
Interpolación
La interpolación es un método mediante el cual se crea o conoce
un dato basado en un conjunto discreto de puntos.
(C) Seleccione todas las filas que contienen valores nulos, pulse clic
derecho encima de las etiquetas de filas y clic en eliminar.
(D) Por último remueva el filtro (Ctrl+Shift+L). Así, habrá eliminado todos
los registros que contenían valores nulos en el campo Beer
Continuación
Clic en eliminar
Clic derecho
encima de
cualquier número
azul, con esto se
despliega el menú
contextual
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
18/19
Clase 01 • Limpieza de Datos e Importación 17
=LIMPIAR(A1)
Eliminación de Espacios y Caracteres Especiales
Para evitarnos dificultades, es una buena práctica confirmar que
los datos no contienen espacios extras, dado que por ellos en una
comparación que de manera lógica deberían coincidir, no lo
hace. Por ejemplo Excel no es igual a Excel con un espacio al final,
esto porque el primero tiene 5 caracteres y el último 6 caracteres.
Hacer esta tarea es bastante fácil. La función ESPACIOS remuevetodos los espacios extra entre palabra y palabra dejando
únicamente un espacio. Por ejemplo si en la celda A1 tiene escrito
“Excel Free Blog”, donde se pueden notar múltiples espacios
entre palabra y palabra, y aplicamos:
=ESPACIOS(A1)
Entonces, retorna: “Excel Free Blog” con solo un espacio entre
palabra y palabra, sin espacios al principio ni al final.
También es necesario remover caracteres no imprimibles los
cuales no son fáciles de detectar, por ejemplo un dato importado
desde otra fuente pude contener TAB al final. Para remover estos
caracteres no imprimibles
Remover Espacios Extras
1.2
]
Remover Caracteres no
1.2]
Imprimibles
Estos cambios se deben realizar en columnas a parte y
luego copiar y pegar por valores para sustituir.
-
8/16/2019 Clase 01 Liempieza de Datos e Importaci n
19/19
18
Clase 01 • Limpieza de Datos e Importación
Consistencia Mayúsculas/Minúsculas
Es una buena práctica, hacer que los textos en las columnas
sean consistente en términos de mayúsculas y minúsculas. Para
lograr esta consistencia Excel brinda las siguientes funciones:
MAYUSC: Convierte el texto a mayúsculas.
MINUSC: Convierte a texto en minúsculas.
NOMPROPRIO: Convierte una cadena de texto en mayúsculas
o minúsculas según corresponda, la primera letra de cada.
Estos cambios se deben realizar en columnas a parte y
luego copiar y pegar por valores para sustituir.
Sumario
Importación
• La Importación de datos es el proceso de extraer datos
desde alguna instancia u origen que los contenga, los
cuales fueron creados con otro programa, o que pertenece
a versiones anti uas
• Directamente:
Hoja de Cálculo, Beses
dataos y Archivos texto
Limpieza
• Proceso de transformación de Raw Data a una estructura
consistente para que posteriormente sean analizados.
Tareas:
Formato de Datos Tabular
Formato de Columnas ConsistenteEliminar Registros Duplicados
Tratamiento de Valores Faltantes
Eliminación de Espacios y Caracteres Especiales
Consistencia Mayúscula/Minúscula
Valores Faltantes:
No manipulación
Imputación
Imputación Parcial
Eliminación
Full Analysis
Interpolación