03 cartografiado de datos y tablas de datos

16
Matilde I. Césari 1 CARTOGRAFIADO DE DATOS Y TABLAS DE DATOS [email protected] Nos encontramos en la denominada “sociedad de la información”, porque se destinan gran cantidad de recursos a la adquisición, almacenamiento, procesado, análisis, etc. de la información. El conocimiento más valioso suele aparecer oculto entre los datos recogidos, en forma de patrones o reglas que relacionan entre sí otras partes más superficiales de la información. Este conocimiento se ha venido obteniendo, tradicionalmente, mediante análisis manual, aplicando la inferencia inductiva sobre el conjunto de datos de partida. Sin embargo, la adquisición y almacenamiento de los datos se realiza a un ritmo cada vez mayor. Por ejemplo, los satélites de observación de la Tierra generarán, previsiblemente, del orden de un petabyte de datos (10 15 bytes) diariamente a finales de siglo; otros sistemas menos sofisticados, como las transacciones realizadas en un supermercado, cabinas de información de turismo, operaciones de tarjetas de crédito, etc. también son susceptibles de generar un volumen de datos imposible de analizar de forma manual. La explosión en el número de fuentes de información disponibles en Internet ofrece una nueva oportunidad de búsqueda y extracción de información útil a partir de esta “base de datos” dinámica y creciente. Se estima que cada 20 meses se duplica la cantidad de información en el mundo. Parece claro que el clásico método hipotético-deductivo de la ciencia positiva resulta inoperante ante tal avalancha de datos, al menos, aplicado de la forma tradicional, esto es, analizando manualmente los datos disponibles. Cada vez se necesita más la ayuda de ordenadores potentes para automatizar el proceso inductivo, para analizar de forma inteligente las montañas de datos existentes, y extraer de ellas ese conocimiento oculto y valioso. Sin duda, el término “minería de datos”, con que se conocen las nuevas técnicas de análisis automático, refleja bastante bien esta idea. Por otro lado, el esfuerzo inicial por adquirir conocimiento del mundo real está dejando paso a un mayor esfuerzo por conocer aspectos del propio conocimiento. Hoy en día nos encontramos este último punto, quizá como consecuencia de los fallos en el conocimiento adquirido mediante ese esfuerzo inicial. La preocupación principal ya no es la mera adquisición de conocimiento, sino la delimitación de su alcance y validez; necesitamos asignar un grado de certeza al conocimiento, saber en qué medida conocemos algo. Diagnóstico Por Imagen de Datos (DID) Metodología y herramienta de análisis de datos que permite descubrir patrones, regularidades y relaciones entre variables en grandes bases de datos de procesos o sistemas de cualquier tipo. Esta tecnología combina procedimientos de clasificación y agrupamiento. Para llevarlos a cabo, emplea algoritmos de aprendizaje inductivo que genera descripciones simbólicas que puedan ser interpretadas de forma sencilla. Finalmente, se utilizan técnicas estadísticas que permite descartar los datos irrelevantes y contrastar objetivamente la significación de los patrones y relaciones descubiertos en los datos. Utilidad del Diagnóstico por Imagen de Datos: Analizar la información con el objetivo de resolver un problema determinad y producir una información útil o bien rara y que interesa un campo de investigación. Se dice que una información es útil cuando ésta sirve las intenciones de un destinatario en particular. Lo que es útil para un físico puede no serlo para un biólogo. En suma, la utilidad está asociada al destinatario de la información. Se dice que una información es rara si es escasa, no abundante en las fuentes de información. En la teoría de la información, la entropía mide si una información es rara o no. En nuestro caso, no es un valor absoluto, la información "rara" es aquélla que no es frecuente, que no se encuentra a primera vista. Cartografiado o Mapas de los Datos: Lo que interesa a “todo investigador”, en primera instancia, es hacer una lectura de la información contenida en la tabla de datos; ¿Cómo abordar la información que hay en una tabla de datos?, ¿cómo leer una tabla de datos?, es decir, ¿qué información importante hay en una tabla de datos en relación con los objetivos del estudio?, ¿cómo obtener un mensaje que pueda ser luego contextualizado por el “investigador” y sirva para la interpretación y comunicación de los resultados? Para lograr que el cerebro humano pueda captar lo más importante de la información de una tabla hay que consentir perder información para ganar en significación. El cerebro entiende mejor la información en forma análoga, es decir en forma gráfica, en lugar de la información digital o el conjunto de cifras de una tabla. Al menos en un comienzo es de gran ayuda observar gráficas que representen de alguna manera la Información más importante de las cifras y símbolos puestos en la tabla. Uno de los elementos de la estadística descriptiva que cumple con ese cometido es el Análisis Factorial Multivariado. [Lebart Morineau y Fénelon, 1985]

Upload: matilde-ines-cesari

Post on 29-Jun-2015

139 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 1

CARTOGRAFIADO DE DATOS Y TABLAS DE DATOS [email protected]

Nos encontramos en la denominada “sociedad de la información”, porque se destinan gran cantidad de recursos a la adquisición, almacenamiento, procesado, análisis, etc. de la información. El conocimiento más valioso suele aparecer oculto entre los datos recogidos, en forma de patrones o reglas que relacionan entre sí otras partes más superficiales de la información. Este conocimiento se ha venido obteniendo, tradicionalmente, mediante análisis manual, aplicando la inferencia inductiva sobre el conjunto de datos de partida.

Sin embargo, la adquisición y almacenamiento de los datos se realiza a un ritmo cada vez mayor. Por ejemplo, los satélites de observación de la Tierra generarán, previsiblemente, del orden de un petabyte de datos (1015bytes) diariamente a finales de siglo; otros sistemas menos sofisticados, como las transacciones realizadas en un supermercado, cabinas de información de turismo, operaciones de tarjetas de crédito, etc. también son susceptibles de generar un volumen de datos imposible de analizar de forma manual. La explosión en el número de fuentes de información disponibles en Internet ofrece una nueva oportunidad de búsqueda y extracción de información útil a partir de esta “base de datos” dinámica y creciente. Se estima que cada 20 meses se duplica la cantidad de información en el mundo.

Parece claro que el clásico método hipotético-deductivo de la ciencia positiva resulta inoperante ante tal avalancha de datos, al menos, aplicado de la forma tradicional, esto es, analizando manualmente los datos disponibles. Cada vez se necesita más la ayuda de ordenadores potentes para automatizar el proceso inductivo, para analizar de forma inteligente las montañas de datos existentes, y extraer de ellas ese conocimiento oculto y valioso. Sin duda, el término “minería de datos”, con que se conocen las nuevas técnicas de análisis automático, refleja bastante bien esta idea.

Por otro lado, el esfuerzo inicial por adquirir conocimiento del mundo real está dejando paso a un mayor esfuerzo por conocer aspectos del propio conocimiento. Hoy en día nos encontramos este último punto, quizá como consecuencia de los fallos en el conocimiento adquirido mediante ese esfuerzo inicial. La preocupación principal ya no es la mera adquisición de conocimiento, sino la delimitación de su alcance y validez; necesitamos asignar un grado de certeza al conocimiento, saber en qué medida conocemos algo.

Diagnóstico Por Imagen de Datos (DID)

Metodología y herramienta de análisis de datos que permite descubrir patrones, regularidades y relaciones entre variables en grandes bases de datos de procesos o sistemas de cualquier tipo. Esta tecnología combina procedimientos de clasificación y agrupamiento. Para llevarlos a cabo, emplea algoritmos de aprendizaje inductivo que genera descripciones simbólicas que puedan ser interpretadas de forma sencilla. Finalmente, se utilizan técnicas estadísticas que permite descartar los datos irrelevantes y contrastar objetivamente la significación de los patrones y relaciones descubiertos en los datos. Utilidad del Diagnóstico por Imagen de Datos: Analizar la información con el objetivo de resolver un problema determinad y producir una información útil o bien rara y que interesa un campo de investigación. Se dice que una información es útil cuando ésta sirve las intenciones de un destinatario en particular. Lo que es útil para un físico puede no serlo para un biólogo. En suma, la utilidad está asociada al destinatario de la información. Se dice que una información es rara si es escasa, no abundante en las fuentes de información. En la teoría de la información, la entropía mide si una información es rara o no. En nuestro caso, no es un valor absoluto, la información "rara" es aquélla que no es frecuente, que no se encuentra a primera vista. Cartografiado o Mapas de los Datos: Lo que interesa a “todo investigador”, en primera instancia, es hacer una lectura de la información contenida en la tabla de datos; ¿Cómo abordar la información que hay en una tabla de datos?, ¿cómo leer una tabla de datos?, es decir, ¿qué información importante hay en una tabla de datos en relación con los objetivos del estudio?, ¿cómo obtener un mensaje que pueda ser luego contextualizado por el “investigador” y sirva para la interpretación y comunicación de los resultados? Para lograr que el cerebro humano pueda captar lo más importante de la información de una tabla hay que consentir perder información para ganar en significación. El cerebro entiende mejor la información en forma análoga, es decir en forma gráfica, en lugar de la información digital o el conjunto de cifras de una tabla. Al menos en un comienzo es de gran ayuda observar gráficas que representen de alguna manera la Información más importante de las cifras y símbolos puestos en la tabla. Uno de los elementos de la estadística descriptiva que cumple con ese cometido es el Análisis Factorial Multivariado. [Lebart Morineau y Fénelon, 1985]

Page 2: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 2

Cuando la mayoría de las personas piensan en mapas, lo primero que les viene a la mente son imágenes geográficas. No se trata de mapas geográficos, sino de mapas de ideas y de datos. Así como el cartógrafo, el investigador recaba información, aunque no sea de naturaleza geográfica. Así como el cartógrafo, el investigador también analiza y representa información, decide cuál es la mejor forma de representarla, minimiza la subjetividad y describe gráficamente las perspectivas. Al igual que el cartógrafo, los investigadores esperan que sus representaciones sean útiles para guiar a otras personas y para ayudarlas a tomar decisiones con mayor fundamento. Se propicia la creación de estos mapas (cartografiado de datos) como complemento y alternativa para las formas tabulares, numéricas y textuales de representar información más tradicional. Igualmente, se espera que, así como los mapas geográficos, los mapas de datos ayuden a informar y guiar a otras personas y les permita tomar mejores decisiones. El Análisis Factorial Multivariado es el fundamento del Cartografiado de Datos. Se trata de una técnica de análisis que permite estudiar un conjunto de individuos estadísticos descritos por un grupo de variables y representar gráficamente los elementos de esta tabla de datos en un espacio de pequeña dimensión, posibilitando interpretar las relaciones entre variables y semejanzas entre individuos. La técnica del Análisis Factorial Multivariado se aplica al estudio de tablas de datos rectangular T(n x p), en las que por filas se tiene n “individuos” (individuos estadísticos o muestras); y por columnas p variables numéricas o categóricas mutuamente excluyentes y exhaustivas. Construye la visualización de hechos, basado en la relación entre las variables analizadas y la asociación de individuos que la producen.. Con sus gráficos de análisis factorial, ha devuelto los individuos a la estadística: durante mucho tiempo ignorados, los individuos hacen su ingreso en la escena estadística bajo la forma de puntos en una nube. Las posiciones respectivas que ellos ocupan en el seno de esa nube demuestran en primer lugar que ellos se diferencian unos de otros. Las distancias y las proximidades que ellos mantienen con las modalidades de las variables consideradas permiten a continuación comprender en qué difiere cada uno del otro. Recientemente, debido a la influencia de los autores de la Escuela Estadística Francesa, (Benzecri en 1977 y Lebart en 1982), se insiste en la representación de toda información por medio de gráficos, antes, durante y después de un análisis numérico de datos, ya que la información que se deriva de un gráfico es siempre de tipo cualitativo y es más fácil de interpretar ya que con frecuencia, un gráfico permite aprehender relaciones de una manera más simple que su presentación algebraica. La Escuela Francesa, más "descriptiva" que "inferencial" en su enfoque, ha considerado la importancia de los individuos en el análisis de modo que también puedan ponerse de manifiesto en los estudios.

EL cartografiado de los datos es una metodología de aplicación en la investigación profesional Si se pretende conocer, simular y manejar una realidad, debe hacerse a través de una imagen de ella, que es un “análisis”, en el que los conceptos observados son representados simbólicamente. El Cartografiado es la representación gráfica, simple y completa de la información contenida en datos alfanuméricos, estadísticos y textuales, de cualquier área (social, médica, científica, ambiental, periodístico, etc.), de fuentes propias, externas y aportada por los mismos interesados. Se trata de la ejecución de una estrategia metodológica de análisis exploratorio mediante algoritmos matemáticos. Constituye una tecnología de punta, está basado en la utilización de algoritmos de generación de hipótesis (el juicio del usuario) y de la neurociencia (teoría de la percepción gráfica humana). Presentación gráfica, conformando un sistema de comunicación simbólica de la información y una caracterización de la realidad, que se representa mediante una Imagen. Es una nueva herramienta exploratoria que ha surgido hace muy poco tiempo, lleva implícito un proceso de observación de los datos, un análisis exploratorio, la creatividad y el conocimiento del especialista en el tema, que logra realizar un gráfico final (mapa) expresando toda la información relevante contenida en los datos. Tiene sus principios en la Epistemología y constituye una herramienta para la práctica de la investigación profesional. El proceso de cartografiado parte de la observación. “Observamos”, “comparamos” y “describimos”. O sea, es pertinente a la observación y a la medición. Parte de la información extraída de las características de una realidad estudiada, continúa con la conservación de las observaciones y las resume en una tabla de datos. Posteriormente se efectúa el análisis de datos y se presenta una síntesis analógica y gráfica. Este es el análisis multidimensional, obteniéndose una síntesis de los planos factoriales y de los indicadores estadísticos. Con en base a estos resultados y su interpretación construimos el cartografiado, que tiene la realidad observada a través de una imagen. Ahora lo más fácil, hacer el diagnóstico bajo la lupa del experto en el dominio. No es muy costoso y muy distinto al que hace un radiólogo de una radiografía. Vemos una imagen y hacemos el diagnóstico de la realidad que se ha observado a través de los datos obtenidos. Es lo mejor como resultado final. La ventaja: que es accesible para todos.

Page 3: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 3

Desde el punto de vista práctico, El Cartografiado de Datos permite la “EXTRACCIÓN” bastante rápida de la información contenida en un conjunto de datos y su “TRANSMISIÓN” en forma simple a cualquier nivel de usuario. Beneficios: � Si se pretende conocer, simular y manejar una realidad, debe hacerse a través de una imagen de ella, que

es un “análisis”, en el que los conceptos observados son representados simbólicamente. � El objetivo principal del Servicio de “Cartografiado de la información” , es la construcción de un nuevo

“lenguaje de la información” y brindarlo a los usuaruios. Se trata de realizar gráficos de amplios conjuntos de datos donde las personas , los entes, los objetos o el medio a describir se trasforman en representaciones sobre un plano.

� Tiene aplicaciones generales y permite una lectura fácil de la información que contiene, ya que la regla de interpretación es la de la “proximidad de los puntos representados”.

� El método algorítmico que aplica su transformación, tiene el papel de instrumento de observación, sistematizando los volúmenes de datos y proporcionando imágenes a partir de una realidad.

� Permite utilizar las facultades de percepción humana cotidianamente utilizadas. Sobre los gráficos se “ve” con los ojos y el misterioso análisis iconográfico que nuestro celebro hace de una imagen: las agrupaciones, oposiciones y tendencias , imposibles de discernir directamente sobre una tabla de datos, inclusos después de un examen prolongado.

� Estas prestaciones de representaciones gráficas son también un “medio de comunicación” notable ya que no es necesario ser estadístico para comprender que la “proximidad entre los puntos graficados traduce la semejanza entre los objetos que representan” sin que sea necesario comprender la formalización matemática de esta semejanza, se transmite una imágen de los datos.

� El Servicio de Cartografiado permite diagnosticar situaciones: las tablas de datos son precisamente un obstáculo para su lectura fácil y su asimilación directa; el “cartografiado de la información contenida” se ofrece mediante una panorámica excepcional, permitiendo una crítica particular de la realidad para el usuario. Las figuras dadas por los gráficos presentan constataciones, inferencias, estimaciones, entrañan conjeturas, y por esto constituyen preciosos instrumentos de análisis y comunicación simultáneamente.

� El Servicio de cartografiado permite hacer conocer la “realidad”: uno de los principales problemas con los que se enfrenta todo periodista , gobernante, político o investigador, es la “conceptualización“ del medio en donde se desarrolla; es decir, “lograr sintetizar afirmaciones generalizables a una situación determinada”. Es aquí donde precisamente el servicio propuesto tiene su máxima aportación.

� Es posible medir ciertos aspectos intrínsecos del medio real y transformarlos a un “espacio de información básico” que produce un modelo simulado, que es imagen actualizada de esa realidad. En ese sentido, esto constituye principalmente el Servicio de Cartografiado .

� También , otro aspecto es el que permite exhibir aspectos que se escapan a la observación directa: propone ir más lejos de las apariencias de los datos: “el Servicio de cartografiado de la información” establece un compromiso entre el poder explicativo y la simplicidad; cumple una función de transferencia iconográfica y su contribución más importante es hacer viva la estructura de la información y trasmitirla a todos los usuarios por igual.

El Servicio planteado permite construir un “observatorio de datos”: a) del Estado en materia de medio ambiente, salud, epidemias, demografía, necesidades básicas

insatisfechas poblacionales, socioeconómicas, etc... b) de las Instituciones, en materia de análisis de la percepción, imágenes institucionales, análisis de

encuestas, análisis actitudinales, estudios e investigaciones en las ciencias, artes y tecnologías. c) de las Empresas , en materia de posicionamiento frente al sector, comercialización, estudio e mercado,

imágenes de productos y servicios. d) para establecer peritajes de la información a través de: el gobierno, empresas , entidades de protección a

los consumidores, medios periodísticos, municipios, etc. También, permite crear un vínculo, entre la prestacion de consultoria a través de “mapas de indicadores estadísticos” con el debate social, la argumentación y justificación de las decisiones ejecutivas y la comunicación eficiente de la información al medio.

Page 4: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 4

Tipos de tablas

1. Introducción

En la caracterización de la problemática a estudiar se encuentra el núcleo de la pre-comprensión modelizante, que estructurará nuestra mirada para la elaboración de una hipótesis, teoría o modelo. El modelo incluye una serie de operaciones o procedimientos de relación entre conceptos. Samaja considera cuatro operaciones básicas intrínsecas a la tarea científica: � Entificación, que se refiere al proceso de reconocimiento de las unidades de análisis � Categorización, que se refiere al procedimiento de identificación de categorías semánticas (variables) y sus semas

respectivos (valores). � Operacionalización, que se refiere a los procedimientos que se ponen en juego con las dimensiones de las variables

para llegar a los indicadores o concepto empírico de variable. � Procesamiento de las observaciones, que vendrá condicionado por las operaciones anteriores, y que podrá ser

centrado en las variables, en las unidades de análisis o en los valores.

Según este enfoque, todos los datos de todas las investigaciones científicas poseen una estructura invariante: Unidad de Análisis, Variables, Valores e Indicadores. La matriz de datos es el instrumento básico para intentar una descripción de esa fase del comportamiento científico que consiste en diseñar la información empírica para confrontar sus marcos teóricos. Estas operaciones son verdaderas mediadoras entre la teoría previa y el momento empírico, y constituyen los procedimientos necesarios para la determinación del Objeto Modelo o sistema de matrices de datos. 2. Matrices de datos

Los tres componentes son los elementos portadores de información y se representan en un matriz de fila columna cuya celda, según podemos ver en la Figura 1.2., es un valor cuantitativo (con propiedades numéricas) asociado a una unidad de medida o un valor discreto que representa frecuencias, proporciones o valores binarios (lógicos); también puede ser un valor cualitativo representado por clases o categorías que pueden o no tener un orden lógico.

Figura 1. Técnicas de análisis: de la matriz de datos al análisis multidimensional

Los datos textuales son oraciones, párrafos, fragmentos de textos, este tipo de valor conlleva un procesamiento previo denominado anales léxico que permite representar la información en una tabla “léxica” de frecuencia.

Figura 2. Tipos de Datos

Page 5: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 5

El "individuo", representa la mínima unidad de análisis que observamos, está relacionado con el objeto de estudio; cada unidad de análisis es observada y se puede medir o caracterizar por un valor (dato), este valor puede ser un número o una cadena de caracteres (etiqueta). Cada característica o atributo observada representa una variable, ya que para un conjunto de unidades de análisis pueden observarse diferentes valores para esa característica. Por ejemplo, si se está estudiando los factores asociados al riesgo de morir o vivir, para un paciente con infarto de corazón, las unidades de análisis van a ser cada caso observado que llega a emergencia (paciente), donde se mide su presión arterial, pulmonar entre otras características (datos numéricos) y se observa su sexo (dato cualitativo), estas características medidas, incluyendo el sexo representan las variables ya que para cada caso observado las mediciones varían, (si todos fuesen varones, en vez de tener una variable sexo tendría una constante). En el caso de las variables cualitativas cuyo valor es una cadena de caracteres, cada etiqueta representa una categoría en que cada unidad de análisis puede ser clasificado, a esta categoría se le denomina "modalidad", también le llamamos categoría o clase. En el ejemplo el sexo tiene dos posibles valores "mujer" o "hombre", son dos modalidades en que los casos pueden ser clasificados o agrupados.

Cada fila representa la mínima unidad de observación (puede haber una columna con un identificador para cada observación). En el cartografiado se representan mediante puntos. Cada Columna representa una variable cuantitativa que representa características o atributos medidos. Poseen propiedades numéricas (media, desvio…). En el cartografiado se representan mediante vectores.

Cada fila representa la mínima unidad de observación. En el cartografiado se representan

mediante puntos. Cada Columna representa una variable

cualitativa representados por una cadena de caracteres (etiqueta) que clasifica a cada

observación. No Poseen propiedades numéricas y para cada variable se tiene un número dado de

posibles categorías, mutuamente excluyentes. En el cartografiado se representan mediante

puntos, ya que representan grupos de individuos..

En las tablas de contingencia las unidades de observación (de análisis) están implícitas en la tabla representadas por la información contenida en ella. Tanto filas, como columnas representan grupos de individuos de una cierta característica, el cruce provee un valor numérico que relaciona ambos grupos (uno fila y otro columna).

Page 6: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 6

Relacione características de fila con las de columna a través de un valor numérico que generalmente representa frecuencia o ponderación pero puede ser un valor continuo positivo asociado a una unidad de media. En estas tablas el total de filas (marginales fila) y el total columnas (marginales columnas) coinciden Las tablas de frecuencia también son tablas de contingencia, pero en las filas tengo explícitos la mínima unidad de análisis (no están agrupados en modalidades). Este tipo de tabla permite representar las tablas disyuntivas o binarias y las tablas léxicas. Es muy útil cuando para una observación se presentan atributos con valores cualitativos que no son mutuamente excluyentes (múltiple opción), e este caso cada columna representa una modalidad y en el cruce un valor dicotómico (0 o 1) que indica si la observación está o no en esa categoría (también podría asociarse un peso que indica la intensidad de la asociación).

Tablas Cuantitativas – Gráfica sobre la base de un Análisis de Componentes Principales

En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son numéricas continuas. Siendo cuantitativas continuas, tienen propiedades numéricas (sobre cada una de ellas se puede calcular suma, promedio, mínimo y máximo), por lo tanto, las variables se representan mediante vectores. Los extremos representan el mínimo y máximo valor y en el centro se encuentra la media de todas las varibles. Por lo tanto, que todos los individuos estén en el centro significa que no hay mucha variabilidad, mientras más dispersas están las observaciones mayores diferencias hay entre las unidades de análisis. Las observaciones se distribuyen en el mapa en función de las variables, la proximidad entre ellos se da por características comunes permitiendo agruparlos en cluster. Si proyectamos todos los individuos sobre uno de los vectores podemos ver a todas las observaciones ordenadas según el mínimo y máximo de la variable.

Las variables pueden o no estar relacionadas entre si, esto se puede visualizar a través del ángulo entre vectores (el coseno cuadrado equivale a la correlación), dos variables casi paralelas (ángulo pequeño) representa una relación positiva, cuando una variable crece la otra también tiende a crecer. Si el ángulo es casi 90º no hay relación entre ellas, es decir la variación de una no tiene nada que ver con la variación de la otra. En caso de estar casi a 180º (opuestas) se representa una relación inversa, cuando una crece la otra tiende a decrecer. La intensidad (longitud) del vector representa el impacto o información que aporta la variable a estudio, si es muy pequeño es posible eliminarlo y la distribución en el plano no tendrá mucha variación. En un estudio se puede tener otras características que sirven para explicar por lo cual se proyectan ilustrativamente sobre el mapa; estas variables pueden ser otras variables continuas que se representan por ventores o variables cualitativas cuyas modalidades se representan a través de puntos (dado que son grupos de observaciones), se proyectan para explicar algo sobre las observaciones.

Page 7: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 7

Ejemplo Tabla Cuantitativa Continua

Las unidades de observación son los alimentos cuyas características medidas son las calorías, hidratos, grasas y proteínas. El tipo de alimento es una variable cualitativa que clasifica a los alimentos, en el gráfico se coloreo a los individuos en función de sus modalidades.

Tablas Cualitativas – Gráfica sobre la base de un Análisis Factorial de Correspondencias

En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son numéricas cualitativas categóricas. Tanto las observaciones como las variables se representan mediante puntos, en el caso de las variables cada punto es una modalidad o categoría que aglomera a un grupo de individuos. La proximidad entre puntos permite visualizar grupos de observaciones y las modalidades que caracterizan al grupo y lo diferencia de otras observaciones alejadas.

Page 8: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 8

Pueden incluirse otras variables que no forman parte del análisis pero sirven para explicar y se proyectan ilustrativamente. Pueden ser otras variables cualitativas o variables continuas donde se proyecta los vectores.

Ejemplo Tabla Cualitativa Nominal

Las unidades de observación son jóvenes encuestados cuyas características son su opinión sobre actividades que realiza El sexo y nivel de estudios sirve para explicar y se proyecta ilustrativamente

Page 9: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 9

Si marcamos la trayectoria entre modalidades podemos visualizar las relaciones lineales entre tramos, de la misma manera que hacíamos entre vectores. En este caso los individuos no están identificados pero pueden verse en el gráfico mediante pequeños puntos azules. Tablas Contigencia – Gráfica sobre la base de un Análisis Factorial de Correspondencias

En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son numéricas cuantitativas y por lo general son frecuencia, conteo o ponderación. Tanto fila como columnas representan categorías o modalidades de una variable, y se representan mediante puntos. La proximidad permite asociar los grupos fila y los grupos columnas.

Algunas filas o algunas columnas pueden proyectarse ilustrativamente sin incluirlas en el análisis. Las tablas de frecuencias son tablas de contingencia donde en columnas tenemos categorías pero en cada fila la mínima unidad de observación, el dato es un valor entero positivo que puede ser 0 o 1 (binario) o frecuencia.

La más conocida es la tabla disyuntiva que se crea a partir de variables cualitativas, en cada columna se coloca una modalidad de la variable y para cada individuo se indica 0 o 1 según pertenezca a esa categoría. Otras tablas relacionadas son las tablas léxicas con formas o segmentos característicos que se obtienen en el esudio de textos; o tablas que se crean de esta manera cuando las categorías en que puede clasificarse los individuos en una variable cualitativa no son mutuamente excluyentes, es decir pueden estar en varias categorías a la vez. En este caso cada fila es la mínima unidad de análisis y pude visualizar se en el grafico. Pueden proyectarse ilustrativamente variables continuas y cualitativas.

Page 10: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 10

Ejemplo Tabla Contingencia

Datos que representan las estimaciones del consumo promedio en kg, de 9 fuentes diferentes de proteinas, por los habitantes de 25 países, Greenacre (1984)

Page 11: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 11

Ejemplo Tabla Frecuencia

Page 12: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 12

3. De los instrumentos de observación a las tablas de investigación

Page 13: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 13

Page 14: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 14

Page 15: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 15

Métodos multivariados para el diagnóstico por Imagen de Datos

El Análisis Multivariado de Datos (AMD) en la versión de la escuela francesa, surge en la década de los 70, planteando fines menos deterministas que los de la Estadística tradicional, su objetivo general es la búsqueda de una estructura presente en los datos, en un contexto de tipo más abductivo que deductivo, que revaloriza el rol del individuo. Su naturaleza, fundamentalmente descriptiva y el acercamiento geométrico asignan un rol muy importante a las representaciones gráficas, sobre todo en una etapa exploratoria. Los algoritmos desarrollados en el contexto del AMD se adaptan a diferentes niveles de complejidad de la información: datos numéricos, textuales, simbólicos. Es decir que el dato puede ser algo más que un único valor numérico resultado de la asignación de una medida o código a una unidad de análisis: puede ser una palabra, un conocimiento, una posibilidad, una conjunción de valores. Lebart (1995) han acuñado para estos métodos el nombre de exploratorios multidimensionales, pero se usó mucho en el pasado el de análisis de datos y es sinónimo de estadística descriptiva multivariada o análisis multivariado de datos. Se constituyen en una generalización de la estadística descriptiva univariada y bivariada, pero la presencia de más variables o dimensiones la hace más compleja. La interpretación de las representaciones gráficas requieren del conocimiento de la lógica de los métodos y están siempre acompañadas de índices numéricos que complementan y enriquecen los análisis. En otras palabras la utilización de estos métodos requiere de un entrenamiento para su utilización e interpretación y hace prácticamente indispensable el trabajo interdisciplinario en la investigación. Siendo el objetivo de estos métodos de análisis la descripción y exploración de la información, no se requiere de modelos preestablecidos, ni de supuestos que muchas veces no se cumplen. Los métodos logran la presentación analógica de la información recurriendo a principios geométricos. Los métodos buscan documentar con datos los fenómenos que están siendo observados sobre poblaciones, muestras o grupos más o menos grandes. La información sobre las unidades de observación ("individuos") se transforma en tablas de datos. Una 2tabla de datos generalmente tiene filas que representan a los "individuos" y columnas que representan a las variables, las cuales pueden ser continuas o nominales según la escala de medición. La tabla de datos (anexo 1) se representa, luego de una transformación adecuada, en un espacio de múltiples dimensiones: nube de puntos. En la representación geométrica la distancia entre puntos significa la diferencia entre los elementos considerados: si están cerca se parecen, si están lejos son muy diferentes. La nubes de puntos construidas son abstractas pues no podemos ver espacios de más de tres dimensiones, en realidad, en nuestros documentos, vemos bien dos dimensiones (planos). Pero la geometría abstracta de esas representaciones hipergeométricas cumple con las mismas propiedades de la geometría plana y del espacio euclidiana. Se recurre entonces a proyecciones sobre planos y a agrupamientos de puntos cercanos, para observar lo más importante de esas representaciones. La lectura, utilizando proyecciones, es el principio de los métodos factoriales, en cuyo caso la pérdida de la información se manifiesta en forma de errores de proyección. En los métodos factoriales se busca el plano para el cual los errores de proyección son en conjunto los menores posibles: primer plano factorial. La lectura de la representación de clases o grupos de puntos cercanos, constituye los métodos de clasificación. En estos métodos la pérdida de información se da porque cada elemento pierde sus características específicas y se caracteriza, en cambio, por la clase a la que pertenece. Se buscan grupos de tal manera que los elementos al interior de un grupo se parezcan y los elementos de diferentes grupos sean lo más diferenciados posible. (Lebart et al. (1995). La nomenclatura que aparece en el gráfico es propia del álgebra lineal. Sobre una tabla de datos son posibles dos representaciones complementarias: la nube de los puntos fila y la nube de los puntos columna. Para ubicar un punto en el plano se requieren dos coordenadas y para ubicarlo en un espacio abstracto de p dimensiones, p coordenadas. El conjunto de las coordenadas necesarias para ubicar un punto se denomina vector. En una tabla de n filas y p columnas, se tiene una nube de n puntos filas en donde cada fila está representada mediante un vector de p coordenadas y una nube de p puntos columna con cada punto representado por un vector de n coordenadas. La naturaleza de las filas y columnas de una tabla de datos junto con los objetivos del estudio determinan los métodos a utilizar: “estrategia metodológica”. Dentro de los métodos factoriales el más útil es el análisis factorial de correspondencias múltiples (AFCM), ya que es el adecuado para la lectura de tablas de “individuos” por variables cualitativas (nominales u ordinales). El AFCM es una generalización del análisis de correspondencias simples (AFCS), utilizado para la lectura de tablas de contingencia. El AFCS se puede ver como la aplicación simultánea de dos análisis en

Page 16: 03 Cartografiado De datos y tablas de datos

Matilde I. Césari 16

Componentes principales (ACP). En la mayoría de las aplicaciones se utilizan métodos de clasificación que dan lecturas complementarias a los métodos factoriales, de la tabla de datos. El propósito de esta Sección es hacer una presentación comprensible mediante el modelo geométrico, que da al menos un punto de vista intuitivo. Bibliografía de Referencia :

L. Lebart, A. Morineau, J. Fénelon. "Tratamiento Estadístico de Datos". Edt. Marcombo- España.1985. L. Lebart, A Morineau, M. Pirón. "Statistique exploratoire multidimensionnelle". Edt. DUNOD, París, 1995. B. Escofier, J. Pagés. "Análisis factoriales simples y múltiples, objetivos, métodos e interpretación". Serv-Edt. Universidad del País Vasco. Publ. DUNOD - BORDAS, París 1990.- J. Batista Foguet, Mª.del Rosario M. Arias. "Análisis multivariante". Edit. Hipano Europea S.A., España 1989.- Material científico y pedagógico de los Seminarios PRESTA. Universidad Libre de Bruselas- Unión Europea - 1997.