estadistica un enfoque descriptivo

139
 

Upload: otalvaroangelica

Post on 15-Oct-2015

592 views

Category:

Documents


89 download

TRANSCRIPT

  • Roberto Behar Gutirrez Mario Yepes Arango

    Estadstica Un Enfoque Descriptivo.

    Tercera Edicin

    Santiago de Cali, Colombia, Enero de 2007.

  • Estadstica,UnEnfoqueDescriptivoISBN9586700682RobertoBeharG.1996,2007MarioYepesA.Tel:57233349035723212167FAX5723398462emailrobehar@univalle.edu.corobehar@yahoo.comTalleresGrficosDeImpresoraFERIVAS.A.Cali,Colombia

  • Prlogo

    Roberto Behar y Mario Yepes

    El gran mrito de la Estadstica como disciplina, es proporcionar las herramientas

    necesarias para obtener conclusiones sobre una poblacin, a partir de una observacin de tan slo

    una muestra de la misma. La incertidumbre inherente al proceso de generalizacin es estudiada y

    medida con base en la teora de la probabilidad la cual permite tener la informacin acerca de la

    confianza asociada con las conclusiones resultantes de la inferencia realizada.

    Existen varias maneras de adquirir el conocimiento de los instrumentos que proporciona la

    inferencia estadstica y la habilidad para su aplicacin; una de ellas, la tradicional consiste en

    estudiar en primer lugar, la teora de la probabilidad y enseguida estudiar la inferencia estadstica

    propiamente dicha; este es el enfoque que involucran la casi totalidad de los libros que circulan

    en nuestro mercado.

    Una segunda manera de visualizar el proceso de aprendizaje, consiste en el desarrollo de una fase

    exploratoria de los datos que constituyen una muestra o una poblacin si fuera el caso. En esta

    fase se trata de definir algunos indicadores de rasgos del conjunto que constituye la muestra y

    luego de procesar los datos, obtener ideas sobre sus propiedades y posiblemente establecer

    algunas hiptesis sobre el comportamiento de estos rasgos, o sus relaciones en la poblacin.

    En esta fase se produce la maduracin de muy buena parte de los conceptos bsicos que es

    necesario estudiar con todo el rigor, no slo en la etapa de inferencia estadstica, sino

    previamente en el estudio de la teora de la probabilidad; as por ejemplo se trabaja con la funcin

  • Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    8

    emprica de densidad de frecuencia, haciendo clculos con base en datos; la generalizacin de

    este concepto constituye la funcin de densidad de probabilidad de una variable aleatoria. Anlo-

    gamente se tratan los conceptos de frecuencias condicionales, de funciones empricas de densidad

    conjunta, de independencia estadstica, cuya prolongacin conceptual al hacer referencia a la

    poblacin, concluye en lo que representan respectivamente, la probabilidad condicional, las

    funciones de densidad conjunta de probabilidad y la independencia probabilistica entre variables

    aleatorias.

    Con lo anterior no se pretende desconocer que la teora de la probabilidad puede desarrollarse

    exclusivamente con base a su estructura axiomtica y sin apoyo intuitivo alguno. No obstante, los

    autores del presente texto, visualizan la teora de la probabilidad como un instrumento de apoyo

    que permite el desarrollo de la Estadstica para su aplicacin; en este sentido, acompaar los tra-

    tamientos rigurosos de la probabilidad y la inferencia estadstica con una visin intuitiva basada

    en la manipulacin de datos obtenidos de procesos reales, cobra una gran importancia desde el

    punto de vista de la aplicabilidad de las herramientas tericas que se estudien. Por tanto esta

    primera fase-objeto de este texto constituye un enfoque descriptivo que enriquece los elementos

    que permiten interpretaciones intuitivas, que no son un reemplazo del estudio riguroso de las

    potentes herramientas estadsticas, pero si constituyen un frtil abono para su desarrollo y

    motivado tratamiento.

    Como esta primera fase exploratoria no involucra el tratamiento de la incertidumbre que se

    genera al inferir, no se requiere del conocimiento de la teora de la probabilidad, lo cual trae la

    ventaja adicional de que en caso de no terminar el proceso de estudio completo, la persona que ha

    experimentado esta fase descriptiva, adquiere elementos importantes para la comunicacin de

    situaciones y problemas en trminos estadsticos de tal forma que se le facilita expresar a quien

    puede asesorarle lo que necesita resolver.

    Este texto pretende orientar la primera fase mencionada, por tanto puede ser utilizada por algunos

    investigadores que deseen hacer acopio de instrumentos de ayuda exploratoria .

  • Captulo 1 9

    Roberto Behar y Mario Yepes

    Por el contenido, por la metodologa y por el nivel de prerrequisitos puede ser usado por todos

    aquellos estudiantes que vayan a introducirse en la disciplina estadstica. En algunos temas se

    requiere el conocimiento de los rudimentos del clculo diferencial, aunque no son indispensables

    para el entendimiento de los conceptos bsicos.

    En lo que respecta a la metodologa para el logro de objetivos planteados, sta trata en lo posible

    de mantener la siguiente estructura: en primer lugar el planteamiento de la situacin problema

    que ser resuelta por la herramienta que se pretende presentar enseguida; luego se plantea un

    ejemplo, el cual se utiliza para introducir elementos que permitirn definir la notacin simblica

    y presentar para el caso concreto del ejemplo, la ilustracin de la solucin al problema general

    planteado; por ltimo la presentacin general de la herramienta usando la notacin definida. Al

    final de cada captulo se proponen ejercicios con el objeto de que el lector pueda evaluarse y

    retomar algunos temas que no hayan quedado suficientemente entendidos.

    El contenido del texto es el siguiente: el primer captulo es una introduccin, en la cual se

    pretende precisar los alcances y la utilidad de la Estadstica y ubicar la temtica que trata este

    trabajo, en el contexto de la metodologa estadstica.

    En el segundo captulo se presenta el tratamiento de los datos provenientes de la observacin de

    una caracterstica en los elementos de una muestra, definiendo algunos rasgos que pueden ser de

    inters. En el tercer captulo se hace tratamiento de datos provenientes de la observacin de dos

    caractersticas a cada uno de los elementos de una muestra, con el propsito de estudiar su

    distribucin, indicadores de asociacin y se desarrolla el concepto de anlisis de la varianza. En

    el cuarto captulo se trata el modelo de regresin simple, su construccin, su interpretacin y sus

    limitaciones.

    Con respecto al uso del texto en el desarrollo formal de un primer curso de Estadstica, el docente

    segn los objetivos y de acuerdo con el grupo especfico de estudiantes, podr omitir o no los

  • Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    10

    desarrollos que impliquen procedimientos matemticos que no estn al alcance de sus alumnos

    o no los considere pertinentes, haciendo nfasis en la interpretacin de los resultados.

    No obstante que este texto es el producto del desarrollo de nmerosos cursos, damos excusas por

    los errores que pudiera presentar y agradecemos las sugerencias o rectificaciones que puedan

    hacernos con el propsito de mejorarlo con base en la valiosa retroalimentacin que debe generar

    su uso.

  • Captulo 1 11

    Roberto Behar y Mario Yepes

    Prlogo a la segunda edicin

    Hoy despues de 10 aos de uso masivo de esta obra, que ha servido a

    centenares de estudiantes de las mas variadas disciplinas que van desde los propios

    estudiantes de la carrera de Estadstica de la Universidad del Valle, estudiantes de

    Administracion de Empresas, Contaduria, Matemticas, Ciencias Sociales y

    Econmicas y muchas ms, de casi todas las Universidades de la regin, estamos

    entregando a usted, esta segunda edicion, en la que se incluyen algunas

    modificaciones, resultado de las sugerencias de muchos colegas que han visto en el

    texto un buen instrumento para el logro de sus objetivos.

    Se han includo algunos temas nuevos, se ha profundizado y ampliado el tratamiento de otros, se

    han aumentado el nmero de problemas de final de captulo y se han adicionado explicaciones a

    algunos tpicos. Conscientes de la gran variedad de disciplinas que son usuarias del texto hemos

    incluido una gran variedad de referencias bibliogrficas.

    El gran valor del texto, continua siendo darle vida a los resultados, no quedarse en las frias cifras,

    no conformarse con clculos con base en formulas. Se abunda en interpretacin, se enfatiza en

    los conceptos, que es lo que garantiza en ultimas el desarrollo de criterios para enfrentar futuros

    problemas y situaciones reales.

  • Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    12

    Queremos agradecer las valiosas sugerencias de nuestros queridos colegas que durante todos

    estos aos han sido usuarios de esta obra, honrando nuestro esfuerzo, sugerencias que en su

    mayoria han quedado plasmadas en esta segunda edicin. Profesores como: Rafael A. Klinger A.,

    Francisco A. Quiroga Z., Jorge E. Delgado, Javier Olaya, Jorge Payn, Robby Nelson Daz,

    Hernando Solano H., Guillermo Valds, Libardo Farfn, Oscar Gamboa, Jaime E. Prez, Ana

    Mara Sanabria, Jorge Rodrguez, Gustavo Vargas, Alexander Taborda, Marco Fidel Suarez,

    Marco A. Triana, Clara Ines Perea, Antonio Escudero A., Omar Rada B., Huber Ramos, Olga

    Arias, Viviana Vargas, Mercedes Andrade, William Snchez, Gabriel Conde, Edwin Rengifo,

    Heberth Muriel, Reynaldo Carvajal, Hugo Hurtado, Rodrigo Izquierdo, Luis Eduardo Girn,

    entre muchos otros.

    Deseamos agradecer de manera muy particular al ingeniero Jaime Felipe Mnera quen puso todo

    su profesionalismo y su cario en el diseo de la nueva edicin.

    Expresamos nuestro reconocimiento a nuestra querida ex alumna Virginia Cabrera, por la labor

    de transcripcin y edicin de este libro, la cual desarroll no solo con gran profesionalismo sino

    tambin con mucha tesn y gran afecto.

    Agradecemos a los cientos de alumnos nuestros, muchos de los cuales son ahora profesionales de

    xito, quienes compartieron en forma directa la experiencia de ingresar al mundo de la

    estadstica, teniendo en muchas de sus noches este texto como interlocutor y compaero, quienes

    en su momento nos hicieron notar algunos errores tipogrficos, algunos clculos errados y en no

    pocas veces sesudas sugerencias.

  • Roberto Behar y Mario Yepes

    Prlogo a la tercera edicin

    Esta edicin, la tercera, resulta de la intencin de los autores de hacer pblico y disponible en la

    web en forma gratuita, este libro. Por esta razn y para hacer ms agradable la lectura hemos

    ampliado los espacios entre lneas.

    Se ha eliminado la fe de erratas, corrigiendo los errores tipogrficos, o por lo menos

    disminuyndolos.

    Otro cambio de inters, Aprovechando las sugerencias de algunos colegas, entre ellos Eloina

    Mesa y Vctor Gonzlez, hemos adaptado la notacin en lo relativo a la representacin de la

    frecuencia relativa, cambiando la h por f , induciendo un cambio a la notacin de la

    densidad de frecuencia de h* hacia f* y anlogamente la frecuencia relativa acumulada de H(x)

    hacia F(x)..

    Estos cambios estn ms acordes con la notacin de la mayora de los libros, haciendo a los

    estudiantes ms fcil la consulta de otros libros y materiales relacionados as como tambin

    empalma de manera ms natural con la notacin usada en la teora de la probabilidad para

    conceptos equivalentes a los aqu desarrollados.

    Tambin por sugerencia de algunos colegas que han usado el libro por muchos aos, hemos

    incluido algn desarrollo que ligue el concepto de variable continua en estadstica descriptiva con

    el de variable aleatoria en teora de la probabilidad, generando un puente intuitivo entre la

    funcin de densidad de frecuencia relativa con la funcin de densidad de probabilidad,

    relacionando tambin el rea de los rectngulos de un histograma con le rea bajo una curva y

    por supuesto en su definicin operativa, las reas de rectngulos por la integral de la funcin de

  • 14 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    densidad, haciendo natural el paso de la Funcin de Distribucin Emprica acumulada a su

    homloga en probabilidad.

    En el captulo 1, se ha adicionado el apartado Probabilidad, Estadstica y el Mtodo en

    Ingeniera, que corresponde casi textualmente a un articulo que los profesores del rea de

    estadstica de la Escuela de Ingeniera Industrial, publicamos en la revista Ingeniera y

    Competitividad de la facultad de ingeniera de la Universidad del Valle.

  • Captulo 1

    Roberto Behar y Mario Yepes

    INTRODUCCION

    1.1 HISTORIA DE LA PALABRA ESTADSTICA 1

    En su sentido actual, las palabras estadstica y estadstico (esta ultima como sustantivo o como

    adjetivo) tienen menos de un siglo de existencia, pero se emplean desde hace ms tiempo, siendo

    interesante estudiar el proceso por el que han llegado a adquirir la significacin que hoy tienen.

    1Yule-Kendall: "Introduccin a la Estadstica". Editorial Aguilar. Edicin 14. 1967. Pags. 6, 7 y 8.

  • 16 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    Las palabras estadista, estadstica, estadstico, parece que derivan ms o menos indirectamente

    del latn STATUS, en el sentido adquirido en el latn medioeval, de un estado poltico.

    La primera de las tres palabras citadas es mucho ms antigua que las otras dos. La palabra

    estadista se encuentra, por ejemplo en "Hamlet" (1602), en "Cimbelino" (1610 1611) y en "El

    paraso recobrado" (1617).

    Segn parece, la palabra estadstica se emple por primera vez en "Elementos de erudicin

    universal" del barn J.F. Von Bielfeld, traducido al ingls por W. Hooper M.D. (vol.3, Londres

    1770), uno de sus captulos se titula "estadstica" y en l se define sta como "La ciencia que nos

    ensea la situacin poltica de los estados modernos del mundo conocido". La palabra

    estadstica aparece de nuevo con una definicin quizs ms amplia, en el prefacio de "Una visin

    poltica del estado actual de Europa" por E.A.W. Zimmermann publicada en 1787.

    "Hace aproximadamente cuarenta aos -dice Zimmermann- que esta rama del conocimiento

    poltico, que tiene por objeto estudiar la potencia real y relativa de los distintos estados

    modernos, de la capacidad derivada de sus condiciones naturales, la industria y la civilizacin de

    sus habitantes y la sabidura de sus gobernantes, se ha constituido, principalmente por parte de

    los escritores alemanes, en una ciencia independiente... por la forma mas conveniente que ahora

    ha tomado... esta ciencia conocida por el recin inventado nombre de estadstica, ha llegado a ser

    un estudio favorito en Alemania" ; y el adjetivo aparece tambin: "A los diversos artculos

    contenidos en esta obra, algunos acreditados escritores estadsticos han aadido un resumen de

    las principales pocas de la historia de cada pas".

    En pocos aos estos vocablos fueron aceptados por diversos escritores, especialmente por Sir

    John Sinclair, el editor y organizador de la primera "Informacin estadstica de Escocia" al cual

    se ha atribuido frecuentemente su introduccin. En la carta circular dirigida al clero de la iglesia

    de Escocia en mayo de 1790, indica que en Alemania las llamadas "investigaciones estadsticas"

    han alcanzado gran extensin, y aade una nota explicativa de la frase "investigaciones

  • Captulo 1 17

    Roberto Behar y Mario Yepes

    estadsticas" "investigaciones relativas a la poblacin, a las circunstancias polticas, a la

    produccin de un pas y a otros asuntos de inters pblico". En la "Historia del origen y

    progreso...", de la obra citada nos dice: "mucha gente se sorprendi al principio de que yo usara

    las nuevas palabras estadstica y estadstico, porque suponan que nuestra propia lengua poda

    expresar el mismo sentido, con algn otro trmino. Pero en el curso de un largo viaje a travs de

    los pases del norte de Europa, que hice en 1786, encontr que en Alemania andaban ocupados en

    una especie de investigacin poltica a la que haban dado el nombre de ESTADSTICA y

    creyendo que una palabra nueva podra llamar ms la atencin pblica, resolv adoptarla y espero

    que est ya completamente naturalizada e incorporada a nuestro idioma.

    Esta esperanza estaba ciertamente justificada; pero la significacin de la palabra sufri un rpido

    desarrollo durante el medio siglo siguiente a su introduccin.

    "estadstica" (Statistik), en el sentido en que el trmino fue empleado por los escritores alemanes

    del siglo XVIII, por Zimmermann y por Sir John Sinclair, significaba simplemente la exposicin

    de las caractersticas ms notables de un Estado, siendo la forma de exposicin casi inevitable en

    aquel tiempo predominantemente verbal. La condicin y el carcter definido de los datos

    numricos haban sido reconocidos en poca algo anterior -especialmente por los escritores

    ingleses-, pero las cifras fidedignas eran escasas. Sin embargo, despus de comenzar el siglo XIX

    fueron aumentando los datos oficiales; y en consecuencia las antiguas descripciones verbales

    fueron desplazadas poco a poco por las exposiciones numricas. La Estadstica adquiri casi

    insensiblemente una significacin ms estrecha a saber: la exposicin de caractersticas de un

    Estado por mtodos numricos. Difcil es fijar la poca en que tal palabra adquiri este

    significado cuantitativo; pero segn parece la transicin se realiz slo a medias, an despus de

    la fundacin de la Royal Statistical Society en 1834. Los artculos del primer volumen del journal

    aparecidos en 1838-39 son en su mayor parte de carcter numrico, pero la declaracin oficial no

    hace referencia alguna al mtodo. "Podemos decir, con palabras del programa de esta sociedad,

    que Estadstica es la investigacin de los hechos objeto de clculos para poner de manifiesto las

    condiciones y perspectivas de la sociedad". Se reconoce sin embargo, que "el estadista prefiere

    utilizar cifras y datos numricos".

  • 18 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    Una vez realizado este primer cambio de significacin, siguieron otros. La palabra Estadstica

    utilizada primero como el nombre de una ciencia, fue aplicada despus para designar las series de

    cifras sobre las que aquellas operaba y as se habl de estadsticas vitales, estadsticas de

    beneficencia y otras. La misma palabra se aplic luego a datos numricos similares referentes a

    otras ciencias, como la Antropologa y la Meteorologa. A fines del siglo XIX hallamos

    "estadsticas de nios clasificados en listos, medianos y torpes", "estadsticas de caracteres

    mentales en el hombre" y hasta "un examen estadstico de las caractersticas del hexmetro de

    Virgilio.

    La evolucin del significado del adjetivo "estadstico" (statistical) y del nombre "estadstico"

    (statician) fue naturalmente anloga.

    No hace falta multiplicar los ejemplos para hacer ver que la palabra estadstica no est hoy

    vinculada en forma principal a las "cosas del estado".

    1.2 DIMENSION ACTUAL DE LA ESTADSTICA

    La estadstica ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que

    antes no tenan una clara solucin, hoy la tengan.

    Para que podamos hacernos a una idea de la diversidad de campos en los que la Estadstica juega

    un papel importante, se presentan a continuacin algunas situaciones.

    1. Prueba de una vacuna

    Se quiere determinar la efectividad de una vacuna; para ello se disea un experimento en el cual

    participa un gran conjunto de nios de cierta edad, los cuales son clasificados al azar en 2 grupos.

    Al primer grupo se le aplica una vacuna y al segundo grupo no. Se les hace un seguimiento

    durante un perodo adecuado de tiempo para comparar la incidencia de la enfermedad problema

    en cada grupo. Cul debe ser la diferencia mnima en el nmero de afectados para aceptar que la

    vacuna es efectiva?

  • Captulo 1 19

    Roberto Behar y Mario Yepes

    2. Determinacin de la etiologa de una enfermedad

    Para que una enfermedad se produzca es preciso una combinacin adecuada de las condiciones

    de tres elementos que son: el agente, el ambiente y el husped. Al proceso constituido por las

    interrelaciones de estos tres elementos que caracteriza y explica la presencia de la enfermedad, se

    conoce como "historia natural de la enfermedad". La Epidemiologa se dedica en gran parte a la

    determinacin de la historia natural de las enfermedades, ya conociendo sta, es posible de-

    terminar cul etapa del desarrollo de la enfermedad es ms factible de interrumpir para evitar la

    misma.

    No es fcil en la mayora de los casos, determinar la historia natural de una enfermedad, y en ello

    la Estadstica juega un papel muy importante al proporcionar herramientas para comparar la

    distribucin de la enfermedad en grupos con diversas caractersticas socioeconmicas (sexo,

    edad, condiciones geogrficas, raza, hbitos, etc.), con el nimo de ir acotando las condiciones

    ambientales y del husped que conduzcan a la explicacin de la historia natural de la enfermedad.

    3. Determinacin de la dosis de una droga

    Para lanzar una nueva droga al mercado, es necesario superar una serie de etapas y pruebas que

    son mas o menos rigurosas dependiendo de las leyes del pas en cuestin. Generalmente el

    consumo de una droga puede producir efectos colaterales que pueden ser ms o menos graves.

    Por tal razn es necesario disear experimentos para determinar niveles de sensibilidad y la dosis

    adecuada que permita atacar la enfermedad y no producir molestias. (Ntese que estos aspectos

    varan de persona a persona).

    4. Caracterizacin de la demanda por el servicio de urgencia hospitalaria

    La demanda por el servicio de urgencia hospitalaria es variable de mes a mes, de semana a

    semana, de da a da, e inclusive en horas de un mismo de da.

  • 20 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    El conocimiento de dicha distribucin es de mucho inters para la determinacin de recursos

    humanos y materiales y para su programacin. Un acercamiento a la distribucin de la demanda

    puede conseguirse recolectando informacin y realizando algunos anlisis estadsticos.

    5. Fase de planeacin

    La planeacin es en cierta forma "mirar hacia el futuro con los ojos del pasado". En el proceso de

    planeacin se requiere disponer la informacin cuantitativa y cualitativamente adecuadas para

    tomar decisiones ahora, que tendrn implicaciones en el futuro. Una empresa debe hacer

    proyecciones de demanda del artculo que se produce, pues con base en ella, se har la

    programacin de la produccin y todo lo que ella trae consigo.

    Dicha demanda puede ser estimada a travs de modelos estadsticos de series de tiempo.

    6. Control de calidad

    La calidad con que se produce un artculo es importante para cada industria. Esta constituye un

    factor bsico de competencia en el peor de los casos, por ejemplo en el caso de drogas o

    alimentos se trata de la integridad e incluso de la vida de las personas. En la prctica es muy

    costoso y a veces imposible inspeccionar el 100% de la produccin o de la materia prima, se

    puede en estos casos disear un plan estadstico de muestreo, y unos instrumentos que permitan

    tomar decisiones muy confiables sobre la calidad de un lote de produccin a partir de la

    observacin de unos pocos artculos, economizando de esta manera dinero y tiempo.

    7. Comparacin de la eficiencia de dos procesos

    Se desea decidir sobre cul de 2 procedimientos utilizar para la realizacin de una actividad

    intermedia en la produccin de un artculo, tomando como criterio de eficiencia. Se disea el

    experimento y se realizan observaciones durante corto tiempo con base en las cuales se deber

    decidir con cierta confiabilidad cul procedimiento es mejor.

  • Captulo 1 21

    Roberto Behar y Mario Yepes

    8. Produccin agrcola

    Se van a sembrar grandes reas de terreno con papa china, se requiere por tanto disear un

    experimento para determinar entre otras cosas: cul debe ser la distancia entre plntulas?,

    cules deben ser los niveles de agua y de nutrientes a usar?, hay o no interaccin entre la

    distancia entre las plantas y los niveles de nutrientes? todo ello para conseguir ptima

    produccin.

    9. Econometra

    Determinacin de las principales caractersticas socioeconmicas que generan la inflacin y

    cmo influye cada una de ellas, presentado esto a travs de un modelo de regresin.

    10. Anlisis actuarial

    Una empresa de seguros de vida, desea determinar cuanto debe cobrar al ao por una pliza,

    segn la edad. Para ello, debe realizar un estudio estadstico sobre los riesgos y las frecuencias de

    muertes por grupos de edad.

    El papel de la Probabilidad en Ingeniera.

    Cuando hablamos de ingeniera, casi siempre se piensa en matemticas, y ms generalmente en

    mtodos para la modelacin, para el anlisis y evaluacin de situaciones en las que se planea

    actuar sobre la naturaleza, para transformarla con algn fin, en armona con el medio ambiente y

    considerando la optimizacin de los recursos.

    En la formacin de ingenieros, la pertinencia de la probabilidad y de la estadstica es bastante

    evidente. Si tomamos como referencia a Koen (1985), en su libro El mtodo en Ingeniera,

    nos percataremos que inherente a su esencia, la estrategia del ingeniero, est envuelta en una

    nube de variabilidad e incertidumbre, en medio de la cual, debe tomar decisiones que lo acerquen

    a su objetivo, de una manera heurstica. Veamos algunas expresiones textuales del mencionado

    libro, que refuerzan estos planteamientos:

  • 22 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    ...Por el mtodo de Ingeniera quiero decir la estrategia para causar el mejor cambio posible, con los recursos disponibles, en una situacin incierta o pobremente estudiada

    Aqu queda implcito que el ingeniero debe tomar decisiones con informacin incompleta, en

    ambiente de incertidumbre, asumiendo riesgos, pero no de manera aventurera o irresponsable: lo

    har con criterio y guindose por heursticas, muchas de las cuales tienen como propsito hacerse

    buenas ideas sobre la magnitud de los riesgos que asume y saber cual es el lado que lo pone

    conservadoramente cerca de la seguridad.

    El mismo autor, dedica el captulo 3 de su libro a definir algunos heurismos usados por el mtodo

    de Ingeniera y los divide en 5 categoras, una de las cuales es:

    Algunos heurismos que usan los ingenieros para mantener el riesgo dentro de los lmites permitidos.

    Otras expresiones como:

    ...nunca ser posible desarrollar del todo algunos problemas complicados, debido a la incertidumbre inherente al Mtodo de Ingeniera.

    Dado que el ingeniero tratar de encontrar la mejor respuesta, an en situaciones relativamente viables para tomar una decisin, es inevitable que exista algn riesgo.

    Esto desde luego no significa que todos los niveles de riesgo sean aceptables. Como

    podra esperarse a esta altura de la discusin, lo que es razonable est determinado por

    heurismos adicionales que controlan el tamao del riesgo que el ingeniero est

    dispuesto a tomar.

    Si el sistema que desea cambiar es complejo y poco entendido; si el cambio deseado es el mejor disponible y si est limitado por la disponibilidad de recursos, entonces usted

  • Captulo 1 23

    Roberto Behar y Mario Yepes

    est ante un problema de Ingeniera. Si usted logra el cambio usando el Mtodo de

    Ingeniera, entonces usted es un ingeniero..

    Basados en Koen (1985), queda claro que el mtodo de ingeniera y la profesin de ingeniero,

    estarn limitados en su eficiencia y eficacia, si en un sitio privilegiado de su maletn de

    heursticas, no tienen algunas que le permitan resolver y decidir en ambientes de riesgo e

    incertidumbre, que constituyen su condicin natural de operacin.

    En no pocas ocasiones, el ingeniero deber inferir informacin de otros situaciones que a su

    parecer se han producido en circunstancias similares a la de su inters, generndose as posibles

    errores, cuyo magnitud deber ser considerada por l, en la toma de decisiones. Por otro lado

    muchos problemas en ingeniera involucran procesos y fenmenos naturales que presentan

    variabilidad y aleatoriedad inherentes, haciendo que ellos no puedan ser descritos o

    caracterizados de manera exacta. Por estas razones los procesos de planeacin y de diseo en

    ingeniera deben tomar en consideracin, casi obligatoriamente, estas consideraciones de

    aleatoriedad y de incertidumbre.

    Cuando Koen se refiere a que no todos los niveles de riesgo son aceptables, est sugiriendo que

    el ingeniero en su responsabilidad, deber cuantificar el riesgo para decidir con base en un juicio

    sobre la magnitud de incertidumbre razonable. De esta manera la formulacin de decisiones

    relacionadas con procesos inciertos, requerirn valoraciones del tipo riesgo-beneficio.

    Cul es la naturaleza de aquellas heursticas que le permiten al ingeniero cuantificar el tamao

    del riesgo?

    Cmo obtener una estimacin de la magnitud de un efecto de particular importancia en un

    proyecto, que garantice al ingeniero que acta hacia el lado de la seguridad en cuanto al riesgo,

    pero sin perder de vista la racionalidad econmica o prctica?

  • 24 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    La Probabilidad, la Estadstica y el Mtodo de Ingeniera.

    La respuesta a los anteriores interrogantes, la tiene la teora de la probabilidad y la estadstica.

    En una situacin experimental por ejemplo, en la que se pretende valorar la fatiga de cierto

    material, es casi seguro, que experimentos repetidos bajo condiciones similares no generarn el

    mismo resultado. Cual debe ser entonces el valor de la fatiga que debe reportarse, asociado a

    dicho material, en un proceso de diseo?.

    Si el ingeniero se enfrenta al problema del diseo de un canal para aguas de lluvia, cuales deben

    ser sus parmetros de diseo si el quisiera que el canal fuera suficiente, para lluvias tan intensas

    como aquellas que se presentan en promedio una vez cada diez aos?.

    Conociendo la imposibilidad de predecir con certeza de que magnitud sern las mximas lluvias

    que ocurrirn en el futuro. Cmo responder la pregunta?

    El ingeniero debe cuantificar el riesgo y las heursticas que le permitirn hacerlo, son

    competencia de la probabilidad y la Estadstica.

    En electrnica, es posible conocer la fiabilidad de cada una de los elementos de un circuito,

    como poder, a partir de estas probabilidades individuales, conocer el riesgo de falla del circuito

    completo como un sistema?.

    En este camino, conocer los elementos bsicos de la teora de la probabilidad, de tal manera que

    a partir de la estimacin de la probabilidad de ocurrencia eventos simples, pueda obtenerse

    informacin sobre el riesgo de ocurrencia de eventos compuestos y complejos, es una necesidad

    para el ingeniero.

    Si con un determinado sistema, es posible resolver el problema con un riesgo r, cul sera el

    riesgo si se colocaran n sistemas en paralelo? O combinaciones de serie y paralelo?

  • Captulo 1 25

    Roberto Behar y Mario Yepes

    En una situacin pobremente estudiada, cmo hacer predicciones del riesgo, usando

    informacin incompleta?

    Si la magnitud de un factor F, es un insumo clave para la solucin de un problema de ingeniera,

    pero solo dispongo de algunos datos sobre F, Cmo puedo estimar la magnitud de F, asumiendo

    un riesgo de equivocarme en la estimacin, definido a priori por el ingeniero?

    En esta situacin la probabilidad y la estadstica pueden apoyar la formacin del ingeniero

    proporcionndole las herramientas adecuadas para la construccin de heursticas, a travs de la

    llamada estimacin de cantidades, por medio de intervalos de confianza.

    Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cmo el ingeniero

    inicia su trabajo saliendo de un punto de partida que corresponde a una situacin de

    incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino,

    deber ir resolviendo las dificultades y obstculos y tomando decisiones cuando existan varios

    caminos alternativos.

    Cmo poder hacer comparaciones y tomar decisiones ante diversos cursos alternativos de

    decisin, en un ambiente de incertidumbre?

    En esta problemtica, la probabilidad y la estadstica se constituyen en una verdadera mina, de la

    cual el ingeniero puede dotarse de las heursticas apropiadas para enfrentar con muy buenas

    posibilidades de xito la situacin de comparar alternativas, con informacin parcial,

    cuantificando el riesgo de tomar una mala decisin. Este yacimiento de heursticas, se conoce en

    estadstica como Contraste de hiptesis. Cmo decidir entre varios posibles cursos de accin

    en ambiente de incertidumbre?

    Koen plantea de manera muy pedaggica la diferencia entre los dominios de la Ciencia y de la

    Ingeniera. Uno de los elementos conceptuales que marca esta diferencia, es la restriccin en los

  • 26 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    recursos disponibles. A diferencia de la ciencia, en la ingeniera no se hace referencia a la

    solucin, sino a una solucin.

    En ingeniera una buena solucin no se puede juzgar, sin el conocimiento de la restriccin

    generada por la disponibilidad de recursos.

    En ingeniera puede preferirse una solucin que no es la ptima absoluta (utilizando algn

    criterio de optimalidad), pero que se aproxima bastante bien a los requerimientos, si sta es

    mucho ms rpida y/o barata que la ptima.

    Si la recopilacin de la informacin completa requiere de un periodo de tiempo exagerado o

    exige una cantidad de recursos muy grande, el ingeniero deber disponer de heursticas que le

    permitan saber cul es el punto de equilibrio entre la cantidad de recursos a invertir en obtener

    informacin y la magnitud del riesgo de equivocarse y sus consecuencias al tomar decisiones con

    dicha cantidad limitada de informacin.

    La probabilidad y la estadstica ofrecen un excelente men, para que el ingeniero disponga de

    heursticas que le permitan cuantificar el monto de recursos que debe asignar a la inversin en

    informacin y la manera de decidir con dicha informacin. Esta carta de navegacin, se conoce

    en Estadstica como estimacin del tamao de muestra y puede relacionar un tamao de muestra

    a seleccionar con el riesgo de equivocarse al decidir con ella en algn sentido.

    Por otro lado ante la incertidumbre o el pobre conocimiento de la situacin, el ingeniero debe

    disponer de heursticas que le permitan en algunas ocasiones hacer ensayos en pequea escala,

    para predecir el comportamiento de un sistema, anticiparlo tomando las medidas adecuadas,

    llenndose de argumentos para favorecer un curso determinado de accin. Este es el caso por

    ejemplo, de los cilindros de prueba, que son construidos con la mezcla de concreto que el

    ingeniero piensa usar en una obra y que debe someter al laboratorio para verificar su resistencia.

    De nuevo, casi con seguridad, los cilindros construidos con la misma mezcla, presentarn

    variabilidad en los resultados de resistencia medidos en el laboratorio. Con esta informacin,

  • Captulo 1 27

    Roberto Behar y Mario Yepes

    deber tomarse una decisin que ser aplicada a las mezclas que con las mismas especificaciones

    se realicen para construir la obra en cuestin. Conociendo la existencia de la mencionada

    variabilidad cmo estar seguros de que las mezclas que se produzcan se comportarn de la

    misma manera que la muestra estudiada?.

    Cmo realizar estos ensayos? Cmo concluir con base en la informacin obtenida en los

    ensayos, si se sabe que esa informacin parcial, no es reproducible en forma exacta si se

    repitieran los ensayos?.

    Cmo puede comparar la resistencia de varios diseos de mezclas?.

    En esta situacin, un excelente socavn, rico en las mejores fuentes para producir heursticas, lo

    constituye el diseo estadstico de experimentos, el cual no solo plantea muy buenas guas para la

    ejecucin de los ensayos, para garantizar la validez de las conclusiones que se obtengan, sino

    que permite controlar el riesgo, definiendo a priori, la magnitud de los riesgos que el ingeniero

    est dispuesto asumir, en el sentido de tomar decisiones equivocadas. Adems incluye relaciones

    esenciales que conectan los recursos a invertir con la calidad de las decisiones. En todo anlisis

    de un diseo estadstico de experimentos, arrojar informacin de tipo probabilstico.

    Cuando se trata de la valoracin del impacto de alguna medida o poltica gubernamental sobre el

    medio ambiente, generalmente se compara la situacin antes y despus de la intervencin.

    Cmo saber si las diferencias observadas no se deben tan slo al azar, sino que pueden atribuirse

    a la intervencin estudiada?.

    Ya se dijo que una condicin inherente al trabajo de un ingeniero, y que por tanto caracteriza el

    Mtodo de Ingeniera, es la restriccin en la disponibilidad de recursos. Entre varias heursticas

    comparables en su eficiencia, el ingeniero podra escoger aquella que exija menos insumos de

    informacin y en general que implique menos recursos.

    Proteger los recursos, es una de sus misiones permanentes. En este sentido poder predecir el

    estado final resultante de un curso de accin tomando en consideracin caractersticas de su

  • 28 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    punto de partida, le permitir disminuir los riesgos de invertir recursos en rectificaciones por

    deficientes predicciones.

    Un indicador importante de contaminacin de las aguas con materia orgnica, es la llamada

    demanda bioqumica de oxgeno, DBO, cuyo proceso de medicin en el laboratorio, puede tardar

    20 das. Para agilizar este proceso de medicin, sera de mucha utilidad asociar medidas ms

    tempranas de este mismo parmetro, con las que resultaran al final del proceso, midiendo por

    supuesto el riesgo de cometer errores de cierta magnitud. De hecho, este es el sentido del

    parmetro DBO5, que representa la medicin de la demanda bioqumica de oxgeno a los cinco

    das.

    Algo similar ocurre con la resistencia del concreto, que puede alcanzar su valor mximo a los 28

    das.

    Estos ejemplos de aplicacin, podran generalizarse a situaciones problema donde se requiere el

    conocimiento de magnitud de F, para tomar una decisin, pero en lugar de conocer F, se

    conocen X, Y, Z y W, que son mucho ms baratas y prcticas de medir que la propia F, surge la

    pregunta: Cules heursticas permiten al ingeniero tomar decisiones equivalentes con stas

    ltimas en lugar de F? Entre las caractersticas disponibles (X, Y, Z y W), Cul es el

    subconjunto mnimo que se requiere y cual es la calidad de las decisiones que se tomen con base

    en dicho subconjunto? Cmo predecir el valor F correspondiente a un conjunto de valores

    especfico de las caractersticas (X, Y, Z y W)?

    En esta problemtica, la Estadstica vuelve a salir a la palestra, poniendo a disposicin del

    ingeniero, los modelos para predecir la magnitud de una caracterstica mediante el conocimiento

    de otras, a travs de los llamados modelos de regresin, midiendo en todo caso, en trminos de

    probabilidad los riesgos de equivocarse en las predicciones o estimaciones.

  • Captulo 1 29

    Roberto Behar y Mario Yepes

    Si una de las condiciones del punto de partida del ingeniero es la disponibilidad de informacin

    sobre un conjunto de caractersticas relacionadas con la situacin problema, Cmo explorar esta

    informacin, para plantear a partir de ella algunas hiptesis que permitan orientar el prximo

    curso de accin?

    En esta fase la Estadstica entrega en las manos del ingeniero, algunas estrategias para hacer

    tiles sus datos, dndoles sentido en el contexto de su problema a travs del llamado Anlisis

    Exploratorio de Datos.

    En la planeacin de la produccin, por ejemplo, se requiere estimar la demanda por cierto

    producto. Si se conoce, el comportamiento aleatorio de la demanda en el pasado, de qu manera

    puede usarse esta informacin, para predecir el comportamiento de la demanda del futuro?.

    Cmo valorar que tan fiable es esta prediccin?.Cul es el riesgo de que la demanda real que se

    presente, sea inferior a un cierto valor crtico D0?

    Cuando el comportamiento futuro de una caracterstica, es un parmetro de diseo para un

    proyecto, se requiere disponer de Heursticas que permitan sacar provecho del conocimiento

    sobre cmo se ha comportado dicha variable en el pasado, para hacer pronsticos y estimar su

    fiabilidad. En este campo, la probabilidad y la estadstica proveen los elementos necesarios a

    travs del llamado anlisis de series de tiempo y pronsticos.

    En campos especficos de la ingeniera, en los cuales una caracterstica inherente a la calidad de

    un producto es el tiempo que trascurre hasta que el producto falla o la duracin del tiempo entre

    fallas, se requiere conocer algunos parmetros que garanticen a priori, la confiabilidad del

    producto o servicio o para la definicin de polticas de mantenimiento de equipos, para la

    definicin de tiempo de garanta, es muy conveniente disponer de heursticas para la prediccin

    de la fiabilidad, campo frtil de la Estadstica a travs de la Teora de la Fiabilidad, que no es

    otra cosa, que la aplicacin de la teora de la probabilidad a esta situacin especfica.

  • 30 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    Si se trata de controlar y mejorar la calidad de productos o procesos en ambientes de

    incertidumbre y variabilidad, como es la situacin normal en la industria manufacturera y en las

    empresas de servicios, las heursticas universalmente usadas corresponden al rea de Mtodos

    estadsticos para el control y el mejoramiento de la calidad.

    Si se quiere abordar la calidad desde el propio diseo del producto, intentando conocer la

    interaccin entre los parmetros de diseo del producto o de la operacin de un proceso, con

    caractersticas de preferencias o del ambiente del usuario final, se requiere usar la Estadstica a

    travs de los llamados Mtodos estadsticos para el logro de la calidad por diseo.

    Citando una vez ms a Koen (1985), al empezar su captulo 1, dice:

    El uso del Mtodo de ingeniera, en vez del uso de la razn, es la herencia de la humanidad ms equitativamente distribuida. Por Mtodo de Ingeniera quiero decir la

    estrategia para causar, con los recursos disponibles, el mejor cambio posible en una

    situacin incierta o pobremente estudiada. Por Razn, quiero dar a entender la habilidad

    para distinguir lo verdadero de lo falso.

    Esta distincin, indica que la lgica formal, no ser el instrumento, que usar el ingeniero para

    definir sus cursos de accin y para tomar sus decisiones sobre lo que funciona o no funciona,

    pues como lo explica el propio Koen en su caracterizacin de heurismos, no se garantiza que la

    aplicacin de un heurismo sea siempre vlida. Adems heurismos diferentes disponibles en el

    maletn del ingeniero pueden conducir a resultados contradictorios.

    En este estado de cosas Cmo decidir sobre la plausibilidad de una heurstica o de alguna

    estrategia, en ambiente de incertidumbre, si no es la lgica formal la que nos rige?

    Esta situacin se identifica extraordinariamente con lo que se conoce como Pensamiento

    Estadstico, el cual da pautas y guas para valorar un conjunto de datos, con base en la naturaleza

  • Captulo 1 31

    Roberto Behar y Mario Yepes

    del proceso que los gener, sin comprometerse con la validez categrica de los mismos. Es decir,

    que unos datos sern tan buenos como el proceso que les dio origen.

    Igualmente cuando se requiere comparar cursos de accin, la Estadstica proporciona unas guas,

    que han de seguirse, y hacen plausibles la conclusiones que se obtengan al aplicar unos

    procedimientos consistentes con dichas guas, aunque no las garantiza al cien por ciento, siempre

    ofrece informacin sobre el riesgo de equivocarse en la magnitud establecida.

    El pensamiento estadstico, es una dimensin transversal a toda heurstica que intente obtener

    informacin o tomar decisiones en ambientes de variabilidad e incertidumbre.

    Para finalizar, podemos plantear la pregunta Cmo comparar la eficiencia de varias heursticas

    en ambientes de incertidumbre o en situaciones pobremente estudiadas?

    Una posible estrategia para lograr este propsito, como ya lo discutimos anteriormente, puede

    darse con base en la simulacin, la cual permite a costos relativamente bajos predecir el

    comportamiento de una heurstica, en diferentes ambientes y condiciones de partida. Conociendo

    comportamientos aproximados de las componentes de un sistema y de sus complejas relaciones,

    puede hacerse uso de las herramientas que proporciona la simulacin para obtener resultados

    empricos del comportamiento del sistema completo, pudindose evaluar la sensibilidad o

    robustez a ciertas condiciones y ambientes.

    La gran conclusin, es que es prcticamente imposible, ignorar el impacto de la variabilidad y de

    la incertidumbre, que son rasgos omnipresentes, en el contexto del trabajo de un ingeniero. Es

    necesario entonces, conocer los fundamentos de la teora de la probabilidad que nos permita

    involucrar en los anlisis la medicin del riesgo.

    1.3 VALIDEZ DE UNA INVESTIGACIN

    Cuando se hace referencia a investigacin en este contexto, se entiende de la manera ms general,

    como un proceso de bsqueda de conocimiento, sin cualificar la naturaleza del conocimiento

  • 32 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    producido, ni su valor en trminos de la trascendencia, puede referirse a un complicado estudio

    astronmico, a la exploracin celular en busqueda de la explicacin de algunos procesos

    qumicos que tienen lugar en el ncleo de la celula, como tambien a cosas de menos generalidad

    y trascendencia, como la investigacin sobre si vale la pena o no aumentar la dosis de abono a un

    cierto cultivo, de acuerdo con el incremento en el rendimiento que se observe. Un estudio para

    conocer la opinin politica en una zona y en un tiempo determinados.

    Notese que en esta parte, no se pretende asociar investigacin con Estadstica. No obstante

    cuando se quiere juzgar la validez de un proceso generador de conocimiento, en cualquier campo,

    no necesariamente usando la Estadstica, aparecen en forma natural dos elementos a considerar y

    a juzgar:

    1.3.1 El mecanismo de observacin y la validez externa.

    El mecanismo de generacin de los datos bsicos, que han de servir de cimientos o de materia

    prima para la elaboracin de informacin. En este primer elemento, la atencin se centra en

    valorar si el mecanismo o instrumento usado registra confiablemente los rasgos que se pretenden

    observar o medir en el objeto de estudio. Asi pues en el caso del astrnomo, quien pretende

    registrar sus datos, usando un sofisticado telescopio, para estimar algunas distancias entre

    cuerpos celestes, la pregunta clave es si las distancias registradas por su aparato corresponden a

    las verdaderas distancias en la realidad, debera estar razonablemente seguro que atraves de su

    instrumento, no se producen desviaciones significativas2 pues de no ser asi, el astrnomo deber

    estimar la magnitud de estas desviaciones o deformaciones, con el propsito de construir ajustes

    que corrijan las deficiencias de su instrumento. Es razonable pensar que si lo que mide el

    astrnomo no se corresponde con la realidad, sus elaboraciones conceptuales, aunque plausibles,

    2 Significativo, en el contexto de la astronoma y de la problematica especfica que se aborda. Esto deber ser

    materia de nuevas consideraciones.

  • Captulo 1 33

    Roberto Behar y Mario Yepes

    no necesariamente conducirn a afirmaciones confiables. El instrumento de observacin adopta

    las variadas formas, desde un aparato fisico, como en el caso del astrnomo, hasta una sofisticada

    encuesta que contiene preguntas sesudamente elaboradas con la pretension de obtener la materia

    prima para construir categoras sobre complicados conceptos sociolgicos o psicolgicos. En

    esta situacin la cuestion seria entre otras3 : en realidad los items que contiene el formulario y la

    manera de relacionarlos para construir las categorias, detectan lo que se quiere detectar?, miden

    lo que se quiere medir?, pues de no ser asi, aun cuando los razonamientos que se realicen sean

    vlidos, sus conclusiones no son confiables. Cuando una investigacin satisface esta dimensin,

    se dice que tiene validez externa.

    1.3.2 La lgica del pensamiento y la validez interna.

    Una vez se dispone de las observaciones, obtenidas con un proceso o instrumento que posee

    validez externa, puede decirse que tenemos materia prima con calidad adecuada, que se tiene un

    punto de partida, unas condiciones iniciales, a partir de las cuales se elaborara un nuevo

    producto, se generaran afirmaciones simples o muy complejas sobre el objeto de observacin,

    que constituyen nuevos hallazgos.

    La valoracin de ese nuevo producto, de ese cuerpo de afirmaciones, tiene varias aristas. Una de

    ellas es la compatibilidad con el conjunto de proposiciones aceptadas como validas, en el campo

    que se trata. Si se encuentran contradicciones, se esta frente a un nuevo problema a resolver: o se

    rechazan las nuevas afirmaciones y se buscan razones que justifiquen su invalidez o se replantean

    las proposiciones aceptadas y dadas como vlidas hasta ese momento, buscando una explicacin

    plausible para ese nuevo comportamiento registrado. La otra arista, no excluyente con la primera,

    es juzgar el producto, es decir el nuevo conjunto de afirmaciones generadas, con base en un

    3 Entre otras, que mas tarde abordaremos en forma especfica, como lo es la representatividad de la muestra objeto

    de la aplicacin del instrumento.

  • 34 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    juicio sobre el proceso de elaboracin, es decir haciendo una valoracin crtica de la logica4

    utilizada, partiendo de las observaciones vlidas, y usando el universo de proposiciones

    aceptadas como vlidas.

    Cuando el resultado de esta valoracin crtica del proceso de construccin de las conclusiones, es

    positivo se dice que el estudio tiene validez interna.

    Los conceptos de validez externa y validez interna, adoptan formas muy especiales, cuando la

    naturaleza de la investigacin, hace que la observacin se realice con base en muestras de

    individuos de una poblacin que tiene variabilidad en cuanto a las caractersticas objeto de la

    investigacin y por tal razn las conclusiones son obtenidas mediante un proceso inductivo, en el

    cual estn presentes ingredientes como el azar y la incertidumbre.

    1.4 LA VALIDEZ EN INVESTIGACIONES QUE USAN

    MTODOS ESTADSTICOS

    1.4.1 Validez externa y representatividad.

    La caracterstica esencial de los estudios que usan mtodos estadsticos, radica en la observacin

    con base en muestras probabilsticas5 y las inferencias de naturaleza probabilstica, que permiten

    asociar a sus conclusiones o hallazgos niveles de confianza, como resultado de la componente de

    aleatoriedad o azar que involucra.

    4 Entiendase en el mas amplio sentido.

    5 Muestra probabilstica, para diferenciarla del muestreo intencional, en el que es el juicio del investigador el que

    decide sobre los elementos a estudiar y por lo tanto las inferencias no son de naturaleza estadstica. En adelante

    siempre que se haga referencia a muestra o a muestreo, entenderemos muestreo probabilstico.

  • Captulo 1 35

    Roberto Behar y Mario Yepes

    Se puede ver que en esta situacin una componente adicional al instrumento de observacin

    propiamente dicho, es la representatividad de la muestra.

    Sobre la representatividad de una muestra, se ha especulado mucho y es motivo de serias

    controversias, algunas de las cuales aun tienen vigencia.

    Aqui, el criterio para valorar la representatividad de una muestra, tiene dos dimensiones

    esenciales: el mecanismo mediante el cual se seleccionan las unidades a incluir en la muestra y

    el nmero de elementos a incluir en la misma. En resumen: la forma y la cantidad.

    La forma de muestrear, es decir el mecanismo para seleccionar la muestra, debe ser tal que se

    procure plausiblemente conservar la estructura de las caractersticas y las relaciones que se

    quieren observar, que los alejamientos se deban solamente a la accin del azar. Esta afirmacin, a

    veces se operacionaliza con afirmaciones como: ..Todos las unidades de la poblacin deben

    tener la misma probabilidad de ser seleccionadas en la muestra algo asi como la democracia en

    la seleccin de la muestra. aunque podra funcionar algo mas flexible, como: ..El mecanismo de

    seleccin6 debe ser tal que se conozca la probabilidad que tiene cada unidad de la poblacin de

    ser incluida en la muestra.., esta segunda afirmacin, mas general que la primera, exge conocer

    los ponderadores o pesos que mas tarde, en el anlisis deber darse a cada una de las unidades de

    la muestra para conservar la mencionada estructura de la poblacin.

    De hecho cada uno de los llamados modelos de muestreo7, tiene asociado el conocimiento de la

    probabilidad que cada unidad de la poblacin tiene de ser seleccionada, as por ejemplo en

    6 Ntese que la representatividad de una muestra, se juzga ms que por si misma, por el mecanismo que le di

    orgen.

    7 En las llamadas poblacines finitas, es decir que la poblacin esta conformada por un nmero conocido N de

    unidades.

  • 36 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    muestreo aleatorio simple8, la probabilidad es igual para todos (1/N). En muestreo

    estratificado, es decir cuando la poblacin se ha clasificado en estratos de tamao conocido, por

    ejemplo por estratos socioeconmicos, conformando la muestra con las unidades que se

    seleccionan al azar de cada uno de los estratos, aqui la ponderacin de una unidad depende del

    estrato a que pertenece y esta dada por la proporcin que representa la muestra en ese estrato con

    respecto al tamao del estrato. Analogamente en modelos como el muestreo por conglomerados,

    por ejemplo, la poblacin puede estar agrupada en barrios o colonias o comunas. Aqui se escogen

    algunos barrios al azar. En los barrios seleccionados, se sacan manzanas al azar y luego de las

    manzana escogidas se extraen viviendas (muestreo por conglomerados trietapico). Aqui las

    ponderaciones se definen de acuerdo al nmero de barrios (unidades primarias), nmero de

    manzanas (unidades secundarias) y al nmero de viviendas en cada manzana (unidades

    terciarias). Existe otros modelos como el muestreo sistemtico de intensidad K, en el cual se da

    un ordenamieno a las unidades de la poblacin, se selecciona la primera al azar y a partir de ese,

    se toma una cada K unidades.

    Pueden existir mezclas de estos modelos bsicos y adems otros tipos de muestreo que surgen

    como resultado de consideraciones de eficiencia o de dificultades prcticas.

    En resumen, puede decirse entonces, que el establecimiento de un modelo de muestreo, que tenga

    asociadas probabilidades conocidas de seleccin de cada una de la unidades de la poblacin, es

    garanta de que la muestra es representativa (por su forma).

    La otra dimensin de la representatividad est relacionada con el tamao de la muestra, sobre

    el cual existen un gran nmero de mitos y falsas creencias que se van transmitiendo por

    generaciones.

    8 Todos en un costal y se saca al azar del costal una muestra.

  • Captulo 1 37

    Roberto Behar y Mario Yepes

    Existe la falsa creencia de que para que la muestra sea representativa debe contener el 10% de las

    unidades de una poblacin, lo cual se contradice con un sencillo ejemplo: para saber el tipo de

    sangre de una persona, no es necesario extraerle el 10% de la sangre, basta con una sola gota,

    puesto que se sabe que todas las gotas de sangre de su cuerpo son del mismo tipo. Aqui se nota

    como el grado de homogeneidad de las unidades toma un papel importante en la definicin del

    tamao de la muestra. Podra traerse tambin el caso de la sabia ama de casa que solo prueba una

    sola cucharadilla de su rica sopa, para tomar con base en ella la decisin de ponerle o no mas sal,

    eso si, asegurndose de antemano en garantizar la homogeneidad al menear con maestria por

    todos los rincones de la olla. El tamao de la muestra si se relaciona con el tamao de la

    poblacin a muestrear, pero la heterogeneidad, es decir la variabilidad de la caracterstica de

    inters, pesa mucho ms en su determinacin, a tal punto que en poblaciones muy grandes9, el

    tamao de la poblacin no tiene ninguna importancia, es decir que las frmulas para el clculo

    del tamao de la muestra no toman en cuenta el tamao de la poblacin,

    En todo caso el criterio que define si una muestra de un tamao determinado, puede considerarse

    representativa, tiene relacin con el nivel de precisin requerido. Puede intuirse que entre mas

    precisin se exija, ms grande se requerir la muestra.

    La precisin de una estimacin puede expresarse generalmente a travs de dos elementos: el

    error tolerable () y la confianza () o confiabilidad. El error tolerable es la diferencia que estamos dispuestos a aceptar entre el verdadero valor poblacional ()10 y el calculado con la

    9 En la teora se conocen como poblaciones infinitas.

    10 Al verdadero valor poblacional, el cual es una constante se le llama parmetro.

  • 38 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    muestra ( n )11 y la confianza es justamente, la probabilidad12 de que el error tolerable no sea sobrepasado. De esta manera la ecuacin de donde se despeja el tamao de muestra es :

    [ ]P n La relacin entre el tamao n de la muestra y el tamao N de la poblacin, para

    una precisin constante especificada, se muestra en la figura 1.1.

    Ntese que el tamao de muestra crece muy lento an con grandes incrementos del tamao de la

    poblacin, asi por ejemplo para N = 300 resulta una muestra de

    n=120. Sin embargo si el tamao de la poblacin se duplicar a 600, la muestra sera de 150.

    Notese que no se duplica. Es ms, si N = 900, el tamao de muestra ser de n = 164. Si la

    poblacin fuese muy grande, digamos N = 1000000, el tamao de muestra sera n = 200, el cual

    es el valor lmite (tope), como se percibe en la figura, manteniendo en todos los casos el mismo

    nivel de precisin requerido.

    11 A la expresion para calcular este valor con base en la muestra se le conoce como estadstico y cuando se usa

    como instrumento para conocer la magnitud del parametro, se le llama estimador

    12 La probabilidad expresada generalmente en porcentaje

  • Captulo 1 39

    Roberto Behar y Mario Yepes

    Fig. 1.1. Relacin entre el tamao de la poblacin y el

    tamao de una muestra

    1.4.2 La validez interna y la comparabilidad.

    Cuando en investigaciones que usan la metodologa Estadstica, se hace referencia a la validez

    interna, se le esta pidiendo a la lgica de la inferencia estadstica, que garantice la

    comparabilidad. Para entender mejor lo esto significa, se presenta una situacin donde se viola

    la comparabilidad: se desea comparar el efecto de la edad de corte de la caa de azcar, en el

    rendimiento en toneladas por hectrea, para ello se registra para un buen nmero de suertes13 la

    edad de corte (X) y su rendimiento en Ton/Ha (Y), posteriormente se aplican medidas estadsticas

    de asociacin, para detectar la fuerza de la relacin entre estas dos caractersticas y resulta una

    muy pobre asociacin, se encuentra posteriormente que las suertes tenan diferente nmero de

    13 Una suerte es un lote de terreno, que se maneja como una unidad, para la siembra, el arreglo, el corte, etc.

  • 40 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    cortes14, lo cual afectaba la comparacin, es decir no podra distinguirse si un efecto se debia a la

    edad o al nmero de cortes. Un caso extremo podra presentarse si las caas mas jvenes eran las

    de mayor nmero de cortes, pues los dos efectos podrian neutralizarse y hacer aparecer pobre la

    asociacin. En este ejemplo la variable nmero de cortes, que aparece afectando diferencialmente

    a las unidades observadas se le conoce como factor de confusin.

    Podra decirse entonces que la validez interna, la comparabilidad se logra atravs del control de

    los factores de confusin. En esta situacin podra encontarse la asociacin de las variables edad

    de corte y rendimiento, en cada grupo de suertes que tengan el mismo nmero de cortes, de esta

    manera, dentro de cada grupo el nmero de cortes permanece constante y puede lograrse la

    comparacin deseada, siempre y cuando no existan otros posibles factores de confusin, como

    podran ser la aplicacin de madurantes en forma diferencial en las suertes observadas.

    A esta solucin, para lograr validez interna, se le llama construccin de bloques15. No obstante

    existen otras soluciones para este mismo problema de falta de comparabilidad, como por

    ejemplo, la aleatorizacin o involucrar en el modelo de anlisis al factor de confusin como una

    variable, que permite hacer las comparaciones para cada nivel del factor, cuando se da este caso,

    al factor de confusin en el modelo se le conoce como covariable.

    Notese que la identificacin de potenciales factores de confusin, no es tarea de un estadstico,

    sino del investigador que conoce el campo de su disciplina especfica.

    14 Normalmente el terreno se va empobreciendo con el nmero de siembras (cortes) hasta el punto de que se hace

    necesario arreglar (Remover y abonar) el terreno despues de un cierto nmero de cortes, generalmente

    cuatro(4).

    15 De alli el famoso nombre de diseo de bloques al azar

  • Captulo 1 41

    Roberto Behar y Mario Yepes

    1.5 ESTADSTICA Y MEDICION

    La materia prima de la Estadstica son los datos, los cuales son el resultado de la "observacin"

    de alguna(s) caracterstica(s) de los elementos de inters en cierto estudio. La naturaleza de la

    caracterstica y el instrumento que dispone para registrar la misma, definir el tipo de escala de

    medicin que se ajuste a la situacin dada.

    Escalas de medicin. Cuando se hace referencia a las escalas se trata de asociar nmeros a las

    caractersticas con el propsito de manipularlas y obtener nuevo conocimiento sobre las

    caractersticas del estudio.

    Se consideran generalmente cuatro escalas de medicin: escala nominal, escala ordinal, escala de

    intervalo y escala de razn.

    La escala nominal, hace uso de los nmeros para dar nombre a los elementos que han sido

    clasificados en distintos grupos, clases o categoras de acuerdo con alguna propiedad cualitativa.

    El nmero asignado a una clase slo acta como un rtulo o cdigo para diferenciar los

    elementos de esa clase con los de otra. Por ejemplo si se clasifica un conjunto de objetos por su

    color, las categoras pueden ser: azul, amarillo, rojo, verde, a las cuales podemos asociar res-

    pectivamente los nmeros 1,2,3,4 y se hablar de la categora 1 para hacer referencia al grupo de

    objetos de color azl o 4 para el verde, pero los nmeros aqu, slo son cdigos para nombrar los

    elementos de una clase.

    La escala ordinal, hace uso de los nmeros para clasificar los elementos de un conjunto en

    categoras en los cuales los nmeros no slo sirven para nombrar sino que son base para

    comparaciones de la forma: "mas grande", "igual", "menor", es decir, que el valor numrico de la

    medida se usa para indicar el orden que ocupa un elemento al comparar el tamao relativo de sus

    medidas, del ms grande al ms pequeo, de all el nombre de escala. Un ejemplo, cuando a una

    persona se le pide ordenar de la ms importante a la menos importante, asignando nmeros de 1 a

    4, a las siguientes necesidades: empleo, salud, vivienda, servicios pblicos. Aqu el nmero se

    usa para representar la prioridad de las necesidades; de esta manera si un individuo asigna el

  • 42 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    nmero 1 a la vivienda y el 4 al empleo, indicar que para l es "ms importante" la vivienda que

    el empleo.

    La escala de intervalo, considera pertinente informacin no slo sobre el orden relativo de las

    necesidades, como en la escala ordinal, sino tambin del tamao del intervalo entre mediciones,

    esto es, el tamao de la diferencia (resta) entre dos medidas. La escala de intervalo involucra el

    concepto de una unidad de distancia. Por ejemplo la escala con la cual casualmente

    representamos la temperatura; un incremento en una unidad (grado) de la temperatura est defi-

    nido por cambio particular en el volumen de mercurio en el interior del termmetro, de esta

    manera, la diferencia entre dos temperaturas puede ser medida en unidades (grados). El valor

    numrico de una temperatura es meramente una comparacin con un punto arbitrario llamado

    "cero grados". La escala de intervalo requiere un punto cero, como tambin, una unidad de

    distancia, pero no importa cual punto se define como cero ni cual unidad es la unidad de dis-

    tancia. La temperatura ha sido medida adecuadamente por mucho tiempo en las escalas

    Fahrenheit y centgrada, las cuales tienen diferente temperatura cero y diferentes definiciones de

    1 grado o unidad. El principio de la medida de intervalo no es violado por cambios en la escala o

    en la localizacin.

    La escala de razn, es usada cuando no solamente el orden y el tamao del intervalo ente

    medidas son importantes, sino tambin la razn (o cociente) entre dos medidas. Si es razonable

    hablar de que una cantidad es "dos veces" otra cantidad, entonces la escala de razn es apropiada

    para la medicin, como cuando medimos distancias, pesos, alturas, etc. Realmente la nica

    diferencia entre la escala de razn y la escala de intervalo, es que la escala de razn tiene un

    punto cero natural, mientras que en la escala de intervalo ste es arbitrario. En ambas escalas la

    unidad de distancia es arbitrariamente definida.

    Es muy importante tener presente la escala de medicin cuando se realiza un estudio, puesto que

    las pruebas estadsticas varan dependiendo de la escala de medicin de la caractersticas en

    referencia.

  • Captulo 1 43

    Roberto Behar y Mario Yepes

    En general puede decirse que la escala de razn es la que tiene a su disposicin una mayor

    cantidad de herramientas estadsticas para su tratamiento.

    1.5.1 Variables discretas y variables continuas.

    En las escalas de intervalo y de razn algunas veces es necesario establecer la diferenciacin de

    las variables por su naturaleza, entonces se habla de variables discretas y variables continuas.

    Variable discreta, es aquella cuya naturaleza hace que el conjunto de valores que puede tomar la

    variable sea finito o infinito numerable.

    Por ejemplo, la variable: nmero de personas por hogar, el conjunto de valores que puede asumir

    sta son:

    {1, 2, 3, 4, ... , M} donde M es finito

    Otros ejemplos son los siguientes: nmero de consultas al mdico durante un ao, nmero de

    clientes que llegan a un banco durante una hora, nmero de ensayos realizados hasta obtener el

    primer xito.

    Variable continua, es aquella, cuya naturaleza hace que exista un intervalo de puntos, los cuales

    son valores que puede tomar la variable. Por ejemplo, la estatura de una persona, esta variable

    puede tomar cualquier valor en el intervalo (1.50 m, 1.60m). El tiempo entre dos llegadas

    consecutivas al servicio de urgencias de un hospital. El rea cultivada de trigo en las fincas del

    valle del Ro Cauca .

    Esta clasificacin no tiene en cuenta la poblacin en la cual va a ser observada la variable, es

    decir, no interesa en la clasificacin, si la poblacin es finita o infinita, puesto que de acuerdo con

    la definicin una variable es discreta o continua por si misma. Tampoco juega papel alguno el

    instrumento de medicin que se use.

    Las definiciones como son presentadas son de utilidad en el tratamiento descriptivo de los datos,

    como se ver ms adelante.

  • 44 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    1.6 ALGUNOS TERMINOS USADOS EN ESTADSTICA

    Se definen a continuacin algunos trminos que se usarn con frecuencia en el presente escrito.

    1.6.1 Poblacin

    Se identificar con este nombre al conjunto de elementos de inters en un estudio, sobre los

    cuales se desea informacin y hacia los cuales se extendern las conclusiones. El trmino

    poblacin no debe asociarse exclusivamente con poblacin humana; tiene sentido hablar de la

    poblacin de tornillos que se producen durante un da en una determinada fbrica, o de la

    poblacin constituida por todas las fincas de un pas o una regin.

    En todo estudio, la poblacin debe estar definida en forma muy precisa, de tal manera que pueda

    determinarse en algn momento si un elemento dado pertenece o no a la poblacin. Por ejemplo

    supngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a

    abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la poblacin que concierne a dicho

    estudio son las siguientes:

    El estudio hace referencia a los caleos o a los residentes en Cali?.

    Que significa ser residente en Cali? una persona que lleg a Cali en abril 3 de 1995, pertenece

    a la poblacin? o una persona que se fue de Cali en la misma fecha?

    Por la naturaleza del estudio los elementos de inters son las personas que "deberan estar

    empleadas" (de la observacin de estas se definir quienes lo estn y quienes no, para determinar

    el porcentaje de desempleo), entonces cabe la pregunta: cmo se caracterizan los que "deberan

    estar empleados" ? (edad, condiciones de salud, incapacidad, etc.).

    Estas reflexiones sugieren definiciones precisas que conducen a una determinacin adecuada de

    la poblacin.

  • Captulo 1 45

    Roberto Behar y Mario Yepes

    1.6.2 Muestra

    En muchas ocasiones se requiere conocer una caracterstica medible de la poblacin, para ello se

    puede observar, uno a uno, todos los elementos de la poblacin (Censo), lo cual casi siempre es

    impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la caracterstica

    poblacional, observando slo algunos elementos de la poblacin, stos constituyen una muestra

    de esa poblacin.

    1.6.3 Parmetro

    Se llamar parmetro a una caracterstica medible de la poblacin. Por ejemplo, la edad

    promedio de los estudiantes de una escuela, el porcentaje de varones; el dimetro promedio de

    los tornillos que se producen en una fbrica, la tasa de crecimiento promedio de la tilapia roja, el

    tiempo promedio entre fallas de una maquina etc. Un parmetro es una constante para la

    poblacin.

    1.6.4 Estadstica

    Se denominar estadstica a una caracterstica medible en la muestra por ejemplo la edad

    promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra;

    el dimetro promedio de los tornillos de una muestra de la poblacin de una fbrica, etc. En

    general una estadstica es una funcin de los datos de una muestra; como puede intuirse el valor

    que asume una estadstica depende de la muestra que se haya tomado. Generalmente se usan las

    estadsticas para hacerse una idea de los parmetros, cuando esto sucede se llaman estimadores.

    Notese que una estadstica en general varia de una muestra a otra, en este sentido puede mirarse

    como una variable y drsele el tratamiento que expondremos para las variables.

    1.7 ETAPAS DE LA METODOLOGIA ESTADSTICA

    A continuacin se presentan las principales actividades que es necesario realizar cuando se hace

    un estudio estadstico.

  • 46 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    1.7.1. Definicin del problema

    Consiste en la justificacin del estudio, la determinacin de los objetivos del estudio, revisin

    bibliogrfica, planteamiento de las hiptesis que se desea probar o rechazar o definicin de los

    parmetros que se desea estimar, incluyendo la precisin que se requiere en la estimacin.

    1.7.2. Definicin de la poblacin

    Definir en forma precisa cul es la poblacin de inters en el estudio, en el sentido presentado en

    1.4.

    1.7.3. Definicin de la estrategia de Anlisis

    En esta etapa se realiza el plan de anlisis, se define una ruta preliminar de ataque al problema.

    Se seleccionan, si es del caso, algunas tcnicas estadsticas que podran ayudar a esclarecer

    preliminarmente la situacin. Es razonable, que el plan preliminar sufra modificaciones, en la,

    medida en que se van valorando los hallazgos. Sin embargo tener un plan permite definir un

    camino de accin, una valiosa guia de accin.

    1.7.4. Determinacin de las variables de inters

    Consiste en la definicin de las caractersticas de la poblacin que proporcionan la informacin

    necesaria para el logro de los objetivos del estudio.

    1.7.5. Diseo del estudio

    Algunos llaman a esta etapa "diseo del experimento" ( o diseo de la muestra) y consiste en

    definir si se observar la poblacin completa (censo) o slo parte de ella (muestreo). En este

    ltimo caso deber determinarse el tipo de muestreo a utilizar y el tamao de la muestra para

    unas especificaciones de precisin deseadas (error tolerable y nivel de confianza), igualmente

    debe definirse la logstica de la recoleccin de la informacin.

  • Captulo 1 47

    Roberto Behar y Mario Yepes

    1.7.6. Recoleccin de la informacin

    Esta es una etapa muy importante, pues de ella depende la calidad de la informacin. Los errores

    en este sentido no los miden las herramientas estadsticas, por esta razn la recoleccin de la

    informacin requiere mucho control sobre los instrumentos como tambin sobre el proceso de

    medicin.

    La dificultad para disear un control eficiente sobre la calidad de los datos recogidos, en algunas

    ocasiones, hace ms confiable una muestra que un censo, puesto que se requiere controlar un

    menor volumen de recursos, garantizando de esta manera una mejor calidad de los datos.

    1.7.7. Procesamiento descriptivo de los datos

    Esta etapa la constituye la aplicacin de las tcnicas que proporciona la estadstica descriptiva y

    que consiste en la organizacin de la informacin en forma til y comprensible, mediante la

    elaboracin de cuadros, tablas, grficos y reduciendo los datos recolectados por medio de algunos

    indicadores que faciliten su interpretacin; esta etapa es una fase exploratoria, no obstante

    constituye un medio para hacerse una idea de los rasgos poblacionales. El anlisis de la muestra,

    pocas veces tiene inters en s mismo, siempre se usa la muestra como un instrumento para

    conocer la poblacin. Por esa razon la caracterstica de Representatividad de la muestra debe

    garantizarse siempre, independientemente de que se realice anlisis exploratorio (descriptivo) o

    se utilicen herramientas probabilsticas para hacer inferencia estadstica.

    1.7.8. Inferencia estadstica

    Se denomina as, al proceso inductivo que permite inferir a toda la poblacin proposiciones,

    basadas en las observaciones y resultados proporcionados por una muestra. Como puede intuirse

    en este proceso de inferencia, aparece un factor de incertidumbre, y de error, puesto que muestras

    distintas pueden arrojar resultados distintos; es precisamente esto lo que hace que la teora de la

    probabilidad sea la herramienta bsica de la inferencia estadstica, sta no evita los errores que

    por azar se cometen, pero si los cuantifica y les asocia una medida que indica el nivel de

    confianza de los resultados obtenidos, lo cual constituye su principal mrito.

  • 48 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    1.7.9. Conclusiones y planteamientos de nuevas hiptesis

    En esta ltima etapa se plantean las conclusiones en forma clara, indicando sus alcances y

    limitaciones, igualmente se plantean nuevas hiptesis que pudieran surgir en la propia

    exploracin de los datos.

    1.8 ESTADSTICA DESCRIPTIVA

    Cuando se habla de estadstica descriptiva, da la impresin que es una de las varias "estadsticas"

    que existen. En realidad es una etapa de la metodologa estadstica, en la que no se involucra la

    teora de la probabilidad como herramienta para realizar inferencias a toda la poblacin, sin

    embargo se construyen indicadores, se hacen grficos, se realizan comparaciones, siempre con el

    inters de conocer sobre la poblacin de donde fue tomada la muestra.

    La estadstica descriptiva permite procesar los datos de una muestra y obtener informacin que

    puede ser usada con fines exploratorios, para plantear hiptesis o como materia prima de la etapa

    de inferencia estadstica.

    La complejidad de las herramientas y el volumen de informacin que se obtenga de una muestra,

    depende entre otros factores, del nmero de caractersticas que se observen.

    En el prximo captulo se tratar la situacin correspondiente a la observacin de slo una

    variable y se har referencia a ella como unidimensional.

    En los captulos 3 y 4 se desarrolla la situacin en que se observan en la muestra dos variables y

    se hace mencin a ella como bidimensional.

  • Captulo 2

    Roberto Behar y Mario Yepes

    DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA

    2.1 CASO DE UNA VARIABLE DISCRETA

    Para considerar este caso, se introduce el siguiente ejemplo:

    Ejemplo 2.1

    Se toma informacin sobre el nmero de clientes que llegan a un banco en una hora pico, ob-

    servando una muestra de 25 perodos de un minuto se obtuvieron los siguientes resultados: 8, 6,

    7, 9, 8, 7, 8, 10, 4, 10, 8, 7, 9, 8, 7, 6, 5, 10, 7, 8, 5, 6, 8, 10, 11.

    A esta informacin, que no ha tenido ningn tipo de tratamiento se le llama muestra bruta y se

    representa por x1, x2,...., xn donde n es el nmero total de datos.

  • 48 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    Se puede comenzar a organizar la informacin escribiendo los datos distintos de que consta la

    muestra y haciendo un conteo para determinar el nmero de veces que aparece cada dato; valor

    ste que se denominar frecuencia absoluta. El cuadro 2.1 muestra la situacin del ejemplo.

    Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe

    coincidir con el nmero total de datos (tamao de la muestra).

    No obstante que la muestra consta de 25 datos, slo hay 8 datos distintos: 4, 5, 6, 7,

    8, 9, 10, 11 que es posible representarlos, sin prdida de generalidad, como x1, x2,...,

    xm. En nuestro caso n = 25 y m = 8, de esta manera la frecuencia absoluta del dato xi ,

    se denotar por ni, as por ejemplo el dato x3 = 6 aparece 3 veces en la muestra, por tanto

    n3 = 3.

    Se puede tambin expresar la frecuencia absoluta como una fraccin o porcentaje del n-

    mero de datos y surge as lo que se conoce como frecuencia relativa del dato xi que se

    denota por fi, as pues:

    nn

    f ii = ; en el ejemplo 12.0253

    3 ==f

  • Captulo 2 49

    Roberto Behar y Mario Yepes

    que indica que el dato x3 = 6 representa el 12% de toda la muestra, es decir que de

    acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por

    minuto.

    Tamben se podra calcular el nmero de datos que son menores o iguales que xi, que se

    denomina frecuencia absoluta acumulada hasta xi , y se denota por Ni; si x1, x2, ... ,

    xm estn ordenadas en forma creciente, entonces:

    Ni = n1 + n2 + ... + ni

    En nuestro ejemplo N4 es el nmero de datos que son menores o iguales que x4 = 7, es

    decir, N4 = 11.

    Si la frecuencia absoluta acumulada se expresa como una fraccin o porcentaje de toda la

    muestra, aparece lo que se conoce como frecuencia relativa acumulada que se

    representa por Fi, de esta manera:

    ii

    i fffnN

    F +++== ...21

    Los conceptos, para nuestro ejemplo se sintetizan en el siguiente cuadro de frecuencias.

    CUADRO 2.2

    CUADRO DE FRECUENCIAS DEL NUMERO DE CLIENTES QUE LLEGAN A

    UN BANCO EN UN MINUTO DE LA HORA PICO

  • 50 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    Un resumen de las principales propiedades de las frecuencias se presenta a continuacin.

    Propiedades y relaciones

    Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma

    creciente son x1, x2, ... , xm, entonces:

    0 n ni ; i = 1, 2, 3, ..., m

    n n n nm1 2+ + + =... ; es decir n nii

    m

    = =

    1

    ; 0 1ii inf fn=

    1...21 =+++ mfff ; es decir 11

    ==

    m

    iif

    N n n nj j= + + +1 2 ... ; es decir N nj ii

    j

    ==

    1

    N nm =

    n N N N nm1 1 2= =...

    jj fffF +++= ...21 ; es decir =

    =j

    iij fF

    1

    1...211 == mFFFf

    En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los

    nmeros reales, as:

  • Captulo 2 51

    Roberto Behar y Mario Yepes

    N(x) = nmero de datos que son menores o iguales que x

    F(x) = fraccin (o porcentaje) de los datos que son menores o iguales que x.

    As pues :

    F(4.32) = la fraccin del total de datos que son menores o iguales que 4.28.

    = 0.04

    N(4.32) = 1

    Para el ejemplo planteado, la distribucin N(x), es:

    La funcin F(x) es conocida como funcin emprica de distribucin acumulativa, para

    sealar que ha sido obtenida con base en una muestra de la poblacin, pretendiendo con

    ella lograr un conocimiento aproximado de la distribucin acumulativa que tendra la

    poblacin (funcin de distribucin acumulativa de probabilidad). A continuacin se

    presenta F(x) para el ejemplo.

  • 52 Estadstica. Un Enfoque Descriptivo

    Roberto Behar y Mario Yepes

    En general las funciones N(x) y F(x) pueden definirse de esta manera:

    Anlogamente la funcin emprica de distribucin acumulativa

    Las funciones N(x) , F(x) son monotnicas no decrecientes, es decir que

    si x1 < x2 N(x1) N(x2) y F(x1) F(x2).

    REPRESENTACIN GRFICA

    Cuando se trate de frecuencias absolutas o de frecuencias relativas, se realizar la

    representacin por medio del llamado diagrama de frecuencia, que consiste en colocar

    en el eje horizontal los valores xi, que toma la variable y levantando en cada punto un

    segmento vertical de longitud igual a la frecuencia correspondiente.

  • Captulo 2 53

    Roberto Behar y Mario Yepes

    Fig. 2.1. Diagrama de frecuencias del nmero de clientes que llegan a un banco en