introducción - gc.scalahed.com
TRANSCRIPT
Introducción
Alolargodesuexistenciaelserhumanohallevadoacaboanálisisdeunagrancantidaddedatosoinformación,referentesalosproblemasoactividadesdesuscomunidades.Porejemplo,desdecomienzosdelacivilizaciónsehacíanrepresentacionesgráficasyotrossímbolosenpieles,rocas,palosdemaderayparedesdecuevasparacontarelnúmerodepersonas,animalesocosas.Haciaelaño3000a.C.,losbabiloniosusabanpequeñastablillas de arcilla para recopilar datos sobre la producción agrícola y los génerosvendidosocambiadosmedianteeltrueque.Muchoantesdeconstruirlaspirámides,losegipciosanalizabanlosdatosdelapoblaciónylarentadelpaís.
Otroejemplode recopilaciónyanálisisdedatoseseldel imperio romano,cuyoprimergobierno,alverseenlanecesidaddemantenercontrolsobresusesclavosyriquezas,recopilódatossobrelapoblación,superficieyrentadetodoslosterritoriosbajosucontrol.
Siguiendo con la historia de la recopilación de datos, a mediados del primermilenio,porelgrancrecimientodelaspoblacionesyparapodertenercontrolsobreéstas,secomenzaronaefectuarcensospoblacionales,comolosdelaEdadMediaenEuropa.Porejemplo,losreyescaloringios1Pipinoel BreveyCarlomagnoordenaronhacerestudiosminuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente.
Conformepasabaeltiempo,larecopilaciónyanálisisdedatoscomenzabanatenerotrofinademásdeloscensosyconocimientodediferentespropiedades.Porejemplo,enInglaterraaprincipiosdelsigloxviserealizóelregistrodenacimientosydefunciones,conelcualen1662aparecióelprimerestudiodedatospoblacionales,tituladoObservations on the London Bills of Mortality(“ComentariossobrelaspartidasdedefunciónenLondres”).Unestudiosimilarsobre latasademortalidadenlaciudaddeBreslau,enAlemania,realizadoen1691,fueutilizadoporelastrónomoinglésEdmundHalleycomobaseparalaprimeratablademortalidad.Enelsigloxix,conlageneralizacióndelmétodo científicoparaestudiartodoslosfenómenosdelascienciasnaturalesysociales,losinvestigadoresaceptaron la necesidad de reducir la información a valores numéricos para evitar laambigüedaddelasdescripcionesverbales.
1.1 Estadística
Comoseexplicó,elserhumanotuvolanecesidaddecrearunacienciaqueredujeralainformaciónavaloresnuméricospara lamejor interpretaciónde los fenómenos; se lellamóestadística.
La estadística es una rama de las matemáticas aplicadas que proporciona métodos para reunir, organizar, analizar e interpretar información, y usarla para obtener diversas conclusiones que ayuden a tomar decisiones en la solución de problemas y en el diseño de experimentos.
¿Qué entendemos por estadística?
Definición 1.1
1CarolingiatambiénllamadaCarlovingia,fueunadinastíadereyesfrancosquegobernaronunvastoterri-toriodeEuropaOccidentaldesdeelsigloviihastaelsigloxd.C.;sunombrefuetomadodesumásrenombradomiembro,Carlomagno.
20 Estadística y probabilidad
Actualmentelaestadísticaesunmétodoefectivoparadescribir con precisión losvaloresdedatoseconómicos,políticos,sociales,psicológicos,biológicosofísicos,yunaherramientapararelacionaryanalizardichosdatos.Porestarazón,laestadísticasedivideendiferentesramas, entre las más aplicadas y que analizaremos están la estadística descriptiva y lainferencial.
Laprimeradeellasseabordaenlapresenteunidadyserádescritamásadelante,mientrasquelasegundaseráestudiadaenlasunidades9y10.Porahoraseverándosconceptosfundamentalesenelestudiodelaestadística.
1.2 Población y muestra
Lamateriaprimadelaestadísticasonlosconjuntosdenúmerosobtenidosalcontaromedirelementos.Portanto,alrecopilardatosestadísticossedebetenerespecialcuidadoparagarantizarquelainformaciónseacompletaycorrecta;deestemodo,elprimerpasoesdeterminarquéinformaciónyenquécantidadsehadereunir.Porejemplo,enuncensoes importanteobtenerelnúmerodehabitantesde formacompletayexacta;delamismamanera,cuandounfísicoquierecontarelnúmerodecolisionesporsegundoentrelasmoléculasdeungas,debeempezarpordeterminarconprecisiónlanaturalezade los objetos a contar. Dado que la naturaleza de los fenómenos en estudio es muyvariada,esnecesarioproporcionarunaseriededefinicionesreferentesalosconjuntosdedatosquesehandeestudiar.
La población es el conjunto que incluye el total de elementos o datos cuyo conocimiento es de interés particular.
Cadaunodeloselementosqueintervienenenladefinicióndepoblaciónesunindividuouobjeto; sedenominarondeestamanera, yaqueoriginalmenteel campodeactuacióndelaestadísticafueeldemográfico.
Dado que la información disponible consta frecuentemente de una porción osubconjuntodelapoblación,introducimosunsegundoconcepto,eldemuestradeunapoblación.
La muestra es cualquier subconjunto de la población.
1. Sielconjuntodedatosde interésestáconstituidoportodos lospromediosdeungrupode estudiantes de licenciatura de una universidad, cada uno de los estudiantes seráun individuo estadístico, mientras que el conjunto de todos estos estudiantes serálapoblaciónyunamuestrapodríaserelconjuntodetodoslosestudiantesdeltercercuatrimestredeingeniería.
2. Sielconjuntodedatosdeinterésestáconstituidoportodoslospromediosdelosgruposdelicenciatura,cadaunodelosgruposseráunindividuoestadístico,mientrasqueelconjuntodetodosestosgruposserálapoblaciónyunamuestrapodríaserelconjuntodetodoslosgruposdeltercercuatrimestredeingeniería.
¿Cuál es la función de la estadística?
¿Cómo se obtiene un conjunto de datos en estadística?
Definición 1.2
Definición 1.3
Ejemplo 1
21Unidad 1 • Estadística dEscriptiva
3.Si se está estudiando el resultado de ciertos experimentos químicos, cada uno deesosexperimentosseráunindividuoestadísticoyelconjuntodetodoslosposiblesexperimentosenesascondicionesserálapoblación,mientrasqueunamuestrapodríaserunconjuntoderesultadosexperimentalesposiblesenciertascondiciones.
Másadelanteseveráqueelproblemademuestreonoestansimple,porqueesteconceptotienemayorimportanciadentrodelaestadísticainferencial;seprofundizaráenélensumomento.
1.2.1 Caracteres y variables estadísticas
Cuando se definió el concepto población, se mencionaron sus elementos, tambiénllamadosindividuos;además,enelejemplo1seobservóqueéstospuedenserdescritosporunaovariasdesuspropiedadesocaracterísticas.
El caracter de un elemento, individuo u objeto es cualquier característica por medio de la cual se puede clasificar y estudiar.
1. Si los individuos son personas, el sexo, el estado civil, el número de hermanos o suestatura soncaracteres.2. Sielindividuoesunareacciónquímica,eltiempo de reacción,lacantidad de producto obtenidoosiésteesácidoobásico,soncaracteresquepuedenanalizarse.
Un caracter es cuantitativo si es posible medirlo numéricamente o cualitativo sinoadmitemedición.Porejemplo,elnúmerodehermanosylaestaturasoncaracterescuantitativos,mientrasqueelsexoyelestadocivilsoncaracterescualitativos.
Los distintos valores que puede tomar un caracter cuantitativo configuran unavariable estadística.Lasvariablesestadísticasseclasificanendiscretasycontinuas.
Una variable estadística es discreta sólo cuando permite valores aislados, como números enteros.
Porejemplo,lavariablenúmero de hermanostomalosvalores0,1,2,3,4y5.Estetipodevariablessecaracterizanporobtenersemedianteunproceso de conteo(versemejanzaconlasvariablesaleatoriasdiscretasenlaunidad5).
Una variable estadística es continua cuando admite todos los valores de un intervalo.
Por ejemplo, la variable estatura, en ciertapoblación estadística, toma cualquiervalorenelintervalo158-205cm.Otromáseslatemperatura deunapersona.Estetipo
Definición 1.4
Ejemplo 2
¿Qué es un caracter cuantitativo?
¿Qué es una variable estadística?
Definición 1.5
Definición 1.6
22 Estadística y probabilidad
de variables se caracteriza por obtenerse mediante mediciones (ver semejanzas con lasvariablesaleatoriascontinuasenlaunidad7).
Lasvariablecualitativaspuedensernominalessisetratadecategorias(sexo,raza,etc.)yordinalessiimplicanorden(clasesocial,gradodepreferencia).
1.2.2 Estadística descriptiva
Comoya sedijo, la estadística sedivideenvarias ramas,unadeellas es la estadística descriptiva.Despuésdehaberestudiadolosconceptosdepoblaciónymuestraesposibledefinirla.
La estadística descriptiva es la parte de la estadística que organiza, resume y analiza la totalidad de elementos de una población o muestra.
Sufinalidadesobtenerinformación,organizarla,resumirlayanalizarla,lonecesariopara que pueda ser interpretada fácil y rápidamente y, por tanto, pueda utilizarseeficazmente.
Elprocesoquesiguelaestadísticadescriptivaparaelestudiodeunaciertapoblaciónomuestraconstadelossiguientespasos:
1. Seleccióndecaracteresfactiblesdeserestudiados.2. Mediante encuestaomedición,obtencióndel valorde cada elemento en los
caracteresseleccionados.3. Obtención de números que sintetizan los aspectos más relevantes de una
distribución estadística (más adelante a dichos números los llamaremosparámetrosparaelcasodelapoblaciónyestadísticosenlasmuestras).
4. Elaboracióndetablasdefrecuencias,mediantelaadecuadaclasificacióndelosindividuos dentro de cada carácter (esto lo estudiaremos más adelante en eltema“Clasesdefrecuencias”).
5. Representacióngráficadelosresultados(elaboracióndegráficasestadísticas,alasquellamaremoshistogramas).
1.3 Tipos de muestreo
Losespecialistasenestadísticaseenfrentanauncomplejoproblemacuando,porejemplo,tomanunamuestraparaunsondeodeopiniónounaencuestaelectoral;seleccionarunamuestracapazderepresentarconexactitudlaspreferenciasdeltotaldelapoblaciónnoestareafácil,paratalefectoexistendiferentestiposdemuestreo,losmásconocidossemencionanenseguida.
Muestreo aleatorio simple
Estetipodemuestreosecaracterizaporquecualquierelementodelapoblaciónenestudiotienelamismaposibilidaddeserseleccionado.
Definición 1.7
¿Cuál es la finalidad de la estadística descriptiva?
23Unidad 1 • Estadística dEscriptiva
Porejemplo,delapoblaciónestudiantildeunauniversidadsepuedeseleccionarunamuestraaleatoriade50estudiantesparaaplicarunaencuestayobtenerciertotipodeinformación.Enestoscasos,existendistintosmétodospararespetarlaaleatoriedad,elmáscomúnesasignarleunnúmerodiferenteacadaestudianteyluego,conlaayudadeunatabladenúmerosaleatorios,elegirunbloquedetamaño50deéstayrealizarlasentrevistasalosalumnosseleccionados.
Muestreo estratificado
Enestetipodemuestreosedividelapoblaciónengruposquenosetraslapen–esdecir,quenotenganelementosencomún–yseprocedearealizarunmuestreoaleatoriosimpleencadaunodelosgrupos.
Porejemplo,lapoblaciónestudiantildeunauniversidadsepuededividirengruposformados por diferentes especialidades (ingeniería industrial, ingeniería en sistemas,administración,etc.)ydespuésdecadaunadeellasseprocedeaseleccionarunamuestraaleatoriaparallevaracabounaentrevistayobtenerlainformacióndeseada.
Ademásde losdos tiposdemuestreomencionados,existeelmuestreo sistemáticoy el muestreo por conglomerados. El problema de muestreo es más complejo de lo queparece;paraunestudiomásdetalladodeltema,elestudiantepuedeconsultarellibroElementos de muestreo,deRichardL.ScheafferyWilliamMendenhall,deGrupoEditorialIberoamérica.
1.3.1 Uso de tablas de números aleatorios
Comosemencionó,lasmuestrasaleatoriassepuedenobtenerapartirdeunatabladenúmerosaleatorios.Sesuponequesetieneunapoblacióndemilindividuosysequierehacerunmuestreodediezdeellos.Enestecaso,primeroseasignaunnúmerodel000al999acadamiembrodelapoblaciónyluegoseeligedelatabladenúmerosaleatoriosunpuntodearranqueysehaceelrecorridohastaobtenereltamañodelamuestradediez.Debidoaqueeltamañodelapoblaciónesmil,delosnúmerosqueaparecenenlatablaseconsideransólosustresúltimascifras.Porejemplo,seanlossiguientesnúmerosaleatorioselegidosdeunatabla.
Alelegirsustresúltimascifrasseobtienenlosnúmerosqueformaránlamuestra:061,897,108,542,975,093,135,818,499y605.Despuésseprocedeaseleccionardelapoblaciónalosindividuosquelescorrespondenestosnúmeros.
Deformasimilarqueenelcasodelasmilpersonas,primeroseasignaunnúmeroacadaelementodelapoblacióndesde000hasta649yposteriormenteseeligeunbloquedenúmerosaleatoriosdondelastresprimerascifrasseanmenoresa649.
¿Cómo se lleva a cabo un muestreo aleatorio de diez personas
con población de 650 individuos?
9173061
0746897
7392108
0015542
4757975
0195093
8122135
7996818
1321499
0559605
24 Estadística y probabilidad
1.4 Parámetros y estadísticos
Losnúmerosquesintetizanlosaspectosmásrelevantesdeunadistribuciónestadísticapuedenobtenersetantodeunapoblacióncomodeunamuestrayporconsiguientedebenclasificarse:losprimeros,obtenidosdelapoblación,recibenelnombredeparámetrosylosobtenidosdeunamuestrasellamanestadísticosoestimadores.
Los parámetros y estadísticos más comunes de la estadística descriptiva que seestudiaránenestaunidadsedividen,asuvez,endostipos:
1. Medidas centrales:media,mediana,moda,mediageométrica,mediaarmónica,mediaponderada.
2. Medidas de dispersión: rango, varianza,desviaciónestándar, error estándar,coeficientedevariación,percentiles,rangointercuartil.
1.5 Medidas centrales
Sielconjuntodedatosnuméricosdeunamuestradetamañon(opoblacióndetamañoN)esdelaforma x1, x2,. . ., xn (oparalapoblaciónx1, x2,. . ., xN),nospodemospreguntarporlascaracterísticasdelconjuntodenúmerosquesondeinterés.Enestásecciónseestudiaránlosmétodosparadescribirsulocalizacióny,enparticular,elcentrodelosdatos.
1.5.1 La media
Cuando una persona tiene en sus manos un conjunto de datos para analizarlos,generalmentecalcula,enprimerainstancia,unpromediodeéstos.Porejemplo,dichapersonatienelascantidadesmensualesquehaganadoenlosúltimosseismeses(10800,9700,11100,8950,9750y10500)ydeseaconocerelvalorquerepresentasusalariopromedio.Enestecaso,obtendrásuingresopromedioalsumarlascantidadesydividirentreelnúmerodemesesquetrabajó
10800+9700+11100+8950+9750+10500
————————————————————————————————————=10133.33 6
Elsueldopromedioes$10133.33.
Comoelcasoanterior,existeunainfinidaddeproblemasocasosprácticosenlosquedeunconjuntodedatossequiereconocerunvalor centralquereflejelainfluenciaquetienecadaunodelosdatosenél.Lamedidacentralmáspropiciaparatalesfinessedefineacontinuación.
Dado el conjunto finito de datos muestrales x1, x2,..., xn, la media muestral (promedio aritmético) o estadístico media del conjunto es el estadístico que representa el promedio de los datos simbolizado por x (x barra), y se calcula
xx x x
n nxn
ii
n=
+ + +=
=∑1 2
1
1
¿Qué es un parámetroy qué es un estadístico
o estimador?
Definición 1.�
25Unidad 1 • Estadística dEscriptiva
Deformasimilarsedefineelparámetro mediaparalaspoblaciones finitas.
Dado el conjunto de datos poblacionales x1, x2,. . ., xN, se llama media poblacional o parámetro media del conjunto al parámetro representado por (miu o mu), y se calcula
µ =+ + +
==∑x x x
N NxN
ii
N1 2
1
1
Un fabricante de pistones toma una muestra aleatoria de 20 de éstos, para medir sudiámetro interno promedio. Con la información que el fabricante obtuvo dada encentímetros,secalculasudiámetromedio
Comosetratadeunamuestra,secalculasuestadístico
x =1
20[10.1+10.1+9.8+9.7+10.3+9.9+10+9.9+10.2+10.1+9.9+
9.9+10.1+10.3+9.8+9.7+9.9+10+10+9.8]=9.975
Lamediarepresentaelvalorpromediodetodaslasobservacionesyporconsiguientecadaunodelosdatosinfluyedeigualmaneraenelresultado;enocasiones,cuandosetienenpocosdatosquesealejanconsiderablementedelresto,elvalorpromedioencon-tradonoreflejalarealidaddelcaso.
Se quiere calcular el sueldo promedio de los trabajadores de una fábrica, eligiendoaleatoriamenteadiezdeellos,conlassiguientescantidades:
Secalculaelsueldopromedio,ysetiene
x =1
10[2000+2200+2500+2200+1800+25000+2400+2300+2800+2400]=4560
dondeelestadísticonoreflejalarealidaddelosdatos,puestoqueelsueldode25000esmuchomayoralosdemáseinfluyeconsiderablementeenelvalorpromedio.
1.5.2 La mediana
Porloexpuestoalfinaldelasubsecciónesnecesariopresentarotrotipodemedida centralenlaquevaloresmuyextremosos,conrespectoalresto,notenganunainfluenciatanmarcadacomoenlamedia.Adichamedidaseleconoce,debidoasunaturaleza,comomediana.
La mediana de un conjunto de datos es el valor medio de los datos cuando éstos se han ordenado en forma no decreciente en cuanto a su magnitud.
Definición 1.�
Ejemplo 3
10.1
9.9
10.1
9.8
10.0
9.9
9.9
10.0
10.2
10.09.8
10.1
10.1
9.9
9.7
10.3
10.3
9.8
9.9
9.7
Ejemplo 4
DatoSueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400
x10x1 x2 x3 x4 x5 x6 x7 x8 x9
Definición 1.10
26 Estadística y probabilidad
Cálculo de la mediana
Dadoelconjuntodedatosmuestralesx1, x2,. . ., xn,lamediana muestral o estadístico medianadelconjuntoserepresentapor x (xtilde)yseobtieneordenandoprimeroenformano decrecienteestosndatos,losqueserenombraránsegúnsuposiciónpormediodetildesdelasiguienteforma
x x xn1 2≤ ≤ … ≤
Posteriormenteselocalizaelpuntomediodelosdatosordenados,condoscasos:
1. Cuando la cantidad de observaciones es impar, el valor medio delordenamiento eseldatoqueseencuentreenlaposición(n+1)/2.
2. Cuando la cantidad de datos es par, de tal manera que resultan dos datosmedios localizadosenlasposicionesn/2yn/2+1,lamedianaseconsideraelpromediodeéstos.
Finalmente,sepuederesumirelcálculodelamedianaconlassiguientesfórmulas
x
x
x x
n
n n= +
+ ,cuandolacantidaddedatosesimpar1
2
2 2
,cuandolacantidaddedatosespar+
1
2
Deformasimilarsedefineelparámetromediana.Dado el conjunto de datos poblacionales x1, x2,. . ., xN, la mediana poblacional o
parámetro medianadelconjuntoeselparámetrorepresentandopor µ ,ysecalcula
µ = +
+x
x x
N
N N
, cuandolacantidaddedatosesimpar1
2
2 2++
cuandolacantidaddedatosespar
1
2,
Dadoelconjuntomuestraldedatosdelejemploanterior,referentealsueldopromedio,secalculasumediana.
Lasiguientetablamuestraelconjuntodelosdiezdatos
Ordenandolossueldosdemenoramayoryrenombrándolosseobtiene
Dato
Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400
x10x1 x2 x3 x4 x5 x6 x7 x8 x9
2 300
Dato original
Datoordenado
Sueldo 1 800 2 000 2 200 2 200 2 400 2 400 2 500 2 800 25 000
x10x1 x2 x3x4x5 x6x7x8
x10x1~ ~~~~x2 x3 x4 x5 x6 x7 x8 x9
x9
~ ~ ~~ ~
Ejemplo 5
27Unidad 1 • Estadística dEscriptiva
Lacantidaddedatosesdiezyésteesunnúmeropar,porconsiguientela mediana muestralseencuentraconelpromediodelosdatosordenadosenlasposiciones n/2yn/2+1.Esdecir,enlasposiciones10/2=5y10/2+1=6
xx x
=+
=+
=5 6
2
2 300 2 400
22 350
En la mediana se puede observar que el valor $25 000, el cual sobresalía conrespecto a todos losdemás, adiferenciade la media,no influye en el resultadode la mediana.Puestoquesienlugarde$25000seelige$5000o$100000,elsueldomediodelosdieztrabajadoresseguirásiendo$2350.Porlocualsedicequelamedianaesunamedida central insensibledelosdatos.
1.5.3 La moda
Paraalgunosestudiosesnecesarioencontrarelvalorcentraldeunconjuntodedatos,endondelamedidadeinterésestábasadaenlarepeticióndeéstos;portanto,ningunadelasdosmedidasanalizadasesconvenienteenestecaso.Debidoasunaturaleza,aestamedidaseledaelnombredemoda ysedefineacontinuación.
La moda de un conjunto de datos es el valor que se presenta en su distribución con mayor frecuencia.
LamodasesimbolizaporMoparalasmuestrasyparalaspoblaciones.
Enlasiguientelistasemuestranlascalificacionesde20exámenesde lingüística. Se calculadelingüística. Se calculaingüística.Secalculalacalificaciónquemásserepite,esdecir,lamodadeladistribucióndelascalificaciones.
Despuésdelconteodelosdatos,setiene
cincodatosconvalor5undatoconvalor6yotroconvalor7
tresdatosconvalor8 seisdatosconvalor9 cuatrodatosconvalor10
Portanto,lamodaesiguala9;yaqueeslacalificacióndemayorfrecuencia.
Alcalcularlamodaesposibleobservarqueesunamedidacompletamenteopuestaalamedianaencuantoasusensibilidad.Porejemplo,sienelcasodelascalificacionesunalumnoconcalificación9hubieseobtenido5,lamodacambiaríaa5(seríanseis5ycinco9).Asíqueconlasolaalteracióndeundatocambiacompletamentela moda,portanto,sedicequeéstaessumamentesensible.
Definición 1.11
Ejemplo 6
5 8 9 9 8 10 9 5 10 5
6 5 10 10 8 9 7 9 5 9
2� Estadística y probabilidad
Lamodatambiénpresentalossiguientesdosproblemas:
1. La moda puede no existir.Porejemplo,setienenlassiguientesseriesdedatos:
6,7,34,4,8 6,3,8,9,3,8,6y9
Enambasseriesdedatoslafrecuenciaeslamisma,esdecir,notienenmoda.Alosconjuntosdedatoscomolosanterioresselesllamaamodales osin moda.
2. La moda puede no ser única.Porejemplo,setienelasiguienteseriededatos
6,7,9,4,8,6,6,8,9,6,8,6,9,3,9y9
Enestaserieestánlosvalores6y9comolosdemayorfrecuencia,ambosserepitencincoveces.Alconjuntodedatosquetienemásdeunamodasele llamamultimodal;bimodalsisondosmodas,ytrimodalsisontres,etcétera.
1.5.4 Otros valores medios
Yasehananalizadolostresvalorescentralesmásconocidosyutilizadosenlaestadísticadescriptiva. El primero de ellos fue el definido en la sección 1.5.1 como una mediaaritmética,sinembargo,existendistribucionesdedatosparalascualesestamedidanoesmuypropicia,porloquesedefinenyutilizanotrotipodemedidascentrales,lamedianaylamoda.Acontinuaciónseveránotrostiposdepromediosquesondeutilidadenlaestadísticadescriptiva.
Valor geométrico o media geométrica
Lamediageométricadelosdatosx1, x2,. . ., xnsesimbolizaporMGyestádefinidacomolaraízn-ésimadelproductodelasnmediciones.
MG x x xnn= ⋅ ⋅1 2
Secalculalamediageométricade20calificacionesdeexámenespsicológicos
MG = =× × × × × × × × × × × × × × × × × × ×5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 7 544686820 .
De ladefinicióndemediageométrica sededucequeéstanosepuedeaplicarcuandoalgún dato vale ceroolacantidaddedatosesparyexisteunacantidadimparnegativa.
¿Cuándo se considera a un conjunto de datos amodal?
¿Cuándo se consideraa un conjunto de datos multimodal?
5 8 9 9 8 10 9 5 10 5
6 5 10 10 8 9 7 9 5 9
Ejemplo 7
Observación
2�Unidad 1 • Estadística dEscriptiva
Valor medio armónico o media armónica
Lamedia armónicadelosdatosx1, x2,. . ., xnsesimbolizaporMA yestádefinidacomoelrecíprocodelamediaaritméticadelosrecíprocos.
MA
n x n x x x
n
x x xii
n
n n
= =+ + +
=+ + +
=∑
1
1 1
1
1 1 1 1 1 1 1
1 1 2 1 2
Laprincipalaplicacióndeéstaespromediarlasvariacionesrespectodeltiempo,esdecir,cuandolamisma distancia se recorre a diferentes tiempos.
Siseviajadeunaciudadaotrarecorriendolosprimeros100kma80kmph,lossiguientes100kma100kmphyfinalmenteotros100kma120kmph,secalculalavelocidadmediautilizandolamediaarmónicaysecomparaconlasmediasaritméticaygeométrica.
MA =
=+ +
1
1
3
1
80
1
100
1
120
97 2973.
x = [ ]= =+ +1
380 100 120
300
3100
MG = =× ×80 100 120 98 64853 .
Para tomar la decisión de qué media parece la más correcta, se calcula la velocidadpromedio
Velocidadpromediodistanciatotalrecorrida
tiempototal=
Ladistanciatotalrecorridaesiguala100+100+100=300km.
Eltiempototalderecorridoes100
80
100
100
100
1203 0833+ + = . h.
Ahorasecomparaconladistanciatotalrealrecorridalasdistanciasquerecorreríaelautomóvilconcadaunadelasvelocidadespromediocalculadas
Mediaaritmética:3.0833×100=308.33kmMediageométrica:3.0833×98.6485=304.166km
Mediaarmónica:3.0833×97.2973=300km
(Nótesequeelmejorresultadoseobtieneconlamedia armónica).
Ejemplo �
Observación
30 Estadística y probabilidad
Valor medio ponderado o media ponderada
Paraloscasosenquecadadatotieneunaimportancia relativaensudistribución–lacualse denomina peso–, la media correspondiente más apropiada se obtiene sumando losproductosdecadadatoporsupeso,llamandoadichamedidamedia ponderada.
En un conjunto de datos x1, x2,. . ., xn se llama pesos o ponderaciones respectivas de estos datos a las cantidades w1, w2,. . ., wn que cumplen
a) wi ∈ [ ]0,1 , para todo valor de ib) w1 + w2 + . . . + wn = 1
Lamedia ponderadadelconjuntodedatosx1, x2,. . ., xn,conpesosrespectivosw1, w2,. . ., wn,sesimbolizaporMPysecalculaconlasiguientefórmula:
MP w xi ii
n=
=∑ 1
Secalculalacalificaciónpromediodeunestudiante.Lacalificaciónestáponderadadelasiguienteforma:10%tareas,40%delprimerexamenbimestraly50%delexamenfinal.Lascalificacionesdelestudianteson8,9y4,respectivamente.
Lacalificaciónestáponderada,portanto
MP=0.1× 8+0.4× 9+0.5× 4=6.4
Enelcasodepoblaciones,losparámetroscorrespondientessecalculanconlasmismasformulascambiandonporN.
Alanalizarunconjuntodedatossurgeunaduda:¿tenerlasmedidascentralesessuficientepara conocer sudistribución?Despuésde estudiar la siguiente sección estoquedaráclaro.
Ejercicio 1
1. Calculalamedia,medianaymodadelsiguienteconjuntodedatos
2. Calculalamediaymedianadelostiemposdellegadadeseisavionesqueaterrizanenunaeropuerto.Lostiempos(enminutos)son
3.5 4.2 2.9 3.8 4.0 2.8
Definición 1.12
Ejemplo �
Nota
145 150 165 155 155 145 150
140 145 150 160 175 150 160
31Unidad 1 • Estadística dEscriptiva
3. Calculalamediageométricadelconjuntodedatosdelejercicioanterior. 4. Calculalamediaarmónicadelviajeredondoquerealizaunchoferdeunalíneade
camionescuyarutaesde520km,sideidalorecorrióporunaautopistaa101kmphyderegresoporotraavelocidadpromediode75kmph.
5. Enunamuestrade100pistonesseencontróque55teníanundiámetrointernode10.5cm,25de10.0yelrestantede10.75.Utilizalasfrecuenciasrelativasdelospistonesparacalcularlamediaponderadadesudiámetrointerno.
1.6 Medidas de dispersión
Paraunanálisismáscompletodeladistribucióndelosdatos,elestudiodesusmedidascentrales no es suficiente, puesto que en diferentes conjuntos de datos puede habermedidas centrales iguales, por tanto, no se tendría conocimiento de la forma de sudistribución.
Porejemplo,setienendosconjuntodedatos,unocontienelosvalores20,12,15,16,13y14,yelsegundo5,0,50,17,8y10;secalculasumedia.
Comosepuedeverificarenamboscasosseobtiene15.Perosiserepresentanlosvaloresenunarecta,esnotablequelasobservacionesdelsegundoconjuntotienenunadistribución(variación)muchomayor.
Por tanto, es necesario realizar un estudio de la distribución de los datos conrespectoasuvalorcentral,esdecir,senecesitaunvalorqueindiqueunamedidaparacompararlasdispersionesdedatosentrediferentesconjuntos;estasmedidassonvalores dedispersiónovariabilidaddelconjuntodedatos.
1.6.1 Rango
Eselprimervalorquenosmuestracómoestándistribuidos(dispersos)losdatos.ElrangodelasobservacionesestásimbolizadoporrparalamuestrayRparalapoblación.Elrangoesunamedidadevariacióndelosdatosqueloúnicoquemuestraeseltamañoolongituddelintervaloenelquelosdatosseencuentrandistribuidosyes:
El rango es igual a el valor mayor menos el valor menor de los datos.Definición 1.13
32 Estadística y probabilidad
Porejemplo,paralosdatosmuestralesdelosdosconjuntosdedatosanteriores
• enelprimerconjuntosurangovaler1=20–12=8,esdecir,losdatosdeesteconjuntoestándistribuidosalolargodeunintervalodelongitud8
• enelsegundoconjuntosurangovale,r2=50–0=50,esdecir,losdatosdeesteconjuntoestándistribuidosalolargodeunintervalodelongitud50
Loselementosdelsegundoconjuntotienenunaseparaciónmayorentreellos,peroelresultadonomuestraelcomportamientodelosdatosconrespectoasumedia.
1.6.2 Varianza y desviación estándar
Otramedidadedispersióndelosdatosqueestárelacionadadirectamenteconlamediadelconjuntoeslavarianza.
Se llama varianza de un conjunto de datos al promedio de los cuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio.
Sisetienenndatosmuestrales,x1, x2,. . ., xnconvalormedioiguala x ,loscuadradosdelasdesviacionesdecadaunodelosdatosconrespectoasuvalormedioserán ( )x x1
2− ,( )x x2
2− ,etcétera.Aligualqueenlosvaloresmedios,lavarianzapuededefinirseconrespectoala
muestraoalapoblación.
Respecto a la muestra
La varianza muestral o estadístico varianza del conjunto de datos x1, x2,. . ., xn, se representa por s2, y se define como el valor medio de los cuadrados de las desviaciones de cada uno de los datos con respecto a x , y se calcula
s2 21
1
= −=∑n
x xii
n( )
Sobre la definición anterior podemos decir que denota la intención de una medidavariacionaldeunconjuntodedatos,sóloquemásadelante(unidades9y10)severáqueesconvenientedefinirelestadísticovarianzadividiendoentren–1enlugarden.Paradistinguirlas,selesasignannombresdiferentes,loscualessejustificaránhastalaunidad9,cuandoseanaliceeltema“Estimadorespuntuales”.Mientrastantosedefine
La varianza sesgada como sn
x xn ii
n2 21
1
= −=∑ ( )
Definición 1.14
Definición 1.15
33Unidad 1 • Estadística dEscriptiva
La varianza insesgada como sn
x xn ii
n
−=
=−
−∑11
2 21
1( )
Pero, ¿por qué dos definiciones diferentes en lugar de una? Porque la varianzasesgada refleja perfectamente el significado de una medida de dispersión ypor consiguientetieneunagranaplicaciónenelestudiodelasprobabilidades.Mientrasquelavarianzainsesgada,esmáspropiciaparaloscálculosestadísticosyseempleageneralmenteparalasmuestras.
Respecto a la población
Deformasimilarparapoblaciones finitassedefineelparámetrovarianza poblacional,elcualestárepresentadoporσ 2.
Dadoelconjuntodedatospoblacionalesx1, x2,. . ., xn,convalormedio,sedefinelavarianza poblacional
Varianza poblacional * σ µ2 21
1
= −=∑N
xii
N( )
Lavarianzasecalculaconloscuadradosdelasdesviacionesy,portanto,noestáenlasmismasunidadesquelosdatos.Porconsiguiente,seintroduceunanuevamedidadedispersióndelasiguienteforma:
Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la varianza, es decir
σ σ= 2 o s s= 2
Secalculalavarianzainsesgadayladesviaciónestándardecadaunodelosdosconjuntosdelasección1.6:
Primerconjunto:20,12,15,16,13y14.Anteriormenteseencontróque x =15.
sn
x xn ii
n
−=
=−
− =
=−
− + − + −
∑11
2 2
2 2 2
1
1
1
6 120 15 12 15 15 15
( )
( ) ( ) ( ) ++ − + − + −
= + + + + +[ ]=
( ) ( ) ( )16 15 13 15 14 15
1
525 9 0 1 4 1 8
2 2 2
Ladesviaciónestándaressn–1=sn− = ≈1 8 2 8284. .
Definición 1.16
Ejemplo 10
*Enlasunidades5y7sepresentaunadefiniciónmásgeneral, lacualsepuedeaplicartantoapoblacionesfinitascomoinfinitas.
34 Estadística y probabilidad
Segundoconjunto:5,0,50,17,8y10.Anteriormenteseencontróque x =15.
sn
x xn ii
n
−=
=−
− =
=−
− + − + − +
∑11
2 2
2 2 2
1
1
1
6 15 15 0 15 50 15
( )
( ) ( ) ( ) (117 15 8 15 10 15
1
5100 225 1225 4 49 25 325
2 2 2− + − + −
= + + + + +[ ]=
) ( ) ( )
..6
Ladesviaciónestándaressn–1=sn− = ≈1 325 6 18 0444. . .
Cálculo de las varianzas
Paraloscálculosseacostumbraemplearotrarepresentaciónequivalentealadevarianza,determinadaporlassiguientesfórmulas:
Varianza sesgada sn
x xn ii
n2 2 21
1
= −=∑
Varianza insesgada sn
xn
nxn i
i
n
−=
=−
−−∑1
1
2 2 21
1 1
Secalculalavarianzainsesgadaparalosconjuntosdedatosdelejemplo10,empleandolasúltimasfórmulasparalavarianza,yseverificaquecoincidanlosresultados.
Primerconjunto:20,12,15,16,13y14.
sn
xn
nxn i
i
n
−=
=−
−−
=−
+ + + + +∑11
2 2 2 2 2 2 2 2 21
1 1
1
6 120 12 15 16 13 14
−
−
= + + + + +[ ]− × = − =
6
6 115
1
5400 144 225 256 169 196
6
5225 278 270
2( )
88
Segundoconjunto:5,0,50,17,8y10.
sn
xn
nxn i
i
n
−=
=−
−−
=−
+ + + + +
∑1
1
2 2 2 2 2 2 2 2 21
1 1
1
6 15 0 50 17 8 10 −−
−
= + + + + +[ ]− × = − =
6
6 115
1
525 0 2500 289 64 100
6
5225 595 6 270 325
2( )
. .66
Enloscálculosanterioresseobservaqueenamboscasoscoincidenlosresultadosconlosdelejemplo10.
Ejemplo 11
35Unidad 1 • Estadística dEscriptiva
Ejercicio 2
1. Calculaelrangoylavarianzainsesgadadelsiguienteconjuntodedatos:
2. Calcula la desviación estándar de los tiempos de llegada de ocho aviones queaterrizanenunaeropuerto.Lostiemposenminutosson3.5,4.2,2.9,3.8,4.0y2.8.
3. Enlosenvasesdeleche,lacantidaddelíquidonoessiempreunlitro,porloquesetomaunamuestradediezenvases,yseobtienenlossiguientesvalores:
0.95 1.01 0.97 0.95 1.0 0.97 0.95 1.01 0.95 0.98
Calculalavarianza.
1.7 Clases de frecuencia
Hastaahorasehatrabajadosóloconmuestrasopoblacionesmenoresde30elementos,cuyoscálculosnohansidotanlaboriosos;peroquépasacuandolacantidaddedatosesconsiderableoéstosprovienendemedicionesquehaganmáslaboriosoelcálculodesusmedidascentralesodevariación.Ademásdeloanterior,puedeserquesólonecesitemosunresumenmáscompactodelconjuntodedatosoinclusotenerunarepresentacióngráficadelcomportamientodesudistribución,porloquesiendounconjuntocongrancantidaddedatos(porejemplo,200)visualizarlostodos,parapoderestudiarsudistribución,noes factible, por consiguiente, es necesario emplear alguna otra estrategia de análisis.
Elproblemamencionadosepuederesolverfácilmentedistribuyendolosdatospormediodeintervalos,loquedaorigenalasiguientedefinición:
Dado un conjunto de datos, se llama intervalos de clase o clases de frecuencia o simplemente clases a los intervalos que por parejas son ajenos o disjuntos y contienen todos los datos del conjunto.
Una pareja de intervalos son disjuntos si no tienen elementos en común. Conrespectoalacantidaddeintervalosdeclase,sepidequenoseaunacantidadexcesivao insuficiente.Noexisteunaregladeterminanteparaobtener lacantidadde intervaloscuando se tienenn datos.Algunos especialistas en estadística emplean el enteromáscercanoalaraízden,otroselenteromáscercanoalog(n),obienla llamadaregladeSturges, en la cual se toma como el tamaño de la muestra el entero más cercano a3.3logn +1conncantidaddedatoscorrespondientesalasobservaciones.Paraefectosdeestelibro,seemplearáunacantidaddeintervalosque,dependiendodelvalorden,seencuentreentrecincoyveinte.
Conrespectoalosintervalosdeclase,noesunrequisitoqueseandeiguallongitud,sinembargo,aquíhabrárestricciónaclasesdeiguallongitud.
145 150 165 155 155 145 150
140 145 150 160 175 150 160
¿Qué es un intervalo de frecuencias y qué condiciones debe cumplir?
Definición 1.17
Nota
36 Estadística y probabilidad
1.7.1 Construcción de clases de frecuencia
Paralaconstruccióndelosintervalosdeclaseoclasesdefrecuenciaexistendiferentestécnicas, al igual que en la elección de la cantidad de clases no existe un métododeterminanteounafórmulageneral.Loúnicoquedeberespetarsees:
• unmismodatonodebedeperteneceradosintervalosdiferentes• todoslosdatosdebendeestardistribuidosenlosintervalosformados
Aquíseconstruiránlosintervalosdeclasedeunconjuntodedatos{x1, x2,. . ., xn},deacuerdoconlossiguientespuntos:
1. Secalculaelrangodelconjuntodedatos.2. Sedivideelrangoentrelacantidaddeclasesointervalosquequeremostenery
elvalorcalculadoserálalongituddecadaunadeéstasenlasquesedistribuiránlosdatos.
3. Paraformarlasclasesointervalos se considerancerradoslosextremosizquierdosdelosintervalosylosderechosseconsideranabiertos,tomandoalaúltimaclaseenambosextremoscerrada.
Dadounconjuntodedatosdondeelvalormáspequeñoes5yelmásgrande75.Construyediezintervalosdeclaseparadichoconjuntodedatos.
Elrangodelconjuntoes:r =75–5=70.Comoqueremostenerdiezintervalosdeclasedividimoselrango70entrediezyobtenemossiete.Estevalorserálalongituddecadaunadelasclases de frecuencia.Portanto,lasdiezclasesson
[5,12),[12,19),[19,26),[26,33),[33,40),[40,47),[47,54),[54,61),[61,68),[68,75]
Recuérdesequeunintervalodelaforma[26,33)indicaqueseconsiderantodoslosvaloresqueestánentre26y33,incluyendoel26yexcluyendoel33.
1.7.2 Frecuencias relativas
Empleamoslaconstruccióndelosintervalosdeclaseparaestudiardeformasimplificadala distribución de los datos, por tanto, después de construir los intervalos de clase,contamos la cantidad de datos que caen en cada uno. A dicha cantidad se le llamafrecuencia de la clase ofrecuencia de clase o frecuencia absolutaysesimbolizaporfi,dondeirepresentaelnúmerodelaclasey
f ii
nn=
=∑ 1
Se llama frecuencia relativa de una clase i al cociente de la cantidad de datos que se encuentran en ésta con respecto del total de datos en el conjunto y se simboliza por
ff
nri=
donde n representa la cantidad total de datos.
Ejemplo 12
Dado un conjunto de datos, ¿qué son las frecuencias de clase?
Definición 1.1�
37Unidad 1 • Estadística dEscriptiva
Seconsideranlascalificaciones(conescaladeceroa100)de80estudiantesenlamateriafísicaexperimental,sedistribuyenensieteclases de frecuenciasysecalculanlasfrecuencias relativasdelasclases:
Loprimeroesconstruir lassieteclasesdefrecuencia,encontrandoelvalormásgrande100yelmáspequeño30,portanto,elrangovaler=100–30=70.
Comosepidensieteclasesdefrecuencias,sedivide70entresieteyelresultadoesdiez.Esdecir,lalongituddelasclasesdefrecuenciaserádediezunidades.
Elprimerintervaloes[30,40),esdecir,todoslosdatosqueseanmayoresoigualesa30peromenoresa40;losdatosson30,38,30,30,30,35,36y30,ochoentotal.
Esteprocesodeconteosecontinúahastallegaralaúltimaclase.Alrealizarelconteodeelementosporclaseserecomiendaquelosdatoscontados
semarquenparaevitarunaequivocación.Porejemplo,despuésdelprimerconteolatablaquedadelasiguienteforma
Finalmente,secalculanlasfrecuenciasrelativasporclase,dividiendolasfrecuenciasentrelacantidadtotaldedatos,enestecaso80,yseobtiene
Ejemplo 13
Tabla 1.1
30 88 96 100 45 38 78 89 68 8868 100 100 68 69 79 98 94 30 4630 86 85 89 94 99 100 45 30 3536 76 78 81 80 40 67 58 89 5898 90 100 100 68 70 83 85 68 5630 67 78 98 100 86 69 79 52 4589 78 65 60 69 76 78 77 89 9899 91 100 48 68 84 67 69 46 79
30 88 96 100 45 38 78 89 68 8868 100 100 68 69 79 98 94 30 4630 86 85 89 94 99 100 45 30 3536 76 78 81 80 40 67 58 89 5898 90 100 100 68 70 83 85 68 5630 67 78 98 100 86 69 79 52 4589 78 65 60 69 76 78 77 89 9899 91 100 48 68 84 67 69 46 79
3� Estadística y probabilidad
Tantoenestadísticacomoenprobabilidadtieneuninterésparticularlaacumulaciónde frecuencias,por loque sedefinendosnuevasmedidasen lasclasesde frecuencia:frecuencia acumulada ylafrecuencia relativa acumulada.
Se llama frecuencia acumulada a la función que representa la suma de las frecuencias por clase, y se simboliza por Fi .
Se llama frecuencia relativa acumulada a la función que representa la suma de las frecuencias relativas por clase y se simboliza por Fr .
Cálculo de las frecuencias acumuladas
Dadounconjuntoconndatos,sedivideenmintervalosdeclaseconfrecuenciasf1,f2,...,fm,talesquef1+f2+...+fm=n(cantidadtotaldedatos).
Bajoestascondicioneslafrecuenciaacumuladaestádadapor
F x fii
x xi
( ) ==
≤
∑ 1
Mientras que para el caso de la frecuencia relativa acumulada, las frecuenciasrelativasporclaseson
f
n
f
n
f
nm1 2, ,..., ;
secumplef
n
f
n
f
nm1 2 1+ + + =
y,portanto,setiene
Frecuencia relativa acumulada de una clase i es el cociente de la frecuencia acumulada de clase i entre la cantidad total de datos n, es decir
FF
nri=
Debidoaqueenlasfrecuenciasporclasenoesdeinteréselvalordecadaelementosinosólo la cantidaddeestosenlaclase,seacostumbrarealizarelconteopormediodelasbarrascomoantiguamentesellevabaacabo;esdecir,seponeunabarraverticalporelementocontadoycadavezquesellegaacuatrobarraslaquintasecolocaendiagonal.Porejemplo,paracontarochoelementos:
Definición 1.1�
Definición 1.20
3�Unidad 1 • Estadística dEscriptiva
Conestaformadeconteosepuedeconstruir,apartirdelatabla1.1,unatablasimilarquecontengalasfrecuenciasacumuladas
1.7.3 Media, mediana y moda en clases de frecuencia
Al igualque se realizó conunconjuntodedatosdel cual seobtuvieron susmedidascentralesydedesviación,éstassepuedenobtenerparalasclasesdefrecuenciaempleandolospuntosmediosdelasclasesysusfrecuenciasdeclase.
Sea k el número de clases, xi el punto medio de la i-ésima clase y fi la frecuencia de la i-ésima clase, entonces el valor de la media aritmética se calcula con la fórmula
xf x
ni i
i
k=
=∑ 1
Otrovalorpromedioimportanteeslamediana(Md ),quedivideladistribuciónendosáreasiguales;numéricamentesecomparaconlamediaaritmética x .
Sepuedeobtenerelcálculodelamedianaconlasiguientefórmula:
donde
L = límite inferior de clase mediana l = longitud del intervalo de clase medianaM L l
nC
fd = +−
2
n
2 = mitad de las observaciones
C = frecuencia acumulada anterior a la clase mediana f = frecuencia del intervalo de clase mediana
Tabla 1.2
Definición 1.21
40 Estadística y probabilidad
Laclasemedianaeselintervaloqueincluyelamitaddelasobservaciones;esposibledefinirlaalcalcularlafrecuenciaacumuladaF.
Conlosdatosdelejemplo13,secalculalamedianaMd.
Elintervalodeclasemedianaes[70,80),yaqueF5=46incluyealamitaddelasobser-vacionesn/2=80/2=40;l=80–70=10.
M L l
nC
fd = +−
= +
−
= +
=2 70 10
40 34
1270 10
6
12770 5 75+ =
Elvalorpromediomoda(Mo ),quesecompararáconlosvaloresnuméricosdelamediaaritmética xylamedianaMd,secalculaconlafórmula:
donde
L = límite inferior de la clase modal l = longitud del intervalo de clase modalM L l
d
d do = +
+
1
1 2
d1= diferencia en frecuencia del intervalo de clase modal con el anterior d2= diferencia en frecuencia del intervalo de clase modal con el posterior
Laclasemodaleselintervaloquetieneensufrecuenciaelnúmeromayor.
Conlosdatosdelejemplo13,secalculaelvalorpromediomoda (Mo ).
Elintervalodeclasemodales[90,100]yaquelamayorfrecuenciaestáenF7=19conL=90,l =10,d1=19–15=4yd2=19–0=19.
M L ld
d do = ++
= +
+
= +
= +1
1 290 10
4
19 490 10
4
2390 10(.. ) .
.
1739 90 1 739
91 74 92
= +
= ≈
1.7.4 Varianza en clases de frecuencia
Deformasimilaralamediadeclasesdefrecuenciasepuedendefinirlasvarianzassesgadaeinsesgadadelasclasesdefrecuencia.
Si fi y xi son la frecuencia y el punto medio de la i-ésima clase, respectivamente, y n es la suma de las frecuencias, entonces la varianza sesgada s2 se calcula con la fórmula
sn
f x xi ii
k2 21
1
= −=∑ ( )
Ejemplo 14
Ejemplo 15
Solución
Definición 1.22
Solución
41Unidad 1 • Estadística dEscriptiva
La varianza insesgada s2 se calcula con la fórmula
sn
f x xi ii
k2 2
1
1
1=
−−
=∑ ( )
La desviación estándar por clases de frecuenciaseguirásiendolaraízcuadradapositivadelavarianzacorrespondiente.
Lamediayvarianzaporclasesdefrecuenciageneralmenteseempleanparaobservarladistribucióndedatosmuestrales,peroencasodequererdefinirestasmedidasparadatospoblacionalesserealizadeformasimilar,sustituyendolanporN, x porysporσ,comosehizoenlassecciones1.5y1.6.
Secalculalavarianzasesgadadelasclasesdefrecuenciaconlosdatosdelejemplo13.Para realizar loscálculosmás fácilmente seutilizará la tabla 1.2, tan sólo intro-a tabla1.2, tan sólo intro-tan sólo intro-
duciendoalgunascolumnas:
Lasumadelaquintacolumnadivididaentre80correspondealvalorpromediodelamediaaritmética.
x = = ≈5 770
8072 125 72
.
Porladefinicióndevarianzasesgadasetiene
s2 1
8030 640 382 984 383= = ≈( ) .
Mientrasqueladesviaciónestándarcorrespondientees
s s= = ≈2 383 19 57.
Definición 1.23
Nota
Ejemplo 16
Tabla 1.3
42 Estadística y probabilidad
Ejercicio 3
1. Enlasiguientetablasedanlostiemposdellegadaenminutosde60avionesaunaeropuerto.
a) distribuyelosdatosencincoclasesdefrecuencia b) calculasumediayvarianzasesgadapormediodelasclasesanteriores
2. Unamáquinadespachadoraderefrescosdeuncentrocomercialpareceestarfallando,puestoqueelencargadoharecibidovariasquejasenlaúltimasemana;éldecideregistrarlacantidaddecontenidoen40vasosdespachadospordicha máquinaydividirlosentresclasesdeiguallongitud,si70%omásdelosrefrescosdespachadosseencuentraenlaclasemedia,elencargadoseguirátrabajandoconlamáquina,encasocontrariolamandaráreparar.Losvalores(enmililitros)medidosson:
a) dividelosvaloresentresclasesdefrecuenciadeiguallongitud,calculasus frecuenciasrelativaseindicasielencargadotendráquerepararlamáquinaono b) calculalacantidaddelíquidopromedioquedespachalamáquina,empleando lasclasesdefrecuenciadelincisoanterior
3. Sienelejercicioanterior,ademásdelaconsideracióndelporcentaje,setomaencuentaladesviaciónestándardelasclasesdefrecuencia,pormediodelcriterio “lamáquinaserepararáencasodequeladesviaciónestándarseamayoraseis”, determinasielfabricante,segúnlosdatosobservados,tendráquerepararla máquina. 4. Seestudióeltiempodevidade90personasconsidayseanotósuduraciónenmeses,yseobtuvo
Ordenaendiezclasesdefrecuenciaycalculalamediayvarianzadelosdatos.
2.6 3.9 4.5 4.0 3.7 3.2 5.7 4.3 3.8 3.6
4.7 6.1 6.0 5.0 4.5 6.2 3.4 2.9 3.6 4.1
2.5 2.8 3.2 3.1 4.6 5.2 6.1 4.5 4.1 3.8
7.2 3.4 7.9 3.6 3.6 4.8 5.2 6.3 8.2 5.3
3.9 4.6 4.5 5.7 4.8 6.9 6.3 2.6 2.5 6.8
8.0 5.6 3.9 4.6 4.8 5.9 6.2 3.2 4.5 5.0
34.0 28.5 18.0 34.9 25.8 16.9 15.8 19.0 11.5 25.9 38.9 34.0 16.8 27.8 26.5
24.6 22.8 16.8 39.0 42.0 48.0 34.8 33.0 23.9 27.5 35.8 36.9 26.7 26.8 34.7
35.9 25.8 24.8 45.8 18.9 35.8 35.8 46.9 36.8 35.9 52.0 33.6 24.8 25.9 26.8
26.8 29.4 37.8 35.9 10.8 25.8 35.8 26.8 25.7 26.9 27.9 38.5 35.8 30.2 28.6
33.1 34.7 45.9 56.8 45.8 25.8 50.2 42.9 46.8 48.9 47.5 48.2 42.5 40.8 27.9
24.8 46.8 40.7 18.9 22.0 29.5 31.9 48.2 34.8 47.2 27.0 39.8 45.8 40.4 38.2
245.6 236.9 240.7 235.9 247.8 246.5 230.8 250.6 248.0 247.4
238.6 240.0 246.9 258.9 245.6 248.5 246.8 245.6 247.8 256.0
243.0 243.3 240.6 250.2 249.6 243.8 246.9 247.8 243.0 246.4
230.5 228.9 235.7 248.9 248.9 245.7 240.8 246.8 246.2 250.0
43Unidad 1 • Estadística dEscriptiva
1.� Gráficas
Las gráficas a las que se hace referencia en estadística descriptiva deben mostrar ladistribucióndelasfrecuenciasofrecuenciasacumuladasdelconjuntodedatos,conlocualsepodráentendereinterpretarfácilmentesucomportamiento.
Portanto,esnecesariointroducirunnuevométodográficoparalainterpretacióndedatos,entrelosgráficosmáscomunesestán
• diagramadebarras• polígonodefrecuencias• diagramacircularodepastel
1.�.1 Diagrama de barras
Unode los gráficosquemás se empleanpara representarunconjuntodedatos es eldiagrama de barras, donde se grafican una serie de rectángulos sobre un sistema dereferencia.Cuandoseconstruyenlosrectángulosconsusbasessobrecadaunodelosintervalosdeclaseyconsusalturaslasfrecuenciascorrespondientesdeclase,elgráficosellamahistograma.
Un histograma es un gráfico de barras utilizado para representar la forma en que están distribuidas las frecuencias; permite identificar el centro y la variabilidad de los datos.
Laconstruccióndehistogramascomienzaprácticamenteigualqueenlasclasesdefrecuencia:
1. Seconstruyenlosintervalosdeclase.2. Seencuentraelpuntomediodecadaintervalodeclase.3. Enelplanocartesiano,enelejedelasabscisas,sedistribuiránlospuntos
mediosdelasclasesdefrecuencia,mientrasqueenelejedelasordenadasse distribuirán las frecuencias de los datos. Finalmente, se construye elhistogramagraficandounabarraporcadaclase,ycuyocentroseráelpuntomediodeésta,detalmaneraquelaalturadelabarraeslafrecuenciaofre-cuenciarelativaylabasedelosrectángulosestádefinidaporloslímitesdecadaclase.
Para facilitar la construcción de un histograma es recomendable emplear sólointervalosdeclasedeiguallongitud,yaqueendadocasolasfrecuenciasdelasclasessegraficandemaneraproporcionalalasalturasdelosrectángulosyademásesmuchomásfácilcompararlasdiferenciasentrefrecuenciascuandolosrectángulostienenlamismabase.
Seconstruyeunhistogramaparalasclasesdefrecuenciaylafrecuenciaacumuladadelejemplo13.
Definición 1.24
Ejemplo 17
44 Estadística y probabilidad
Empleandolatabla1.2:
Segraficanlospuntosmediosdelosintervalos(terceracolumna)ysetrazanlosrectángulosconsusbases igualesa la longituddelaclaseyconlasalturascorrespon-dientesasufrecuencia,comosemuestraenlassiguientesfiguras:
Paralasfrecuenciasrelativaselhistogramaeselmismo,sólosedividecadafrecuenciaentreeltotaldedatos.
Modelos de distribución de datos
Loshistogramasnosólonosayudanaubicarelcentroyvisualizarlavariabilidaddelosdatos,sinotambiénlaformaenquesedistribuyen;portanto,lospodemosclasificaren
• simétricos• sesgadoshacialaizquierdaoladerecha• multimodales
Tabla 1.4
Figura 1.1 a) histogramas para las clases
de frecuencia y b) histogramas para las frecuencias acumuladas.
0
4
87
12
19
15
25 35 45 55 65 75 85 95 105
158
34
19
46
80
61
f
a)
025 35 45 55 65 75 85 95 105
F (x)
b)
Nota
45Unidad 1 • Estadística dEscriptiva
Histogramas simétricos
Presentanladistribuciónenformadecampana,esdecir,lamitadizquierdaesunaimagenreflejadadelamitadderecha.Comomuestralafigura1.2a,secumple x = Md=Mo.
Histogramas sesgados
Presentanunadistribuciónenlaquealgunadelascolasestámásalargadaencomparaciónconlaotra.Sellamansesgados a la derechaopositivamente sesgadossilacoladerechaeslaqueestámásalargada.Comolomuestralafigura1.2b,secumpleMo<Md< x .Selesllamasesgados a la izquierdaonegativamentecuandolacolaizquierdaeslamásalargada.Comolomuestralafigura1.2c,secumple x<Md<Mo.
Histogramas multimodales
Tienenensudistribuciónmásdeunpico(verfigura1.2d).Encasodedospicosbimodal,encasodetres,trimodaletcétera.
Retomandolosdatosdelejemplo13ycomparandolosvalorespromediocalculados x =72,Md=75,Mo=92,elmodeloasociadoconlas80calificacionesdefísicaexperimentalessesgadoalaizquierda.
¿En una distribución de datosqué significa sesgo? ¿Qué forma tienen
los histogramas sesgados?
Figura 1.2Histogramas para las clases de frecuencia
a) simétrico; b) sesgado a la derecha; c) sesgado a la izquierda, y d) multimodal (bimodal).
a) b)
c) d)
Ejemplo 1�
46 Estadística y probabilidad
1.�.2 Polígono de frecuencias
Enciertasáreasdeestudioserequierequelasrepresentacionesgráficasdeladistribuciónde las frecuenciasdedatos seanhechaspor líneasen lugardebarras.Porejemplo,alrealizarunestudiosobrelospronósticosdealgúneventosevisualizamejorladistribucióndesusfrecuenciasysustendenciassiseunensuspuntosmediosconsegmentosrectilíneosenlugardetrazarbarras.
Un polígono de frecuencias es un gráfico de línea que representa las frecuencias de los datos, uniendo por líneas los puntos medios de cada intervalo, donde xi es el punto medio de clase i y fi su frecuencia. Debido a su forma también se le suele llamar gráfico poligonal.
Construcción de un gráfico poligonal
1. Secreanlosintervalosdeclase.2. Seencuentraelpuntomediodecadaintervalodeclase.3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos
mediosdelasclasesdefrecuencia,mientrasqueenelejedelasordenadassedistribuirán las frecuencias de los datos. Finalmente, se construye el gráficopoligonaluniendolospuntosobtenidos.
Seconstruyeunpolígonodefrecuenciasparalasclasesdelejemplo13.Pormediodelatabla1.4,sisegraficanlospuntosobtenidosdelaterceraylacuartacolumnas:
Lospolígonosdefrecuenciaseempleanfrecuentementeenelestudiode las series de tiempo, pues es común querer conocer la tendencia de la distribución de los datosconrespectoaltiempo.Además,enciertassituaciones,cuandosequierencompararlasdistribucionesdedosomásconjuntosdedatos,esmejorhacerlopormediodelospolígonosdefrecuenciasquemediantelasbarras,puestoquelosprimerossepuedensobreponeryrealizarunaobservaciónmuchomejor,loquenoesaplicableconloshistogramas.
Definición 1.25
Ejemplo 1�
Figura 1.3 Polígono de frecuencias.
f
12
478
0
19
15
35 45 55 65 75 85 95
47Unidad 1 • Estadística dEscriptiva
A los polígonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias relativas acumuladas se les llama ojivas.
Seconstruyelaojivaparalasfrecuenciasrelativasacumuladasdelejemplo13.
1.�.3 Diagrama circular o de pastel
Otrotipoderepresentacióngráficadeladistribucióndedatosmuyempleado,cuandosequierenilustrarlasproporcionesdelosdatosdetalformaquellamenlaatención,sonlosdiagramas circulares.
Un diagrama circular es un gráfico que divide en sectores un círculo, los cuales representan las frecuencias relativas del conjunto de datos. Por su forma también se le suele llamar diagrama de pastel.
Construcción de un diagrama circular
1. Secreanlosintervalosdeclase.2. Secalculanlasfrecuenciasrelativasporclase.3. Apartirdelcentrodeuncírculosetrazansectoresproporcionalesaláreaque
representenlafrecuenciarelativaporclase.
Seconstruyeundiagramacircularquerepresenteladistribuciónporclasesdefrecuenciasrelativasparalasestaturas(encentímetros)delasiguientemuestrade50personas.
Definición 1.26
0.4250
0.1875
1
0
0.2375
0.10
0.7625
0.5750
1 2 3 4 5 6 7
Figura 1.4 Ojiva de frecuencias relativas acumuladas.
¿En qué casos graficamos datos con los diagramas circulares?
Definición 1.2�
Ejemplo 21
Ejemplo 20
4� Estadística y probabilidad
Comoson50datosysevanadistribuirensieteclases,primerosecalculaelrangodelconjuntor=186.4–158.4=28
Sequierenobtenersieteclases,portanto,sedivideelrango28entresieteyelresultadoescuatro.Estevalorserálalongituddecadaunadelasclases de frecuencia.Esdecir
[158.4,162.4),[162.4,166.4),[166.4,170.4),[170.4,174.4),[174.4,178.4),[178.4,182.4),[182.4,186.4)
Paraobtenereláreaquerepresentalafrecuenciarelativaeneldigramacircular,semultiplicalafrecuenciarelativapor360°.
Con el avance de la informática y la creación de software, han aumentado lasrepresentacionesgráficasparalasdistribucionesdelosdatos;enestaunidadsólosehanilustradoalgunasdeellas.Acontinuaciónsemencionanotrostiposdediagramas:
• anillos• superficies• cotizaciones• cilíndricas• cónicas• piramidales
Todaséstassepuedenencontrarensoftwareestadísticoparacomputadora.
Tabla 1.5
1224%
918%
24%
24%
510%
816%
1224%
a)
24%
18%4%4%10%
16%
24%
b)
Figura 1.5a) diagrama circular o de pastel
del ejemplo 21 en su forma plana; b) representación tridimensional.
Intervalo i
Clasei
Conteo Frecuenciarelativa
Frecuenciaf i
1 [158.4, 162.4)
[162.4, 166.4)
[166.4, 170.4)
[170.4, 174.4)
[174.4, 178.4)
[178.4, 182.4)
[182.4, 186.4]
2
2
3
4
5
6
7
0.04
0.10
0.16
0.24
0.24
0.18
0.042
9
12
12
8
5