errores y tratamiento estadístico de los datos analíticos

ndiceResumen...............................1Introduccin. 21.4. Errores y tratamiento estadstico de los datos analticos..31.4.1. Concepto y clasificacin de errores..4 1.4.2. Eliminacin y control de errores.71.4.3. Clculo del valor ms probable y lmites de confianza.191.4.4 Criterios estadsticos para rechazo de valores dudosos...211.4.5 T de student y pruebas de significancia...23Bibliografa..28

RESUMEN

Los errores experimentales son responsables de variacin en la prediccin y en la exactitud de los resultados experimentales por eso debemos analizar la importancia del tratamiento estadstico de los datos analticos.Debemos definir los trminos precisin y exactitud y los mtodos para expresarla de igual forma.La precisin y exactitud con la que se determina una variable se refiere a cualidades distintas de su valor. Se dice que una variable fue determinada con exactitud, y su valor vista muy poco del valor verdadero o esperado.En cambio, se dice que una variable fue determinada con precisin, si su valor es altamente reproducible; es decir en una serie de medidas hay muy poca variacin entre los valores determinados para la variable. La exactitud se mide usando el error absoluto o discrepancia porcentual respecto al valor verdadero.

Existen distintas pruebas para el rechazo de informacin dudosa como la prueba Q para poder utilizarla debemos de conocer su criterio al aplicarla en la evaluacin de datos analticos.As como esta debemos de analizar otros mtodos como t de Student y la prueba F como elementos para pruebas de significancia que sirven para la determinacin de las diferencia entre dos medidas mustrales y para la construccin de intervalos de confianza.

INTRODUCCIONComo una ciencia experimental, la qumica analtica es cada da ms cuantitativa, las mediciones (de masa, volumen, potencial elctrico, unidades de absorbencia, etc.) Realizadas en el laboratorio tienen como metas cuantificar los valores para variables que en la naturaleza son continuas lo que implica que dichas mediciones deben estar sujetas a errores; incluso medidas independientes de la misma cantidad, cuando se realizan en condiciones aparentemente idnticas, difieren dentro de ciertos lmites. El anlisis de los datos debe presentarse de manera que sea fcilmente comprensible. Con demasiada frecuencia, el lenguaje puramente estadstico significa poco o nada para los qumicos y bioqumicos; expresiones tales como existe una diferencia significativa puede ser verdadera, pero es demasiado general para ser til.Toda medida fsica est sujeta a un grado de incertidumbre que, en el mejor de los casos, puede ser reducido a un valor aceptable, pero nunca podr eliminarse totalmente. Determinar la magnitud de esta incertidumbre puede ser difcil y requiere de un esfuerzo adicional al de la medicin y de criterio por parte del observador. Existen distintas pruebas que nos pueden ayudar en la comparacin de la hiptesis, para los clculos de los valores ms probables y lmites de confianza as como pruebas para el rechazo de valores dudosos. Cualquier determinacin cuantitativa en la que se exprese un resultado numrico sin el conocimiento de la incertidumbre asociada con l es un dato intil. Por otra parte, un resultado de menor exactitud podr ser de utilidad si se conoce el lmite de error que lo afecta. Es decir, no existen resultados cuantitativos vlidos si no van acompaados de una estimacin de los errores inherentes a ellos. Es esencial conocer los errores experimentales para interpretar adecuadamente el resultado obtenido.Existen varias causas para producir errores estadsticos, segn las causas son clasificadas es errores de muestro y de no muestreos. El error de muestro puede ocurrir en cualquier encuesta sea un censo o una muestra. Estos errores comprenden errores sistemticos y equivocaciones.Los errores de no muestreo se originan en el conjunto de operaciones que se realizan en el proceso de recogida y almacenamiento de informacin. La magnitud del error ajeno al muestreo depende bsicamente del nmero de observaciones registradas.

1.4. ERRORES Y TATAMIENTO ESTADISTICO DE LOS DATOS ANALITICOS

TRATAMIENTO ESTADSTICO DE DATOSEn una serie de determinaciones independientes de una cantidad dada, si los errores determinados se han eliminado efectivamente o corregido, el promedio o la media de los valores numricos obtenidos puede tomarse como el valor ms probable de la serie, y una evaluacin del grado de este valor promedio puede considerarse como una medida del grado de limitacin en que el resultado puede diferir del valor verdadero, desconocido. Esto es, por tanto, una medida de la seguridad del resultado.RECHAZO DE UN RESULTADOEn una serie de medidas similares puede aparecer un resultado que difiere de manera considerable de los otros por estar aparentemente alejado, es decir, presenta una desviacin considerablemente mayor que los dems; surge la tentacin de descartarlo para calcular la media. La nica base cierta para descartar este valor, es saber si al realizar el anlisis alguno anduvo mal en esa determinacin en particular. Por ejemplo, se pudo haber pensado una cantidad diferente anotada, se perdi algo de material durante la etapa de disolucin, o en la transferencia de un recipiente a otro hubo perdida de lquido (se derramo), o se hirvi cuando el procedimiento lo impeda, etc. especial inters debe de ponerse al realizar los clculos para descartar un error numrico. El valor sospechoso puede ser descartado con 90% o 95% de confianza, dependiendo de las exigencias de las normas del departamento de aseguramiento de la calidad de la institucin o empresa.Todas las medidas experimentales son variables, suponiendo que el instrumento de medida sea lo suficiente sensible para detectar el nivel de variabilidad existente. Esta variabilidad es la determinante fundamental de la magnitud de los efectos que pueden ser detectados. A menos que las medidas presenten variabilidad, el experimentador est incapacitado para estimar la magnitud del efecto ms pequeo que puede observar y no puede estimar cuantitativamente la veracidad de una diferencia observada.

Por consiguiente, es conveniente que en cualquier experimento las medidas repetidas sean variables y, naturalmente, que la magnitud de la variacin sea pequea. Nadie puede jactarse de haber obtenido una serie de medidas idnticas.

1.4.1 CONCEPTO Y CLASIFICACION DE ERRORESErrores determinados, indeterminados y grandesTodo resultado contendr algo de error, independientemente de lo cuidados que haya sido la medicin. Los errores se pueden clasificar como indeterminados o determinados, segn su origen. Los errores indeterminados son los que causan una distribucin aleatoria de los datos en torno a un punto medio. A veces se les llama errores aleatorios. En el caso normal se relacionan con el efecto neto de varias fluctuaciones pequeas e impredecibles, que podran no identificarse o eliminarse con facilidad. Errores de este tipo son la causa de baja precisin.

Los errores determinados (o sistemticos) causan, sin embargo, que todos los resultados se desplacen en una direccin. En consecuencia, se corren hacia los valores que son demasiado bajos o demasiado altos. Los errores de este tipo son la causa de la poca exactitud. Tambin puede haber errores de un tercer tipo, llamados errores grandes o gruesos. En el caso normal son grandes, y se deben a que se ha cometido un error de importancia en el mismo procedimiento analtico, invalidando as el resultado. Los errores grandes causan los puntos sospechosos que, bajo ciertas circunstancias, se podrn rechazar para no distorsionar el resto del conjunto de datos.

Los errores indeterminados slo causan dispersin de los datos en torno a un punto medio, que con frecuencia es cercano al valor verdadero. Si se calcula el valor medio de varias medidas replicadas, muchas veces se minimiza el efecto de los errores de esta clase. La magnitud de los errores indeterminados es, con frecuencia, una funcin de la magnitud del resultado; pero ello no necesariamente es cierto. Por otra parte, los errores determinados, desplazan todos los datos en una direccin, todos en la misma cantidad. Por consiguiente, los errores determinados son ms significativos cuando los valores de los datos son pequeos, ya que el porcentaje de error en ese caso aumenta en consecuencia. Un error grande suele hacer que un punto de datos est muy alejado del resto de los datos, y de esta forma se identifica con facilidad.

FUENTES DE ERRORES INDETERMINADOSLos errores indeterminados o aleatorios surgen debido a variaciones pequeas e impredecibles. La fuente del error puede deberse a muchos factores, como error humano, fluctuaciones de temperatura o pequeas diferencias en las cantidades de reactivos usados. Como hay distintas fuentes de error que a veces hacen disminuir o aumentar el resultado, los datos se dispersan en torno al valor verdadero. En algunos casos, dos o ms errores aleatorios se suman y aumentan el valor del dato. En otros, pueden causar una disminucin neta en el valor del dato medido. FUENTES DE ERRORES DETERMINADOSLos errores determinados o sistemticos hacen que todos los datos se desplacen en una direccin. Esos errores tienen, con frecuencia, una magnitud muy parecida. Este comportamiento se debe a que se presenta el mismo tipo de error de esta clase. Imagine una bscula que no est puesta en cero (tarada) antes de hacer la primer determinacin; sta da una indicacin de 0.5g por ejemplo, cuando nada hay en el platillo. Despus, cada masa que se pese ser 0.5g menor que el valor que indica la bscula. Tambin es claro que el error adquiere ms importancia cuando se miden menores cantidades de reactivo. Hay tres fuentes principales de errores determinados, que son: 1. Errores instrumentales 2. Errores de metodologa 3. Errores personales ERRORES INSTRUMENTALES Debidos a la discrepancia entre el valor nominal y el real se corrigen procediendo peridicamente al contraste y aforo del material (calibracin de instrumentos): Contenido y vertido del material volumtrico (especialmente cuando se ha estado sometido a variaciones trmicas: calentar matraces aforados o guardarlos en la nevera) Deriva de las seales en la instrumentacin (desajuste del cero por calentamiento, aparicin de radiacin parasita, etc.) Reactivos conteniendo impurezas Efecto de memoria por la retencin accidental de restos de muestra en el instrumento (dificultad de eliminar vestigios de compuestos poco voltiles en espectrometra de masas, elucin muy lenta de componentes en cromatografa de gases, etc.)

ERRORES DE METODOLOGA Se pueden presentar errores de metodologa cuya causa es que el mtodo que se sigue tiene fallas, o se realiza en forma incorrecta. En este caso, un ejemplo sera el uso de una pipeta de vidrio que tenga la punta rota y que, en consecuencia, no permita retener el pequeo volumen residual de titulacin. La pipeta est calibrada para tener en cuenta ese volumen, y si no se retiene, todos los puntos de equivalencia en la titulacin estarn desplazados por el mismo valor. De forma similar, un alumno puede sacudir con rigor la ltima gota de la pipeta cuando lo indicado es que se retenga; una vez ms, el punto de equivalencia de la titulacin estar desplazado. ERRORES PERSONALES Se relacionan con el juicio personal, en el caso normal. Hay muchos anlisis donde intervienen el hecho de formarse un juicio. Por ejemplo la anotacin de un punto de equivalencia de titulacin a ojo o la estimacin de una indicacin en una escala. Algunas personas podran pasarse en forma consistente de los puntos finales de las titulaciones si son daltnicas, mientras que otras siempre tendern a redondear hacia abajo o hacia arriba la posicin de la aguja respecto a la divisin ms cercana. Son difciles de eliminar los errores de esta clase, ya que todos tenemos prejuicios incorporados, independientemente de los objetivos que tratemos de ser. Tambin es muy fcil tener una idea preconcebida de que resultado se debe obtener antes de hacer realmente un experimento. Tiene especial importancia precaverse de este tipo de errores.

1.4.2. ELIMINACION Y CONTROL DE ERRORESLa consideracin de los errores experimentales Todos los datos contienen cierto grado de incertidumbre, inexactitud y errores asociados. Por consiguiente es imperativo estimarlos de modo que se tomen en cuenta o bien, si se cree que son inaceptables, los datos se puedan rechazar para volver a hacer la medicin. Los mtodos principales para cuantificar y manejar errores implican la aplicacin de una estadstica sencilla. MEDICIONES REPLICADASEn cualquier conjunto de datos siempre se presentan errores, no importa el cuidado con que se haga el anlisis. Por consiguiente se aconseja hacer un anlisis varias veces si es posible, para dar certidumbre de que la prueba produzca una indicacin cierta y vlida.

Si uno o ms anlisis resultan en una cifra que parezca dudosa al compararla con el resto de los datos, se aconseja hacer ms lecturas antes de rechazar los datos dudosos. En este caso el dato dudoso puede ser til para llamar la atencin sobre un proceso que podra conducir a resultados incorrectos. Si el conjunto de datos tiene una dispersin grande de valores, poco correlacionados entre s, la validez de todo el procedimiento analtico se puede poner en duda. En casa caso, tener en cuenta el conjunto total de datos puede ser muy til. La prctica para obtener varios resultados se conoce como obtener medidas replicadas o duplicadas (pueden ser varios duplicados). Los procesos que tienen por objeto vigilar la calidad y fiabilidad de los datos se llaman tcnicas de aseguramiento de la calidad. DISPERSIN DE LOS DATOS La dispersin o intervalo de los datos es la diferencia aritmtica entre los datos mnimo y mximo, para un conjunto de mediciones. Primero deben ordenarse los datos aritmticamente de menor a mayor, y restar el valor menor del mayor.

Ejemplo 1: Una determinacin analtica de Pb en una solucin acuosa se hace con seis replicados, con los resultados siguientes. Determinar la dispersin (o intervalo) de los datos. ppm Pb2+a) 20.1 b) 19.5 c) 20.3 d) 19.7 e) 20.0 f) 19.4 g) 19.6 Solucin La dispersin de los datos describe la diferencia entre el dato (o el punto de dato, es decir, el valor del dato) mximo y el mnimo. El valor mximo corresponde a 20.3 ppm Pb2+ y el mnimo valor, a 19.4 ppm Pb2+. Por consiguiente, la dispersin es (20.3 19.4) ppm Pb2+. La dispersin es de 0.9 ppm Pb2+. LA MEDIALa media de un conjunto de medidas replicadas tambin se llama a veces media aritmtica o promedio; slo son sinnimos del mismo trmino. La media de un conjunto de datos es igual a la suma de todos los valores de los datos, dividida entre la cantidad de mediciones que contiene el conjunto de datos. Se acostumbra usar la letra N para indicar la cantidad total de valores de datos, o de medidas replicadas. Tambin se usa con frecuencia la letra i como subndice, para identificar cada valor de dato; i puede ir de i=1 a i=N. Por lo tanto, si hay cinco valores de datos, i puede ser 1,2,3,4 o 5. La letra griega mayscula sigma (), se usa para indicar la suma de varios datos. En el caso normal, se acompaa a con ndices y subndices, para describir los valores mnimo y mximo de datos que se suman. Entonces por consiguiente, significa que se deben sumar los datos desde su primero (i=1) hasta su ltimo (i=N) valor. Con frecuencia hay varios valores de datos dentro de un conjunto, y en ese caso lo normal es identificar cada valor para evitar confusiones. Si se va a sumar el conjunto de datos x, este hecho puede expresarse como , lo cual quiere decir que se deben sumar todos los datos (i=1 hasta N). En consecuencia, la media de un conjunto de datos (x) ser igual a:

Ejemplo 2: Si se toma el mismo conjunto de datos que para el ejemplo 1, ppm Pb2+. a) 20.1 b) 19.5 c) 20.3 d) 19.7 e) 20.0 f) 19.4 g) 19.6 = 20.1 + 19.5 + 20.3 + 19.7 + 20.0 + 19.4 + 19.6 = 138.6 ppm Si N=7 entonces

LA MEDIANASi un conjunto de datos consiste en una cantidad impar de valores, la mediana es el valor del dato que est a la mitad del conjunto, cuando se ordena por valores aritmticos. Sin embargo, si un conjunto de datos contiene una cantidad par de valores, la mediana es el promedio de los dos valores de los datos que estn a la mitad del conjunto cuando se ordena por valores aritmticos. Ejemplo 3: Si se toma el mismo conjunto de datos, ppm Pb2+. Determinar la mediana. a) 20.1 b) 19.5 c) 20.3 d) 19.7 e) 20.0 f) 19.4 g) 19.6

Se ordenan numricamente los datos a) 19.4 b) 19.5 c) 19.6 d) 19.7 e) 20.0 f) 20.1 g) 20.3 Aritmticamente, el punto medio es 19.7 ppm Pb2+, y en este caso es lo que se busca: la mediana = 19.7 ppm Pb2+. Si el conjunto de datos tiene una cantidad par de valores, se debe dar un paso adicional: Ejemplo 4: Calcular la mediana de los datos que aparecen a continuacin. Los datos siguientes son iguales a los del ejemplo anterior, pero con un valor adicional. Hay ocho (cantidad par de valores), ppm Pb2+. a) 20.1 b) 19.5 c) 20.3 d) 19.7 e) 20.0 f) 19.4 g) 19.6 h) 19.9 Solucin: Se ordenan los datos numricamente Se calcula el promedio de los dos valores de datos que estn a la mitad del conjunto, para determinar la mediana. a) 19.4 b) 19.5 c) 19.6 d) 19.7 e) 19.9 f) 20.0 g) 20.1 h) 20.3 Se determina la mediana de los dos valores de dato que estn a la mitad del conjunto ya ordenado. Estos dos valores se sumen y dividen entre 2 para calcular su promedio, y en consecuencia, la mediana del conjunto de datos:

CUANTIFICACIN DE LOS ERRORES EXPERIMENTALESPrecisin y exactitud son dos trminos que se confunden con frecuencia. La precisin describe la reproducibilidad de los resultados; en otras palabras, lo cerca que estn las mediciones replicadas entre s. La reproducibilidad y, en consecuencia, la precisin del conjunto de datos, se determinan viendo la dispersin de los valores. La precisin del conjunto de datos, se puede evaluar mediante: 1. La desviacin estndar. 2. La desviacin estndar relativa (coeficiente de variacin). 3. La varianza.

Cada uno de estos trminos es una funcin de la dispersin de los datos, la exactitud de los datos, en contraste, describe lo cerca que estn los valores respecto al valor verdadero o aceptado para la medicin. Naturalmente, puede ser que nunca sea posible determinar la exactitud, ya que esto implicara suponer que ya se sabe el valor verdadero, con certeza absoluta. La exactitud de los datos puede ser descrita en funcin del error de los valores. EL ERROR ABSOLUTOEl error absoluto de un sistema es igual a la diferencia entre el valor obtenido xi y el valor verdadero (o aceptado) xy: EL ERROR RELATIVOEl error relativo, Et, describe la diferencia en relacin con la magnitud del valor verdadero y, en consecuencia, puede ser ms til que considerar el error absoluto aislado. En el caso normal, el error relativo se describe en trminos de un porcentaje del valor verdadero, o en milsimos del valor verdadero. Si el error relativo se debe escribir como porcentaje, entonces se puede calcular con la ecuacin siguiente:

En forma parecida, si se va a expresar en partes por mil (o tanto por uno) () del valor verdadero, Er se calcula con la ecuacin siguiente:

Ejemplo 5: Calcular el error relativo, en porcentaje, para un anlisis de hierro que da como resultado 115 ppm de contenido de Fe, si el valor verdadero es 100 ppm. Solucin: Se asigna el valor verdadero xt y xi; a continuacin se calcula el porcentaje de error en el resultado: Xt = 110 ppm de Fe Xi = 115 ppm de Fe

Er puede ser un valor negativo, si el valor medido es menor que el valor verdadero. El signo negativo sirve para indicar que le resultado es bajo. Un valor positivo de Er indica que un resultado es mayor que el valor verdadero.

Ejemplo 6: De nuevo se usan los datos que en el ejemplo anterior, para calcular el error relativo en partes por mil, para un anlisis cuyo resultado es 115 ppm de Fe y el valor verdadero es 110 ppm de contenido de Fe. Solucin: Se asignan los valores de xt, el valor verdadero, y de xi, el valor medido; a continuacin se calcula el error, en el resultado, en partes por mil del valor verdadero.

Xt = 110 ppm de Fe Xi = 115 ppm de Fe

Exactitud y PrecisinSe pueden comparar la exactitud y la precisin, imaginando un tiro al blanco al que disparan varios deportistas. Si un tirador apunta bien, cabe esperar que pegue en el blanco una y otra vez. Este caso es anlogo al de un procedimiento analtico que tiene altos valores de exactitud y precisin.

DESVIACIONES ESTNDARLos errores indeterminados o aleatorios se pueden manejar con normalidad mediante la estadstica. Se debe calcular una desviacin estndar muestral, o de la muestra, para conjuntos de datos de 10 valores o menos; se deben calcular desviaciones estndar poblacionales, o de poblacin, si los conjuntos tienen ms de 10 datos. Las desviaciones estndar tienen las mismas unidades que las mediciones originales; si los anlisis originales producen resultados en partes por milln ppm de Pb, entonces la desviacin estndar tambin se expresar en ppm Pb.

El concepto de desviacin estndar supone una distribucin de datos en torno al valor medio o verdadero; por consiguiente, una desviacin estndar grande corresponde a una gran dispersin de datos. INTERPRETACIN Y APLICACIN La desviacin estndar es una medida del grado de dispersin de los datos del valor promedio. Dicho de otra manera, la desviacin estndar es simplemente el "promedio" o variacin esperada con respecto de la media aritmtica. Una desviacin estndar grande indica que los puntos estn lejos de la media, y una desviacin pequea indica que los datos estn agrupados cerca de la media. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar son 7, 5 y 1, respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces consideramos que las medidas contradicen la teora. Esto es de esperarse, ya que las mediciones caen fuera del rango de valores de los cuales sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar, es uno de tres parmetros de ubicacin central, nos muestra la agrupacin de los datos alrededor de un valor central. DESVIACIN ESTNDAR MUESTRAL La desviacin estndar muestral, s, describe la dispersin de los datos respecto al punto medio de sus valores, para un conjunto de mediciones replicadas. La ecuacin es:

Ejemplo: Aqu se muestra cmo calcular la desviacin estndar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de nios. { 4, 1, 11, 13, 2, 7 }1. Calcular el promedio o media aritmtica.

En este caso, N = 6 porque hay seis datos:

i=nmero de datos para sacar desviacin estndar

2. Calcular la desviacin estndar s

DESVIACIN ESTNDAR POBLACIONAL Cuando un conjunto de datos tiene una cantidad mayor de valores (>10, en el caso tpico), se altera un poco la ecuacin que se usa para calcular la desviacin estndar y es:

Ahora se usa para representar la desviacin estndar de un conjunto grande de datos, y se llama desviacin estndar poblacional. LA VARIANZALa varianza es el cuadrado de la desviacin estndar: Varianza = s2 (para conjuntos de datos con 10 valores)

BIBLIOGRAFIA

Alfonso Clavijo Daz. Fundamentos de qumica analtica: equilibrio inico y anlisis qumico. Universidad Nacional de Colombia, sede Bogot. Primera edicin, 2002.

Carlos Mongay Fernndez. Quimiometria. Universidad de Valencia, 2005.

Neil J. Autor Salkind. Mtodos de investigacin. Prentice Hall Mxico, 1999.

I.Q. Carlos Josu Herrera Guzmn, http://www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r44765.PDF

I.Q. Carlos Josu Herrera Guzmn, http://www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r44766.PDF

28

errores y tratamiento estadístico de los datos analíticos

Documents