microsoft word - data...

113
PRINCIPIOS DE LA CALIDAD DE DATOS Arthur D. Chapman 1 A pesar de que la mayoria de los discípulos del acopio de datos tratan al error como un tema embarazoso que debe suprimirse, el error inherente de los datos [espaciales] merece mayor atención y debe ser entendido por el público …porque el error proporciona el componente crítico al juzgar si los datos son los idóneos para determinado uso. (Chrisman 1991).

Upload: dokhue

Post on 10-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

PRINCIPIOS DELA CALIDAD DE DATOS

Arthur D. Chapman1

A pesar de que la mayoria de los discípulos del acopio de datos tratan al

error como un tema embarazoso que debe suprimirse, el error inherente de los datos

[espaciales] merece mayor atención y debe ser entendido por el público …

porque el error proporciona el componente crítico al juzgar si los datos son los idóneos para determinado uso.

(Chrisman 1991).

1 Australian Biodiversity Information Services PO Box 7491, Toowoomba South, Qld, Australia email: [email protected]

Page 2: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

© 2005, Infraestructura Mundial de Información en Biodiversidad(Global Biodiversity Information Facility)

El contenido de esta publicación es de libre uso, citando la fuente. Para ello se recomienda el siguiente formato:

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the GlobalBiodiversity Information Facility, Copenhagen.

En el año 2004, el programa GBIF DIGIT encargó a Arthur Chapman la elaboración de este documento para resaltar la importancia de la calidad de datos en lo que se refiere a datos primarios de ocurrencia de especies. Lo que sabemos sobre el tema y las herramientas que están disponibles para facilitar el control y limpieza de errores está evolucionando rápidamente. Por ende, consideramos que el presente documento viene a ser un debate interino de los temas tal como se presentan en el año 2004. Es por ello que esperamos que se elaboren futuras versiones del mismo, y agradeceremos se nos haga llegar los comentarios que los proveedores de datos y usuarios puedan tener.

Los comentarios y sugerencias pueden enviarse a:

Larry SpeersSenior Programme OfficerDigitization of Natural History Collections Global Biodiversity Information Facility Universitetsparken 152100 Copenhagen Ø DenmarkE-mail: lsp e ers@gbi f .o r g

así como a:

Arthur ChapmanAustralian Biodiversity Information Services PO Box 7491, Toowoomba South Queensland 4352AustraliaE-mail: [email protected]

Julio de 2005

Portada © Per de Place Bjørn 2005Amata phegea (Linnaeus 1758)

Page 3: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Page i Fecha de publicación:-Julio de 2005-

Contenido

Introducción ………………………………………………………………………….. 1

Definiciones ………………………………………………………………………..…. 3

Principios de la calidad de datos ....…………………………………………….…….. 9

Datos taxonómicos y nomenclaturales ...………………………………………..……. 23

Datos espaciales ………………………………………………………………..…….. 28

El colector y la colección de datos ..……………………………………………..…… 31

Datos descriptivos ………………………………………………………………….… 32

Captura de datos ………………………………………………………………………..… 33

Ingreso y adquisición de datos ……………………………………………………….. 36

Documentación de los datos …………………………………………………………. 39

Almacenamiento de datos ……………………………………………………………. 45

Manejo de datos espaciales …………………………………………………………… 50

Representación y presentación ……………………………………………………… 52

Conclusión ……………………………………………………………………………. 57

Agradecimientos ……………………………………………………………………… 58

Referencias ……………………………………………………………………………. 59

Page 4: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 1 Fecha de publicación:Julio de 2005--

Introducción

QUÉDatos taxonómicos/nomenclaturales

DÓNDEDatos espaciales

QUIÉNDatos de la colección

CUÁNDODatos de la colección

QUÉDatos descriptivos

En los últimos tiempos los principios de la calidad de datos se han convertido en una práctica esencial en áreas como el comercio (SEC 2002), la medicina (Gad y Taulbee 1996), los sistemas de información geográfica (Zhang and Goodchild 2002), la teledetección (Lunetta y Lyon 2004) y muchos otros; pero es sólo ahora que están siendo aceptados universalmente por museos y la comunidad taxonómica. El rápido incremento que se está dando en el intercambio y disponibilidad de datos taxonómicos y de ocurrencia de especies ha hecho que esos principios sean considerados un tema importante de la agenda, pues los usuarios de los datos empiezan a requerir más y más detalle sobre la calidad de esa información. En efecto, hay quienes desde fuera del ámbito de museos generalmente ven como inaceptable la calidad de datos que éstos poseen como para utilizarlos para la toma de decisiones en materia de conservación ambiental. Pero, ¿se debe eso realmente a la calidad de los datos o a la documentación que los acompaña?. Esos datos son de importancia crítica. Por haber sido coleccionados a lo largo del tiempo, los datos proveen una línea base irremplazable sobre diversidad biológica en momentos en que el ser humano ha causado tremendo impacto en esa diversidad (Chapman y Busby 1994). Los datos constituyen un recurso esencial cuando se realiza cualquier esfuerzo por conservar el ambiente, ya que proveen el único registro plenamente documentado de la ocurrencia de especies en áreas que pueden haber pasado por un cambio de hábitat debido a la tala para agricultura, urbanización, cambio climático o haber sido modificadas de alguna otra manera (Chapman 1999).

Estas son algunas de las ideas que tratamos más adelante, y también proponemos principios de calidad de datos que deben ser esenciales en el quehacer de museos y herbarios, ya que ellos ponen sus datos a disposición de toda la comunidad.

La calidad de datos y los errores que puedan contener los datos son temas que con frecuencia no se mencionan con respecto a las bases de datos ambientales, los sistemas de modelación, los sistemas de información geográfica (SIG), los sistemas de apoyo a las decisiones, etc. Con bastante frecuencia se usan los datos sin criterio, sin considerar el error que contienen; y eso puede llevar a resultados erróneos, a información engañosa, a tomar decisiones ambientales poco aconsejables y a incurrir en mayores costos.

Page 5: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 2 Fecha de publicación:Julio de 2005--

No desestimar la simple elegancia que otorga la mejora de la calidad de datos. No se necesitan habilidades especiales que no sean el trabajo en equipo, la capacitación y la disciplina. Todo aquel que quiera puede constituirse en colaborador eficaz.

(Redman 2001).

Los datos de especímenes animales y vegetales que se encuentran en museos y herbarios constituyen un vasto recurso de información, que dan no sólo información al día presente sobre dónde se encuentran esas especies sino también información histórica que se remonta a varios cientos de años. (Chapman y Busby 1994)

Hay muchos principios de calidad de datos que pueden aplicarse cuando se trata con datos de especies y especialmente con los aspectos espaciales de esos datos. Esos principios se aplican a todas las etapas de la gestión de datos. Una pérdida de calidad en cualquiera de esas etapas reduce la aplicación y uso de los datos. Entre ellos tenemos:

La captura y registro de datos al momento de recolectarlos, La manipulación de los datos antes de la digitalización (preparación de la etiqueta, copia de

los datos a un libro mayor, etc., Identificación de la colección (espécimen, observación) y su registro, Digitalización de los datos, Documentación de los datos (captura y creación de los metadatos), Almacenamiento y archivo de los datos, Presentación y diseminación de los datos (publicaciones en papel y publicaciones

electrónicas, bases de datos en red) El uso de los datos (análisis y manipulación)

Todos ellos contribuyen con algo a la calidad final de los datos o ‘aptitud de uso´, y todos se aplican a todos los aspectos de los datos: la parte taxonómica o nomenclatural del dato: el ‘qué’, la porción espacial: el ‘dónde’ y otros datos como los que vienen a ser el ‘quién’ y el ‘cuándo’ (Berendsohn 1997).

Antes de entrar en detalle en el tema de la calidad de datos y su aplicación para los datos de ocurrencia de especies, se debe definir y describir varios conceptos; incluidos el término mismo calidad de datos, los términos exactitud y precisión que con frecuencia son mal aplicados y lo que quiere decir datos primarios de especies y datos de ocurrencia de especies.

Page 6: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 3 Fecha de publicación:Julio de 2005--

DefinicionesDatos de ocurrencia de especiesEn esta publicación el término ‘datos de ocurrencia de especies’ abarca los datos que aparecen en la etiqueta de cada especie o al grupo de ejemplares que se encuentran en museos o herbarios, a los datos observacionales y a los datos de estudios ambientales. En general, los datos son lo que llamamos “basado en un puntos” (point-based), a pesar de estar incluidos los datos de líneas, polígonos y cuadrículas (líneas, como los datos de transectos que se ven en estudios ambientales, colecciones que se presentan a lo largo de un rio; polígonos, como en el caso de observaciones que se hacen dentro de un área definida, como un parque nacional; y cuadrículas, como en el caso de los registros observacionales o registros de estudios desde una cuadrícula regular). En general, estamos hablando de datos georeferenciados; es decir, de registros con referencias geográficas que los vincula a un lugar específico en el espacio, ya sea con una coordenada georeferenciada (e.g. latitud, longitud, UTM) o no (la descripción textual de un lugar, altitud, profundidad), y de datos de tiempo (fecha, hora del día). En general, los datos también están vinculados a un nombre taxonómico, pero también puede incluirse colecciones que no han sido identificadas. En algunas ocasiones al término se le ha visto ser usado indistintamente por el término “datos primarios de especies”.

Datos primarios de especies ‘Los datos primarios de especies son los que se usan para describir los datos crudos de la colección y los datos que carecen de atributos espaciales. En ellos se incluye datos taxonómicos y nomenclaturales sin atributos espaciales; como por ejemplo, nombres, taxones, conceptos taxonómicos sin asociarlos a referencias geográficas.

Exactitud y precisión Los términos exactitud y precisión se confunden con regularidad y la diferencia entre ellos generalmente no se entiende. Esa diferencia se explica mejor a través de ejemplos (figura 1).

La exactitud se refiere a la cercanía a la que se encuentra un valor medido, una observación o cualquier estimado al valor real o verdadero (o a un valor que se ha aceptado como verdadero; por ejemplo, las coordenadas de un punto de control de un estudio); obsérvese la figura 1.

La precisión (o Resolución) puede ser dividida en dos grandes tipos. La precisión estadística, que es la cercanía con la que se ajustan a sí mismas las observaciones que se repiten. No tienen nada que hacer con relación al valor real, y pueden ser de gran precisión, pero de una exactitud baja, como se puede ver en la figura 1a. La precisión numérica se refiere al número de dígitos significativos con el que se registra una observación, y se ha hecho más obvia con el uso de las computadoras. Por ejemplo, una base de datos puede arrojar un registro decimal de latitud/longitud hasta con 10 posiciones decimales; es decir, cerca de .01 mm, cuando en realidad tiene una resolución que no es mayor a 10-100 m (3-4 posiciones decimales). Esto con frecuencia lleva a obtener una impresión falsa de tanto la resolución como de la exactitud.

Ambos términos, exactitud y precisión, pueden también aplicarse a datos no espaciales como a datos espaciales. Por ejemplo, una colección puede contar con especímenes identificados a nivel subespecie (i.e. tener alta precisión), pero el taxón equivocado (i.e. tener baja exactitud), o ser identificados a nivel familia únicamente (alta exactitud, pero baja precisión).

Page 7: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 4 Fecha de publicación:Julio de 2005--

Fig. 1. Apréciese la diferencia entre exactitud y precisión en un contexto espacial. Los puntos rojos muestran la ubicación real, los puntos negros representan la ubicación que ha registrado un colector.

a. Alta precisión, baja exactitud.b. Baja precisión, baja exactitud, con error aleatorioc. Baja precisión, alta exactitud.d. Alta precisión, alta exactitud.

CalidadEl término calidad aplicado a los datos tiene varias definiciones, pero en el mundo geográfico, una definición aceptada en gran medida es aquella que habla de la “aptitud de uso” (Chrisman 1983) o “de uso potencial”. Ésa es la definición que ha sido adoptada por los más modernos estándares de transferencia de datos espaciales (ANZLIC 1996a, USGS 2004). También viene usándose cada vez más en áreas que no se refieren a espacio como en economía y los negocios. Algunos (como English 1999, por ejemplo) creen que la definición “aptitud de uso” es un poco restrictiva y piden una definición que también incluya una aptitud para usos futuros o potenciales.

Fig. 2. Mapa de Tasmania, Australia. Se aprecia un registro (A) recogido con una exactitud de 0.5º (ca. 50 km), como se indica en el círculo. El área de huellas de la posible colección (determinada utilizando el valor de exactitud) se superpone al área del Patrimonio Mundial de Tasmania (Tasmanian World Heritage Area).

Page 8: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 5 Fecha de publicación:Julio de 2005--

Los datos son de gran calidad si son aptos para el propósito que se tiene en mente para las operaciones, toma de decisiones y planificación. (Juran 1964)

En la figura 2 se puede apreciar un ejemplo del uso del concepto “aptitud de uso”. La colección de determinada especie (marcada como ‘A’) tiene una exactitud de 0.5º latitud (ca. 50 km). Si uno está preparando una lista de las especies de Tasmania y quiere saber si esa especie se presenta en Tasmania, entonces el registro es el indicado para contestar esa pregunta; se dirá que la colección es “apto para ese uso” y, por ende, puede considerársela de alta calidad para ese fin. Por otro lado, si se desea saber si esa especie se presenta o no en el área del Patrimonio Mundial de Tasmania, no se puede contestar esa pregunta a partir de ese registro; porque puede ser como no puede ser. Los datos no son “aptos para ese uso”; por tanto, son de baja calidad para ese fin. Los valores para latitud y longitud de la base de datos pueden ser muy precisos y dar la apariencia de tener gran exactitud, y eso puede ser engañoso para el usuario del registro.

Casos similares suceden con componentes no espaciales de los datos, donde una mala identificación, por ejemplo, puede hacer que los datos tengan poco valor y, por ende, no ser “aptos para el propósito”. Si se está estudiando la distribución de una especie (o su fisiología o ecología, etc.), tener un nombre equivocado vinculado al espécimen o la observación puede llevar a obtener resultados engañosos o incorrectos.

La calidad de los datos es multidimensional y supone la gestión de los datos, el modelamiento y el análisis, el control y aseguramiento de la calidad, el almacenamiento y la presentación. Como señalaran independientemente Chrisman (1991) y Strong et at. (1997), la calidad de los datos está relacionada con el uso que se le vaya a dar y no puede ser evaluada sin el usuario. En una base de datos, los datos no tienen una calidad o valor real (Dalcin 2004); solo tienen un valor potencial que llega a materializarse sólo cuando alguien utiliza los datos para hacer algo útil. La calidad de la información se relaciona con su habilidad para satisfacer a sus clientes y para satisfacer sus necesidades (English 1999).

Redman (2001) ha señalado que para que los datos sean aptos para determinado uso, éstos deben ser accesibles, exactos, oportunos, completos, consistentes con otras fuentes, relevantes, completos, dar un nivel adecuado de detalles, ser fáciles de leer y fáciles de interpretar.

Un tema que el custodio de datos quizá necesite considerar es qué debe hacer con la base de datos para incrementar la posibilidad de que sea usada por un público mayor (i.e. elevar su uso potencial o su relevancia); y así hacerla apta para un rango de propósitos más amplio. Habrá que hacer un balance entre esa posibilidad de mayor de uso y el esfuerzo que se necesite desplegar para darle una funcionalidad adicional y una mayor posibilidad de que sea usada. Hacer eso quizá exija cosas como dividir los campos de dato en partes muy pequeñas, añadir información georeferencial, etc.

Aseguramiento de la calidad/ Control de la calidadLa diferencia entre control de la calidad (Quality Control) y aseguramiento de la calidad (Quality Assurance) no siempre es clara. Taulbee (1996) hace la distinción entre control de calidad y aseguramiento de la calidad y subraya que uno no puede existir sin el otro si han de cumplirse los objetivos de calidad. Ella los define como sigue:

Page 9: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 6 Fecha de publicación:Julio de 2005--

• Control de la calidad como un juicio de calidad basado en estándares, procesos y procedimientos internos establecidos para controlar y monitorear la calidad; y

• Aseguramiento de la calidad como un juicio de calidad basado en estándares externos al proceso, y se trata de la revisión de las actividades y procesos del control de calidad para asegurar que los productos finales cumplan los estándares de calidad predeterminados.

Desde un enfoque más orientado a los negocios, Redman (2001) define al Aseguramiento de la calidad como:

“Aquellas actividades que son diseñadas para producir productos de información libres de defectos para satisfacer al menor costo posible las necesidades más importantes de los clientes más importantes”.

Cómo han de aplicarse en la práctica estos términos no es claro, y en la mayoría de los casos, se los usa ampliamente como sinónimos para describir toda la práctica de la gestión de la calidad de datos.

IncertidumbreLa incertidumbre puede pensarse como una “cuánto es lo que uno no conoce o cuánta la información que no se tiene de una cantidad desconocida cuyo valor real podría establecerse si hubiese un dispositivo de medición perfecto” (Cullen y Frey 1999). La incertidumbre es una propiedad de cómo entiende los datos el observador, y tiene que ver más con el observador que con los datos per se. Siempre hay incertidumbre en los datos; la dificultad está en registrar, entender y divisar esa incertidumbre para que otros también puedan entenderla. La incertidumbre es un término clave para entender el riesgo y la evaluación del riesgo.

ErrorEl error abarca tanto la imprecisión de los datos como sus inexactitudes. Hay muchos factores que contribuyen a que se dé un error.

El punto de vista común del error y la incertidumbre es que son malos. Pero eso no es así necesariamente, porque puede ser útil saber cómo ocurren los errores y las incertidumbres, cómo se los puede manejar y posiblemente reducir… Entender bien los errores y cómo se propagan es conducirse hacia un control de calidad activo” (Burrough y McDonnell 1998).

A los errores se los ve generalmente como esporádicos o sistemáticos. El error aleatorio tiende a referirse a una desviación del estado verdadero de manera fortuita. El error sistemático o sesgo se origina en un cambio uniforme en los valores y a veces en el mundo cartográfico se le describe como que tiene una ‘exactitud relativa’ (Chrisman 1991). Al determinar si hay una ‘aptitud de uso’, el error sistemático puede ser aceptable para algunas aplicaciones y no apropiado para otras. Un ejemplo puede ser el uso de un dato geodésico1 diferente; que si se usa en todo un análisis quizá no cause ningún problema mayor. Pero sí surgen problemas ahí donde un análisis utiliza datos de diferentes fuentes con sesgos diferentes; por ejemplo, fuentes de datos que usan diferentes datos geodésicos o los casos en que la identificación de especímenes puede haberse llevado a cabo usando una versión anterior de un código de nomenclatura.

“Como no se puede escapar al error, éste debe ser reconocido como una dimensión fundamental de los datos” (Chrisman 1991). Sólo cuando se incluye el error en la representación de los datos es posible contestar preguntas con respecto a la limitación que tienen éstos e incluso las limitaciones

1 Datos geográficos diferentes pueden conducir a cambios sistemáticos en la posición real (de una coordenada de latitud/longitud) de hasta aproximadamente 400 metros en algunas partes de la tierra,

Page 10: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 7 Fecha de publicación:Julio de 2005--

del conocimiento actual. Los errores conocidos tienen que medirse, calcularse, registrarse y documentarse en las tres dimensiones de espacio, atributo y tiempo.

Validación y limpieza La validación es un proceso que se sigue para determinar si los datos son inexactos, si están incompletos o si no son aceptables. En el proceso se puede verificar el formato, verificar si están completos, si son aceptables, verificar límites, revisar los datos para identificar valores extremos (geográficos, estadísticos, temporales o ambientales) u otros errores y hacer una evaluación de los datos con expertos en la materia (e.g. especialistas en taxonomía). Estos procesos normalmente terminan señalando, documentando y verificando posteriormente los registros en cuestión. En los controles de validación también se puede verificar el cumplimiento de estándares, reglamentos y convenciones que se apliquen. Una etapa clave en la validación y limpieza de datos es identificar las causas raíz de los errores que se detectan y concentrarse en prevenir que vuelvan a ocurrir (Redman 2001).

La limpieza de datos (data cleaning) se refiere al proceso de “arreglar” los errores que se han identificado en los datos durante el proceso de validación. El término es sinónimo de “limpia de datos” (data cleansing), pese a que algunos usan el término limpia de datos (data cleansing) para referirse tanto a la validación de datos como a la limpieza de datos. Es importante que en el proceso de limpieza de datos los datos no se pierdan inadvertidamente y que los cambios en la información existente se lleven a cabo cuidadosamente. Con frecuencia siempre es mejor retener los datos viejos (dato original) y los nuevos datos (dato corregido) uno al lado del otro en la base de datos para poder recuperar la información original en caso de que se cometan errores en el proceso de limpieza.

En los últimos años se han elaborado un número de herramientas y guías que sirven de ayuda en el proceso de validación de datos y limpieza de datos de datos de especies. De ellos se tratará en el documento Principios y Métodos de la Limpieza de Datos de esta misma serie. El proceso de limpieza de datos manual es laborioso y exige tiempo, y es en sí mismo susceptible a errores (Maletic y Marcus 2000).

El marco general de una limpieza de datos (según Maletic y Marcus 2000) es como sigue: Definir y determinar los tipos de error Buscar e identificar los errores Corregir los errores Documentar las veces que ocurrió el error y los tipos de error Modificar los procedimientos para el ingreso de datos con el fin de reducir errores en el

futuro.

Veracidad del etiquetadoLa veracidad del etiquetado se entiende normalmente como la documentación de la calidad de los bienes y productos que se venden o se ponen a disposición de terceras partes. En lo que se refiere a datos de ocurrencia de especies, ésta normalmente consistirá en metadatos, siempre que éstos documenten plenamente aspectos de calidad, procedimientos y métodos de control de calidad y/o medidas estadísticas de calidad relevantes a los datos. La veracidad en el etiquetado es una función primaria que lleva a la certificación y acreditación ahí donde sean apropiadas. La mayoría de

Page 11: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 8 Fecha de publicación:Julio de 2005--

Determinar qué es lo que necesita el usuario es difícil y resulta siendo un trabajo arduo. Pero no hay cosa que lo reemplace y las recompensas por hacerlo son grandes.

museos y herbarios ya hacen esto con respecto a la información sobre el experto y la fecha en la que se realizó la identificación del espécimen (información sobre el responsable de la identificación), pero esto rara vez se extiende a otro tipo de información del registro o con datos observacionales y datos de estudio que no cuentan con especímenes de referencia.

Usuario(s)¿Quienes son los usuarios?. Son usuarios de los datos todos los que estén en todas las fases de la cadena de información (figura 3). Cuando se trata de datos primarios de especies, se encuentran entre los usuarios internos a los taxónomos, administradores, investigadores, técnicos, colectores; así como a los usuarios externos y de otras esferas como hacedores de política y tomadores de decisión, científicos, agricultores, forestales, horticultores, gerentes ambientales, las ONG (ambientales o de producción), profesionales de las ciencias médicas, farmacólogos, profesionales de la industria, guardianes de zoológicos y jardines botánicos, el público en general (incluyendo a jardineros) y a los usuarios de la comunidad. Los datos de ocurrencia de especies tienen un sinfín de usuarios y abarcan a prácticamente toda la comunidad de una u otra forma.

Datos primarios de especies con frecuencia se han recogido sin tener en mente a la amplia comunidad de usuarios. Tradicionalmente, los datos, especialmente los datos de museos y herbarios, se han recolectado con el principal propósito de proveer información a la investigación taxonómica o biogeográfica. Ése ha sido un proceso esencial; pero en el mundo de hoy, quienes financian esas instituciones, a menudo instituciones gubernamentales, están buscando que su inversión tenga un mayor retorno, y con ello que los datos tengan un mayor valor, poniéndolos a disponibilidad para que se le dé otros usos. En particular, los gobiernos están buscando utilizar los datos para mejorar la toma de decisiones en el ámbito ambiental, para las gestiones ambientales y la planificación en conservación (Chapman y Busby 1994); y los curadores de estos datos no pueden ignorar a esos usuarios o a sus necesidades. Implantando buenos mecanismos de retroalimentación, el usuario puede dar su parecer sobre la calidad de los datos y así convertirse en un importante enlace en la cadena de calidad de datos, como se verá más adelante.

Page 12: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 9 Fecha de publicación:Julio de 2005--

Empiécese no por llevar a cabo actividades de “limpieza de datos” no planificadas, no coordinadas y nada sistemáticas sino por establecer una visión para los datos, desarrollar una política de datos e implementar una estrategia.

Principios de la calidad de datos

La experiencia nos dice que tratar a los datos como si fueran activos de largo plazo y manejarlos dentro de un marco coordinado genera ahorros considerables y un valor constante (NLWRA 2003).

Los principios de la calidad de datos tienen que aplicarse en todas las etapas del proceso de gestión de datos (en la captura, la digitalización, el almacenamiento, el análisis, la presentación y el uso). Hay dos claves para mejorar la calidad de los datos; ellas son: la prevención y la corrección. La prevención de errores se relaciona estrechamente con la recolección de datos y el ingreso de éstos a una base de datos. A pesar de que se pueden y deben realizar esfuerzos considerables para prevenir los errores; el hecho es que con conjuntos de datos extensos, los errores van a seguir existiendo (Maletic y Marcus 2000), y la validación y corrección de datos no se puede ignorar.

Se considera que la prevención de errores es muy superior a la detección de errores, ya que la detección es con frecuencia costosa y nunca puede garantizarse un éxito del 100% (Dalcin 2004). La detección de errores, no obstante, desempeña un papel particularmente importante cuando se trata de colecciones legado (Chapman y Busby 1994, English 1999, Dalcin 2004), tal es el caso de muchos de los datos primarios de especies y de ocurrencia de especies a los que nos referimos en este documento.

La visiónEs importante que las organizaciones desarrollen una vision para contar con datos de buena calidad. Esto se aplica especialmente a las organizaciones que pretenden poner sus datos a disponibilidad de terceros. Tener una buena visión de lo que debe ser un dato de calidad normalmente realzará la visión de toda la organización (Redman 2001) y mejorará los procedimientos operacionales de la organización. Al desarrollar una visión, el gestor debe concentrarse en alcanzar un marco de gestión integrado en el que el liderazgo, la gente, las computadoras (hardware), las aplicaciones (software), el control de calidad y los datos se junten con las herramientas, directrices y estándares apropiados para mantener los datos y convertirlos en productos de información de calidad (NLWRA 2003).

Una vision de calidad de datos: fuerza a una organización a pensar en cuáles son sus datos de largo plazo y cuáles sus

necesidades en el aspecto informático y la relación de éstas con el éxito a largo plazo de la organización.

motiva a realizar acciones que vayan en la dirección correcta; es decir, hacia la calidad. brinda una base sólida para la toma de decisiones tanto dentro de la organización como fuera

de ella. formaliza el reconocimiento de los datos y la información como elementos que constituyen

activos centrales de la organización. maximiza el uso de los datos y la información de la organización, evita la duplicación,

facilita las asociaciones y mejora la equidad de acceso, y maximiza la integración y la interoperabilidad.

Page 13: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 10 Fecha de publicación:Julio de 2005--

La políticaAsí como se necesita una visión, una organización necesita una política para implementar esa vision. Una política de calidad de datos racional probablemente:

fuerce a la organización a pensar más ampliamente en lo que es calidad y que vuelva a examinar sus prácticas del día a día;

formalice los procesos de gestión de datos; ayude a la organización a tener sus objetivos más claros con respecto a:

o la reducción de costos,o la mejora de la calidad de los datos,o la mejora del servicio y relación con el cliente yo la mejora del proceso de toma de decisiones;

brinde a los usuarios confianza y estabilidad cuando éstos accedan y usen los datos que salen de la organización;

mejore las relaciones y la comunicación con los clientes de la organización (tanto los provedores de datos como los usuarios de los datos);

mejore la reputación de la organización en la comunidad entera y mejore la oportunidad de conseguir mejor financiamiento a medida que se vayan acercando a

las metas en cuanto a mejores prácticas.

La estrategiaPor la gran cantidad de datos que tienen las grandes instituciones, hay la necesidad de desarrollar una estrategia para capturar datos y verificarlos (ver también más adelante el acápite Priorizar). Una buena estrategia por seguir (tanto para el ingreso de datos como para el control de calidad) es establecer objetivos a corto plazo, a mediano plazo y a largo plazo. Por ejemplo (según Chapman y Busby 1994):

A corto plazo. Datos que pueden juntarse y verificarse en un período de 6 a 12 meses (normalmente se trata de los datos que ya están en una base de datos y de datos nuevos que requieren menos controles de calidad).

A mediano plazo. Datos que pueden ingresarse a una base de datos en un periodo de 18 meses, haciendo sólo una pequeña inversión de recursos y datos que pueden ser verificados en cuanto a su calidad utilizando métodos internos simples.

A largo plazo. Datos que pueden ingresarse y/o verificarse en un marco de tiempo más largo, valiéndose de acuerdos de colaboración, métodos de verificación más sofisticados, etc. Puede suponer trabajar sistemáticamente con la colección, seleccionando:

o Grupos taxonómicos que han sido revisados recientemente o que están pasando por un estudio taxonómico dentro de la institución.

O Colecciones importantes (tipos, colecciones de referencia especiales, etc.)o Grupos clave (familias importantes, taxones de importancia nacional, taxones que se

encuentran en la lista de especies amenazadas, taxones de importancia ecológica/ambiental).

o Taxones de regiones geográficas clave (e.g. de países en desarrollo con el objetivo de compartir los datos con países de origen, áreas geográficas de importancia para la institución).

o Taxones que forman parte de acuerdos de colaboración con otras instituciones (e.g. un acuerdo para llevar a una base de datos los mismos taxones en una gama de instituciones).

O Moverse sistemáticamente a través de la colección de principio a fin.O Adquisiciones recientes, prefiriéndolas a las colecciones que están acumulándose sin

procesar.

Page 14: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 11 Fecha de publicación:Julio de 2005--

Entre los principios de una buena gestión de datos que deberían incluirse en una estrategia se encuentran (según NLWRA 2003):

No reinventar la rueda de la gestión de la información. Buscar los puntos eficientes en los procedimientos de colección de datos y control de datos. Compartir los datos de información y herramientas cuando sea posible. Utilizar estándares existentes o desarrollar nuevos y robustos estándares juntamente con otros

estándares. Fomentar el desarrollo de redes y asociaciones. Presentarse a sí misma como un caso robusto de la colección y gestión de datos. Reducir la duplicidad en la colección de datos y en el control de calidad de los datos. Ver más allá del uso inmediato y examinar los requerimientos de los usuarios. Asegurar que se implementen buenos procedimientos de documentación y metadatos.

Prevenir es mejor que curarEl costo de ingresar una colección a una base de datos puede ser sustancial (Armstrong 1992), pero se trata de sólo una fracción del costo de verificar y corregir los datos en una fecha posterior. Es mejor prevenir los errores que curarlos después (Redman 2001), y es de lejos la opción más barata. El hacer correcciones retrospectivas también puede significar que el dato incorrecto ya haya sido utilizado en un número de análisis antes de ser corregido, lo que lleva a terceros a incurrir en costos por haber tomado decisiones sobre la base de datos erróneos o el costo de tener que volver a hacer el análisis.

La prevención de errores no hace nada por los errores que ya están en la base de datos; no obstante, la validación y limpieza sigue siendo una parte importante del proceso de calidad de datos. El proceso de limpieza es importante para identificar la causa de los errores que ya están en la base de datos y debe entonces conducir a adoptar procedimientos que aseguren que no se repitan esos errores. Pero la limpieza no debe darse aisladamente sino los problemas nunca desaparecerán. Las dos operaciones, limpieza de datos y prevención de errores, deben darse a la par. Decidir limpiar los datos primero y preocuparse luego de la prevención normalmente significa que esta última nunca se lleva a cabo satisfactoriamente; entretanto, se siguen llevando más y más errores a la base de datos.

Fig. 3. Cadena de gestión de la información, en la que se aprecia que el costo de corregir errores aumenta a medida que se va avanzando en la cadena. Una buena documentación, educación y capacitación son integrales en todas las etapas.

Page 15: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 12 Fecha de publicación:Julio de 2005--

Señalar la responsabilidad por la calidad de los datos a aquellos que los crean. Si ello no es posible, asignar responsabilidad en la etapa más cercana posible a la creación de datos. (Redman 2001)

Fig. 4. El ciclo de gestión de la calidad total de los datos, en la que se aprecia la naturaleza cíclica del proceso de gestión de datos (según Wang 1998).

El custodio y el propietario de los datos (instituciones individuales como museos y herbarios) son responsables en gran medida por la calidad de sus datos. No obstante, aquellos que proveen los datos y quienes los usan tienen también responsabilidad.

La responsabilidad principal recae en el colector La responsabilidad principal de la gestión de la calidad de datos recae en el colector de los datos. Es su responsabilidad asegurarse de que:

la información de la etiqueta sea la correcta, se registre y documente con exactitud la información de la etiqueta, la información respecto a la ubicación sea lo más exacta posible y que se

documenten tanto la exactitud como la precisión, se documenten completamente las metodologías de recolección, la etiqueta o las notas de campo sean claras y no ambiguas, y la información de la etiqueta sea legible y pueda ser leída por los operadores.

Si la información que aparece en la etiqueta o en el libro de notas del colector no es clara y exacta, entonces se hace sumamente difícil corregirla en forma retrospectiva. Lo anterior es menos importante con respecto a la parte taxonómica de los datos en los casos en donde se retienen colecciones de vouchers, como puede y suele hacerse para ser verificadas por expertos posteriormente.

También es importante que se tome nota de la ubicación y la información subsidiaria al momento de la recolección o de la observación y no dejarlas para el final del día o hasta que se regrese al laboratorio, como frecuentemente se hacía en el pasado.

Page 16: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 13 Fecha de publicación:Julio de 2005--

La mayoría de los datos llega a una organización a través de ‘proveedores’, y es mucho más fácil desarrollar buenas prácticas de recolección de datos que corregir errores en etapas posteriores.

Ser propietario y custodio de datos no solo confiere el derecho a gestionar y controlar el acceso a los datos, confiere responsabilidades para con su gestión, control de calidad y mantenimiento. El custodio también tiene la responsabilidad moral de supervisar los datos para que sean usados por las futuras generaciones.

El custodio o el curador tiene la responsabilidad central o de largo plazoEl custodio (o administrador) de los datos (museo, herbario, universidad, institución de conservación, ONG o individuo privado) tiene la responsabilidad a largo plazo de mantener y mejorar la calidad de los datos durante todo el tiempo que sea él responsable de los datos (véase en Olivieri et al. 1995, p. 623, por ejemplo, una lista de las responsabilidades que tiene el custodio). Es importante que la organización custodio asigne responsabilidad principal por la gestión de la calidad de datos dentro de la organización, pero también resulta esencial que ella tenga una cultura de calidad de datos, por virtud de la cual todos los individuos de la organización sepan que tienen su parte que cumplir en la responsabilidad de la calidad de los datos que maneja la organización. Es responsabilidad del custodio asegurar que:

los datos se transcriban a la base de datos correcta y exactamente a partir de las notas del colector,

se implemente y ejerzan los procedimientos de control de calidad durante la captura de datos,

los datos y la calidad de datos se documenten adecuadamente y con exactitud, en los datos las verificaciones de validación se lleven a cabo rutinariamente, las verificaciones de validación que se realicen se documenten plenamente, los datos se almacenen y archiven adecuadamente (véase más adelante las notas sobre

almacenamiento), las versiones más antiguas se almacenen sistemáticamente para que puedan hacerse

comparaciones y poder regresar a datos ‘sin limpiar’, se mantenga la integridad de los datos, los datos se pongan a disposición oportunamente y con exactitud, con documentación que

permita al usuario determinar “la aptitud de uso”, se mantenga la responsabilidad que tiene el custodio en cuanto a privacidad,

derechos de propiedad intelectual, derechos de autor y susceptibilidad de propietarios tradicionales/indígenas,

se mantengan las condiciones de uso de los datos y se pongan éstas a disposición junto con cualquier restricción sobre su uso y las áreas conocidas para las que los datos no son apropiados,

se honren y cumplan todos los requerimientos legales con respecto a los datos, se maneje de manera oportuna la respuesta de los usuarios (retroalimentación) sobre la

calidad de los datos, se mantenga la calidad de los datos en el nivel más alto todo el tiempo, se documenten todos los errores conocidos y se los dé a conocer a los usuarios.

Page 17: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 14 Fecha de publicación:Julio de 2005--

El usuario y el colector desempeñan papeles importantes para ayudar a los custodios a mantener la calidad de los datos de las colecciones, y ambos tienen un interés personal en que los datos sean de la mayor calidad posible.

La suya no es la única organización que está viendo el tema calidad de datos.

Responsabilidad del usuarioEl usuario de los datos también tiene una responsabilidad para con la calidad de los datos. Tiene que dar al custodio información sobre cualquier error u omisión que haya observado, cualquier error en la documentación de los datos y sobre cualquier cosa que quiera o necesite que se registre en el futuro, etc. Con frecuencia es el usuario quien al ver los datos en un contexto en donde hay otros datos identifica errores y valores extremos que de otra manera pasarían inadvertidos. Un museo puede tener sólo un subconjunto del total de datos disponibles (de un Estado o de una región, por ejemplo), y es únicamente cuando se juntan los datos con datos de otras fuentes que los errores se hacen obvios.

Dependiendo de los fines que tenga la colección de datos en determinada institución, el usuario también puede tener valiosos aportes que hacer con el fin de ayudar en el establecimiento de prioridades a futuro en lo que se refiere a la recolección y validación de datos (Olivieri et al. 1995).

El usuario también tiene la responsabilidad de determinar la aptitud de los datos para el uso que les va a dar y de no usarlos de manera inapropiada.

Las asociacionesEstablecer asociaciones para el mantenimiento de la calidad de los datos puede resultar ser una medida gratificante y ahorrativa. Y eso es especialmente así cuando se trata de museos y herbarios en donde los registros que están duplicados con frecuencia se distribuyen entre un número de museos. Muchas bibliotecas hacen uso de alguna forma de colaboración y asociación para mejorar la catalogación de los materiales de biblioteca (Library of Congress 2004), y los museos y herbarios fácilmente podrían operar de manera similar. Asociaciones de ese tipo y acuerdos de colaboración podrían establecerse con:

importantes recolectores de datos (con el fin de mejorar el flujo de información; por ejemplo, desarrollando formularios estándar para la recolección de datos y reportes, provisión de GPS, etc.),

otras instituciones que tienen datos similares (e.g. colecciones duplicadas), instituciones similares cuyas necesidades en cuanto a la calidad de datos sean

parecidas y que puedan estar desarrollando métodos de control, herramientas, estándares y procedimientos de calidad de datos,

agentes clave de datos (como el GBIF) que desempeñan un papel al cotejar y distribuir información de un número de proveedores de datos,

usuarios de los datos (especialmente aquellos que pueden realizar pruebas de validación a los datos durante el análisis o antes de que éste se lleve a cabo),

estadísticos y auditores de datos que quizá puedan mejorar las metodologías para manejar datos, flujos de datos y técnicas de calidad de datos.

Page 18: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 15 Fecha de publicación:Julio de 2005--

No todos los datos se crean por igual, concentrarse entonces en los más importantes, y si se necesita hacer una limpieza, asegurarse de que ésta nunca tenga que repetirse.

PriorizarPara hacer que los datos sean del más alto valor para el mayor número de usuarios en el menor tiempo posible puede ser necesario priorizar la captura y/o la validación de datos (ver también lo que se anota al respecto más adelante en el acápite Compleción). Para ello puede ser necesario lo siguiente:

centrarse primero en los datos más apremiantes, concentrarse en unidades discretas (taxonómicas, geográficas, etc), priorizar en los tipos de espécimen y especímenes de referencia importantes, ignorar datos que no se usan o aquellos a los que no se puede garantizar calidad (i.e.

registros cuya información georeferencial es deficiente; empero manténgase en mente la importancia que tienen algunos datos históricos mal georeferenciados),

considerar los datos que son de un valor más amplio, los que tienen el mayor beneficio para la mayoría de usuarios y los que son de valor para la mayor diversidad de usos,

trabajar en aquellas áreas en donde se pueda limpiar muchos datos al menor costo (e.g. usando procesamiento por lotes).

CompleciónLas organizaciones deben procurar que los datos estén completos (o de las unidades discretas a través de la priorización; por ejemplo, una categoría taxonómica, una región, etc.) para que todos los registros que puedan utilizarse sean utilizados al compilar los datos. Es mejor completar los datos de una unidad discreta y ponerla a disposición que tener disponibles muchos datos incompletos, ya que los análisis que se realizan con datos incompletos no son exhaustivos. También es importante que junto con una política para completar los datos se tenga una política de datos faltantes que defina el umbral de los datos que faltan y sus respuestas correspondientes (véase más adelante la sección Documentación).

Vigencia y actualidadHay tres factores relacionados a la actualidad o vigencia de los datos:

¿Cuál fue el periodo en el que se recogieron los datos ¿Cuándo fue la última vez que se actualizaron los datos para que se reflejen los cambios del

mundo real? ¿Por cuánto tiempo se cree se mantengan vigentes los datos?

La vigencia de los datos es un tema que abordan los usuarios con frecuencia. Muchos custodios de datos tienden a usar la palabra vigencia para referirse al período en el que originalmente se recogieron los datos o se levantaron en estudios. Por la demora entre la recolección y la publicación (que cuando se trata de datos biológicos puede ser un tiempo sumamente largo), la información publicada es una representación de ‘lo que fue’ y no de ‘lo que es’. La mayoría de usuarios de datos de biodiversidad están conscientes de esto, y eso da forma a uno de los valores de este tipo de datos y es lo que los hace tan diferentes a los demás.

Page 19: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 16 Fecha de publicación:Julio de 2005--

En la jerga de gestión de la calidad de datos, la palabra vigencia se usa con más frecuencia en el contexto de un período para los datos que puede conocérsele como ‘consumir antes de’ (a veces también llamado ‘actualidad’); y podría relacionarse a cuándo fue la última vez que se verificó y/o se actualizó el dato. Lo anterior resulta especialmente relevante cuando se trata de los nombres que se fijan a los datos. ¿Cuándo fueron actualizados por última vez, y están en concordancia con la última taxonomía?. Cuando se siguen las reglas taxonómicas de nomenclatura modernas, si una especie está dividida en un número de taxones menores, uno de esos taxones pequeños retiene el nombre del concepto más amplio. Para un usuario puede ser importante saber si el nombre que se está usando se refiere al concepto más amplio o al más reducido. La vigencia puede usarse como equivalente a una fecha “consumir antes de”, similar a la que se pone a los productos alimenticios; fecha después de la cual el custodio no garantiza la información nomenclatural que se ha fijado al registro.

También puede darse el caso en que para muchos conjuntos de datos, la actualidad y vigencia no son relevantes o tienen la posibilidad de ser incluidas o mantenidas. Esto puede ser así con colecciones extensas de museos o herbarios, por ejemplo. Por otro lado, puede ser importante para datos de observación o de estudio, ahí donde no existan especímenes de referencia o donde no se hayan actualizado los datos, ajustándolos a las últimas revisiones taxonómicas. También es tema importante en colecciones secundarias, incluyendo las colecciones que una institución externa haya juntado, tomándolas de un número de instituciones. Un ejemplo puede ser el caso en el que varias instituciones de países en desarrollo ponen sus datos a disposición de una institución hospedera para que éstos sean llevados al portal del GBIF y que no se presentan activos desde la base de datos.

Frecuencia de las actualizacionesLa frecuencia de actualización de los datos de un conjunto de datos está relacionada con la vigencia y la actualidad y tiene que formalizarse y documentarse. Aquí se incluye la adición de nuevos datos, así como la frecuencia con la que se liberan los datos corregidos. Ambos tienen un efecto en la calidad de los datos y son, por tanto, importantes para el usuario. Un usuario no desea pasar por el trabajo de descargar o pedir un conjunto de datos si éstos están por ser actualizados o mejorados.

ConsistenciaRedman (1996) reconoce dos aspectos del concepto consistencia: Consistencia semantica; donde la visión de los datos debe ser clara no ambigua y consistente; y consistencia estructural, en la que los tipos y atributos de la entidad deben tener la misma estructura básica y formato. Un ejemplo simple de consistencia semántica es aquel en donde los datos siempre están en los mismos campos, y por eso son fáciles de encontrar. Por ejemplo, se usan campos separados para rango infraespecífico y para el nombre de la infraespecie; de modo que siempre resulta claro que el campo del nombre de la infraespecie contiene sólo un nombre o epíteto (ver cuadro 2) y no está mezclado, dejando ver algunas veces sólo un nombre y otras un prefijo “var.” o “subsp.”, seguido del nombre, etc. (ver cuadro 1).

Género Especie InfraespecieEucalyptus globulus subsp. bicostataEucalyptus globulus Bicostata

Cuadro 1. Apréciese la inconsistencia semantica en el campo Infraespecies

Género Especie Rango Infraesp. InfraespecieEucalyptus globulus subsp. bicostataEucalyptus globulus bicostata

Cuadro 2. Apréciese la consistencia semántica en el campo Infraespecies, gracias a la adición de un segundo campo denominado ‘Rango Infraespecie’

Page 20: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 17 Fecha de publicación:Julio de 2005--

Una base de datos con un buen diseño relacional no permitiría que ocurrieran cosas así; sin embargo, hay muchas bases de datos de instituciones de colección que no están tan bien diseñadas.

La consistencia estructural ocurre cuando hay consistencia dentro de un campo. Por ejemplo, el campo “Rango Infraesp” (Cuadro 2) siempre tendría registrada la palabra subespecie de la misma manera, no como “subsp.” algunas veces, otras como “ssp.”, “subspecies”, “subspec.”, “sspecies”, etc. Esto puede evitarse con un buen diseño en la base de datos con atributos bien estructurados.

La consistencia tanto en los métodos como en la documentación es importante ya que permite al usuario saber cuáles han sido las pruebas que se han llevado a cabo y cómo se han llevado a cabo, dónde encontrar la información y cómo interpretar información importante. La consistencia, no obstante, necesita estar balanceada con flexibilidad (Redman 2001).

FlexibilidadEl custodio de datos tiene que mantener flexibilidad en los métodos de control de calidad de datos que aplica, ya que a pesar de que muchos de los datos biológicos son similares por naturaleza, los diferentes enfoques en cuanto a calidad de datos que hay pueden ser apropiados cuando se manejan datos que vienen de diferentes regiones (por ejemplo, qué conjuntos de datos asociados están disponibles para contrastar los datos), de grupos taxonómicos diferentes (organismos acuáticos versus organismos terrestres, etc.) o para métodos diferentes de captura de datos (observacional o registros de estudios versus colecciones de museo con vouchers.

Las opiniones taxonómicas son en realidad hipótesis, y las distintas (válidas) opiniones taxonómicas (hipótesis) pueden hacer que el mismo organismo sea clasificado en forma diferente por diferentes taxónomos, y así tener uno o más de un nombre alternativo; cada uno de los cuales puede ser igualmente válido (Pullan et al. 2000, Knapp et al. 2004). Un ejemplo es el caso en que dos taxónomos no están de acuerdo sobre dónde colocar a un taxón dentro de géneros diferentes. Por ejemplo, algunos taxónomos colocan a ciertas especies en el género Eucalyptus, mientras otros creen que pertenece al género Corymbia. En la práctica, y especialmente en zoología, se acepta el punto de vista del revisor más reciente, a menos que exista una buena razón para rechazar ese punto de vista.

La flexibilidad hace que se tenga la capacidad de cambiar un punto de vista con el fin de ajustarse a nuevas exigencias. Los últimos trabajos del Grupo de Trabajo de Bases de Datos Taxonómicas (TDWG, por sus siglas en inglés) y otros trabajos2 se han centrado en estructuras de bases de datos que pemiten se presenten estos conceptos alternos (Berendsohn1997); y, a pesar de que a simple vista una flexibilidad de esta naturaleza parece disminuir la calidad, en realidad, permite al usuario tener mayor flexibilidad para determinar la aptitud de uso, y en casos así, tal vez pueda estarse incrementando la calidad percibida.

TransparenciaLa transparencia es importante porque mejora la confianza que tienen en la evaluación aquellos que utilizan los datos. Transparencia significa asegurarse de que no se escondan los errores sino que éstos sean identificados y reportados, significa que se documenten los procedimientos de validación y control de calidad y se los ponga a disposición y que se estimulen y sean abiertos los mecanismos de retroalimentación.

Un ejemplo en donde resulta ser importante la transparencia es en la documentación de las metodologías de recolección (especialmente importante cuando se trata de datos observacionales y

2 h tt p ://www. t dwg.or g /

Page 21: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 18 Fecha de publicación:Julio de 2005--

Antes de medir los niveles de calidad de los datos, pensar primero en cómo es que los usuarios van a poder utilizar los resultados y luego estructurar los resultados para que puedan usarse más eficientemente.

No dejarse seducir por la simplicidad aparente de las herramientas de limpieza de datos. Son valiosas y ayudan en el corto plazo, pero en un periodo de tiempo más largo, no hay substituto para lo que es prevención de errores.

de estudio). Una vez más, esto sirve para que el usuario pueda determinar si los datos son aptos para el uso específico que les va a dar.

Medidas de performancia y metasAlgo valioso que agregar a los procedimientos de control de calidad son las medidas de performancia, que también sirven para que el usuario individual de los datos tenga confianza en el nivel de exactitud o calidad de los datos. Entre las medidas de performancia que se pueden adoptar se encuentran los controles estadísticos a los datos (por ejemplo, 95% de todos los registros se encuentran dentro de los 1 000 metros de su posición reportada), en el nivel de control de calidad (por ejemplo: 65% de todos los registros han sido verificados en los últimos 5 años por un taxónomo calificado; 90% han sido verificados en los últimos 10 años por un taxónomo calificado), a datos completos (se han muestreado todas las cuadrículas de 10 minutos), etc., etc.

Las medidas de performancia sirven para cuantificar la calidad de los datos. Las ventajas son las siguientes:

la organización puede asegurarse a sí misma de que ciertos datos son de alta calidad (documentada),

ayudan en la gestión toda de los datos y a reducir la redundancia, y ayudan a coordinar los diversos aspectos de la cadena de la calidad de datos para que

los diferentes operadores puedan organizarlos antes de llevarlos a cabo.

La limpieza de datosLos principios de la limpieza de datos van a ser tratados en un documento de la misma serie titulado Principios y Métodos de la Limpieza de Datos. Es suficiente decir que un marco general para la limpieza de datos, modificado a partir de Maletic y Marcus (2000), es el siguiente:

Definir y determinar los tipos de error Buscar e identificar los errores. Corregir los errores Documentar errores y tipos de error Modificar los procedimientos del ingreso de datos para reducir la incidencia de cometer

errores similares en el futuro.

Page 22: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 19 Fecha de publicación:Julio de 2005--

La detección de valores extremos puede ser un valioso método de validación, pero no todos los valores extremos son errores.

Las metas de performancia son una buena forma de que una organización mantenga un nivel uniforme de verificación y validación de calidad; por ejemplo, 95% de todos los registros se documentan y validan en un período de 6 meses de haberse recibido.

Los valores extremos

La detección de valores extremos (sean estos geográficos, estadísticos o ambientales) puede ser una de las pruebas más útiles para hallar posibles errores en los datos espaciales. No obstante, es importante que las pruebas de validación no borren datos sin criterio porque han resultado ser valores estadísticos extremos. Los datos ambientales son notorios porque contienen registros que parecen ser valores extremos estadísticamente, pero que son registros perfectamente correctos. Esto puede deberse a patrones de evolución históricos, a regímenes climáticos cambiantes, a un remanente tras actividades humanas, etc. La exclusión sin criterio de valores extremos puede eliminar registros valiosos del conjunto de datos y sesgar los análisis a futuro.

Por otro lado, el usuario puede decidir sacar de su(s) análisis los valores extremos si no está seguro de que sean registros válidos. La identificación de valores extremos, por tanto, no sólo sirve al custodio de los datos para identificar posibles errores, sino que puede ayudar al usuario a determinar si los datos individuales son aptos o no para que sean usados en su(s) análisis.

Establecer metas para mejorar la calidadEl establecer metas simples, fáciles de cuantificar puede mejorar rápidamente la calidad de los datos. Una meta como bajar a la mitad cada seis meses durante dos años el porcentaje de nuevos registros con geocodificación deficiente puede llevar a un corte total en la tasa de error del 94% (Redman 2001). Esas metas deben centrarse en:

marcos de tiempo claros y fructíferos, tasas de mejora en vez de valores reales, definiciones claras (como la de ‘geocodificación deficiente’, Metas que sean simples y que puedan lograrse.

También se pueden poner metas a largo plazo al objetivo de reducir el tiempo (sin valor añadido) que se necesita para la limpieza de datos, estableciendo que se reduzca a la mitad cada año, valiéndose para ello de mejoras en el ingreso de datos y las técnicas de validación.

AuditoríaEs importante que el custodio sepa qué datos verificar y cuándo, ya que con ello se evita la redundancia y que los registros pasen inadvertidos y se pierdan. La mejor manera de hacer esto es mantener un registro de auditoria de validación documentado.

Page 23: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 20 Fecha de publicación:Julio de 2005--

Los controles de ediciónLos controles de edición tienen que ver con las reglas del negocio que son las que determinan cuáles son los valores permitidos para cada campo. Por ejemplo, el valor en el campo mes debe ser entre 1 y 12, el valor para el día debe ser entre 1 y 31 con el valor máximo dependiendo del mes, etc. Las reglas univariadas se aplican a un solo campo (e.g. el ejemplo mes, ya señalado), las reglas bivariadas se aplican a dos campos (e.g. la combinación de día y mes).

Fig. 5. Uso de controles de edición (modificado a partir de Redman 2001).

Un segundo ejemplo es con datos de coordenadas. Las pruebas simples de rango van a probar que la latitud está entre 0 y 90 grados (si los datos están en latitud y longitud), que los minutos y segundos están entre 0 y 60, etc. Pero, una vez que se mueven los datos a UTM, se hace más complicado. Con frecuencia una base de datos que tiene datos de una pequeña región que cae en una zona UTM no incluye la zona dentro de la base de datos. Esto puede parecer bastante aceptable siempre que los datos nunca se combinen con datos de otras regiones. Pero una vez que se intenta hacer una combinación de datos, los datos se vuelven bastante inservibles. Por tanto, hay que asegurarse de que en los controles de edición se incluya siempre la zona apropiada.

Minimizar la duplicación de datos y de trabajoLa experiencia en el mundo de los negocios ha demostrado que aplicando la cadena de gestión de la información (ver figura 3) se puede reducir la duplicación y el tener que trabajar nuevamente los datos, obtener una reducción en la tasa de error de hasta 50% y reducir hasta en dos tercios el costo en el que se incurre por utilizar datos malos (Redman 2001). Esto se debe en gran parte a una mayor eficiencia al asignar responsabilidades claras a la gestión de datos y el control de calidad, minimizando los cuellos de botella y el tiempo de espera en cola, minimizando la duplicación al tener que hacer que personal diferente ejecute nuevamente verificaciones de control de calidad y mejorando la identificación de métodos de trabajo mejorados y mejores.

Mantener el dato original (o verbatim)Es importante que los datos originales registrados por el colector, o incluso insertados posteriormente por el curador no se pierdan en el proceso de edición y de limpieza de datos. Los cambios que se hagan a la base de datos durante el proceso de limpieza de datos deben añadirse como información adicional, manteniendo también la información original, ya que una vez que se borra la información, resulta difícil o incluso imposible recuperarla. Lo anterior puede resultar especialmente importante cuando se trata de información del colector y de la ubicación. Lo que luego a un curador parece ser un error puede no ser un error real. Los cambios en el nombre de una

Especificar el dominio de valores permitidos

Traducir los dominios a reglas

Aplicar las reglas a los datos en el ingreso de datos

Anotar los registros fallidos

Retroalimen-tar a los proveedores de datos

Corregir los datos erróneos

Recibir los datos de los proveedores

Page 24: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 21 Fecha de publicación:Julio de 2005--

Tener canales efectivos de retroalimentación con usuarios y proveedores es un mecanismo fácil y productivo para mejorar la calidad de datos.

localidad (e.g. Czechoslovakia a República Czecha, por ejemplo), cambia no solamente el nombre sino también el área a la que se circunscribe. Puede ser importante más adelante saber qué fue lo que se escribió originalmente y no tener solamente la versión “corregida”. Véase los comentarios en el acápite Archivo.

Categorizar puede causar pérdida de datos y de calidadLa categorización de datos con frecuencia conduce a una pérdida de datos y, por ende, a la reducción de la calidad total de los mismos. Un ejemplo puede ser una colección de datos con información de ubicación detallada (y posiblemente hasta georeferenciada), pero luego guardar los datos sobre la base de celdas de cuadrícula. Casi siempre es mejor almacenar los datos en su resolución más fina y luego categorizarlos al arrojar la salida de datos si eso es lo que se quiere para un propósito particular. Si un usuario necesita sacar un mapa de ocurrencia/ausencia en una cuadrícula de 10x10 min, entonces es fácil hacerlo a partir de los datos almacenados como puntos, pero si los datos se almacenan en una base de datos de celdas de cuadrícula, es imposible hacer nada con los datos a una escala más fina. Eso también hace que sea sumamente difícil (y quizá incluso imposible) combinar datos que puedan haberse categorizado usando una escala de cuadrículas u origen diferentes. Lo mismo ocurre con los datos descriptivos. Si los datos se categorizan en rangos que puedan ser necesarios para tener una clave (e.g. > 6m = árbol; < 6m, = arbusto), y se obtienen nuevos datos de otra fuente que utilizó 4m en vez de 6m para su definición, entonces ¿qué se hace con los casos que se ubican entre los 4 y los 6 metros?. Es muchísimo mejor almacenar los datos en metros exactos y preocuparse después si es árbol o arbusto.

Un caso en donde pasa eso con frecuencia es al almacenar la exactitud de los geocódigos. Siempre he recomendado almacenar la exactitud de los geocódigos en metros, pero muchas bases de datos almacenan esa información en categorías (<10m, 10-100m, 100-1000m, 1000-10,000m). Si ya se tiene un registro que se ha podido determinar con exactitud a 2 km, entonces al instante se pierde información al tratar de colocarlo en la categoría 10km.

DocumentaciónTener una buena documentación es un principio clave de la gestión de datos. Sin una buena documentación el usuario no puede determinar si los datos son aptos para el uso que tiene en mente, y, por ende, no puede determinar la calidad de los datos para ese fin. En la sección Documentación se trata más detalladamente sobre este tema.

RetroalimentaciónResulta esencial que el custodio de datos aliente al usuario a dar su opinión y que tome con seriedad los aportes que recibe. Como se ha mencionado antes en el acápite Responsabilidad del usuario, cuando el usuario combina datos de varias fuentes con frecuencia capta ciertos tipos de error mejor que un custodio que trabaja solo.

Desarrollar buenos mecanismos de retroalimentación no siempre es tarea fácil. Se puede colocar un botón en la página interfaz de consulta o se puede enviar un adjunto al usuario a la hora que descarga documentos y ahí establecer los métodos para que haga llegar al custodio su apreciación respecto a los errores de los datos y sus comentarios. Sobre el tema se amplía más en el documento de esta misma serie titulado Principios y Métodos para Limpieza de Datos.

Page 25: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 22 Fecha de publicación:Julio de 2005--

Una capacitación deficiente es lo que yace en la raíz de muchos de los problemas de calidad de datos.

Educación y capacitaciónLa educación y la capacitación en todos los niveles de la cadena de información pueden hacer que mejore ampliamente la calidad de los datos (Huang et al. 1999). Comenzando con la capacitación y educación a colectores en el uso de buenos procedimientos de recolección y la implementación de aquello que el usuario de los datos necesita, pasando por la capacitación a operarios que ingresan datos y al personal técnico responsable en el día a día de la gestión de la base de datos, hasta la educación a usuarios finales sobre la naturaleza de los datos, sus limitaciones y usos potenciales. Los aspectos de educación y capacitación de la calidad de datos dependen en gran medida de una buena documentación.

En el proyecto georeferenciación MaPSTeDI (Universidad de Colorado 2003) puede verse un ejemplo donde se integran la verificación de la calidad de datos, la educación y la capacitación. En el proceso se verifica un cierto número de los registros de un operador de geocódigos. Cuando hay un nuevo operador, los primeros 200 registros son verificados por un supervisor para ver si son exactos. Esto no sólo mantiene la calidad de los datos, sino que permite que el operador aprenda y mejore a partir de sus errores. Dependiendo del operador se pueden verificar 100 registros más y, a medida que el operador va adquiriendo experiencia, se reduce la cantidad de registros que se verifican hasta llegar a seleccionar al azar 10% y con el tiempo llegar a alrededor de 5%. Si todavía se descubre un alto porcentaje de errores, entonces se verifican más registros.

Procedimientos como éste que estén bien diseñados pueden servir para educar al nuevo usuario. Por el contrario, si no hay procedimientos, hay poco espacio para asegurar consistencia entre los operadores y entre las tareas que deben llevar a cabo.

ResponsabilidadAsignar responsabilidad para la totalidad de la calidad de datos puede ayudar a las organizaciones a alcanzar un nivel de control de calidad consistente, tener un punto de referencia para la retroalimentación sobre errores y tener un punto de contacto para temas de documentación y consultas.

Page 26: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 23 Fecha de publicación:Julio de 2005--

Datos taxonómicos y nomenclaturales

Los datos taxonómicos deficientes pueden “contaminar” las áreas de estudio relacionadas (Dalcin 2004).

La taxonomía es la teoría y práctica de clasificar organismos (Mayr y Ashlock 1991). La mayoría de los datos de especie que se están considerando en este documento tienen una parte taxonómica (o nomenclatural) (i.e. el nombre del organismo y su clasificación); denominado 'dominio dato clasificación’ por Dalcin (2004). La calidad de esta parte de los datos y cómo puede determinarse esa calidad difiere considerablemente de la parte espacial de los datos, ya que normalmente es más abstracta y más difícil de cuantificar.

Los datos taxonómicos están compuestos de (no todos se encuentran siempre presente): Nombre (científico, común, jerarquía, rango) Estado nomenclatural (sinónimo, aceptado, tipificación) Referencia (autor, lugar y fecha de publicación) Determinación (quién identificó el registro y cuándo) Campos de calidad (exactitud de la determinación, calificadores)

Una de las mayores fuentes de error en los nombres taxonómicos son los errores ortográficos. Detectar errores ortográficos en la base de datos taxonómicos puede ser una tarea sencilla cuando se trata de nombres científicos que representan las jerarquías taxonómicas, como los nombres de familia y género (Dalcin 2004). En esos casos para la mayoría de grupos taxonómicos generalmente hay archivos de autoridad estándar. Cada vez más se encuentran también a disposición amplias listas de nombres de especie, en proyectos como Species 2000 (http://www.species2000.org ) y el programa de trabajo ECat work del GBIF (http://www.gbif.org/prog/ecat ). Usar nombres de especies o sólo epítetos sin su género asociado como archivo de autoridad rara vez resulta satisfactorio, ya que muchos epítetos específicos pueden de un género a otro tener variaciones menores en el nombre. Un método para verificar errores de ortografía es detectar y aislar los errores en los nombres científicos, usando algoritmos de similaridad con el fin de identificar un par de nombres científicos que tienen un alto grado de similaridad pero que no son exactamente el mismo (Dalcin 2004, CRIA 2005).

De lejos el método más satisfactorio de reducir la probabilidad de que ocurran errores ortográficos en los nombres científicos es crear archivos de autoridad en el proceso de ingreso de datos a la base de datos, utilizando listas para escoger el género, la especie, la familia, etc. En el supuesto ideal donde se cuenta con archivos de autoridad, el uso de estas técnicas reducirá la incidencia de este tipo de error hasta prácticamente cero. Lamentablemente, hay grandes partes del mundo y un número importante de grupos taxonómicos para los que no existen listas de ese tipo.

Cuando se importa archivos de autoridad de una fuente externa como el Catálogo de Vida (Catalogue of Life) o el ECat, entonces debe registrarse en la base de datos la identificación fuente (Source-Id), para que cuando se hagan cambios en la edición de la fuente de autoridad, éstos puedan incorporarse fácilmente a la base de datos, y la base de datos sea actualizada. Se tiene la esperanza de que no pase mucho tiempo antes de que esta tarea se haga más fácil con el uso de Identificadores únicos globales (GUID)3.

Para la calidad taxonómica de los datos se confía ampliamente en la experiencia taxonómica de la que se dispone. El impedimento taxonómico (Environment Australia 1998) y la disminución mundial del número de taxónomos de investigación entrenados causará una disminución en la calidad de producción taxonómica a largo plazo y en la calidad resultante de datos primarios de especies (Stribling et al. 2003). La Iniciativa Mundial sobre Taxonomía (GTI) (CBD 2004) viene

3 h tt p ://www.we b o p e d ia.c o m /TERM/G/GUID. h tml

Page 27: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 24 Fecha de publicación:Julio de 2005--

intentando remover o aminorar el llamado ‘impedimento taxonómico’, pero el problema probablemente continuará siendo un tema en el futuro. La calidad también puede decaer con el tiempo, especialmente en los casos en donde no existen o no se mantienen especímenes de referencia (vouchers) (por ejemplo, como ocurre con la mayoría de los datos observacionales y una gran cantidad de datos de estudios) o en aquellas áreas donde no hay pericia taxonómica relevante.

La capacidad que tiene una institución de generar productos taxonómicos de alta calidad (inclúyase datos primarios de especies) se ve influenciada (según Stribling et al. 2003) por lo siguiente;

el nivel de capacitación y experiencia del personal, el nivel de acceso a literatura técnica, referencias, colecciones de especímenes de

referencia (vouchers) y especialistas taxonómicos, los equipos de laboratorio e instalaciones apropiados que posea, y el acceso a internet y a los recursos que ahí están disponibles.

Registro de la exactitud de la identificación, etc.Tradicionalmente, los museos y herbarios han venido operando con un sistema de determinación en donde los expertos que trabajan en grupos taxonómicos de tiempo en tiempo examinan los especímenes y determinan su circunscripción o identificación. Eso normalmente se lleva a cabo como parte de un estudio de revisión o por un experto que está de visita en la institución y verifica las colecciones mientras se encuentra ahí. Éste es un método probado, pero uno que toma tiempo y es poco sistemático. Pero probablemente no hay otra forma, ya que hacer por computadora identificaciones automatizadas no es probable a corto plazo ni tampoco a largo plazo.

Una opción puede ser incorporar un campo en la base de datos que provea una indicación de la certeza de la identificación. La fecha de determinación se incorpora normalmente en la mayoría de bases de datos de colección. Esa opción estaría compuesta de un campo de código y puede ser como sigue (Chapman 2004):

identificado con alta certeza por experto mundial en el taxón. identificado con certeza moderada por experto mundial en el taxón identificado con algunas dudas por experto mundial en el taxón. identificado con alta certeza por experto regional en el taxón. identificado con certeza moderada por experto regional en el taxón. identificado con algunas dudas por experto regional en el taxón identificado con alta certeza por no experto en el taxón identificado con certeza moderada por no experto en el taxón identificado con algunas dudas por no experto en el taxón identificado por el colector con alta certeza identificado por el colector con certeza moderada identificado por el colector con algunas dudas

Poner estas categorías en cierto orden queda abierto a debate, al igual que el tema mismo de si serían las mejores categorías o no. Algunas instituciones tienen un campo de esta naturaleza, pero no se cuenta con un ejemplo en este momento. La versión 4 estándar del HISPID (Conn 2000) sí incluye una versión simplificada: la bandera de nivel verificación con cinco códigos, a saber:

Page 28: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 25 Fecha de publicación:Julio de 2005--

0 El nombre del registro no ha sido verificado por una autoridad

1 El nombre del registro ha sido determinado por comparación con otras plantas con nombre

2 El nombre del registro ha sido determinado por un taxónomo o por otras personas competentes, utilizando material de herbario y/o de biblioteca y/o material vivo documentado

3 El nombre de la planta ha sido determinado por un taxónomo que se ha ocupado de la revisión sistemática del grupo

4 El registro es parte de una colecta de tipo o ha sido propagado a partir del material del tipo por métodos asexuales

Cuadro 3. Bandera de Nivel Verificación del HISPID (Conn 2000).

Muchas institucioones ya tienen una forma de registrar la certeza usando términos como ‘aff.’, ‘cf.’, ‘s. lat.’, ‘s. str.’, ‘?’. A pesar de que algunos de ellos tienen definiciones estrictas (aff., cf), el uso que le dan las personas puede variar considerablemente. El uso de sensu stricto y senso lato implica variaciones en el concepto taxonómico.

.)

Además, en los casos en los que los nombres se derivan de experiencia que no es la taxonómica, se puede hacer un listado de las fuentes de los nombres que se usan (según Wiley 1981).

descripciones de nuevos taxones revisiones taxonómicas clasificaciones claves taxonómicas estudios de fauna y estudios florísticos atlas catálogos listas de verificación manuales erudicción taxonómica/reglas de nomenclatura análisis filogenético

La falta de certeza normalmente puede reducirse y mejorarse la calidad comparando dos o más publicaciones o especialistas. La diferencia entre la identificación que hacen diferentes taxónomos, no obstante, no implica necesariamente que haya error en la identificación de alguno de ellos, sino que puede demostrar que hay una diferencia en la opinión taxonómica en cuanto a dónde colocar al taxón (i.e. hipótesis diferentes).

Precisión de la identificaciónSegún Stribling et al. (2003), la precisión de la identificación (que denominaron erróneamente precisión taxonómica) puede ser evaluada comparando los resultados a los que llegan dos taxónomos o especialistas después de procesar una muestra seleccionada al azar. También puede hacerse una evaluacion comparando los nombres que se asigna a dos especímenes que se encuentran por duplicado (y han sido identificados) en instituciones diferentes. Estas son nociones bastante abstractas, y este autor no está seguro del valor que tenga registrar este tipo de información.

Page 29: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 26 Fecha de publicación:Julio de 2005--

Una segunda parte de lo que es precisión de la identificación, no obstante, es el nivel al que se identifica un espécimen. Una identificación precisa es aquella que identifica a nivel especie o subespecie a diferencia de la que identifica sólo a nivel familia o género. Al documentar un conjunto de datos, puede ser de valor para el usuario saber que 50% de las especies identificadas sólo están a nivel de género; algo que pasa con muchos grupos de fauna.

SesgoEl sesgo es el error sistemático que se origina en un cambio uniforme de valores (Chrisman 1991). Con frecuencia se da a partir de una metodología que aplicada consistentemente conduce a error que es sistemático por naturaleza. El sesgo en la nomenclatura taxonómica puede originarse ahí donde la identificación es precisa, pero no exacta. Un sesgo así puede originarse por la mala interpretación de una clave dicotómica o estructura morfológica, por usar una nomenclatura inválida o una publicación desactualizada (Stribling et al. 2003) o por emplear una publicación inapropiada (e.g. flora de otra área diferente a la que se está estudiando y que puede no tener todos los taxones relevantes del área que está siendo estudiada).

ConsistenciaPuede ocurrir inconsistencia dentro del dominio de clasificación de la bases de datos si dos o más nombres que representan al mismo taxón se han considerado “aceptado” (eg. Eucalyptus eremaea and Corymbia eremaea). Esto puede ser por opiniones diferentes en cuanto a la taxonomía o a errores porque hay una forma alterna de escribirlo (por ejemplo, Tabernaemontana hystrix, Tabernaemontana histryx y Tabernaemontana histrix – CRIA 2005)

CompleciónMotro y Rakov (1998 en Dalcin 2004) se refirieron a la compleción como ‘si todos los datos están disponibles’ y dividieron la compleción en compleción de los archivos (no faltan registros) y compleción de los registros (todos los campos de todos los registro están llenos).

.

La compleción en términos taxonómicos (i.e. con una base de datos de nombres o taxones) se refiere a la cobertura de nombres. ¿Tiene la base de datos nombres a todos los niveles de la jerarquía (e.g. hasta subespecie o sólo hasta especie)?. ¿Qué porción del reino animal o vegetal cubre la base de datos?. ¿La base de datos incluye sinónimos?. Todas estas preguntas son importantes para ayudar al usuario a determinar la aptitud de los datos para el uso específico que les va a dar. Dalcin (2004), por ejemplo, divide la compleción en compleción nomenclatural, con lo que se quiere señalar la inclusión de todos los nombres posibles en determinado contexto, (e.g. en un contexto taxonómico: una lista de todos los nombres de un grupo taxonómico específico; o en un contexto espacial: una lista de todos los nombres de una región específica) y la compleción de la clasificación, con lo que se quiere señalar todos los nombres posibles relacionados a un nombre ‘aceptado’ para un taxón dado (i.e. una sinonimia completa).

Cuando se trata de una base de datos de especímenes u observacional, la compleción puede leerse: ‘¿se han incluido todos los campos Darwin Core?’ y ‘¿todos los campos Darwin Core tienen datos?’. En una base de datos de caracteres: ‘¿están presentes todos los caracteres para todas las etapas de vida necesarias? (e.g. fruto de las plantas, etapas de desarrollo de los insectos).

Page 30: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 27 Fecha de publicación:Julio de 2005--

VouchersNunca está por demás subrayar la importancia que tienen los vouchers (colecciones de especímenes de referencia), aunque no siempre es posible incluirlos en la base de datos. Muchas bases de datos observacionales se hacen sin que al mismo tiempo se arme una colección de vouchers. Tampoco es posible en todos los casos o regiones tomar una muestra para llevarla a una colección como espécimen de referencia con fines políticos, legales, conservacionistas o de otra índole.

En los casos en que sí se pueda tomar especímenes de referencia, a menudo resulta beneficioso que en las etapas iniciales de los programas basados en especies se suscriba acuerdos de cooperación entre recolectores de datos e instituciones como museos o herbarios para que haya apoyo en el depósito de las referencias y la colección de vouchers. Acuerdos de ese tipo también deben cubrir el tema de archivar apropiadamente, así como las estrategias de disposición, incluyendo los perídos de tiempo mínimo antes de la disposición o del archivo permanente.

Page 31: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 28 Fecha de publicación:Julio de 2005--

Datos espaciales

Los datos espaciales a menudo han liderado el campo de la elaboración de estándares para la documentación de datos (por ejemplo, la elaboración de los Estándares para la Transferencia de Datos Espaciales (USGS 2004), el programa ISPIRE4 (sic) (Información (sic) para Información Espacial en Europa) y muchos otros), y han estado al frente de la elaboración de estándares de calidad de datos (e.g. ISO 19115 para Información Geográfica – Metadatos5). La naturaleza numérica de mucho de los datos espaciales significa que están más abiertos a aplicárseles procedimientos estadísticos que los datos taxonómicos, y, por ende, han hecho posible el desarrollo de un número de métodos de control de la calidad de datos (véase el trabajo sobre Principios y Métodos de la Limpieza de Datos que acompaña a esta publicación).

Ello no significa que todas las partes espaciales de los datos (el ‘dominio de datos Campo’ de Dalcin 2004) sean exactas o fáciles de digitalizar. Muchas colecciones históricas de museos y herbarios tienen sólo descripciones textuales básicas de ubicación, y resulta ser un gran esfuerzo convertirlas a geocódigos numéricos o coordenadas. Esto puede ser exacerbado por la naturaleza de muchas de estas colecciones, por ejemplo, si se recogieron en un momento cuando los colectores no contaban con mapas detallados o cuando muchos de los nombres que se usaban para señalar la ubicación ya no aparecen en diccionarios geográficos publicados o en mapas. Añadir información georeferenciada a registros históricos, especialmente en donde no existen buenos diccionarios geográficos históricos puede ser una tarea que exige mucho tiempo y termina con niveles de exactitud bastante bajos.

Para ayudar a los usuarios a georeferenciar sus datos se han desarrollado un número de herramientas, incluyendo herramientas y directrices en línea. Se trata más sobre ellas en el documento Principios y Métodos de Limpieza de Datos de esta misma serie. Además, la mayoría de colectores usan ahora GPS (Sistema de Posicionamiento Global) para registrar códigos geográficos en el momento en que están recolectando. La exactitud respecto al uso del GPS se aborda en el capítulo ‘Captura de Datos’

Probar si hay errores en georeferencias ya asignadas puede significar lo siguiente: verificar teniendo como referencia otra información dentro del registro mismo o entre

registros de la base de datos misma; por ejemplo, el Estado, el distrito mencionado, etc. contrastar con referencias externas que estén utilizando una base de datos: ¿es el registro

consistente con la ubicación de recolección que señala el colector? contrastar con una referencia externa que utiliza un sistema de información geográfica:

¿Cae el registro en tiera y no en el mar? verificar valores extremos en el espacio geográfico, o Verificar valores extremos en el espacio ambiental.

Todos estos métodos serán tratados en extensión en el documento titulado Principios y Métodos de Limpieza de Datos que acompaña a este trabajo.

Exactitud espacial¿Cómo se mide la exactitud posicional de los datos espaciales?

Para la mayoría de capas GIS (mapas topográficos, etc.), la fuente de la ‘verdad’ es relativamente fácil de determinar ya que normalmente en la base de datos hay fuentes externas de mayor exactitud para varias características, como: puntos de triangulación, intersecciones de calles y vías, etc. (Chrisman 1991). Muchas de las pruebas, sin embargo, no son simples y la documentación es complicada; como la de los Estándares de Exactitud para Cartografía Nacional de los Estados

4 h ttp ://www.ec-g is.org /in sp ire/ 5 h tt p ://www.is o .c h /is o /e n /Ca t al o g u eDetailPa g e.Catalo gu e Detai l ? CSNUMBER= 2 60 2 0&ICS 1 =35

Page 32: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 29 Fecha de publicación:Julio de 2005--

Unidos. Tradicionalmente, se determina la exactitud espacial por comparación a un número de puntos ‘bien definidos’ junto con niveles de error aceptables y especificados, medidos como la desviación estándar de cero para determinar exactitud (Chrisman 1991). Pero no es fácil aplicar la desviación estándar a puntos individuales, y es más aplicable a conjuntos de datos completos o a mapas digitales. Con puntos individuales, la distancia desde la ubicación real, siguiendo un método simple de punto-radio (Wieczorek et al. 2004) o métodos similares, son simples y fáciles de usar (sic). Hay dos factores que intervienen: qué tan exactamente el punto bien definido que pueda determinarse determine la exactitud del punto que se está probando y la exactitud y precisión de medición que el punto probado añadirá al error. Por ejemplo, si la intersección del camino sólo puede determinarse con exactitud dentro de los 100 metros, el centroide del punto de colección es entonces un círculo de 100 metros antes de que se añada la precisión de ese punto (véase comentarios en Wieczorek 2001).

El Comité Federal de Datos Geográficos de los Estados Unidos de América (FGDC, por sus siglas en inglés) emitió Estándares de Exactitud de Posición Geoespacial (GPAS, por sus siglas en inglés) en el año 1998. Esos estándares tienen secciones separadas para Redes Geodésicas y para Exactitud de Datos Espaciales (FGDC 1998).

’La NSSDA usa la desviación estándar para estimar exactitud posicional. La desviación estándar es la raiz cuadrada del promedio del conjunto de diferencias al cuadrado entre valores de coordenadas de conjuntos de datos y valores de coordenadas de una fuente independiente de mayor exactitud para puntos idénticos’.

’La exactitud se reporta en distancias sobre el terreno a un nivel de confianza del 95%. La exactitud que se reporta con un nivel de confianza del 95% significa que el 95% de las posiciones del conjunto de datos van a tener un error con respecto a la posición real del terreno que es igual o menor al valor de exactitud reportado. El valor de exactitud reportado refleja todas las incertidumbres incluidas aquellas que se generan en el producto por coordenadas de control geodésicas, por compilación y por el cómputo final de los valores de coordenadas sobre el terreno.

A continuación, ejemplos de enunciados de exactitud de mapas hechos en Australia usando los métodos mencionados:

‘La exactitud promedio de este mapa es ±100 metros en posición horizontal de detalle bien definido y ±20 metros en elevación’. (División de Cartografía Nacional, Carta SD52-14, Edición 1, escala 1:250,000).

Esa exactitud tiene que ser incluida al determinar toda georeferencia de una colección, georeferencia que se base en papel o mapa digital. Puesto que siempre hay incertidumbre en la exactitud de los datos espaciales, no se puede aplicar un enunciado de exactitud absoluto; y es importante que se documente la exactitud que se conoce. Los errores se propagan a través de la cadena de información y contribuyen a que se genere incertidumbre en los resultados finales, sea el producto un mapa a partir de un sistema de información geográfica o una modelación de especies que utiliza un software de modelamiento de distribución (Heuvelink 1998).

El Proyecto BioGeomancerRecientemente, la Fundación Gordon y Betty Moore han financiado un proyecto6 para ayudar a mejorar la georeferenciación de registros primarios de especies y a evaluar, mejorar y documentar exactitud. En algún momento durante el año 2006, este proyecto estará emitiendo informes y poniendo a disposición las herramientas que haya desarrollado.

Precisión y exactitud falsas

6 h tt p ://www. b i og e o m a n cer. o r g /

Page 33: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 30 Fecha de publicación:Julio de 2005--

Un factor adicional del que hay que estar conscientes es el de la precisión y exactitud falsas. Muchos usuarios de sistemas de información geográfica no están conscientes de los temas que están presentes con respecto a la exactitud de los datos espaciales, el error y la incertidumbre, y con frecuencia suponen que sus datos son absolutos. A menudo reportan niveles de exactitud que no pueden obtenerse con sus datos fuente. Muchas instituciones ahora usan sistemas de información geográfica para ayudarse con la georeferenciación, y al acercarse a niveles que sus datos no pueden brindar (y usando grados decimales) pueden terminar con una precisión que no es realista. También usando un GPS para registrar la ubicación del lugar de recolección, la ubicación se reporta con frecuencia a 1 ó 2 metros cuando en realidad muchas de las unidades de GPS manuales que se usan son probablemente precisas sólo alrededor de los 10 metros o menos. Esto es especialmente relevante cuando se usa un GPS para determinar altitud (ver comentarios más adelante en el acápite Captura de Datos).

Page 34: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 31 Fecha de publicación:Julio de 2005--

El colector y la colección de datos

La información sobre el colector y la colección (el dominio datos de la colección de Dalcin 2004) contiene información sobre la colección misma, el colector, la fecha de recolección e información adicional como hábitat, suelos, condiciones del tiempo, experiencia de los observadores, etc. Pueden categorizarse en lo siguiente (modificado a partir de Conn 1996, 2000):

Autor(es) de la colección y número(s) del colector Experiencia de los observadores, etc. Fecha/periodo de recolección Método de recolección (especialmente para datos de observación/estudio) Datos asociados

Muchos de estos temas variarán considerablemente dependiendo del tipo de datos que se está recolectando; sean éstos para una colección de museo, una observación o resultados de un estudio detallado. Para una colección estática, como la de los museos, son atributos clave el nombre y número del colector y la fecha; junto con los datos asociados tales como hábito, hábitat, etc., y quizá el método de captura (para animales). Para datos observacionales, cosas como el tiempo de observación, el área que ha sido cubierta por la observación, la hora del día (hora de inicio y hora final además de la fecha), y datos asociados como condiciones del tiempo, sexo del animal que se ha observado, actividad, etc. Con los datos de estudios, la información sobre el método de estudio, tamaño (área de la cuadrícula y área total), esfuerzo, condiciones del tiempo, frecuencia, si se recolectó material de referencia y el número que se le asignó, etc. junto con muchos de los que se han mencionado para observaciones.

Exactitud del atributoEntre los temas que pueden afectar la calidad de los datos con respecto a la información de la colección están la forma en que se registra los nombres del colector, los números que asigna, las iniciales, etc. (Koch 2003), la exactitud de la fecha y hora del registro, la consistencia del registro de los datos asociados a la hora de la recolección; como hábito, hábitat, suelos, tipo de vegetación, color de la flor, sexo, especies asociadas.

Un problema que siempre se observa en los datos de colección es el ‘número del colector’, cuando no usan números únicos para identificar a sus colecciones. Esto puede causar una pérdida de calidad, ya que esas etiquetas se usan algunas veces para identificar la ubicación de la colección, la identificación de los especímenes, para identificar a las colecciones duplicado de diferentes instituciones, etc.

ConsistenciaCon frecuencia es erróneo el manejo consecuente de la terminología con respecto al dominio de la colección, y es raro que los campos de datos asociados, en particular, sean consecuentes dentro de un conjunto de datos, y aún menos entre diferentes conjuntos de datos.

CompleciónNormalmente, también es bastante variable el grado en que está completa la información que brinda la colección. Más son las veces que en muchos registros no van a estar completos los datos de habitat, número del colector, época de floración, etc. Eso hace que un estudio de hábitat, por ejemplo, sea difícil a partir de los datos de la colección únicamente.

Page 35: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 32 Fecha de publicación:Julio de 2005--

Datos descriptivos

Cada vez más se están usando bases de datos descriptivas para almacenar datos y como método de publicación, con frecuencia en lugar de publicar una revista tradicional. Ejemplos de datos en ese dominio son los datos morfológicos, fisiológicos y fenológicos. Los datos descriptivos se usan con frecuencia para generar información que va a ser usada en análisis cladísticos y herramientas de descripción e identificación generadas automáticamente.

El Grupo de Trabajo de Base de Datos Taxonómicas (TDWG, por sus siglas en inglés) ya tiene tiempo trabajando en la elaboración y promoción de estándares en el área de bases de datos descriptivas; primero con su apoyo a los estándares DELTA (Dallwitz y Paine 1986) y más recientemente con la formación del grupo de trabajo ‘Estructura de Datos Descriptivos’ http://160.45.63.11/Projects/TD W G-SDD/ ).

La calidad de los datos descriptivos puede ser variable; y, a pesar de que los elementos de los datos con frecuencia se miden, en realidad, la exactitud puede ser determinada de acuerdo al caso: cuando los datos no pueden ser observados (e.g. como se da con los datos históricos), cuando son poco factibles de observar (e.g. demasiado costosos) y/o cuando son datos que se perciben y no datos reales (e.g. una evaluación subjetiva como color, abundancia, etc.).

En la mayoría de los casos, los datos descriptivos se almacenan a nivel especie y no a nivel espécimen; y es así como normalmente aparecen en los promedios o rangos. Como señalara Morse (1974, en los reportes de Dalcin 2004), la información taxonómica es por naturaleza de un nivel de confiabilidad más bajo que los datos de observación a nivel espécimen. Independientemente de ello, hay una tendencia mayor en los últimos tiempos a almacenar, por lo menos algunos de estos datos, a nivel espécimen; lo que trae como resultado un aumento en la calidad.

CompleciónA nivel espécimen, el que los registros de datos descriptivos estén completos puede depender de la calidad del espécimen, de la época del año, etc. Por ejemplo, no podría ser posible registrar las características del fruto o de la flor del mismo espécimen. Es por esa razón que muchos campos tendrán por necesidad que dejarse en blanco. En otros casos, el atributo puede no ser relevante para el organismo; y así, no todos los atributos van a ser descritos.

ConsistenciaLos temas de inconsistencia pueden aparecer entre dos items de datos relacionados. Por ejemplo, las características descriptoras de dos especies pueden ser registradas como sigue (Dalcin 2004):

“HÁBITO=HERBACEA” y “USOS=MADERA”

Una representación inconsistente del mismo atributo también afecta la calidad, especialmente en los casos en que se utilizan definiciones deficientes del atributo o no se siguen estrictamente estándares consistentes. Por ejemplo, (Dalcin 2004)

“COLOR DE LA FLOR= CARMIN”, y “COLOR DE LA FLOR =CARMESÍ

El grado de error y las malas interpretaciones se pueden reducir considerablemente si la terminología es estándar. En muchas áreas y disciplinas se está desarrollando terminología estándar, y con el reciente avance que apunta a bases de datos descriptivas federadas va aumentando la uniformidad con la que se usa la terminología. El desarrollo de Estándares para la Estructura de Datos Descriptivos (SDD) del TDWG (TDWG 2005) va a ser útil en este proceso.

Page 36: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 33 Fecha de publicación:Julio de 2005--

Captura de datos

Hay una variedad de formas de capturar datos primarios de especies y datos de ocurrencia de especies, cada una con sus niveles de precisión y exactitud, así como con sus propias fuentes de error e incertidumbre. Cada una de ellas tiene impactos diferentes en la ‘aptitud de uso’ o calidad. A continuación se señalan algunos de los métodos más comunes utilizados en los datos de especie.

La oportunidadLa mayoría de datos sobre ocurrencia de especies se han colectado porque se dio la oportunidad. Muchos de estos registros están ahora almacenados como especímenes en museos y herbarios. La mayoría de los datos históricos tienen como localidad sólo una referencia textual como la de a 5km al NO de una ciudad, etc., y rara vez se les daba una georeferencia al momento de ser colectados. Normalmente se ha venido añadiendo una georeferencia en fecha posterior y normalmente lo ha estado haciendo alguien que no fue el colector (Chapman y Busby 1994). Muchos registros observacionales (datos de aves en atlas, etc.) también han sido colectados porque se dio la oportunidad.

Por lo general, esos datos se capturan digitalmente con frecuencia en formato por lotes (batch), y la georeferenciación generalmente se hace por referencia a mapas físicos. Suelen tener precisión y exactitud significativamente bajas. La mayoría de esos datos no pueden considerarse de una exactitud mayor de alrededor de 2 a 10 km.

El estudio de campo

Los datos de estudios de campo generalmente han venido incluyendo una referencia espacial, con frecuencia en formato de latitud y longitud o referencia UTM. La referencia espacial puede normalmente ser considerada de una exactitud de alrededor de 100 a 250 metros. No obstante, se debe tener cuidado en cuanto a qué es lo que se refiere la referencia espacial; puede no ser la localidad de la observación real, sino que puede referirse, por ejemplo, al punto medio de un transecto o a la esquina (o centro) de una cuadrícula, y eso no siempre es claro. Además, como los registros rara vez llegan a tener especímenes de referencia (i.e. se hace una colección física y se almacena para tenerla como referencia), no siempre puede confiarse en la exactitud taxonómica. Esto es así especialmente cuando uno se aleja más de la fecha en que se hizo el estudio, y a medida que cambian los conceptos taxonómicos.

Las observaciones a gran escalaAlgunos estudios biológicos quizá registren datos sólo dentro de una celda de cuadrícula o límite particular. Por ejemplo, un estudio de especies dentro de un parque nacional o una observación de aves dentro de cuadrículas de 10 minutos (e.g. Birds Australia 2001, 2003). La exactitud de registros como éstos sólo puede ser del orden de 1 a 10 km o más.

El Sistema de localización por satélite (GPS) Los sistemas de localización por satélite o GPS han entrado a tallar cada vez más en la colección de datos de especies. Entre ellos no sólo se encuentran los datos de estudios sino también los de aquellas colecciones observacionales y las que se recogen porque se dio la oportunidad.

Page 37: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 34 Fecha de publicación:Julio de 2005--

La tecnología GPS se vale de la triangulación para determinar la ubicación de una posición sobre la superficie de la Tierra. La distancia medida es el rango entre el receptor GPS y los satélites GPS (Van Sickle 1996). Como se conoce la ubicación de los satélites GPS en el espacio, puede calcularse la posición en la tierra. Se require un mínimo de cuatro satélites GPS para determinar la ubicación de una posición en la superficie de la tierra (McElroy et al. 1998, Van Sickle 1996). Ésta no es generalmente una limitación hoy en dia, ya que uno puede recepcionar siete satélites o más en la mayoría de localidades de la tierra. No obstante, antes el número de satélites no era suficiente. Antes del año 2000, la mayoría de unidades GPS que utilizaban los civiles tenían ‘disponibilidad selectiva’. Al removerse esa condición se ha mejorado en gran medida la exactitud que generalmente podía esperarse (NOAA 2002).

Antes de que se removiera la disponibilidad selectiva, la exactitud de los receptores portátiles GPS utilizados en campo por la mayoría de biólogos y observadores estaba en el orden de los 100 metros o era peor (McElroy et al. 1998, Van Sickle, 1996, Leick 1995). Desde entonces, no obstante, la exactitud de los receptores GPS ha mejorado, y hoy en día la mayoría de fabricantes de los aparatos GPS manuales señalan que los errores son menores a 10 metros en áreas abiertas cuando se utiliza con cuatro satélites o más. La exactitud puede ser mejorada si se promedia los resultados de observaciones múltiples tomadas en una sola localidad (McElroy et al. 1998), y algunos receptores GPS modernos que cuentan con algoritmos para promediar pueden afinar la exactitud hasta más o menos 5 metros o quizá hasta mejor.

Con un GPS Diferencial (DGPS, por sus siglas en inglés) se puede mejorar la exactitud considerablemente. El DGPS utiliza la referenciación a una Estación GPS Base de una ubicación conocida (normalmente un punto de control de estudio) para calibrar el receptor GPS. Éste trabaja a través de la Estación Base y del GPS portátil, referenciando la posición de los satélites a la vez y así reduce el error que pueda darse por condiciones atmosféricas. De esta forma, el GPS portátil aplica las correcciones apropiadas a la posición determinada. Dependiendo de la calidad del receptor que se esté usando, se puede esperar una exactitud de entre 1 a 5 metros. Esta exactitud disminuye a medida que aumenta la distancia que hay entre el receptor y la Estación Base.Una vez más, promediando se puede mejorar esas cifras McElroy et al. 1998.

El Sistema de Aumentación basado en Satélites (WAAS, por sus siglas en inglés) es un sistema de navegación y aterrizaje con base en el sistema de localización por satélite (GPS) que fue desarrollado para guiar con precisión aeronaves (Federal Aviation Administration 2004). El WAAS cuenta con antenas en tierra cuya ubicación conocida con precisión pueden dar una exactitud posicional mayor con el uso de un GPS. También se están desarrollando tecnologías similares, como el Sistema de Aumentación de Área Local (LAAS, por sus siglas en inglés) para dar una precisión aún más aguda.

Aún mayor exactitud puede recepcionarse utilizando ya sea el GPS Diferencial en Tiempo Real (McElroy et al.1998) o el GPS Estático (McElroy et al. 1998, Van Sickle 1996). El GPS estático utiliza instrumentos de alta precisión y técnicas de especialistas y es en general usado sólo por topógrafos. Los estudios realizados en Australia utilizando estas técnicas han reportado tener exactitud en el rango centímetro. Estas técnicas probablemente no van a ser empleadas ampliamente en la colección de registros biológicos debido al costo que tienen y la falta en general de tener que tener tal precisión.

Para tener exactitud como la que se ha mencionado líneas arriba, el GPS receptor debe estar localizado en un área que esté libre de obstrucciones aéreas y superficies reflectoras y tener un buen campo de visión hacia el horizonte (por ejemplo, no funcionan muy bien cuando se está bajo la copa de los árboles de un bosque denso). El GPS receptor debe poder recoger señales de por lo menos cuatro satélites GPS que estén en posición geométrica adecuada. La mejor posición es tener ‘un satélite directamente sobre uno y los otros tres sobre todo el horizonte espaciados por igual’

Page 38: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 35 Fecha de publicación:Julio de 2005--

(McElroy et al. 1998). El GPS receptor debe también estar configurado a un datum del área apropiado y el datum que se use debe estar registrado.

La altura en el GPS. La mayoría de biólogos saben poco sobre cómo determinar la altura con un GPS. Es importante anotar que la altura que se visualiza en un GPS receptor es en realidad la altura en relación con el Datum centrado en la Tierra (Earth Centric Datum) (y está, por tanto, relacionada con el elipsoide de la superficie de la Tierra) y no con una altura que se relacione al nivel promedio del mar o a un datum de altura estándar, como el Datum Altura Australiano. En Australia, por ejemplo, la diferencia entre la altura que da un GPS receptor y el nivel medio del mar varía de –35 to +80 metros y tiende a variar de manera impredecible (McElroy et al. 1998, Van Sickle 1996).

Page 39: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 36 Fecha de publicación:Julio de 2005--

Ingreso y adquisición de datos(Captura electrónica de datos)

El ingreso y la adquisicion de datos están propensos a errores, tanto simples como complejos.(Maletic y Marcus 2000)

La captura de datos básicaEl primer paso en la captura de datos es normalmente la captura de información a partir de una etiqueta de espécimen, revista científica, cuaderno de campo, libro de registro o fichero. Esto puede hacerse empleando operadores calificados o no calificados para el ingreso de datos o escaneando electrónicamente la información. El nivel de error que puede darse por el ingreso de datos con frecuencia puede reducirse con una doble digitación, utilizando software de aprendizaje y capacitación asociado al escaneo y valiéndose de expertos y supervisores para llevar a cabo las pruebas de los datos ingresados sobre la base de muestras (véase más adelante las Directrices de la MaPSTeDI)

La Interfaz de usuarioLa creación de una interfaz de usuario específica para el ingreso de datos también puede ser una forma de disminuir los errores que se cometen en el ingreso de datos. Muchas instituciones se valen de personal no calificado o de voluntarios que hacen las veces de operadores para el ingreso de datos, y una interfaz de usuario simple (no técnica) con la que el operador de ingreso de datos se sienta cómodo puede aumentar la exactitud del ingreso de datos. Una interfaz de ese tipo puede ser útil en el ingreso de datos puesto que puede buscar rápidamente campos de autoridad, entradas existentes en la base de datos, otras bases de datos relacionadas e incluso usar buscadores como Google que puedan ayudar al operador a decidir cuál es la ortografía correcta o el término correcto, en los casos en que quizá se tenga la dificultad al leer una etiqueta, o a determinar qué debe ir o qué no debe ir en campos particulares. En algunos casos esto puede aplicarse a través del diseño de una base de datos que incorpore tablas de autoridad y menús desplegables (listas para escoger) que impida al personal inexperto que ingresa datos tener que tomar decisiones con respecto a nombres, localidades o hábitats.

La georeferenciaciónLos mapas son una de las maneras más efectivas de comunicar información, y sólo eso justifica el que en los últimos tiempos haya aumentado el uso de bases de datos y la georeferenciación de datos de espécimen en museos y herbarios junto con el aumento en la captura de información observacional georeferenciada. La capacidad mejorada que tienen los mapas para manejar los datos nos permite estudiar, identificar, divisar, documentar y corregir errores e incertidumbres mejor (Spear et al. 1996). También proporciona un método robusto para divisar y comunicar la incertidumbre que es inherente a los datos, y, por tanto, poder presentar a los usuarios una forma de determinar su calidad, o aptitud de uso.

La captura de datos electrónica y los geocódigos a los que están ligados (i.e. la georeferenciación de datos) puede ser una tarea difícil y que exige tiempo. En los resultados del proyecto MaPSTeDI (Universidad de Colorado 2003) se anota que un operador competente puede georeferenciar un registro cada 5 minutos. En otros estudios (como los de Armstrong 1992, Wieczorek 2002) se ha demostrado que georeferenciar puede demorar mucho más; por ejemplo, la base de datos MANIS da una razón de alrededor de 9 horas para EE.UU., 6 horas para los otros países de América del Norte y 3 horas para localidades que no sean de América del Norte (Wieczorek 2002).

Page 40: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 37 Fecha de publicación:Julio de 2005--

Para ayudar a los gestores de datos en la georeferenciación se han desarrollado un número de excelentes métodos y directrices. Dos de los estudios más exhaustivos que sobre el tema se han realizado hasta la fecha son las Directrices para Georeferenciación elaboradas por John Wieczorek del Museo de Zoología Vertebrada de Berkeley (Wieczorek 2001) y las directrices de la MaPSTeDI (Mountains and Plains Spatio-Temporal Database Informatics Initiative (Iniciativa Informática para la Base de Datos Espacio-Temporal de Montañas y Llanuras)) (Universidad de Colorado 2003), y este autor refiere al lector a esas directrices. En ellas se trata cómo se determina la exactitud y la precisión de un punto que se deriva de la descripción textual de una localidad, las incertidumbres que surgen a partir del uso de datums diferentes, los efectos de usar diferentes escalas en los mapas, etc. Las directrices cubren ampliamente el tema, y este autor espera que el lector de este documento las considere parte integral adjunta del mismo.

También hay un número de herramientas en línea que pueden ayudar a determinar geocódigos; por ejemplo, para lugares que están a determinada distancia y dirección de una localidad conocida. Sobre esto se tratará más en el documento sobre Principios y Métodos de la Limpieza de Datos de esta misma serie.

ErrorLas herramientas que se han mencionado son herramientas eficaces para reducir el error y aumentar la calidad. Pero ningún método de codificación geográfica puede eliminar el error en su totalidad. Como se señala en las Directrices de la MaPSTeDI:

MaNIS/HerpNet/ORNIS Georeferencing Guidelines (Directrices para Georeferenciación)

http://manisnet.org/manis/GeorefGuide.html

MaPSTeDI

(Peabody Museum of Natural History) (Museo de Historia Natural Peabody)

http://www.biogeomancer.org/

Page 41: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 38 Fecha de publicación:Julio de 2005--

Con frecuencia es mejor y resulta ser más eficiente realizar la georeferenciación como actividad separada tras la digitalización de la información de la etiqueta. Eso hace que la base de datos sea usada para clasificar a las colecciones por localidad, colector, fecha, etc. y que los mapas se usen de manera más eficiente para obtener información de codificación geográfica. También evita que se dupliquen la geocodificación en registros múltiples de la misma localidad.

“Si bien la geocodificación no es una ciencia exacta y ninguna colección puede geocodificarse correctamente al 100%, controlar la calidad puede mejorar radicalmente el porcentaje de la colección que está correctamente geocodificado. Todo proyecto debe tenerlo en cuenta cuando planifica su operación de geocodificación” (Universidad de Colorado 2003).

Una fuente común de error de georeferenciación se presenta cuando se usa con poco críterio diccionarios geográficos electrónicos. En algunos casos, esos diccionarios electrónicos han sido desarrollados a partir de proyectos para publicar mapas, y la ubicación del punto dado en el diccionario geográfico es la esquina inferior izquierda de donde había que escribir el nombre en el mapa y no la ubicación del punto al que se refería. (e.g. Australian Gazetteer antes de 1998 elaborado por el Australian Land Information Group (Grupo Australiano de Información Terrestre). Se tiene la esperanza de que la mayoría de los diccionarios geográficos hayan sido corregidos, pero pueden haber ya muchas georeferencias que con esos valores han ingresado a los museos y herbarios que tienen bases de datos. La exactitud de esos registros debe verificarse tomando una muestra de localidades al azar y contrastándolas con diccionarios geográficos o mapas a gran escala exactos.

Page 42: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 39 Fecha de publicación:Julio de 2005--

Los datos deben documentarse en los metadatos con el suficiente detalle para que terceros puedan usarlos sin tener que consultar al que origina los datos.

Documentación de los datos

Los metadatos son datos que dicen algo acerca de los datos. Es una descripción de las características de los datos que han sido recolectados para un propósito específico’. (ANZLIC 1996a).

Una buena documentación se da a nivel de conjunto de datos y a nivel registro de datos.

Los metadatos brindan información sobre el conjunto de datos, como: el contenido, la extensión, el acceso, la vigencia, la compleción, si es apto para el propósito y adecuado al uso. Cuando al usuario se le proporciona metadatos, éste puede entender la calidad del conjunto de datos y ver antes de usarlos si esa base de datos es apropiada. Con unos buenos metadatos se mejora el intercambio de datos, la búsqueda y la recuperación. Los metadatos se refieren normalmente a todo el conjunto de datos; no obstante, hay quienes ven a la documentación de datos a nivel de registro (como el registro de exactitud) como metadatos de nivel registro. Independientemente de cómo se le llame, es importante contar con una buena documentación a nivel de conjunto de datos y a nivel de registro.

Todos los datos incluyen error; ¡no hay escapatoria! Es saber cuál es el error que es importante y saber si el error está dentro de los límites aceptables para el propósito con el cual han de utilizarse los datos. Es aquí en donde empiezan a destacar los metadatos para el conjunto de datos como un todo, y es en realidad en el desarrollo de metadatos que el término “aptitud de uso” adquiere importancia. El concepto aptitud de uso no se reconoció plenamente como un concepto importante en lo que es información espacial sino hasta principio de los años 90, y no fue sino hasta mediados de los años 90 que empezó a aparecer en la literatura en este contexto (Agumya y Hunter 1996).

Pero registrar la información sólo a nivel de conjunto de datos no siempre suministrará la información que necesita el usuario. El registro de errores a nivel registro, especialmente con los datos de especies, puede ser sumamente importante para determinar la aptitud de uso de ese registro. Cuando se pone a disposición esa información, el usuario puede pedir, por ejemplo, sólo aquellos datos que son mejores que cierto valor métrico; e.g. mejor que 5 000 metros. También es importante que las herramientas automatizadas de georeferenciación incluyan el cálculo de exactitud como campo en la salida de datos (output).

También es importante que el usuario de los datos entienda el concepto ‘aptitud de uso”. Con bastante frecuencia los datos de ocurrencia de especies se extraen de una base de datos en formato ’registro numero., x,y’, sin importar la información sobre exactitud que puedan tener. La coordenada en sí siempre está representada por un punto, pero rara vez, si acaso alguna vez, se refiere a un punto real. Algunos registros pueden haberse ingresado a una base de datos sin tener un punto arbitrario (por ejemplo, una colección que en la etiqueta sólo aparece ‘América del Sur’) y da una exactitud de 5 000 000 de metros en campo de exactitud. ¡Hay bases de datos que hacen eso!. Extraer el registro y usar su punto arbitrario será bastante engañoso. El usuario necesita que se le dé a conocer que hay un campo de exactitud, si es que éste existe, y que se le informe cómo usarlo. En los casos en que los proveedores de datos emiten reportes de datos estándar, éstos deben hacer que sea requisito obligatorio incluir campos de exactitud cuando se suministran datos.

Page 43: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 40 Fecha de publicación:Julio de 2005--

Fig. 6. Ejemplo de búsqueda de datos en la herramienta de búsqueda MaPSTeDIhttp://www.geo m use.o r g/ m apstedi/client/textSearch.ht m l . En el ejemplo se muestra la capacidad de buscar datos de una exactitud particular, usando la documentación a nivel registro.

Documentar la exactitud, precisión y error de los datos espaciales resulta esencial si el usuario ha de poder determinar si los datos son de calidad para sus propósitos. Esa documentación debe incluir (como mínimo):

título del conjunto de datos fuente de los datos lineaje de los datos (las acciones por las que han pasado los datos desde que se los colectó o

desde que fueron derivados al lugar actual) exactitud (posicional, temporal y de atributo) consistencia lógica fecha y tiempo de vida esperado de los datos (vigencia y estado de los datos, frecuencia de

actualización) definición de los campos de datos metodología de colección compleción condiciones de uso y restricciones en el uso (e.g. derechos de autor, restricciones en las

licencias, etc.) información sobre el custodio y detalles para contactarlo

Vale la pena definir algunos de estos términos, ya que no todos los custodios de datos tienen familiaridad con ellos. Muchos de estos términos se refieren a una colección de datos que está en una base de datos y no a los registros individuales de la colección en sí.

Page 44: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 41 Fecha de publicación:Julio de 2005--

Exactitud posicionalLa exactitud posicional se refiere a qué tanto se acerca la descripción de las características de la coordenada comparadas con la ubicación real (Minnesota Planning 1999). Debe señalarse el datum geodésico que se ha usado para determinar la posición de la coordenada cuando sea posible y se conozca esa información.

También se recomienda que la base de datos incluya un campo en el que se registre la exactitud posicional de cada registro individual. Hay varias maneras de hacer eso. Algunas bases de datos utilizan un código; pero se prefiere usar un valor métrico simple para representar la exactitud estimada del registro (Chapman y Busby 1994, Conn 1996, 2000, Wieczorek et al. 2004). Esto puede ser importante para el usuario que extrae datos con un propósito particular; por ejemplo, puede querer sólo los datos cuya exactitud sea mejor a los 2000 metros. A veces, también puede ser de valor incluir un campo a nivel registro sobre cómo se ha determinado la información georeferencial. Por ejemplo:

usando GPS diferencial con GPS receptor portátil de disponibilidad selectiva (e.g. antes del año 2002) con mapa de referencia a escala 1:100 000 y obtenido por triangulación, utilizando

características fácilmente identificables. con mapa de referencia con navegación por estima con una referencia a mapa obtenida a distancia (e.g. en un helicóptero) obtenida automáticamente con software de georeferenciación con el método radio punto utilizando un diccionario geográfico; con el nombre, fecha y versión del diccionario.

Exactitud del atributoLa exactitud del atributo se refiere a una evaluación de cuán correctas y confiables son las características de los datos que se describen en relación con su valor en el mundo real. Lo ideal es que se incluya una lista de atributos e información sobre la exactitud de cada uno de ellos. Por ejemplo,

Los registros han sido brindados por observadores experimentados. Se obtiene mayor exactitud, contrastando cuán correctos son los atributos frente a los especímenes de referencia que están en el museo o herbario para verificación de expertos. Aproximadamente 40% de los registros de las plantas han sido contrastados con los especímenes de referencia, en anfibios 51%, en mamíferos 12 %, en reptiles 18% y en aves 1%. (SA Dept. Env. & Planning 2002).

LinajeEl linaje se refiere a la fuente de los datos, junto con los pasos que se hayan seguido para pocesar el conjunto de datos para llevarlo a su estado actual. Puede contener el método de colección, (i.e. ‘los datos se colectaron en cuadrículas de 10 X 10 metros’) e información sobre pruebas de validación por las que hayan pasado los datos. En la historia de los pasos por los que pasa el proceso se pueden encontrar:

el(los) método(s) de captura de datos cualquier paso y método de procesamiento intermedio los métodos que se aplicaron para generar el producto final cualquier paso de validación por el que hayan pasado los datos.

Por ejemplo:Los datos se recolectaron en cuadrículas fijas de 20 metros x 20 metros. También se ha recolectado el conteo total de especies, la estructura y otros datos relacionados al hábitat. Los datos han sido clasificados usando Twinspan en grupos que contenían grupos de especies similares.

Page 45: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 42 Fecha de publicación:Julio de 2005--

Consistencia lógica

La consistencia lógica brinda una breve evaluación de la dependencia lógica que hay entre los ítem de los datos. A pesar de que para la mayoría de los datos a los que se hace referencia en este documento (datos de museos y herbarios) algunos de esos ítems pueden no ser relevantes; sí pueden serlo para algunos datos observacionales (listas de verificación de especies de un parque nacional o bioregión, etc.) y para algunos datos de estudios. Para los datos espaciales en donde los datos se almacenan digitalmente, las pruebas de consistencia lógica pueden ser llevadas a cabo automáticamente. Cosas como:

¿Están etiquetados todos los puntos, líneas y polígonos y tiene alguno etiqueta duplicada? ¿Las líneas se intersectan en los nodos o se cruzan sin propósito? ¿Están cerrados todos los límites de los polígonos? ¿Están relacionados topológicamente todos los puntos líneas y polígonos?

La consistencia lógica también puede aplicarse en los casos de conjuntos de datos en donde hay otras relaciones lógicas entre ítems u objetos que están dentro del conjunto de datos. En casos así, se debe incluir una descripción de cualquier prueba que se haya hecho a las relaciones. Ejempos pueden ser: las fechas que aparecen en diferentes campos, si la fecha que figura en un campo dice que el proyecto se llevó a cabo entre el año ‘a’ y el año ‘b’, pero la fecha de registro de un atributo en otro campo está fuera de ese rango, entonces, se está frente a una inconsistencia lógica, o si los registros están fuera del rango geográfico; si uno de los campos registra el hecho de que los datos se colectaron en Brazil y otro campo incluye la latitud y longitud de registros de Paraguay, se está frente a una inconsistencia lógica entre dos campos. Documentar las verificaciones que se realizan es parte importante de los metadatos. Entre las verificaciones que se realizan puede haber pruebas tales como verificaciones ‘punto-en-polígono’, y se utiliza para propósitos en el mundo del sistema de información geográfica. Véase más métodos en el documento de esta misma serie Principios y Métodos de Limpieza de Datos.

CompleciónLa complecion se refiere a la cobertura tanto temporal como espacial de los datos o del conjunto de datos una como porción de la extensión total posible de los datos. Documentar la compleción es un componente esencial para determinar la calidad de los datos. Entre los ejemplos se puede mencionar:

Completo para las áreas al norte de los 30º S, sólo registros esparcidos entre los 30º y 40º S.

El conjunto de datos cubre sólo los registros con anterioridad a 1995 colectados en su mayoría porque se dio la oportunidad; provienen principalmente de New South Wales, pero se incluye algunos registros de otros Estados.

Desde la perspectiva del usuario, la compleción se relaciona con ‘todos los datos que él necesita’ (English 1999). Lo que quiere decir que el usuario necesita saber si la base de datos incluye todos los campos que él necesita para su análisis y necesita saber qué tan ‘completos’ están algunos de esos campos. For ejemplo, el usuario quiere llevar a cabo un estudio para comparar atributos en el tiempo, pero si la base de datos sólo incluye datos hasta determinado año, no podrá usarlos para el análisis (ver el segundo ejemplo, mencionado líneas arriba).

El acceso a los datos Para que los datos sean de valor para un usuario, éste debe tener acceso a ellos. No todos los datos están disponibles en línea y para acceder a algunos datos, es probable que el usuario tenga que contactar al custodio de los datos y pedir permiso para tener acceso a ellos u obtener una copia de lo que necesita en disco compacto. Es importante documentar las condiciones de acceso (y uso)

Page 46: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 43 Fecha de publicación:Julio de 2005--

para que los usuarios puedan tener acceso a los datos, y es por ello, que éste es un aspecto de la calidad de datos. La documentación sobre acceso puede contener:

• Direcciones de contacto para los datos• Condiciones de acceso• Método de acceso (si los datos se ponen a disposición electrónicamente)• Formato de los datos• Advertencias• Información sobre derechos de autor• Costos, si los hubiere• Restricciones de uso

Exactitud temporalLa exactitud temporal se refiere a la exactitud de la información en el tiempo. Por ejemplo, ‘datos exactos sólo a mes’. Esto puede ser importante en las bases de datos en donde el campo ‘día’ puede no permitir un valor nulo y en los casos en donde la información no está disponible; ya que automáticamente aparece un ‘1’ en el campo. Ello puede llevar a concebir una falsa impresión de precisión. Esto es aún más importante en los casos en que se conoce solamente el año del registro, ya que la base de datos automáticamente lo registra como 1 de enero. Si un usuario está estudiando el período de floración de plantas o patrones migratorios de aves, por ejemplo, entonces necesita conocer esa información para que pueda excluir esos registros, ya que (para su propósito) la calidad de los datos es baja, y éstos no son ‘idóneos’

La documentación de procedimientos de validaciónUna de las claves para saber cuál es el error que hay en los datos es la documentación. A cualquiera sirve de poco hacer controles en la calidad de datos y correcciones si no están plenamente documentados. Esto es especialmente importante cuando esas verificaciones son hechas por otra entidad que no sea el creador de los datos. Siempre existe la posibilidad de que lo que se percibe como error no sea error en absoluto y que los cambios que se hacen, originen nuevos errores. También es importante que no se estén realizando verificaciones una y otra vez. No se puede desperdiciar recursos de esa forma. Por ejemplo, un usuario que haga verificaciones de calidad de datos puede identificar un número de registros sospechosos. Esos registros pueden verificarse luego y llegarse a descubrir que son datos perfectamente buenos y que se trata de genuinos valores extremos. Si esa información no se documenta en el registro, más adelante alguien más puede acercarse y hacer más verificaciones de calidad de datos y nuevamente identificar el mismo registro como sospechoso. Esa persona puede entonces excluir del análisis esos registros o dedicar más de su valioso tiempo volviendo a verificar la información. Esto es gestión del riesgo básico, y todo custodio de datos y usuario debe llevarlo a cabo como rutina. El valor y la necesidad de documentar bien no pueden dejar de resaltarse. Ayuda al usuario a saber cuáles son los datos, qué calidad tienen y para qué propósitos pueden ser apropiados. También ayuda a curadores y custodios a seguir el rastro de los datos y su calidad y a no desperdiciar recursos volviendo a verificar supuestos errores.

La documentación y el diseño de la base de datosUna de las maneras de asegurarse que se documente plenamente el error es incluirlo en las primeras etapas de planeamiento del diseño de la base de datos y de su construcción. Después se pueden incorporar campos de calidad/exactitud adicionales. Campos como: exactitud posicional o del geocódigo, fuente de información de la información y elevación georeferencial, campos para

Page 47: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 44 Fecha de publicación:Julio de 2005--

señalar quién añadió la información; como: si el dato de coordenada lo añadió un colector utilizando GPS o si lo ingresó un operador de ingreso de datos en una fecha posterior, valiéndose de un mapa a determinada escala, si la elevación fue generada automáticamente desde un DEM, y si ése fue el caso cuál fue la fuente del DEM, su fecha y escala, etc. Toda esta información será valiosa para determinar en el tiempo si la información es de valor o no para un uso en particular y el usuario de los datos puede luego decidir.

“el usuario de datos tiene que tener cuidado cuando hace sus evaluaciones biológicas sobre la base de conjuntos de datos taxonómicos que no presentan específicamente documentación de por lo menos algunas de sus características de performancia” (Stribling et al. 2003).

Page 48: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 45 Fecha de publicación:Julio de 2005--

Almacenamiento de datos

El almacenamiento de datos puede tener efecto en la calidad de los datos de diferentes formas. Muchas no son obvias, pero tienen que ser consideradas en el diseño de la nave para almacenamiento (base de datos) y como una unidad de la cadena de la calidad de datos.

El tema de selección o desarrollo de una base de datos es demasiado extenso como para tratarlo en este documento y debe ser tema de estudio aparte. El GBIF encargó un estudio para investigar el estado de los software para la gestión de colecciones (Berendsohn et al. 2003), y este autor desea remitir al lector a ese documento.

En esta seccion se examina algunos de los principios del almacenamiento de datos en lo que se relaciona a la calidad de datos.

El respaldo de los datosUn respaldo de datos común garantiza niveles de calidad uniformes. Es esencial que las organizaciones mantengan vigentes sus procedimientos de respaldo y de recuperación ante desastres. Ahí donde los datos se pierden o corrompen, hay una pérdida concomitante en la calidad.

ArchivoEl archivo de los datos (que incluye la calidad de obsoleto de los datos y su disposición) es un área de la gestión de datos y de riesgo a la que se necesita prestar atención. El archivo de datos, en particular en las universidades, las ONG y personas privadas debe ser un tema prioritario en la gestión de datos. Las universidadades cambian constantemente de personal y con frecuencia los datos de investigación están almacenados de manera distribuida; normalmente en la computadora o archivadores personales del investigador. Si no se documentan a plenitud, esos datos pueden muy rápidamente dejar de ser útiles y accesibles. Pasa muchas veces que se descartan los datos un tiempo después de que el investigador deja la organización, ya que nadie sabe de lo que se trata o le interesa hacer el esfuerzo por mantenerlo. Es por esta razón que las universidades, en particular, necesitan estrategias racionales para documentar y archivar sus datos.

Los investigadores individuales que trabajan fuera de instituciones importantes tienen que asegurarse de que sus datos se mantengan o se archiven tras su muerte o cuando cesen de tener interés en los datos. Del mismo modo, las organizaciones no gubernamentales que no tengan fondos a largo plazo para el almacenamiento de datos tienen que buscar acuerdos con organizaciones apropiadas que tengan estrategias de gestión de datos a largo plazo (que incluya el archivo de datos) y que puedan tener interés en los datos.

El archivo de datos se ha hecho mucho más fácil en los últimos años con el desarrollo de los protocolos DiGIR/Darwin Core y BioCASE/ABCD7 que brindan una forma fácil para que una institución, departamento de universidad o individuo exporte su base de datos a uno de estos formatos y la almacene en formato XML, ya sea en su propia página web o transmitiéndola a una institución anfitriona. Ésta es una forma fácil de almacenar datos en forma perpetua y/o ponerlos a disposición a través de procedimientos de búsqueda, como el del Portal de Datos del GBIF.

La limpieza y disposición y el archivo de datos son también temas cuando se habla de datos de la Red Informática Mundial (World Wide Web). Los sitios web que sus creadores han abandonado o que contienen datos viejos y obsoletos dejan el ciberespacio lleno de basura digital (referencias diversas). Las organizaciones tienen que tener establecida una estrategia de archivo de datos en su

7 h tt p ://www. t dwg.or g ; h tt p ://www. gb i f. o r g /li nk s/stan d ar d s

Page 49: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 46 Fecha de publicación:Julio de 2005--

La integridad de los datos se mantiene con una buena gestión de datos, su almacenamiento, respaldo y archivo.

Los datos que ya no se requieren (por razones legales u otras razones) no deben ser destruidos o puestos en riesgo sin que se haya hecho uso provechoso de todas las otras posibilidades; incluyendo la de archivarlos (NLWRA 2003).

cadena de gestión de la información. El archivo físico de datos es un tema demasiado extenso como para tratarlo en este documento, pero el Consejo de Información y Recursos Bibliotecarios y el Instituto Nacional de Estándares y Tecnología de Estados Unidos han publicado recientemente un documento sobre el uso de discos compacto y DVD para el archivo de datos (Byers 2003). Es un resumen valioso sobre esa tecnología, y el lector queda invitado a remitirse a él.

Integridad de los datosLa integridad de los datos se refiere a las condiciones en las cuales los datos no han sido alterados o destruidos de manera desautorizada y no se han modificado, alterado o destruido accidental o maliciosamente (como por virus o subidas repentinas de voltaje).

Los datos cambian con frecuencia; por ejemplo, cuando se actualiza la información taxonómica de un registro tras una redeterminación. Pero el usuario espera que el sistema de cómputo mantenga la integridad de los datos y que el sistema de por sí no altere inadvertida o incorrectamente un valor. La corrupción de datos es cuando la integridad de los datos falla y ocurre un cambio incorrecto o involuntario.

Patrones de errorLas bases de datos taxonómicas y de ocurrencia de especies, como todas las bases de datos, son vulnerables a contener patrones de error. English (1999) ha reconocido los siguientes patrones de error, a los que ha llamado defectos de los datos. Dalcin (2004) adoptó éstos para utilizarlos en bases de datos taxonómicas. Los valores que se muestran son de English (1999) con ejemplos citados en Chapman (1991) y de las bases de datos del Herbario Virtual Australiano8 y del Vínculo a las especies de Brazil9.

Redundancia en el valor del dominio.- Existen valores de datos no estandarizados o valores sinónimos y en los cuales dos o más valores o códigos tienen el mismo significado. La redundancia es bastante típica con datos descriptivos si no se sigue una terminología estandarizada, o en donde no se controla bien la compilación de datos de fuentes diferentes.

Valores faltantes.- Un campo de dato que debe contener un valor no lo tiene. Se incluye aquí tanto los campos requeridos como los campos a los que no tiene que ingresarse un dato al momento de la captura de datos, pero que son necesarios para el procesamiento en una fase posterior. Entre los ejemplos se incluye valores de georeferenciación o de coordenadas (latitud y longitud).

8 h ttp ://www.cpb r.gov .au /avh /9 h tt p ://s p eciesli n k.cria. o r g .br/

Page 50: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 47 Fecha de publicación:Julio de 2005--

Valores incorrectos.- Estos pueden ser causados por transposición de las teclas, por el ingreso de datos en el lugar equivocado, por un entendimiento equivocado del significado de los datos capturados, por no poder leer la etiqueta o cuando los campos obligatorios exigen un valor, pero el operador de ingreso de datos no sabe qué valor ingresar. Los valores incorrectos son los errores más obvios y comunes y pueden afectar a todo valor que figure como dato de todos los campos. Los errores de ortografía de los nombres científicos es un patrón común asociado a valores incorrectos de bases de datos taxonómicas y nomenclaturales (véase anotaciones en muchas otras partes de este documento), así como la colocación de un cero en campos para georeferencias, etc.

Valores no atómicos.- Ocurre cuando se ingresa más de un dato en el mismo campo (e.g. género, especie y autor en el mismo campo o rango y nombre infraespecífico). Este tipo de error es normalmente el resultado de un diseño de baja calidad de la base de datos. Este tipo de patrón de error puede ocasionar problemas en la integración de datos.

Género Especie InfraespecieEucalyptus globulus subsp. BicostataFamilia EspeciesMyrtaceae Eucalyptus globulus Labill.

Cuadro 4. Ejemplos de valores no atómicos

Dominio esquizofrenia.- Campos que se utilizan para propósitos para los cuales no fueron diseñados y terminan incluyendo datos de más de una naturaleza.

Familia Género EspecieMyrtaceae Eucalyptus globulus?Myrtaceae Eucalyptus ? globulusMyrtaceae Eucalyptus aff. globulusMyrtaceae Eucalyptus sp. nov.Myrtaceae Eucalyptus ?Myrtaceae Eucalyptus sp. 1Myrtaceae Eucalyptus To be determinedCuadro 5. Ejemplos de dominio esquizofrenia

Duplicidad en el dato de presencia–Registros multiples que representan una sola entidad. Los casos más típicos se dan con los nombres que tienen una forma alternativa de escribirse o cuando tienen nomenclatura alternativa. Esto puede ocasionar dificultades al usuario cuando busca un nombre o cuando intenta combinar datos de bases de datos diferentes.

o Phaius tancarvilleae o Phaius tankervilliae o Phaius tankarvilleae o Phaius tankervilleae o Phaius tankervillae

o Brassicaceae/Cruciferae (equivalentes exactos, ambos permitidos por el Código Internacional de Botánica)

Valores inconsistentes.- Ocurre cuando los datos de la base de datos relacionadas se actualizan inconsistentemente o a momentos diferentes en las dos bases de datos. Por ejemplo, la base de datos de la colección viva y la del herbario o la base de datos de las colecciones del museo y la base de datos de imágenes relacionada.

Page 51: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 48 Fecha de publicación:Julio de 2005--

Contaminación en la calidad de la información.- El resultado de combinar datos exactos con datos inexactos. Por ejemplo, combinar datos con información a nivel subespecie llevándolas a una base de datos que sólo incluye datos a nivel especie.

Los datos espacialesEl almacenamiento de datos espaciales cubre la información de la ubicación (información textual sobre la localidad), así como información en coordenadas (datos de georeferenciación) que usualmente se brinda como par de coordenadas (una dirección este y una dirección norte). Muchas bases de datos están ahora comenzando a incluir datos de ubicación analizados o atomizados, tales como el lugar más cercano que tiene nombre, la distancia y la dirección, además de la descripción libre de la localidad. Ahora se están desarrollando varios proyectos para mejorar el análisis de los datos de ubicación de descripción libre para crear esos campos atomizados y sean de ayuda en el proceso de georeferenciación. El proyecto BioGeomancer10 que ha financiado la Fundación Gordon y Betty Moore es uno de ellos.

La información de georeferenciación (o coordenada) generalmente se ingresa a una base de datos como latitud y longitud (sistema de coordenadas esféricas) o en coordenadas UTM (o relacionadas) (sistema de coordenadas planimétricas). Un sistema de coordenadas esféricas como latitud y longitud abarca el globo y para ser representadas en un mapa de papel tienen que ser alargadas en formas inusuales conocidas como proyecciones. Los sistemas de coordenadas esféricas no son de áreas iguales y la distancia entre un grado de latitud y el siguiente, por ejemplo, puede variar considerablemente dependiendo de si uno está cerca al Ecuador o cerca a uno de los polos. Los sistemas de coordenadas planimétricas están más cerca a igualar las proyecciones de área y pueden usarse para medir o para hacer cálculos de áreas.

Muchas instituciones están empezando a ingresar datos en grados, minutos y segundos o grados y minutos decimales (como dan muchos GPS) y haciendo que la base de datos los convierta en grados decimales para almacenamiento. Para transferirlos y usarlos en un SIG, generalmente es mejor almacenar los datos en grados decimales, ya que se puede transferir datos fácilmente y dar la mejor exactitud posible.

El almacenamiento de datos en coordenadas UTM con frecuencia se da en instituciones donde los datos están restringidos a sólo una Zona UTM.. Tiene la ventaja de ser un área, como se ha señalado, que se basa de modo tal que cada cuadrícula es un cuadrado (o rectángulo) y permite hacer una representación fácil en un mapa plano o para calcular distancia y área. Es importante, sin embargo, cuando se almacena datos en sistemas de coordenadas UTM (o sistemas relacionados) que también se almacene la Zona; de lo contrario surgen dificultades al combinar datos de otras áreas o instituciones.

Grados decimalesEl almacenamiento de grados decimales en muchas bases de datos puede llevar a dar una Precisión Falsa, como se ha mencionado anteriormente. La precisión a la que se almacena los datos (y la que se pone a disposición) debe ser un aspecto por considerar. La base de datos no debe permitir reportar a una precisión mayor al dato de mayor precisión de la base de datos. Con la mayoría de datos biológicos, eso será alrededor de 4 lugares decimales (ca. 10 metros).

DatumsExisten muchos datums geodésicos posibles. La Tierra no es una esfera real sino un elipsoide, y se presentan dificultades cuando se trata de encajar un sistema de coordenadas a la superficie de ese elipsoide (Chapman et al. 2005). Para resolver eso, se creó el concepto ‘datum’. Un datum es una

10 h tt p ://www. b i og e o m a n cer. o r g /

Page 52: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 49 Fecha de publicación:Julio de 2005--

serie de puntos que se usan para referenciar una posición en la esfera para el elipsoide de revolución. En el pasado, se generaron diferentes sistemas de referencia para diferentes partes de la Tierra, y fue sólo con la llegada de los satélites que se pudo generar un sistema de referencia o datum realmente global, ya que se usaban los satélites para fijar el centro de la Tierra. La diferencia de una ubicación sobre la Tierra con latitud y longitud utilizando diferentes datums geodésicos puede ser como 400 metros o más (Wieczorek 2001).

Es por la diferencia que es importante que las bases de datos registren el datum que están utilizando; de otro modo cuando se combinen datos, el error resultante entre dos registros de la misma ubicación puede ser bastante significativo.

Page 53: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 50 Fecha de publicación:Julio de 2005--

Manejo de datos espaciales

Hay muchas formas en que pueden manejarse los datos espaciales. Muchas no tienen efecto en la exactitud de éstos, otras sí, Ejemplos de algunos de los métodos que sí afectan la exactitud posicional de los datos espaciales son:

La conversión de datos de uno a otro formatoQuizá la conversion de datos más común que realizan quienes trabajan con la colección, el almacenamiento y usando los datos de especies y de ocurrencia de especies es la conversión de geocódigos de grados/minutos/segundos a grados decimales (DMS to DD) o de coordenadas UTM a grados decimales (UTM to DD). Otras conversiones son las de millas a kilómetros en las descripciones textuales de ubicación, la conversión de pies a metros en los registros de altitud y profundidad, etc.

Todas estas conversiones son bastante simples, pero con el mal uso de la precisión pueden llevar a dar una impresión falsa de exactitud. Por ejemplo, una colección que da una altura de 250 pies (para la que el colector pueda haber querido decir entre 200 y 300 pies) cuando se convierten a metros sería 76,2 metros (a un lugar decimal) o tal vez 76 metros si se redondea. Sería mejor registrar el valor convertido como 80 metros y aún mejor incluir un campo de exactitud para añadir tal vez (±) 20 metros. El falso uso de precisión puede llevar a lo que parece ser una exactitud mayor, pero en realidad es una caída en lo que es calidad.

Datums y proyeccionesLa conversion de datos de un datum geodésico a otro puede llevar a errores bastante significativos ya que las conversiones no son uniformes (ver Wieczorek 2001 donde se debate sobre datums y su efecto en la calidad de los datos). Muchos países o regiones están ahora convirtiendo la mayoría de sus datos a un formato estándar de su region; ya sea el Datum Geodésico Mundial (WGS84), o datums que se aproximan a éste bastante cerca (dos ejemplos son el Datum Geográfico Australiano (AGD84) en Australia, que varía del WGS84 por 10cm aproximadamente; y el EUREF89 en Europa que varia del WGS84 por 20cm aproximadamente). La conversion de una posición datum a otra, por ejemplo, probablemente no sea necesaria si los datos son sólo exactos a los 5 ó 10 km. Pero si se tienen datos de alrededor de 10-100 m de exactitud, el cambio de datum puede ser bastante significativo e importante (en algunas áreas hasta 400 m o más (Wieczorek 2001).

De igual manera, cuando los datos mapeados están en polígonos (e.g. colecciones de un parque nacional), se necesita estar consciente de los errores que pueden surgir al convertirlos de una proyección a otra (e.g. de Albers a geográfica). Hay fórmulas estándar para calcular el error que origina esas conversiones, y los metadatos que acompañan a los datos deben reflejar esa información.

Las cuadrículasCuando se convierten datos de un formato vector a un formato de cuadrículas o raster, la exactitud y la precisión se pierden. Esto se debe al tamaño de las celdas de la cuadrícula del archivo raster que se usan para aproximarse al dato vector (Burrough y McDonnell 1998). La precisión y la exactitud no pueden recuperarse convirtiendo los datos al formato vector. Sobre el tema y los problemas que se generan al usar y convertir datos raster y los problemas de escala, véase Chapman et al. (2004)

Page 54: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 51 Fecha de publicación:Julio de 2005--

La integración de los datos produce resultados de alta calidad cuando los custodios de los datos que se están integrando han seguido y han utilizado estándares compatibles de almacenamiento de datos

Integración de datosLos conjuntos de datos geográficos son difíciles de integrar cuando hay inconsistencias entre ellos. Esas inconsistencias pueden encontrarse en las características espaciales y de atributo de los datos, y puede ser necesario tomar varias medidas correctivas que con frecuencia toman tiempo (Shepherd 1991). Las inconsistencias pueden ser el resultado de:

La diferencia en las técnicas de registro o técnicas de medición (e.g. tamaño del área y períodos de tiempo de la observación de datos), métodos de estudio (e.g. tamaño de la cudrícula, ancho del transecto) o categorías de datos (e.g. definiciones diferentes de categorías con datos categóricos).

Errores en la medición o métodos del estudio (e.g. errores en la transcripción, el registro de datos, las identificaciones)

Diferencias en la resolución (espacial, temporal o de atributo) Definiciones vagas e imprecisas Falta de claridad de los objetos (e.g. límites en el suelo o vegetación, identificaciones en

las que algunas se va a nivel especie, otras a subespecie, otras sólo a género) Diferencias en el uso o interpretación de terminología y nomenclatura (e.g. el uso

de diferentes taxonomías) Diferencias en los ajustes del GPS (datum, sistema de coordenadas, etc.)

Esos problemas de integración son mayores si los datos son: de diferentes tipos (e.g. datos de espécimen de un museo mezclados con datos de estudios o

datos observacionales. de diferentes jurisdicciones (e.g. donde las metodologías de estudio pueden ser diferentes) obtenidos de fuentes múltiples. de escalas múltiples de diferentes tipos de datos (mapas, espécimen, imagen, etc.) de períodos de tiempo diferentes almacenados en tipos de bases de datos diferentes, medios diferentes, etc. (e.g. algunos

software de base de datos no permiten valores ‘nulos’) analizados de variadas formas (e.g. un conjunto de datos incluye todo el nombre

científico en un campo y otros lo tienen partido en campos separados para género, especie).

Page 55: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 52 Fecha de publicación:Julio de 2005--

Los programas de calidad de datos que sean efectivos sirven para prevenir situaciones embarazosas a las organizaciones y a los individuos tanto internamente como públicamente.

Representación y presentación

Siempre deben desarrollarse métodos para hacer que a los datos que ya existen se le dé el uso más eficiente, cualquiera sea su calidad. No obstante, con el fin de que los datos sean confiables, también deben ser validados o estar acompañados de información que indique su nivel de confiabilidad. (Olivieri et al. 1995).

Cada vez más se reconoce a científicos e instituciones científicas como proveedores de información por el papel que cumplen en entender, explicar, cuantificar y evaluar la biodiversidad. Este reconocimiento se basa en la capacidad para proveer información confiable y útil para los tomadores de decisión, los gestores, el público en general y otros. Si la información es ambigua, confusa, incompleta, contradictoria y errónea porque la base de datos en la que se encuentran es gestionada deficientemente, su reputación como proveedores de información y autoridades científicas puede verse afectada (Dalcin 2004).

Un propósito clave del manejo de datos digitales en las ciencias biológicas es dar al usuario de la información un método rentable para consultar y analizar esa información. En ese sentido, su éxito está determinado por el grado en el que puede dar al usuario una visión exacta del mundo biológico. Pero el mundo biológico es infinitamente complejo, hay que generalizar, hacer aproximaciones y resumir para que sea representado y entendido (Goodchild et al. 1991). La forma de hacer eso es usando sistemas de información geográfica, herramientas de modelación ambiental y sistemas de apoyo a las decisiones. Al usar esas herramientas, no obstante, resulta esencial que se muestree y mida la variación y que se describa y visualice el error y la incertidumbre. Es en esta área en donde todavía tenemos un largo camino por recorrer para alcanzar lo que puede considerarse una buena práctica.

La biología fue una de las primeras disciplinas en desarrollar técnicas para reportar errores, utilizando barras de error y diversas medidas y estimados estadísticos. El reporte de errores no era visto como debilidad porque los estimados de error dan información crucial para interpretar correctamente los datos (Chrisman 1991). Cuando se brindan datos de especies, tiene que desarrollarse y utilizarse técnicas similares para reportar errores; para que los usuarios de esos datos tengan una capacidad similar para usar los datos e interpretarlos correctamente.

Determinar cuáles son las necesidades del usuarioDeterminar lo que necesita el usuario no es un proceso fácil, y resulta difícil desarrollar requerimientos detallados y luego estructurar los datos para cumplir con esos requerimientos. Pero es importante identificar a usuarios clave y trabajar con ellos para desarrollar lo que necesitan y piden. Saber bien cuáles son los requerimientos del usuario de los datos puede hacer que una colección de datos, su gestión y calidad en su totalidad sean mejores y más eficientes.

Page 56: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 53 Fecha de publicación:Julio de 2005--

RelevanciaLa relevancia está relacionada estrechamente a la ‘calidad’, y se refiere a la relevancia que tienen los datos para el uso que se les va a dar. Puede relacionarse a algo tan simple como tratar de usar determinada flora para un área para la que no es, pero para la cual no existe nada más, o puede relacionarse a datos que estén en una proyección diferente de la que se necesita y que quizá haya que trabajarlos bastante para poder usarlos y que sean ‘relevantes’.

CredibilidadLa credibilidad es el grado al que el usuario considera que los datos son creibles (Dalcin 2004). Siempre está sujeto a la percepción o evaluación por parte del usuario de lo adecuados que sean los datos para el propósito que tiene en mente y puede basarse en experiencias previas o en una comparación con estándares comúnmente aceptados (Pipino et al. 2002). La reputación de un conjunto de datos puede depender algunas veces de la credibilidad percibida por el usuario (y así, el uso que se le pueda dar), pero es algo en lo que con frecuencia puede mejorarse con una buena documentación

En Wang et al. (1995) se aprecia un diagrama que relaciona muchos de estos temas en una representación jerárquica y demuestra la relación entre entidades, tales como credibilidad, reputación, etc.

Aceptar la incertidumbre de los datos espacialesQue existe incertidumbre en los datos espaciales es un hecho de la vida; pero, con frecuencia, la incertidumbre que hay en los datos no se ha documentado bien y no siempre resulta obvio para el usuario. La proliferación de sistemas de mapeo de versión escritorio fáciles de usar ha permitido a los profesionales ajenos a los SIG visualizar fácilmente y analizar las relaciones espaciales de sus datos. Pero esto es algo que con frecuencia se hace usando escalas inapropiadas (Chapman et al. 2005) y sin considerar el error espacial e incertidumbre inherentes a los datos (Chapman 1999). En algunos casos eso puede acarrear un peligroso mal uso de los datos y, ocasionalmente, traer consecuencias trágicas (Redman 2001). Recientemente ha habido un aumento en los servicios de simples mapas en línea que hacen que el usuario pueda ver y analizar datos espaciales en un SIG de escritorio tradicional pero que deja al editor del servicio controlar las capas de datos y la escala de los conjuntos de datos que aparecen. En un futuro próximo esto va a expandirse aún más con el desarrollo de Servicios de Mapeo enWeb funcionales (WMS, por sus siglas en inglés). El control de las capas de datos y la escala por parte del editor del mapa (e.g. permitir que diferentes capas se activen o desactiven automáticamente mientras el usuario acerca la toma) reduce algunos de los errores simples que de otra manera podrían cometerse.

Resulta esencial que se documente la incertidumbre de los datos; en primer lugar, usando buenos metadatos y en segundo lugar a través de la visualización y la presentación. Un área de investigación con respecto a los datos de especies y de ocurrencia de especies que necesita dedicación es el desarrollo de técnicas para divisar la incertidumbre; por ejemplo, mostrar huellas de exactitud. En vez de que el registro de una colección se represente como un punto de latitud y longitud, hay necesidad de incluir la exactitud que se asocia al registro, y así, mostrar la ubicación como una huella: un círculo, una elipse, etc.; y hasta quizá incluir niveles de probabilidad (Chapman 2002).

Es importante que aquellos que conocen los datos y sus limitaciones con respecto a la exactitud posicional y/o de atributo ayuden al usuario documentando y poniendo a disposición esa información con el fin de guiarlo a determinar la aptitud de los datos para su(s) propósito(s).

Page 57: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 54 Fecha de publicación:Julio de 2005--

Divisar el error y la incertidumbreTodavía hay un largo camino que recorrer para desarrollar buenos métodos para divisar errores en los datos de especies; a pesar de que se están desarrollando un número de nuevos y emocionantes métodos (e.g. Zhang y Goodchild 2002). Tal vez los métodos más fáciles son los que usan una capa de error como capa adicional en un SIG. Técnicas como esa han venido utilizándose en el mundo cartográfico, en donde una capa puede brindar sombreado de diferentes intensidades para mostrar la confiabilidad de las diferentes partes del mapa. Otras técnicas pueden abarcar el uso de diferentes símbolos (una línea punteada frente a una línea sólida, puntos de diferentes tamaños o intensidad, etc. para indicar que los datos son de menor calidad o exactitud). El uso de capas superpuestas con frecuencia también puede dar pistas en cuanto al origen del error, y así éstas pueden constituirse en una herramienta valiosa en la validación y verificación de datos.

Utilizar matrices de mala clasificación, en donde las filas señalan los resultados esperados y las columnas los resultados observados, es útil ahí donde son posibles esos cálculos estadísticos. En esos casos, los errores que se observan a lo largo de las filas son errores de omisión y los errores a lo largo de las columnas errores del servicio (Chrisman 1991). Métodos como ése no se prestan generalmente para ser usados con datos de ocurrencia de especies, pero pueden ser de valor, por ejemplo, con datos de estudios en donde se observan registros de ocurrencia/ausencia en un período de tiempo.

Evaluación del riesgoLos tomadores de decisión prefieren un clima de certidumbre; pero los sistemas naturales son intrínsecamente variables y rara vez se acomodan a ese deseo. Las técnicas de evaluación del riesgo están cada vez más dando a los tomadores de decisión y a los decisores ambientales estimados de certidumbre y riesgo para que puedan tomarse decisiones ambientales con mayor certidumbre. En el caso de especies, en donde con frecuencia poco se sabe si su presencia es exacta, puede usarse como sustituto áreas de ‘probable presencia’. Empero, puede haber dentro de áreas amplias de ‘probable presencia’ áreas en las que la ‘probabilidad’ sea mayor que en otras (Chapman 2002).

El concepto de riesgo puede verse generalmente como algo que tiene dos elementos: la probabilidad y magniud de que algo ocurra y las consecuencias si es que ocurre (Beer y Ziolkowski 1995). En un contexto de datos de especie, la evaluación del riesgo puede extenderse desde el riesgo de que un incendio destruya datos si es que no se han implementado procedimientos para respaldar los datos fuera del lugar hasta el riesgo de que se incurra en error al tomar una decisión ambiental porque se usaron datos de poca calidad. Un ejemplo de ello puede ser el costo que acarrea prohibir una construcción porque hay información de que en el área habita una especie amenazada. En algunas situaciones, los gobiernos buscan cada vez más aplicar el principio de precaución al tomar decisiones ambientales importantes.

Responsabilidad en los aspectos legal y moralHay un número de areas en donde pueden surgir responsabilidades de carácter legal y moral con respecto a la calidad y presentación de los datos de especie. Entre ellos tenemos:

Derechos de autor y derechos de propiedad intelectual; Privacidad; Veracidad en el etiquetado; Presentación restringida de la calidad con taxones sensibles; Derechos de los pueblos indígenas; Responsabilidad; Advertencias y descargos

Page 58: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 55 Fecha de publicación:Julio de 2005--

Los derechos de autor y derechos de propiedad intelectual de los datos pueden en la mayoría de los casos cubrirse con documentación que acompañe a los datos. Si éstos varían de registro a registro, entonces debe registrárselos a nivel registro, de lo contrario puede abarcarse todo en los metadatos.

Un número de países recientemente ha introducido en su legislación normas sobre privacidad, y el custodio de datos debe conocer las disposiciones de las normas. Esto puede ser especialmente relevante cuando los datos traspasan los límites políticos o son puestos a disposición via Internet. En algunos países la información sobre personas particulares no puede almacenarse en una base de datos o ser puesta a disposición sin su permiso expreso. Cómo pueda afectar esto a la información que se adjunta a los datos de ocurrencia de especies no es claro; no obstante, el custodio debe conocer el tema y tomar las provisiones que sean necesarias.

Unas buenas medidas para el control de la calidad junto con buenos metadatos normalmente hará que se cumpla con conceptos de ‘veracidad en el etiquetado’. Hasta ahora, en la legislación, por lo menos, la ‘veracidad en el etiquetado se ha restringido a los productos alimenticios, pero se menciona en documentos que tratan sobre el desarrollo de una Infraestructura Global de Datos Espaciales (Nebert y Lance 2001, Lance 2001), una Infraestructura Nacional de Datos Espaciales para EE.UU. (Nebert 1999) y una Infraestructura Australiana y Neozelandesa de Datos Espaciales (ANZLIC 1996b). En el documento SID Global (Lance 2001), se recomienda que un Mecanismo de Intercambio de Información de Datos Espaciales (Spatial Data Clearinghouse) incluya un método de publicidad gratuito para dar acceso mundial a sociedades financieras bajo el principio ‘veracidad en el etiquetado’ y se cita el documento australiano neozelandés como sigue:

” Los estándares de calidad de datos terrestres y geográficos pueden ser descriptivos, prescriptivos o ambos. Un estándar descriptivo se basa en el concepto ‘veracidad en el etiquetado’, que exige a los productores de los datos reportar lo que se sabe sobre la calidad de los datos. Esto permite al usuario de los datos tener un juicio informado sobre lo ‘indicado que puedan ser los datos para su propósito’’

Presentación restringida de la calidad con especies sensibles, Puede darse en donde la información de la localidad ‘no es clara’; por ejemplo, restringir el conocimiento de la ubicación exacta de las especies amenazadas, especies sensibles para el comercio, etc. Se trata de una reducción en la calidad publicada de los datos, y cuando se dé eso debe documentarse claramente para que el usuario sepa qué es lo que está obteniendo y pueda decidir si los datos entonces son de valor para su propósito o no.

Los derechos de los pueblos indígenas pueden también afectar la calidad de los datos ya que puede haber casos en donde tiene que restringirse alguna información debido a la susceptibilidad de los pueblos indígenas. En ese sentido se debe incluir entonces documentación que señale que: ‘algunos datos se han restringuido para acatar los derechos de pueblos indígenas’.

En 1998, Epstein et al. estudió el tema de responsabilidad legal con relación al uso de información espacial. Algunos de los puntos clave que señalan son:

Ahora hay un ‘potencial enorme’ de que por un error de información espacial se entre en litigio o se pierda reputación e integridad tanto personal como organizacional.

Los descargos tradicionales pueden no ser una defensa sólida en caso de que se llegue a litigio.

Con el fin de limitar la responsabilidad, las organizaciones pueden pedir mantener una documentación de alto nivel que etiquete sus productos adecuada y verazmente y ‘a su mejor entender y capacidad’.

Page 59: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 56 Fecha de publicación:Julio de 2005--

La mayoría de las instituciones y grupos que producen datos serán juzgados por la facilidad con la que ponen a disposición los datos e información y por la calidad de los datos. Aquellos que pueden publicar, compartir, acceder, integrar y usar información son los que se beneficiarán más (NLWRA 2003).

Advertencias y descargos.- son parte importante de la documentación de la calidad de datos. Deben escribirse de tal manera que no sólo cubran a la organización custodio sino que también brinden al usuario una idea respecto a la calidad de los datos y de lo que pueda esperarse de esa calidad.

Certificación y acreditación¿Puede y debe certificarse los datos sobre ocurrencia de especies? Con el aumento de los datos que hay a disposición en muchas instituciones, el usuario quiere saber en qué instituciones pueden confiar y cuáles son las que siguen procedimientos de control de calidad documentados. ¿Debe el usuario sólo confiar en instituciones bien conocidas o hay instituciones menos conocidas que tienen datos confiables?. ¿Cuáles de los datos disponibles de las instituciones más conocidas son más confiables y cuáles no? Sólo la reputación de la que gozan puede ser un factor decisivo para que el usuario busque en ellas su fuente de datos; pero la reputación es un concepto subjetivo y es de carácter frágil como para basar en ella acciones y decisiones (Dalcin 2004). ¿Es eso lo que queremos en nuestra disciplina?. Con buenos metadatos y la documentación de los procedimientos de calidad de datos, un factor subjetivo como la reputación puede convertirse en algo en lo que el usuario puede basar una evaluación más científica y razonada. Tal vez debemos desarrollar un proceso de certificación y acreditación que informe al usuario cuáles son las organizaciones que se ajustan a estándares y procedimientos mínimos de documentación de calidad de datos.

Una certificación de calidad acordada podría llevar a mejorar la calidad de los datos en su totalidad y a que entre los usuarios haya mayor certeza del valor que tienen los datos. Ello, a su vez, podría elevar el nivel de financiamiento que pudieren recibir organizaciones certificadas. Dalcin (2004) sugiere que una certificación de calidad de datos taxonómicos podría tener tres aspectos: las fuentes de datos primarios (la materia prima), la cadena de información (el proceso) y la base de datos (el producto).

Revisión por pares para bases de datosPodría introducirse un sistema de revision por pares para bases de datos. Un proceso de revisión de este tipo podría servir para entrar en procesos de certificación, como se examinaba líneas arriba, y puede abarcar temas como procedimientos de control de calidad, documentación y metadatos, actualización y mecanismos de retroalimentación, etc.

Page 60: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 57 Fecha de publicación:Julio de 2005--

Conclusión

Un objetivo para cualquier especialista de la información es evitar errores innecesarios. Al reconocer directamente el error, puede ser posible confinarlo hasta llegar a límites aceptables. Pero con todo, el error no siempre se puede evitar a bajo costo o fácilmente.

(Chrisman 1991).

La importancia que reviste la calidad de datos y la verificación de errores no puede dejar de enfatizarse con todo vigor. Así como se ha señalado a lo largo de este documento, ello resulta esencial si es que los datos van a tener un valor real para generar datos de salida que lleven a que las gestiones ambientales y las decisiones que en ese aspecto se tomen sean mejores. La calidad es tema importante cuando se trabaja con datos, se trate de datos de colección de museos o herbarios, registros observacionales, datos de estudios o listas de verificación de especies. Hay muchos gobiernos en el mundo que están exigiendo que se fusione el tema datos de alta calidad con su aspecto de estar mejor documentados. Por ejemplo:

• Hay una fuerte orientación proveniente de los gobiernos australianos federal, estatal y de territorio a mejorar los servicios y hacer un uso más efectivo de los recursos, incluyendo los recursos datos e información.

• Hay un reconocimiento que va en aumento en el sentido de que los datos recolectados con gasto público deben ser gestionados propiamente, con el fin de hacerlos de acceso púbico para que se vea su potencial y se justifique los altos costos que acarrean su producción y mantenimiento.

• Hay una presión que se acentúa cada vez más por parte de los consumidores por tener acceso más rápido y más fácil a datos e información correctos a bajo costo o sin costo.

• Hay un enfoque aplicándose más frecuentemente dentro de los gobiernos con respecto a la necesidad de racionalizar y combinar datos con el fin de mejorar la eficiencia y añadir valor.

• Hay un creciente requerimiento por que los datos sean relevantes. Esto se aplica a las nuevas colecciones, nuevos estudios o a la gestión y publicación de datos.

La necesidad de que los datos sean de calidad no es lo que está en cuestión, sino que muchos gestores de datos suponen que los datos que contienen sus sistemas son absolutos y están libres de error o que los errores no son importantes. Pero el error y la incertidumbre son inherentes a todos los datos, y todos los errores afectan el resultado final donde quiera que se apliquen los datos. Los procesos de adquirir y gestionar datos para mejorar su calidad son parte esencial de la gestión de datos. Todas las partes de la cadena de la calidad de la información de los datos de ocurrencia de especies tienen que ser examinadas y mejoradas por las organizaciones responsables; y documentar los datos es clave para los usuarios, para que puedan saber y entender los datos y poder determinar su aptitud de uso y, así, determinar su calidad.

El factor humano es en potencia la amenaza más grande para la exactitud y confiabilidad de la información espacial. También es el factor que puede asegurar confiabilidad y generar entendimiento sobre la debilidad inherente de cualquier conjunto de datos espaciales (Bannerman 1999)

Page 61: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 58 Fecha de publicación:Julio de 2005--

Agradecimientos

Muchos colegas y organizaciones de distintas partes del mundo han contribuido a la realización de este documento de una u otra forma. Algunos directamente, algunos interviniendo en debates con el autor durante un periodo de más de 30 años y algunos indirectamente a través de documentos publicados o sólo poniendo su información a disposición del mundo.

En particular, quiero hacer mención especial al personal, tanto de tiempo atrás como actual, del CRIA (Centro de Referência em Informação Ambiental) de Campinas en Brazil y de la ERIN (Environmental Resources Information Network) de Canberra en Australia; quienes han aportado ideas, herramientas, teorías y consejos que han ayudado al autor a formular sus ideas. Sus debates sobre el error y exactitud de la información ambiental a lo largo de los años y el trabajo pionero que han hecho ellos, la CONABIO en Mexico, la Universidad de Kansas, El CSIRO en Australia, la Universidad de Colorado, el Museo Peabody en Connecticut y la Universidad de California en Berkeley, así como otros bastante numerosos para mencionar, nos han ayudado a llegar a la etapa en que estamos hoy en la gestión de la calidad de datos de especies. Les agradezco por sus ideas y críticas constructivas. Además, me dieron ideas y expusieron desafíos que llevaron a que vierta yo algunas ideas en este documento las conversaciones con Town Peterson y otras personas en la Universidad de Kansas, Barry Chernoff de la Universidad Wesleyan en Connecticut, Read Beaman de la Universidad Yale, John Wieczorek y Robert Hijmans de la Universidad de California, Berkeley, Peter Shalk y otras personas del ETI en Amsterdam, Stan Blum de la Academia de California y el personal del GBIF en Copenhagen. Cualquier error, omisión o controversia es, no obstante, responsabilidad del autor.

También quiero agradecer a todos aquellos que aportaron con sus críticas, comentarios y sugerencias durante la edición del presente documento; en particular, a los miembros del Subcomité para la Digitalización de los Datos de la Colección de Historia Natural: Anton Güntsch (Jardín Botánico y Museo Botánico Berlin-Dahlem, Alemania), Francisco Pando (Real Jardín Botánico, Madrid, España), Mervyn Mansell (USDA-Aphis, Pretoria, Sudáfrica), A. Townsend Peterson (Universidad de Kansas, EE.UU.), Tuuli Toivonen (Universidad de Turku, Finlandia), Anna Wietzman (Instituto Smithsonian, EE.UU.), así como a Patricia Mergen (Infraestructura Belga para Información en Biodiversidad, Belgica).

Larry Speers del GBIF contribuyó decisivamente en el encargo de este informe, y lo ha guiado en todas sus etapas.

En conclusion, quiero agradecer al proyecto FAPESP/Biota en Brazil que me brindó la oportunidad y el apoyo para expandir mis ideas sobre la gestión de la calidad de datos durante mi estadía en Brazil en los años 2003-2004 y al GBIF por su apoyo y por alentar la producción de este informe.

Page 62: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 59 Fecha de publicación:Julio de 2005--

Referencias

Agumya, A. and Hunter, G.J. 1996. Assessing Fitness for Use of Spatial Information: Information Utilisation and Decision Uncertainty. Proceedings of the GIS/LIS '96 Conference, Denver, Colorado, pp. 359-70

ANZLIC. 1996a. ANZLIC Guidelines: Core Metadata Elements Version 1, Metadata for high level land and geographic data directories in Australia and New Zealand. ANZLIC Working Group on Metadata, Australia and New Zealand Land Information Council. http://www.anzlic.org.au/ m etaele m . ht m . [Accessed 14 Jul 2004]

ANZLIC 1996b Spatial Data Infrastructure for Australia and New Zealand. Discussion Paper.www.anzlic.org.au/get/237426845 6 . [Accessed 1 Jul 2004].

Armstrong, J.A. 1992. The funding base for Australian biological collections. Australian Biologist5(1): 80-88.

Bannerman, B.S., 1999. Positional Accuracy, Error and Uncertainty in Spatial Information.Australia: Geoinovations Pty Ltd. http://www.geoinnovatio n s.co m .au/posacc/ p atoc. h t m [Accessed 14 Jul 2004].

Beer, T. & Ziolkowski, F. (1995). Environmental risk assessment: an Australian perspective.Supervising Scientist Report 102. Canberra: Commonwealth of Australia. http://www.deh.gov.au/ssd/publications/ssr/102.ht m l [Accessed 14 Jul 2004]

Berendsohn, W.G. 1997. A taxonomic information model for botanical databases: the IOPI model.Taxon 46: 283-309.

Berendsohn, W., Güntsch, A. and Röpert, D. (2003). Survey of existing publicly distributed collection management and data capture software solutions used by the world’s natural history collections. Copenhagen, Denmark: Global Biodiversity Information Facility. http://circa.gbif.net/Me m bers/irc/gbif/digit/libra r y?l=/digitization_collections/contract_2003_r e port/ [Accessed 16 Mar. 2005].

Birds Australia. 2001. Atlas of Australian Birds. Search Methods. Melbourne: Birds Australia. http://www.birdsaustralia.co m .au/atlas/search.ht m l [Accessed 30 Jun 2004].

Birds Australia. 2003. Integrating Biodiversity into Regional Planning – The Wimmera Catchment Management Authority Pilot Project. Canberra Environment Australia. http://www.deh.gov.au/biodiversity / publications/wim m era / m ethods.ht m l . [Accessed 30 Jun2004].

Brigham, A.R. 1998. Biodiversity Value of federal Collections in Opportunities for FederallyAssociated Collections. San Diego, CA, Nov 18-20, 1998.

Burrough, P.A., McDonnell R.A. 1998. Principals of Geographical Information Systems: OxfordUniversity Press.

Byers, F.R. 2003. Care and Handling of CDs and DVDs. A Guide for Librarians and Archivists.Washington, DC: National Institute of Standards and Technology and Council on Library and Information Resources. http://www.itl.nist.gov/div895/carefordisc/CDandDVDCareandHandlingGuide.pdf [Accessed 30Jun 2004].

CBD. 2004. Global Taxonomic Initiative Background. Convention on Biological Diversity. http://www.biodiv.org/program m es/cross-cutting/taxono m y/default.asp [ Accessed 13 Jul 2004].

Chapman, A.D. 1999. Quality Control and Validation of Point-Sourced Environmental Resource Data pp. 409-418 in Lowell, K. and Jaton, A. eds. Spatial accuracy assessment: Land information uncertainty in natural resources. Chelsea, MI: Ann Arbor Press.

Chapman, A.D. 2002. Risk assessment and uncertainty in mapped and modelled distributions of threatened species in Australia pp 31-40 in Hunter, G. & Lowell, K. (eds) Accuracy 2002 – Proceedings of the 5th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences. Melbourne: Melbourne University.

Page 63: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 60 Fecha de publicación:Julio de 2005--

Chapman, A.D. 2004. Environmental Data Quality – b. Data Cleaning Tools. Appendix I to Sistema de Informação Distribuído para Coleções Biológicas: A Integração do Species Analyst e SinBiota. FAPESP/Biota process no. 2001/02175-5 March 2003 – March 2004. Campinas, Brazil: CRIA 57 pp. http://s p link . cria.org.br/d oc s/appen d ix_i.pdf [Accessed 14 Jul. 2004]

Chapman, A.D. and Busby, J.R. 1994. Linking plant species information to continental biodiversity inventory, climate and environmental monitoring 177-195 in Miller, R.I. (ed.). Mapping the Diversity of Nature. London: Chapman and Hall.

Chapman, A.D., Muñoz, M.E. de S. and Koch, I. 2005. Environmental Information: PlacingBiodiversity Phenomena in an Ecological and Environmental Context. Biodiversity Informatics 2:24-41.

Chrisman, N.R. 1983. The role of quality information in the long-term functioning of a GIS.Proceedings of AUTOCART06, 2: 303-321. Falls Church, VA: ASPRS.

Chrisman, N.R., 1991. The Error Component in Spatial Data. pp. 165-174 in: Maguire D.J., Goodchild M.F. and Rhind D.W. (eds) Geographical Information Systems Vol. 1, Principals: Longman Scientific and Technical.

Conn, B.J. (ed.) 1996. HISPID3. Herbarium Information Standards and Protocols for Interchange of Data. Version 3. Sydney: Royal Botanic Gardens.

Conn, B.J. (ed.) 2000. HISPID4. Herbarium Information Standards and Protocols for Interchange of Data. Version 4 – Internet only version. Sydney: Royal Botanic Gardens. http://plantnet.rbgsyd.nsw.gov.au/Hispid4/ [Accessed 30 Jun. 2004].

Cullen, A.C. and Frey, H.C. 1999. Probabilistic Techniques in Exposure Assessment. A Handbook for Dealing with Variability and Uncertainty in Models and Inputs. New York: Plenum Press,335 pages.

CRIA 2005. speciesLink. Dados e ferramentas – Data Cleaning. Campinas, Brazil: Centro deReferência em Informação Ambiental. http://splink.cria.org.br/dc/ [Accessed 4 Apr. 2005].

Dalcin, E.C. 2004. Data Quality Concepts and Techniques Applied to Taxonomic Databases. Thesisfor the degree of Doctor of Philosophy, School of Biological Sciences, Faculty of Medicine, Health and Life Sciences, University of Southampton. November 2004. 266 pp. http://www.dalcin.org/eduardo/do w nloads/edalcin_thesis_sub m ission.pdf [Accessed 7 Jan.2004].

Dallwitz, M.J. and Paine, T.A. 1986. Users guide to the DELTA system. CSIRO Division of Entomology Report No. 13, pp. 3-6. TDWG Standard. http://biodiversity.uno.edu/delta/ [Accessed 9 Jul 2004].

Davis R.E., Foote, F.S., Anderson, J.M., Mikhail, E.M. 1981. Surveying: Theory and Practice, SixthEdition: McGraw-Hill.

DeMers M.N. 1997. Fundamentals of Geographic Information Systems. John Wiley and Sons Inc. English, L.P. 1999. Improving Data Warehouse and Business Information Quality: Methods for

Reducing Costs and Increasing Profits. New York: John Wiley & Sons, Inc. 518pp. Environment Australia. 1998. The Darwin Declaration. Canberra: Australian Biological Resources

Study. http://www.biodiv.org/progr a mmes/cross-cutting/taxono m y/darwin-declaration.asp [Accessed 14 Jul 2004].

Epstein, E.F., Hunter, G.J. and Agumya, A.. 1998, Liability Insurance and the Use of GeographicalInformation: International Journal of Geographical Information Science 12(3): 203-214.

Federal Aviation Administration. 2004. Wide Area Augmentation System.http://gps.faa.gov/Progra m s / WAAS/waas.htm [Accessed 15 Sep. 2004].

FGDC. 1998. Geospatial Positioning Accuracy Standards. US Federal Geographic Data Committee. http://www.fgdc.gov/standards/status/sub1_3.ht m l [Accessed 14 Jul. 2004].

Foote, K.E. and Huebner, D.J. 1995. The Geographer’s Craft Project, Department of Geography, University of Texas. http://www.colorado.edu/geogr a phy/gcraft/contents.ht m l [Accessed 14 Jul2004].

Page 64: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 61 Fecha de publicación:Julio de 2005--

Gad, S.C. and Taulbee, S.M. 1996. Handbook of data recording, maintenance, and management for the biomedical sciences. Boca Raton: CRC Press.

Goodchild, M.F., Rhind, D.W. and Maguire, D.J. 1991. Introduction pp. 3-7 In: Maguire D.J.,Goodchild M.F. and Rhind D.W. (eds) Geographical Information Systems Vol. 1, Principals: Longman Scientific and Technical.

Heuvelink, G.B.M. 1998. Error Propagation in Environmental Modeling with GIS: Taylor andFrancis.

Huang, K.-T., Yang, W.L. and Wang, R.Y. 1999. Quality Information and Knowledge. New Jersey: Prentice Hall.

Juran, J.M. 1964. Managerial Breakthrough. New York: McGraw-Hill.Knapp, S., Lamas, G., Lughadha, E.N. and Novarino, G. 2004. Stability or stasis in the names of

organisms: the evolving codes of nomenclature. Phil. Trans: Biol. Sci. 359(1444): 611-622.Koch, I. (2003). Coletores de plantas brasileiras. Campinas: Centro de Referência em Informação

Ambiental. http://splink.cria. o rg.br/collectors_db [Accessed 26 Jan. 2004].Lance, K. 2001. Discussion of Pertinent Issues. pp. 5-14 in Proceeedings USGS/EROS Data Center

Kenya SCI Workshop, November 12 2001. http:// k is m .iconnect.co. k e/NSDI/proceedings_kenya_NSDI.PDF [Accessed 1 Jul 2004].

Leick, A. 1995. GPS Satellite Surveying: John Wiley and Sons, Inc: New York.Library of Congress. 2004. Program for Cooperative Cataloging. Washington, DC. US Library of

Congress. http://www.loc.gov/catdir/pcc/ [Accessed 26 Jun 2004].Lunetta, R.S. and Lyon, J.G. (eds). 2004. Remote Sensing and GIS Accuracy. Boca Raton, FL,

USA:CRC Press.Maletic, J.I. and Marcus, A. 2000. Data Cleansing: Beyond Integrity Analysis pp. 200-209 in

Proceedings of the Conference on Information Quality (IQ2000). Boston: Massachusetts Institute of Technology. http:// w ww.cs.wayne.edu/~a m arcus/papers/IQ2000.pdf [Accessed 21 November2003].

Mayr, E. and Ashlock, P.D. 1991. Principles of systematic zoology. New York: McGraw-Hill. McElroy, S., Robins, I., Jones, G. and Kinlyside, D. 1998. Exploring GPS, A GPS Users Guide: The

Global Positioning System Consortium.Minnesota Planning. 1999. Positional Accuracy Handbook. Using the National Standard for Spatial

data Accuracy to measure and report geographic data quality. Minnesota Planning: Land Management Information Center. http://www . m n plan.state. m n.us/pdf/1999/l m ic/nssda_o.pdf [Accessed 14 Jul. 2004]

Morse, L.E. 1974. Computer programs for specimen identification, key construction and description printing using taxonomic data matrices. Publs. Mich. St. Univ. Mus., biol. ser. 5, 1–128.

Motro, A. and Rakov, I. 1998. Estimating the Quality of Databases. FQAS 1998: 298-307Naumann, F. 2001. From Database to Information Systems – Information Quality Makes the

Difference. IBM Almaden Research Center. 17 pp.Nebert, D. and Lance, K. 2001. Spatial Data Infrastructure – Concepts and Components.

Proceeedings JICA Workshop on Application of Geospatial Information and GIS. 19 March 2001, Kenya. http://kis m .iconnect.co.ke/JICA W orkshop/pdf/Ottichilo.pdf [Accessed 1 Jul 2004].

Nebert, D. 1999. NSDI and Gazetteer Data. Presented at the Digital Gazetteer Information Exchange Workshop, Oct 13-14, 1999. Transcribed and edited from audiotape. http://www.alexandria.ucsb.edu/~lhill/ d gie/DGIE_website/ s ession3/nebert.htm [Ac cessed 1 Jul2004].

NLWRA. 2003. Natural Resources Information Management Toolkit. Canberra: National Land andWater Resources Audit. http://www.nlwra.gov. a u/toolkit/contents.h t m l [A ccessed 7 Jul

2004]. NOAA. 2002. Removal of GPS Selective Availability (SA).http://www.ngs.noaa.gov/FGCS/info/sans_SA / [ Accessed 15 Sep 2004].

Page 65: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 62 Fecha de publicación:Julio de 2005--

Olivieri, S., Harrison, J. and Busby, J.R. 1995. Data and Information Management and Communication. pp. 607–670 in Heywood, V.H. (ed.) Global Biodiversity Assessment. London: Cambridge University Press. 1140pp.

Pipino, L.L., Lee, Y.W. and Wang, R.Y. 2002. Data Quality Assessment.Communications of ACM 45(4): 211-218.Pullan, M.R., Watson, M.F., Kennedy, J.B., Raguenaud, C., Hyam, R. 2000. The Prometheus

Taxonomic Model: a practical approach to representing multiple classifications. Taxon 49: 55-75.

Redman, T.C. 1996. Data Quality for the Information Age. Artech House, Inc. Redman, T.C. 2001. Data Quality: The Field Guide. Boston, MA: Digital Press.SA Dept Env. & Planning. 2002. Opportunistic Biological Records (OPPORTUNE). South

Australian Department of Environment and Heritage. http://www.asdd.sa.gov.au/asdd/ANZSA10220 0 0008.ht m l [Accessed 14 Jul. 2004].

SEC 2002. Final Data Quality Assurance Guidelines. United States Securities and ExchangeCommission. http://www.sec.gov/about/dataqualityguide.htm [Accessed 26 Jun 2004].

Shepherd, I.D.H. 1991.Information Integration and GIS. pp. 337-360 in: Maguire D.J.,GoodchildM.F. and Rhind D.W. (eds) Geographical Information Systems Vol. 1, Principals: LongmanScientific and Technical.

Spear, M., J.Hall and R.Wadsworth. 1996. Communication of Uncertainty in Spatial Data to PolicyMakers in Mowrer, H.T., Czaplewski, R.L. and Hamre, R.H. (eds) Spatial Accuracy Assessment in Natural Resources and Environmental Sciences: Second International Symposium, May 21-23, 1996. Fort Collins, Colorado. USDA Forest Service Technical Report RM-GTR-277.

Stribling, J.B., Moulton, S.R. II and Lester, G.T. 2003. Determining the quality of taxonomic data. J.N. Amer. Benthol. Soc. 22(4): 621-631.

Strong, D.M., Lee, Y.W.and Wang, R.W. 1997. Data quality in context. Communications of ACM40(5): 103-110.

Taulbee, S.M. 1996. Implementing data quality systems in biomedical records pp. 47-75 in Gad, S.C. and Taulbee, S.M. Handbook of data recording, maintenance, and management for the biomedical sciences. Boca Raton: CRC Press.

TDWG. 2005. TDWG Working Group: Structure of Descriptive Data (SDD). Taxonomic DatabasesWorking Group (TDWG). http://160.45.63.11/P r ojects/TDWG-SDD/ [Accessed 4 Apr. 2005].

University of Colorado. 2003. MaPSTeDI. Georeferencing in MaPSTeDI. Denver, CO: University ofColorado. http:// m apstedi.color a do.edu/georeferencing.ht m l [Accessed 30 Jun. 2004].

USGS. 2004. What is SDTS? Washington: USGS. http:// m c m cweb.er.usgs.gov/sdts/whatsdts.ht m l [Accessed 30 Jun. 2004].

Van Sickle, J. 1996. GPS for Land Surveyors: Ann Arbor Press, Inc: New York.Wang, R.Y. 1998. A Product Perspective on Total Data Quality Management. Communications of the

ACM 41(2): 58-65.Wang, R.Y., Storey, V.C., Firth, C.P., 1995. A frame-work for analysis of data quality research,

IEEE Transactions on Knowledge and Data Engineering 7: 4, 623-640.Wieczorek, J. 2001. MaNIS: GeoreferencingGeo-referencing Guidelines. Berkeley: University of

California, Berkeley - MaNIS http:// m anisnet. o rg/ m anis/Geore f Guide.ht m l [Accessed 26 Jan.2004].

Wieczorek, J. 2002. Summary of the MaNIS Meeting. American Society of Mammalogists, McNeeseState University, Lake Charels, LA, June 16, 2002. Berkeley: University of California, Berkeley- MaNIS. http:// m anisnet.org/ m anis/ASM2002.ht m l [Accessed 30 Jun. 2004].

Wieczorek, J., Guo, Q. and Hijmans, R.J. (2004). The point-radius method for georeferencing locality descriptions and calculating associated uncertainty. International Journal for GIS18(8): 754-767.

Page 66: Microsoft Word - Data Quality_typeset.docchm.minam.gob.pe/wp-content/uploads/2017/08/Principios... · Web viewLA CALIDAD DE DATOS Arthur D. Chapman1 A pesar de que la mayoria de los

Arthur ChapmanPor encargo de GBIF

Pág 63 Fecha de publicación:Julio de 2005--

Wiley, E.O. 1981. Phylogenetics: the theory and practice of phylogenetic systematics. New York: John Wiley & Sons.

Zhang, J. and Goodchild, M.F. 2002. Uncertainty in Geographic Information. London: Taylor and Francis.