minería de datos

Upload: gerson-camacho-c

Post on 27-Mar-2016

6 views

Category:

Documents


0 download

DESCRIPTION

Documento de Minería de Datos

TRANSCRIPT

AO DE LA DIVERSIFICACIN PRODUCTIVA Y EL FORTALECIMIENTO DE LA EDUCACINCURSO: Sistemas Expertos.

TEMA: Minera de Datos.

ALUMNO: Camacho Crdova Gerson

DOCENTE: Ing. Oscar Mendoza Coba

TUMBES JUNIO 2015

DEDICATORIA

El siguiente documento est dedicado a mis padres y compaeros de clase. A mis padres como forma de agradecimiento por la oportunidad de estudiar e investigar y a mis compaeros como un tributo al desarrollo de nuevos conocimientos.

Contenido

INTRODUCCIN4CAPTULO I6ASPECTOS TERICOS6CAPTULO II10APLICACIONES10Negocios10Comportamiento en Internet11Terrorismo12Juegos12Ciencia e Ingeniera13CONCLUSIONES14REFERENCIAS15

INTRODUCCIN

Eldatamining(minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales.De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea msdiferencias entre datos, informacin y conocimiento.En muchas reas del saber, elconocimientose ha venido obteniendo por el clsicomtodohipottico-deductivo, en el cual es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuicin del investigador le conduce a formular lahiptesis. Esta "intuicin" resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones dedatos almacenados en soporte informtico. En el fondo de todas lasinvestigacionessobreinduccinenbases de datossubyace la idea de automatizar ese paso inductivo.Lastcnicasdeanlisisestadstico, desarrolladas hacetiempo, permiten obtener ciertas informaciones tiles, pero no inducen relaciones cualitativas generales, para esto se requieren tcnicas de anlisis inteligente que todava no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles yel conocimientoextrado de los mismos. Pero cada vez ms investigaciones dentro de lainteligenciaartificial estn enfocadas a la induccin de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo deinters: laminerade datos, que incluye los nuevosmtodosmatemticosy tcnicas para anlisis inteligente de datos.Elalmacenamientode datos se ha convertido en una tarea rutinaria de lossistemasdeinformacinde lasorganizaciones. Esto es an ms evidente en lasempresasdetelefona, elmarketingdirecto y en lasinstitucionespblicas. Los datos almacenados son un tesoro para las organizaciones, es donde se guardan las interacciones pasadas con losclientes, lacontabilidadde susprocesosinternos, representanla memoriade la organizacin. Pero con tenermemoriano es suficiente, hay que pasar a laaccininteligente sobre los datos para extraer la informacin que almacenan. Este es elobjetivode laminera de datos.

CAPTULO IASPECTOS TERICOS

La Minera de Datos es el proceso que tiene como propsito descubrir, extraer y almacenar informacin relevante de amplias bases de datos, a travs de programas de bsqueda e identificacin de patrones y relaciones globales, tendencias, desviaciones y otros indicadores aparentemente caticos que tienen una explicacin que pueden descubrirse mediante diversas tcnicas de esta herramienta.El objetivo fundamental es aprovechar el valor de la informacin localizada y usar los patrones preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y puedan tomar decisiones ms confiables.Ventajas sobre otras herramientas de manejo de datosLas caractersticas que destacan la mayor parte de los fabricantes de estas herramientas son: La minera de datos auxilia a los usuarios empresariales en el procesamiento de reservas de datos para descubrir relaciones de las que, en algunos casos, anteriormente ni siquiera se sospechaba. La informacin obtenida a travs de la minera de datos ayuda a los usuarios a elegir cursos de accin y a definir estrategias competitivas, porque conocen informacin que solo ellos pueden emplear. Los seres humanos tienen la capacidad para percibir excepciones y anormalidades rpidamente pero no tienen la habilidad para inferir relaciones que en grandes volmenes de datos, por lo que la minera de datos, mediante modelos avanzados y reglas de induccin, puede examinar gran cantidad de datos y encontrar patrones difciles de identificar a simple vista. Puede trabajar siguiendo los mismos criterios con grandes cantidades de informacin histrica. El proceso de bsqueda puede ser realizado por herramientas que automticamente buscan patrones porque as estn programadas y despliegan los tpicos ms importantes.Laminera de datosoexploracin de datos(es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD) es un campo de lasciencias de la computacinreferido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos.1Utiliza los mtodos de lainteligencia artificial,aprendizaje automtico,estadsticay sistemas debases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y degestin de datos, deprocesamiento de datos, del modelo y de las consideraciones de inferencia, de mtricas de Intereses, de consideraciones de laTeora de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.Un proceso tpico de minera de datos consta de los siguientes pasos generales:1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a lasvariables independientes(las que sirven para hacer el clculo o proceso), como posiblemente almuestreode losregistrosdisponibles.2. Anlisis de las propiedades de los datos, en especial loshistogramas, diagramas dedispersin, presencia devalores atpicosy ausencia de datos (valoresnulos).3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce comopre procesamientode los datos.4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin.5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre procesado diferente de los datos.6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si elexpertolo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido.Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos delData Mining Group, que est estandarizando el lenguajePMML(Predictive Model Markup Language), de manera que los modelos de minera de datos seaninteroperablesen distintasplataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de esteestndar.Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida enalmacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc.

CAPTULO IIAPLICACIONES

NegociosLa minera de datos puede contribuir significativamente en las aplicaciones deadministracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando e-mails, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin.Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente.En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible.Anlisis de la cesta de la compraEl ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin dehbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventascompulsivas.Patrones de fugaUn ejemplo ms habitual es el de la deteccin depatrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.FraudesUn caso anlogo es el de la deteccin de transacciones delavado de dineroo defraudeen el uso de tarjetas de crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.Recursos humanosLa minera de datos tambin puede ser til para los departamentos derecursos humanosen la identificacin de las caractersticas de sus empleados de mayor xito. La informacin obtenida puede ayudar a la contratacin de personal, centrndose en los esfuerzos de sus empleados y los resultados obtenidos por stos. Adems, la ayuda ofrecida por las aplicaciones paraDireccin estratgicaen una empresa se traducen en la obtencin de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes deproduccino gestin demano de obra.Comportamiento en InternetTambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una pgina deInternet. O la utilizacin de la informacin obtenida por medios ms o menos legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin histrica disponible acerca de los clientes que han comprado el primero.TerrorismoLa minera de datos ha sido citada como el mtodo por el cual la unidadAble Dangerdel Ejrcito de los EE.UU. Haba identificado al lder de losatentados del 11 de septiembre de 2001,Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros de una clula deAl Qaedaque operan en los EE.UU. Ms de un ao antes del ataque. Se ha sugerido que tanto laAgencia Central de Inteligenciay su homloga canadiense,Servicio de Inteligencia y Seguridad Canadiense, tambin han empleado este mtodo. JuegosDesde comienzos de la dcada de 1960, con la disponibilidad deorculospara determinadosjuegos combinacionales, tambin llamadosfinales de juego de tablero(por ejemplo, para lastres en rayao enfinales de ajedrez) con cualquier configuracin de inicio, se ha abierto una nueva rea en la minera de datos que consiste en la extraccin de estrategias utilizadas por personas para estos orculos. Los planteamientos actuales sobrereconocimiento de patrones, no parecen poder aplicarse con xito al funcionamiento de estos orculos. En su lugar, la produccin de patronesperspicacesse basa en una amplia experimentacin conbases de datossobre esosfinales de juego, combinado con un estudio intensivo de los propiosfinales de juegoen problemas bien diseados y con conocimiento de la tcnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que trabajan en este campo sonBerlekampen el juego depuntos-y-cajas(oTimbiriche) yJohn Nunnenfinales de ajedrez.Ciencia e IngenieraEn los ltimos aos la minera de datos se est utilizando ampliamente en diversas reas relacionadas con lacienciay laingeniera. Algunos ejemplos de aplicacin en estos campos son:GenticaEn el estudio de lagenticahumana, el objetivo principal es entender la relacincartogrficaentre las partes y la variacin individual en las secuencias delADNhumano y la variabilidad en la susceptibilidad a las enfermedades. En trminos ms llanos, se trata de saber cmo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo elcncer). Esto es muy importante para ayudar a mejorar el diagnstico, prevencin y tratamiento de las enfermedades. La tcnica de minera de datos que se utiliza para realizar esta tarea se conoce como "reduccin de dimensionalidad multifactorial".Ingeniera elctricaEn el mbito de laingeniera elctrica, las tcnicas de minera de datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones dealta tensin. La finalidad de esta monitorizacin es obtener informacin valiosa sobre el estado del aislamiento de los equipos. Para la vigilancia de las vibraciones o el anlisis de los cambios de carga en transformadores se utilizan ciertas tcnicas paraagrupacin de datos(clustering) tales como losmapas auto-organizativos(SOM: Self-organizing map). Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalas.Anlisis de gasesTambin se han aplicado tcnicas de minera de datos para elanlisis de gases disueltos(DGA: Dissolved gas analysis) entransformadores elctricos. El anlisis de gases disueltos se conoce desde hace mucho tiempo como la herramienta para diagnosticar transformadores. Losmapas auto-organizativos(SOM) se utilizan para analizar datos y determinar tendencias que podran pasarse por alto utilizando las tcnicas clsicas (DGA).CONCLUSIONES

Actualmente el valor de la informacin se ha acrecentado hasta convertirse en un activo estratgico para la competitividad de una empresa. Su unidad y consistencia son importantes, pues de estas caractersticas depende una buena parte de la confiabilidad de la informacin seleccionada para tomar decisiones. La minera de datos ayuda a los directivos a obtener una visin ms completa y detallada de su negocio ya que les permite buscar datos de sus operaciones cotidianas que se salen de los rangos que estn considerados como normales de lo que, en parte, depende de la confiabilidad de la informacin para la toma de decisiones. La minera de datos tiene futuro dentro de las empresas, debido a que existen grandes bases de datos que contienen valores desaprovechados; los mercados estn ms saturados y se requieren de anlisis intensos para captar la atencin de los clientes.

REFERENCIAS

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos15