livro bi stanley loh

158
1 BI na Era do Big Data para Cientistas de Dados indo além de cubos e dashboards na busca pelos porquês, explicações e padrões Autor: Stanley Loh

Upload: danielbernardo

Post on 11-Nov-2015

53 views

Category:

Documents


6 download

DESCRIPTION

Livro Business Intelligence

TRANSCRIPT

  • 1

    BI na Era do Big Data para Cientistas de Dados

    indo alm de cubos e dashboards na busca pelos porqus, explicaes e padres

    Autor: Stanley Loh

  • 2

    Stanley Loh

    BI na era do big data para cientistas de dados: indo alm de cubos e dashboards na busca pelos porqus, explicaes e padres

    1a edio

    Porto Alegre

    Stanley Loh

    2014

  • 3

    Prefixo Editorial: 916683 Nmero ISBN: 978-85-916683-1-1

    Copyright by Stanley Loh Todos os direitos reservados.

    Formas de citao:

    LOH, Stanley. BI na era do big data para cientistas de dados - indo alm de cubos e dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 2014.

    Loh, S. (2014). BI na era do big data para cientistas de dados: indo alm de cubos e dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 158 p.

  • 4

    Contedo BI na Era do Big Data para Cientistas de Dados ............................................................ 1 indo alm de cubos e dashboards .................................................................................. 1 na busca pelos porqus, explicaes e padres .............................................................. 1 1 Introduo ........................................................................................................... 10

    1.1 A Evoluo dos Sistemas de Informao ....................................................... 11 1.2 BI X Sistemas Gerenciais.............................................................................. 12 1.3 Dados X Informao X Conhecimento X Inteligncia ................................... 13 1.4 O que BI ento ? ........................................................................................ 14 1.5 Big Data e Information Explosion ................................................................. 15

    2 Busca e Identificao de Padres ......................................................................... 17 2.1 Modelos e Padres ........................................................................................ 17 2.2 Contextualizao dos Modelos e Comparaes ............................................. 19 2.3 Padres X Excees: impreciso dos modelos............................................... 20 2.4 Analisar passado para criar modelos ............................................................. 21 2.5 Modelos para prever futuro ........................................................................... 22 2.6 Anlise de Correlao e Causa-Efeito ........................................................... 24 2.7 Dificuldades para identificar padres - pessoas e sistemas complexos ........... 25

    3 Processo Geral de BI ........................................................................................... 28 3.1 Premissas do Processo de BI ......................................................................... 29 3.2 Quem deve participar do Processo de BI ....................................................... 30 3.3 Processo de BI Pr-ativo X Reativo: comear com ou sem hipteses ............ 30

    4 Pr-processamento e Preparao de dados ........................................................... 33 4.1 Tratamento de valores nulos ......................................................................... 33 4.2 Deduplicidade de registros ............................................................................ 34 4.3 Integrao de bases (merge) .......................................................................... 34 4.4 Enriquecimento de dados .............................................................................. 35 4.5 Seleo de Amostras ..................................................................................... 36

    4.5.1 Tipos de amostras .................................................................................. 37 4.5.2 Como separar amostras (subcolees ou subconjuntos) .......................... 38 4.5.3 Generalizaes e Especializaes ........................................................... 39 4.5.4 Amostras por perodo de tempo - analisar ritmo ..................................... 40 4.5.5 Tamanho da amostra - quantidade de elementos na amostra ................... 41

    4.6 Seleo de atributos ou campos para anlise - feature selection ..................... 42 4.6.1 Valores que predominam ....................................................................... 43 4.6.2 Dependncias funcionais ........................................................................ 43

  • 5

    4.7 Discretizao - faixas ou grupos de valores ................................................... 44 4.8 Data Warehouse ............................................................................................ 45

    5 Tcnicas de Anlise de Dados ............................................................................. 46 Anlise qualitativa X quantitativa ........................................................................ 46 Qualitativo para quantitativo ............................................................................... 46

    5.1 Data Mining - tcnicas tradicionais sobre dados estruturados ........................ 49 Associao .......................................................................................................... 49 Correlao ........................................................................................................... 51 Correlao assncrona ......................................................................................... 53 Anlise de Regresso e Modelos de Predio ...................................................... 53 Mdia .................................................................................................................. 55 Deteco de desvios (outliers) ............................................................................. 55 Sequncia de tempo ............................................................................................. 56 Sries Temporais ................................................................................................. 57 Classificao (categorizao) .............................................................................. 59 Induo ............................................................................................................... 60 Clusterizao ou Agrupamento (clustering) ......................................................... 60

    5.2 Anlise de cubos e anlise multidimensional OLAP ...................................... 61 6 Interpretao dos resultados da anlise ................................................................ 66

    6.1 Resultados condizem com a tcnica usada..................................................... 67 6.2 Indicadores escolhidos para BI - certos ou errados ........................................ 69 6.3 Teoria do Mundo Fechado ............................................................................ 70 6.4 Correlaes erradas ....................................................................................... 72 6.5 Sobrecarga e Rudos ..................................................................................... 74

    7 Processo de BI reativo ......................................................................................... 76 8 Metodologia para BI proativo .............................................................................. 78

    8.1 Seleo de dados e amostras ......................................................................... 79 8.2 Seleo da tcnica de anlise ........................................................................ 79 8.3 Anlise da coleo toda................................................................................. 80

    8.3.1 Analisar percentual ou valores absolutos ................................................ 80 8.3.2 Soma X Contagem X Mdia .................................................................. 80 8.3.3 Percentual por linha X por coluna .......................................................... 82 8.3.4 O que predomina ................................................................................... 84 8.3.5 O que mais importante: o que raro ou o que comum ? .................... 84 8.3.6 Investigar padro normal e excees ou minorias ................................... 85 8.3.7 Qual probabilidade mnima interessante .............................................. 86 8.3.8 Medidas de Interestingness .................................................................... 87

  • 6

    8.4 Comparao de subcolees entre si ou em relao coleo toda ................ 88 8.5 Combinao e Integrao de padres ............................................................ 91

    8.5.1 Hierarquia de padres e regras ............................................................... 92 8.5.2 Regras inversas ...................................................................................... 94

    8.6 Avaliao e Teste de Hipteses ..................................................................... 94 8.7 Retroalimentao .......................................................................................... 97

    9 Processo de BI como Descoberta e Investigao .................................................. 99 9.1 Descobrindo hipteses de causas ................................................................. 100

    A coleta inicial de dados.................................................................................... 100 Quantidade de informao X sobrecarga X rudos ............................................. 101 A observao direcionada, seletiva ................................................................. 102 A intuio para seleo de dados ....................................................................... 103 O hbito e a experincia para seleo de dados .................................................. 104 Heursticas para seleo de dados ...................................................................... 105 A observao influencia o ambiente .................................................................. 105 Fazer as perguntas certas ................................................................................... 106 Viso Holstica - Anlise do Contexto ............................................................... 106 Verificar o que comum a um conjunto de casos .............................................. 108 Verificar o que incomum ou diferenas entre grupos ...................................... 109 Benchmarking e Analogias ................................................................................ 110 "Reframe", repensar o problema ........................................................................ 111 Quebra de Paradigmas ....................................................................................... 112 Descoberta por acaso (serendipity) .................................................................... 113

    9.2 Sinais fracos, fatos X opinies, rumores e boatos ........................................ 113 9.3 Anlise de causa-efeito ............................................................................... 115

    Anlise de causa-raiz ......................................................................................... 117 Avaliao sistmica dos dados .......................................................................... 118 Parcimnia conjunto mnimo de causas .......................................................... 120

    9.4 Mtodos e Teorias para Investigao........................................................... 120 Mtodo Cartesiano ............................................................................................ 121 Mtodo Cientfico ............................................................................................. 121 Mtodo indutivo-dedutivo de Aristteles ........................................................... 121 Mtodo de Anlise e Sntese de Newton ............................................................ 122 Mtodo de Galileu ............................................................................................. 122 Raciocnio Abdutivo ......................................................................................... 122 Viso Sistmica e Pensamento Sistmico .......................................................... 123 Abordagem Sistmica ...................................................................................... 125

  • 7

    O 4o Paradigma de Jim Gray - a eScience ......................................................... 126 Mtodo de Investigao Criminal ...................................................................... 126 Mtodo do Sherlock Holmes ............................................................................. 127 Diagnstico Mdico .......................................................................................... 127

    9.5 BI como um ato de criao .......................................................................... 128 9.6 Associaes Visuais - Anlise de Grafos, Redes e Mapas Mentais .............. 129

    Determinismo X probabilismo ........................................................................... 134 Descobrir novas ligaes ................................................................................... 134 Mapas e informaes geogrficas ...................................................................... 135 Uma Metodologia Associativa ........................................................................... 136

    10 Business Analytics ............................................................................................ 140 Previses ........................................................................................................... 140 As previses mudam com o passar do tempo ..................................................... 142 Raposas X Porcos-espinhos ............................................................................... 142 Estatsticas X Percepes humanas .................................................................... 142 O uso de intuies para previses ...................................................................... 144

    11 Novos tipos de dados, tcnicas de coleta e anlise ............................................. 145 11.1 Coleta explcita X implcita X por inferncia ........................................... 145 11.2 Novas tecnologias para coletar e monitorar dados .................................... 147 11.3 Web Mining ............................................................................................ 147 11.4 Text Mining ............................................................................................ 148 11.5 Anlise de Sentimentos ........................................................................... 149

    12 Concluso ......................................................................................................... 152 O Futuro do BI .................................................................................................. 152

    Bibliografia ............................................................................................................... 153

  • 8

    Lista de Figuras Figura 1: Dados X Informao X Conhecimento ......................................................... 13 Figura 2: Processo Geral de Descoberta de Conhecimento .......................................... 28 Figura 3: Grfico para mostrar discretizao de forma intuitiva ................................... 44 Figura 4: biorritmo num determinado dia .................................................................... 48 Figura 5: biorritmo para vrios dias ............................................................................. 49 Figura 6: Associaes de valores entre 2 campos para Data Mining ............................ 50 Figura 7: Comparao de valores entre campos para Data Mining ............................... 51 Figura 8: Planilha de vetores e grau de correlao ....................................................... 52 Figura 9: Grficos semelhantes indicando correlao entre variveis ........................... 52 Figura 10: Correlao assncrona entre duas variveis ................................................. 53 Figura 11: Tcnica de Modelo de Predio .................................................................. 54 Figura 12: Tcnica da Mdia ....................................................................................... 55 Figura 13: Deteco de desvios (outliers) .................................................................... 56 Figura 14: Tcnica de anlise de sequncia temporal ................................................... 57 Figura 15: Exemplo de anlise de sries temporais - dentro da mesma srie ................ 58 Figura 16: Exemplo de anlise de sries temporais - comparao entre sries .............. 58 Figura 17: Sries temporais com diferena no momento de incio da srie ................... 59 Figura 18: Exemplo de clustering ................................................................................ 60 Figura 19: Comparao de esquemas relacional X multidimensional para DWH ......... 62 Figura 20: Comparao de esquemas relacional X multidimensional para DWH ......... 62 Figura 21: Dados multidimensionais - exemplo para 3 dimenses ............................... 62 Figura 22: Estrutura de dados flat - todos atributos como colunas ............................... 63 Figura 23: Estrutura multidimensional - mquina X tipo de problema ......................... 64 Figura 24: Estrutura multidimensional - operador X hora em que ocorreu a falha ........ 64 Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora .............. 65 Figura 26: Anlise OLAP com somente uma dimenso ............................................... 65 Figura 27: Mdia X Tendncia .................................................................................... 68 Figura 28: Mdia de gastos de clientes num supermercado, por perfil ......................... 68 Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de gasto ........................................................................................................................... 69 Figura 30: Venda de laranjas num supermercado ........................................................ 71 Figura 31: Teoria do Mundo Fechado ......................................................................... 72 Figura 32: exemplos de dashboards ............................................................................. 76 Figura 33: Anlise de vendas, utilizando contagem de registros .................................. 81 Figura 34: Anlise de vendas, utilizando soma de valores ........................................... 81 Figura 35: Valores percentuais por linha ..................................................................... 82 Figura 36: Valores percentuais por coluna ................................................................... 82 Figura 37: total de carrinhos com brinquedos - por perfil ............................................ 83 Figura 38: carrinhos com ou sem brinquedos - valor absoluto ..................................... 83 Figura 39: carrinhos com e sem brinquedos - % por linha ........................................... 83 Figura 40: Google Trends sobre Gripe A e Dengue no Brasil ...................................... 90 Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul ................... 90 Figura 42: Grfico de Pareto ..................................................................................... 108 Figura 43: Diagrama de Ishikawa (causa-efeito ou espinha-de-peixe) ........................ 118 Figura 44: Mapa Conceitual sobre Fatos e Dimenses ............................................... 130 Figura 45: grafo para anlise de causas ..................................................................... 131 Figura 46: grafos combinados com hierarquias .......................................................... 132 Figura 47: Grafo de comunicao entre membros de equipes .................................... 133

  • 9

    Figura 48: Grafo com relaes entre conceitos .......................................................... 135 Figura 49: mapa para anlise de evoluo e disseminao de doenas ....................... 136 Figura 50: Metodologia Associativa - passo 2 ........................................................... 137 Figura 51: Metodologia Associativa - passo 3 ........................................................... 138 Figura 52: Novas hipteses e reviso do mapa - metodologia associativa .................. 139

  • 10

    1 Introduo

    O melhor exemplo para explicar o que Business Intelligence (BI) para um leigo o caso da GM e o sorvete de baunilha. Conta a lenda que um consumidor comprou um carro da GM e depois mandou uma carta se queixando. A queixa era a seguinte: quando ele ia na sorveteira e pegava o sorvete de baunilha, ele voltava para o carro e este demorava a dar partida; se ele pegasse qualquer outro sabor de sorvete, ele voltava para o carro e este "pegava" de primeira.

    Conta ainda a lenda que isto virou piada na GM, uma vez que ningum imaginava o que o sabor de um sorvete teria a ver com o problema no carro. Acredita-se que um engenheiro foi investigar o caso. Apresentou-se ao cliente e juntos foram testar a teoria que o cliente alegava. Foram at a sorveteria e compraram o sorvete de baunilha. Voltaram para o carro e realmente o carro no deu partida na primeira tentativa nem nas seguintes. Esperaram um pouco, e tentaram de novo. A sim o carro ligou. Voltaram para a casa e depois de comerem o sorvete fizeram o mesmo teste s que pegando um sorvete de sabor diferente. Quando voltaram para o carro, a surpresa: o carro "pegou" de primeira. Bom, mas poderia ser acaso ou coincidncia. Ento testaram diversas vezes, usando mtodos estatsticos e o resultado ... sempre o mesmo.

    O engenheiro sabia que o sabor do sorvete no poderia influenciar o problema, mas certamente ali havia algum fator que estaria associado ao problema. E este fator tinha a ver com o sabor. Ento ele descobriu que o sorvete de baunilha ficava na entrada da sorveteria, enquanto que os demais ficavam nos fundos. Ao entrar e comprar o sorvete de baunilha, o dono do carro demorava menos que se pegasse outro sabor. Havia uma pea no carro que precisava resfriar para o carro poder ligar. Menos tempo na sorveteria, menos tempo para a pea resfriar e o carro no ligava. Desta forma, o engenheiro descobriu a causa para o problema.

    Eu sempre cito isto como um exemplo de BI, mesmo tendo sido feito manualmente, isto , sem ajuda de bancos de dados e software (tecnologias da informao). Mas este caso ilustra bem o objetivo de um processo de BI e como ele pode ser feito, no s para leigos mas tambm para analistas de BI experientes.

    Hoje em dia h diversas definies para BI e muitas vezes profissionais dizem estar fazendo BI quando na verdade esto gerando informaes com sistemas de informaes gerenciais, ou seja, atravs de ferramentas para gerao de dashboards, grficos, relatrios e anlises visuais (visualizao de informaes).

    A seguir, explicarei um pouco melhor o que entendo de BI e qual sua diferena para sistemas gerenciais. Tambm falaremos da buzzword Big Data, o que significa e o que implica para processos de BI.

    O livro tem o objetivo primeiro de explicar tcnicas e mtodos que ajudem processos de BI. Mas vamos procurar dar nfase ao que ainda no foi dito em outros livros do gnero. Por isto, vamos enfatizar que o objetivo principal de um processo de BI encontrar causas, explicaes e padres.

    Estaremos trazendo conhecimentos de outras reas. Em muitas partes do livro, o leitor talvez imagine estar lendo um livro sobre investigaes e descobertas cientficas. Isto

  • 11

    no est errado. No o nico enfoque, mas uma das formas de se ver o BI. Temos muito a aprender com a histria dos grandes cientistas da Humanidade. A diferena talvez no esteja nos mtodos, apesar de que eles tambm evoluem. Mas hoje temos muito mais dados e mais complexos (Big Data) e ferramentas mais avanadas, principalmente ferramentas de software. Por isto, o termo Cientista de Dados to atual.

    Por isto, vamos enfatizar que os dados so muito importantes para o processo, incluindo a forma e as condies como so coletados e armazenados. No basta discutirmos as formas de anlise se os dados analisados no tiverem qualidade (garbage in, garbage out).

    O leitor se quiser poder pular algumas sees, conforme seu interesse. Os captulos no esto numa sequncia de aprendizado. Dentro dos captulos sim, a ideia manter uma certa ordem de leitura.

    1.1 A Evoluo dos Sistemas de Informao

    A Tecnologia da Informao, que inclui computadores, redes de comunicao e software, iniciou nas organizaes para armazenar dados em grande volume e auxiliar pessoas em clculos. Por isto, as primeiras aplicaes a serem automatizadas eram controle de estoque, folha de pagamento e contabilidade. Os sistemas deste tipo chamam-se rotineiros ou transacionais.

    Com o passar do tempo, viu-se que era possvel extrair novas informaes daquelas armazenadas e apresentar isto na forma de relatrios. Ento, de um sistema de controle de estoque, era possvel saber quais os produtos mais vendidos, os que menos saam e desenhar um grfico mdio das sadas dos produtos ao longo do tempo. Da mesma forma, de um sistema de folha de pagamento era possvel saber qual o cargo ou setor que mais custo dava para a empresa. E de sistemas de contabilidade, era possvel medir o que j tinha sido gasto ao longo o tempo e o que se esperava recebe no tempo futuro. Os relatrios evoluram para se tornarem sofisticados sistemas de informaes gerenciais (SIGs), incluindo a gerao de diferentes tipos de grficos e painis com diferentes informaes (dashboards). O livro de Bertin (1983) apresenta e explica as aplicaes de diferentes tipos de grficos.

    Apesar da utilidade incontvel dos sistemas de informaes gerenciais, o que faz deles teis at hoje em qualquer empresa, profissionais tais como administradores, tomadores de deciso, gestores de informaes e executivos ainda precisavam de um tipo de apoio mais sofisticado, algo que pudesse facilitar a tomada de deciso.

    Primeiro, era necessrio descrever dados para encontrar caractersticas para ajudar a entender o que estava acontecendo ou o que havia acontecido. Esta a funo dos modelos descritivos, que buscam identificar padres. Os sistemas de BI entram aqui, auxiliando a entender por que as coisas acontecem, quais so as causas ou explicaes para certos eventos ou fenmenos.

    Aps os sistemas de BI, vm os sistemas de Business Analytics, que utilizam modelos preditivos para tentar prever eventos futuros ou predizer valores para atributos. Incluem-

  • 12

    se neste tipo de apoio, os sistemas conhecidos como sistemas de apoio deciso (SADs).

    Ento podemos dividir o processo todo da seguinte forma, sistematizando o que se quer saber em relao a como encontrar tais respostas:

    O que aconteceu? Exemplo: quais os totais de venda no ms anterior. Para isto, existem os SIGs, que buscam informaes em sistemas transacionais e geram relatrios (novas informaes ou novas formas de apresentao).

    O que est acontecendo ? Exemplo: nossas vendas esto crescendo ou diminuindo ? Para isto, podemos usar tambm SIGs ou sistemas de Data Mining, que encontram padres estatsticos nos dados.

    Por qu ? Exemplo: por que as vendas esto caindo ? Aqui que entra o BI, procurando descobrir as causas para os eventos observados.

    O que acontecer no futuro ? Exemplo: se mantivermos os nveis de venda mas diminuirmos o preo de venda, o que acontecer com nosso lucro ? As previses e anlises what-if so feitas com sistemas de Business Analytics e Sistemas de Apoio Deciso.

    O que gostaramos que acontecesse ? Exemplo: queremos aumentar a receita total em 10%. Aqui so essenciais tcnicas de planejamento e definio de metas. Mas elas s funcionam quando entendermos as causas e inter-relaes entre variveis.

    1.2 BI X Sistemas Gerenciais

    Hoje em dia, BI confundido com as aplicaes que geram relatrios, chamadas h muito tempo de Sistemas de Informaes Gerenciais - SIGs (em ingls, Management Information Systems - MIS). SIGs e EIS (Executive Information Systems) geram relatrios, geralmente grficos, sintetizando informaes ou permitindo compar-las. Eles geram informaes novas, que no estavam explcitas na base de dados, ou permitem visualizar as informaes de tal forma que o usurio do sistema descubra rpida e facilmente algo novo. Como exemplos, temos relatrios que apontam os produtos mais vendidos ou mais lucrativos, melhores vendedores ou lojas com melhores resultados, poca em que cada produto sai mais ou menos (vendas ao longo do tempo) e etc.

    Tais sistemas so h muito tempo importantes para as empresas. Entretanto, o BI deve ir mais fundo que os SIGs, seu papel mais nobre. O processo de BI deve ajudar as pessoas a descobrirem as causas para tais acontecimentos ou descobertas. Assim, o SIG aponta qual o produto mais vendido, mas o BI deve procurar descobrir porque este produto mais vendido que os outros ou porque os outros no vendem to bem. O SIG aponta a poca em que um produto vende mais, j o BI busca saber por que o produto vende mais nesta poca e menos nas outras.

  • 13

    Em resumo, SIGs ajudam a entender o que aconteceu ou o que est acontecendo (ex.: totais de venda no ms anterior, qual a taxa de crescimento de nossas vendas); BI procura por causas ou explicaes (ex.: por que as vendas esto caindo).

    Ambos os tipos de sistemas de informao (SIGs e BI) procuram auxiliar na tomada de deciso, uma vez que este o objetivo geral de qualquer sistema de informao. Entretanto, a forma de apoio que diferente em cada tipo.

    1.3 Dados X Informao X Conhecimento X Inteligncia

    importante distinguir dados, informao, conhecimento e acrescentar o conceito de inteligncia. A Figura 1 apresenta uma tabela. O valor 35 na 2a linha com a 2a coluna um dado. Dados so representaes de informaes. Sozinhos no dizem nada. Quando entendemos que o 35 significa a idade do cliente Jos, em anos, estamos transformando o dado em informao. As pessoas trabalham com informaes mas a tecnologia armazena dados.

    J conhecimento seria: Todos os clientes da cidade de SP tm saldo mdio maior que 9 mil reais. Notem, isto no uma informao explcita na tabela. S conseguimos chegar a este conhecimento se cruzarmos informaes diferentes. Conhecimento, portanto, vem das informaes, mas est acima. As pessoas recebem muitas informaes no seu dia a dia, mas nem tudo fica retido, nem tudo til, nem tudo ser utilizado mais adiante. O que resta, o que til, o que utilizado forma o conhecimento desta pessoa.

    Figura 1: Dados X Informao X Conhecimento

    J o conceito de Inteligncia (alguns chamam Sabedoria) est acima de conhecimento. Imagine um grupo de pessoas numa sala fechada (nada entra ou sai) recebendo uma tarefa: quebrar a cadeira onde esto sentados. Admitamos que todos possuem a mesma fora fsica e foram criados e educados em famlias e escolas semelhantes. Ou seja, possuem o mesmo nvel de conhecimento, obtido por estudos nas escolas, leituras em casa, viagens, experincias, etc. Algumas destas pessoas conseguiro resolver o problema e outras no. Mas por que, se todas possuem a mesma fora fsica e os mesmos conhecimentos ? A diferena est na forma como cada um utiliza o

    Cliente Idade Saldo Mdio Cidade

    Jos 35 9000 SP

    Joo 30 4000 Santos

    Ana 25 8600 Rio

    Maria 23 3000 Ribeiro Preto

    Carlos 34 9700 SP

  • 14

    conhecimento que tem e as conexes que faz em seu crebro. Isto inteligncia, ou seja, saber resolver problemas utilizando o conhecimento que possui. E isto se aplica tambm a poder resolver problemas novos, usando adaptaes, analogias, etc.

    BI ento, como o nome "inteligncia" indica, deve ajudar pessoas e organizaes a resolverem seus problemas e alcanarem seus objetivos.

    1.4 O que BI ento ?

    Primeiro de tudo, cabe salientar que BI um processo. Existem tcnicas, tecnologias e software para BI, mas BI um processo que envolve mtodos, tcnicas, tecnologias, pessoas, informaes, fontes de informaes, mtricas, ferramentas, etc.

    Em resumo, o processo de BI tem por objetivo encontrar causas ou explicaes para eventos ou resultados. E estes resultados podem ser bons ou ruins, ou seja, o BI deve procurar causas dos problemas e as melhores prticas do sucesso. No basta saber qual o problema mais comum em mquinas de uma indstria; a empresa precisa saber o porqu disto, para poder atacar as causas e diminuir os prejuzos. No basta saber qual o melhor vendedor, a empresa precisa saber por que ele o melhor, para que as tais boas prticas deste vendedor possam ser replicadas para todos os outros vendedores.

    O processo de BI pode fazer uso de sistemas gerenciais, ferramentas de Data Mining e tudo isto com dados vindos de sistemas rotineiros ou transacionais. Podemos dizer que BI est na ponta do fluxo de informao, muito prximo de quem toma decises.

    O grande objetivo do BI acabar com o "achismo" ou "empirismo". Ouve um caso em que os ouvidores de uma concessionria de rodovias achavam que o trecho mais problemtico era um. Quando foram feitas anlises estatsticas sobre as ocorrncias registradas, descobriu-se que o trecho com mais problemas era outro.

    O conhecimento nos faz mais inteligentes; pessoas e empresas que aprendem. Como Kuhn relata, at a metade do sculo 19 no se usava conhecimento na indstria, somente nas Cincias. Assim como o conhecimento cientfico mudou o paradigma da Cincia na idade mdia, o uso intensivo de conhecimento acelerou inovaes e permitiu indstria aproveitar os que as metodologias cientficas ensinavam nas cincias, fazendo a prtica da indstria menos emprica.

    BI tambm procura encontrar explicaes para eventos mas fundamentadas em dados. No basta saber o que est acontecendo, preciso analisar as causas para poder repetir o sucesso ou evitar fracassos.

    A busca por padres tambm objetivo do BI. No oceano de dados, preciso tentar encontrar uma ordem para que os dados possam fazer sentido e serem teis. Uma base de clientes onde no conseguimos identificar quem nosso cliente, o que ele quer, quais suas caractersticas, no serve para nada alm de confundir.

    E isto tudo fez surgir a Era do Conhecimento, apoiada pelas chamadas tecnologias da informao.

  • 15

    1.5 Big Data e Information Explosion

    Estamos vivendo numa era de grandes volumes de informaes. O volume de informaes medido em exabytes. A escala assim: bit, byte, kylobyte, megaybte, gigabyte, terabyte, petabyte, exabyte, zettabyte, yottabyte.

    Chamam isto de Big Data (Tole, 2013), mas anos atrs Korth e Silberschatz j falavam sobre isto e chamavam esta nova revoluo de "exploso de informaes". Sim eles comparavam estes novos acontecimentos a revolues como a inveno da imprensa por Gutenberg (distribuio de informaes a todo canto do mundo) e inveno do telefone por Graham Bell (informao distribuda imediatamente, em tempo real). O volume aumenta a cada ano pelas seguintes razes: o armazenamento de dados hoje barato (discos rgidos e DVDs) ou mesmo de

    graa (servios de hospedagem free na Web); as pessoas esto mais familiarizadas com a tecnologia e consequentemente geram e

    armazenam mais informaes (crianas de 2 anos j sabem usar celulares e computadores e a 3a idade est menos tecnofbica);

    a tendncia atual de "no jogar nada fora", que comeou com o Gmail dizendo que ningum precisava "deletar' seus e-mails;

    mais possibilidades de servios para publicar e difundir informaes (blogs, twitter, e-mail, redes globais, conexes sem fio, etc.).

    A Revista Veja, edio de maio de 2013 (ed.2321, n.20, ano 46) tratou deste assunto na sua reportagem de capa. Eles falam que o Big Data se deve a 3 Vs: volume, velocidade e variedade. Alm do grande volume de dados gerados, coletados, armazenados, etc, a velocidade de transmisso (banda larga por cabo ou 3G ou wifi etc.) e a diversidade de tipos de informaes (planilhas, textos, imagens, sons) ajudam a sobrecarregar o ser humano e as organizaes.

    Segundo a reportagem da revista Veja, a cada dia: - 2,5 exabytes de informao so produzidos pela humanidade; - 375 megabytes de dados so acumulados por cada famlia; - 24 petabytes so processados pelo site do Google; - 10 petabytes correspondem aos e-mails enviados;

    E ainda, 385 terabytes guardam todo o catlogo da Biblioteca do Congresso americano, a maior do mundo, enquanto que 1,8 zettabyte armazena todos os dados acumulados pela civilizao em um ano. Comparando com os 3 exabytes que a humanidade conseguia guardar em 1986 (hoje produzimos quase o dobro disto em 2 dias), estamos vivendo em tempos exponenciais.

    Alm disto, a complexidade do ser humano foi passada para a Tecnologia da Informao. Hoje podemos armazenar dados no estruturados, ou seja, imagens, vdeos, sons e textos.

    E some-se a isto tudo a possibilidade de anlises mais complexas com o desenvolvimento de softwares com funes de Inteligncia Artificial. Se antes, os gestores apenas queriam encontrar endereo de clientes num banco de dados, hoje querem saber qual a faixa de idade que mais compra os produtos de uma certa faixa de preo e isto tudo apresentado por loja, cidade e pas.

  • 16

    Algum vai dizer que o volume de informaes bom, porque as pessoas e organizaes possuem mais informao para tomar decises. Por outro lado, vivemos no stress por termos mais opes para escolher, mais informaes para ler, mais conhecimento para aprender e por no conseguirmos lidar com tanta informao disponvel e nem mesmo conseguir encontrar as informaes que precisamos (information overload). como uma mesa cheia de papis e a gente sabendo que a informao que a gente procura est em algum destes papis nesta mesa.

    BI passa ento a ser primordial para as organizaes poderem funcionar de forma "organizada" e no se afogarem com tanta informao.

  • 17

    2 Busca e Identificao de Padres

    Quero ratificar mais uma vez que o objetivo do processo de BI ajudar pessoas e organizaes a encontrarem causas e no s apresentar informaes, como fazem sistemas gerenciais. A busca por causas passa por analisar dados, talvez grandes quantidades, procura de padres, modelos ou repeties. Se no encontrarmos padres, no temos como afirmar quais eventos geram quais consequncias. Ser uma confuso de dados, sem ordem, sem explicaes.

    A identificao de padres parte da nossa vida. A descoberta de padres iniciou h milhares de anos atrs. Nossos antepassados conseguiam prever as variaes do tempo, as estaes, os ciclos das plantaes, as fases lunar e eclipses, e at mesmo o surgimento de reis. E hoje em dia no diferente. Quem no d palpites sobre como ser o tempo, se vai chover, fazer sol, calor, observando as nuvens ? Ou se o prximo inverno ser mais frio ou menos frio do que o ano anterior, pelo que viu no outono ? Se um local pblico vai lotar ou no para um evento, observando o movimento das pessoas chegando ? Ou quantas pessoas h num concerto ao ar livre num parque pblico, lembrando o ltimo evento que ocorreu ali ? Mesmo algumas supersties so exemplos de padres, que acreditamos que iro se repetir. Numa entrevista de negcios, usar a mesma roupa de um acontecimento bom. Sentar no mesmo lugar do ltimo ttulo para torcer por seu time. No quebrar espelho, pois quando isto ocorreu, um evento de m sorte tambm ocorreu junto.

    Vemos padres no ambiente, no que vemos e sentimos e da criamos modelos para o clima, trnsito, esteretipos de pessoas, etc. Alguns modelos mais completos que outros, alguns mais precisos, outros com mais excees. Vemos at mesmo padres na nossa prpria vida. Wolf (2010) relata uma srie de casos de pessoas analisando seus prprios dados. Como o cara que descobriu estatisticamente que caf no ajudava na concentrao dele (ele acreditava no contrrio, mas fez experimentos e descobriu um novo padro, mais exato).

    2.1 Modelos e Padres

    A classificao um instinto do ser humano. Tentamos colocar tudo em grupos (pessoas, produtos, eventos, animais, plantas, etc.). Mesmo num texto como este, as informaes esto agrupadas. Acreditamos que podemos reduzir tudo a um modelo nico ou a poucas regras. Esta a busca eterna dos fsicos, para entender a Natureza e o Universo. Einstein acreditava que h uma ordem na desordem, mas que os padres ainda devem ser descobertos.

    A classificao facilita nosso entendimento do mundo e agiliza nossa tomada de deciso. Os padres servem para minimizar a incerteza. Se encontramos uma situao nova e verificamos que ela se encaixa num padro j entendido, j sabemos que atitudes tomar naquela situao. Este um dos conceitos de inteligncia: saber adaptar-se a novas situaes e conseguir resolver problemas novos. Isto no significa que vamos

  • 18

    usar exatamente as mesmas aes. A inteligncia humana pressupe a adaptao dos padres para novas realidades.

    A melhor forma de entender um conjunto de dados estabelecer um modelo para ele. O modelo explicaria as caractersticas comuns aos dados, as relaes entre os dados, as relaes de causalidade e influncia ao longo do tempo. O ser humano busca padres no seu contexto porque se sentir mais parte do contexto e menos um aliengena. como uma necessidade humana, para no ficarmos loucos. O que no se encaixa nos nossos padres, como por exemplo eventos paranormais, acabamos considerando como bruxarias.

    Mas o que um modelo ? Vejamos algumas definies de modelo: aquilo que serve de objeto de imitao; aparelho ou conjunto de aparelhos que permitem a reproduo de determinada pea por processos usados em fundio para o preparo de objetos de metal; molde; prottipo ou exemplo que se pretende reproduzir ou imitar; um exemplar que se deve seguir e imitar pela sua perfeio; imagem ou desenho que representa o objeto que se pretende reproduzir esculpindo, pintando ou desenhando; pessoa exemplar, perfeita, digna de ser imitada; esquema terico em matria cientfica representativo de um comportamento, de um fenmeno ou conjunto de fenmenos. No contexto deste livro, a melhor definio a ltima: um esquema ou estrutura que representa um comportamento (de um evento ou conjunto de eventos). Ao longo deste livro, usaremos alguns sinnimos para modelo, tais como: padro, regras, leis, teoria, regularidade, cdigo, paradigma. No h uma explicao cientfica para tais escolhas. Isto demandaria muito espao num livro que pretende ser prtico.

    A finalidade dos modelos permitir o entendimento de um conjunto de eventos, poder comunicar a outros, poder reproduzir este comportamento. Os modelos so construdos a partir de experincias passadas, de registros de casos que j aconteceram, com suas caractersticas descritas (o que, quando, onde, por que, com quem e como aconteceram - os 5W e 1H). Sem registros histricos no h como identificar padres e da montar modelos.

    Modelo no inclui tudo, uma representao da realidade, de parte dela, para um fim especifico. O processo de BI ento procura por modelos que possam explicar os acontecimentos passados ou atuais. Estamos interessados nas caractersticas deste modelo e em como ele pode relacionar os eventos entre si. Isto tudo para evitar ou eliminar as causas de problemas ou para que possamos repetir as causas de boas prticas.

    O modelo permite completar um cenrio. A partir de dados que temos como fatos, encaixados no modelo, podemos saber de outros dados que no temos (a chamada inferncia). Se um evento aconteceu dentro de um modelo, podemos completar os dados que nos faltam sobre este evento. Por exemplo, usando modelos matemticos e fsicos aplicados a dados observados no ambiente, peritos podem saber a velocidade a que um carro estava no momento de um acidente. Os modelos tambm nos ajudaro a encontrar causas para os eventos, como ser discutido adiante neste livro.

    Mas os modelos esto tambm associados ao futuro. Eles nos servem para direcionar nossas decises e aes. Por isto, usamos muitas vezes o termo "modelo de predio", porque usando modelos podemos "prever" o futuro (ou tentar, pelo menos). Modelos

  • 19

    so utilizados para previso do tempo, para previso de colheitas, de nveis de vendas, de quebra de mquinas, possibilidade de voto numa eleio (como discutido em Moraes, 2012), possibilidade de um cliente fechar uma venda, possibilidade de ocorrer um sinistro (em empresas de seguro), de um cliente pagar ou no um emprstimo, e para outros tantos fins como veremos neste livro.

    2.2 Contextualizao dos Modelos e Comparaes

    Os modelos ento servem para entendimento de alguns aspectos da realidade (talvez a maioria, mas no todos), para predizer algumas situaes (no todas, nem algumas poucas com total acurcia), para que possamos diferenciar contextos (gerais ou especficos), para que nossa vida no seja uma total escurido e nossos caminhos possam ser trilhados com um mnimo de planejamento.

    Todo modelo uma especializao ou generalizao da realidade, e toda especializao uma abstrao, ou seja, s absorve parte da realidade. Um prottipo de automvel de tamanho reduzido ter apenas o design exterior do produto final, mas servir para avaliar a aerodinmica do projeto. J um prottipo em tamanho real deste carro servir para crash testes mas no ter os acessrios interiores, nem a pintura final. Por outro lado, uma classificao tnica uma generalizao, pois tenta encaixar todas as pessoas em algum grupo existente ou pr-definido. Portanto, o modelo deve ser estudado dentro do seu contexto especfico.

    Entretanto, entender os limites (escopo) do contexto no uma tarefa fcil. Se temos um modelo que prediz o quanto um cliente com perfil Y ir gastar no Dia das Mes, temos que entender que este modelo de predio s serve para os parmetros definidos no modelo (sexo, renda, idade, estado civil, etc. do cliente). Se algum outro atributo fora deste contexto (por exemplo, altura do cliente) puder influenciar os resultados, a predio dada pelo modelo conter uma margem de erro. E se houver vrios destes atributos, a margem de erro aumenta.

    O conhecimento das informaes ou dos dados isolados insuficiente (Morin, 2000, p.36). Precisamos sempre estar fazendo comparaes. assim que o ser humano pensa. O preo das coisas determinado pela relatividade, em relao ao preo de outras coisas e em relao ao que outras pessoas esto pagando.

    Como discutiremos neste livro, encontrar as causas que levam um produto a ser mais vendido que outros exige tambm comparar tais causas com problemas que impedem a venda de outros produtos. Descobrir que um modelo explica por que uma mquina estraga mais frequentemente que outra, inevitavelmente nos leva a pensar em que boas prticas so utilizadas nas mquinas que no estragam to facilmente.

    O ritmo com que produtos so vendidos, os seus perodos de baixa, de alta e de normalidade naturalmente uma comparao. Da mesma forma, encontrar o que comum no comportamento dos melhores alunos uma comparao, assim como identificar um aluno raro, com alto desempenho, s possvel por comparao.

    A granularidade da comparao relativa a cada objetivo. O BI pode preocupar-se em comparar vendas dentro de uma cidade ou no pas todo. E mesmo uma empresa que no

  • 20

    faa vendas no exterior, pode querer comparar seu desempenho com empresa similares em outros pases.

    Portanto, um modelo deve obrigatoriamente permitir comparaes. Eventos ou valores absolutos no dizem nada. E um modelo s funciona no contexto onde foi identificado. Se conseguirmos extrair de um caso real um modelo matemtico que simule e explique como duas populaes de espcies diferentes (por exemplo, lobos e ovelhas) iro se comportar, tal modelo s ir funcionar no contexto em que foi identificado. Se foi numa ilha, que tipo de ilha e com que recursos. Qual o nmero inicial de cada populao e quais as caractersticas de cada componente dos grupos. O modelo no ir funcionar se colocarmos os mesmos grupos junto com outros.

    2.3 Padres X Excees: impreciso dos modelos

    Os modelos podem no ser precisos. preciso avaliar quando, onde, como e por que os modelos acertam ou erram. Para tanto, devem ser feitos experimentos controlados. Fazendo novas observaes, poderemos verificar se elas se encaixam no modelo. Se sim, confirmam o modelo. Se no, exigem algum refinamento do modelo ou mesmo a desistncia dele. Entretanto, impossvel fazer todos os testes necessrios ou coletar ou observar todos os eventos necessrios. Hans Reichenbach comenta o caso de avaliar remdios utilizando placebo; isto pode durar muito tempo ou no ser possvel de ser realizado pela dificuldade em encontrar cobaias.

    Karl Popper props o falseamento para comprovao de modelos e teorias. A ideia consiste em procurar um caso (exemplo) que no se encaixa no modelo ou padro. Se no for possvel encontrar tal caso, a teoria poderia ser dita verdadeira. Se no for possvel procurar por um tal caso, a teoria no poder ser provada. Por isto que Popper (1980) diz que Astrologia e Numerologia explicam tudo.

    claro que o falseamento depende do modo como esta busca foi feita. Nunca ser possvel dizer com total certeza que todos os casos foram testados ou que no existe um caso tido como exceo. A verdade sempre ser que no foi encontrado nenhum caso pelo modo como a busca foi feita.

    A predio de eventos futuros pode ajudar a validar um modelo. Se um modelo puder ser utilizado para prever o que vai acontecer, e tais acontecimentos realmente se realizarem, ento a teoria pode estar certa. As dificuldades incluem determinar que casos selecionar para testes e em que situaes, quantas predies fazer, que margem de erro considerar aceitvel. Alm disto, h o problema de saber exatamente quais fatores influenciam. Em muitos casos, os eventos previstos podem ocorrer mas por coincidncia, influenciados por outros fatores (rudos). Nate Silver (2013) comenta diversos casos assim, muitos deles ligados ao baseball nos Estados Unidos. Por exemplo, ele recomenda no usar vitrias ou derrotas para avaliar um jogador, porque tais ndices so afetados por outros desempenhos. Jogadores so responsveis por suas estatsticas, mas tambm depende de quem est do outro lado jogando contra.

    Apesar de invalidar um modelo, a descoberta de excees pode ser benfica porque gera mais conhecimento sobre o contexto, podendo vir a aprimorar modelos existentes ou

  • 21

    gerar um novo modelo mais moderno e preciso. Kuhn (2011) discute os paradigmas cientficos e conclui que a existncia de excees pressupe o surgimento de um novo paradigma (leia-se, modelo).

    Uma vez que s capturam parte da realidade, os modelos nunca so completos. Esta falta de dados, entretanto, no impede o uso e os benefcios dos modelos. Se no puder ajudar a prever eventos futuros com exatido, pelo menos nos daro tendncias (em cima de probabilidades). E assim que as pessoas tomam decises. Nenhuma empresa deixa de produzir um produto s porque as vendas caram durante os ltimos dias. Se houver uma tendncia de retomada das vendas, ou seja, se houver uma certa probabilidade (aceita por alguma razo) de que as vendas iro subir novamente, a empresa segue no mesmo caminho.

    Por outro lado, reduzir sistemas complexos a sistemas simples ou a um conjunto de regras simples pode ser perigoso. Podemos estar fazendo suposies erradas, julgando com critrios errados em cima de fatos no observados ou mal interpretados. E o resultado pode ser desastroso, como na caa s bruxas e na ascenso de ditadores. Daqui a pouco vamos estar categorizando e estereotipando todas as pessoas, como fazemos com grupos musicais e criaes artsticas. O perigo do rtulo no conseguir sair dele. Esta uma tendncia perigosa do ser humano: criar um modelo ou teoria e sair procurando casos que confirmem a sua validade, tentando encaixar tudo no modelo. E se algo no se encaixar ? Foraremos o encaixe ou mudaremos nosso modelo ?

    Tem sido assim ao longo da Histria da Humanidade e da Cincia. Teorias surgem mas aps anos elas podem ser refinadas ou mesmo refutadas, devido a novas descobertas, novos fatos ou novas formas de interpretar os velhos fatos. No incio, o ser humano achava que todos os planetas e o sol giravam ao redor da Terra. Depois, descobriu-se a teoria heliocntrica. Agora j h um pesquisador dizendo que a Terra o centro do Universo. E est sendo tachado de louco, como j foram classificados Kepler e Galileu. Ento o que existe um modelo mais aceito pela maioria das pessoas (estudiosos, cientistas, ou mesmo pessoas comuns). A Teoria de Newton, que fazia isto (apesar de tantos acertos) caiu. A de Einstein, sucessora da de Newton, tambm possui lacunas. As leis da macro Fsica no se ajustam aos comportamentos no mundo micro, os quais so regidos por outras leis. Mas ambas so aceitas at que uma nova teoria consiga reunir e acomodar casos de ambos os grupos, provavelmente a partir de novas regras.

    2.4 Analisar passado para criar modelos

    Analisar o histrico de dados geralmente a alternativa utilizada para montar um modelo ou teoria. Se pudermos encontrar eventos que aconteceram repetidamente no passado, possvel que se repitam no futuro. E assim teremos um padro ou modelo.

    A primeira alternativa para encontrar causas, de problemas ou boas prticas, procurar por algo que tambm aconteceu quando estes eventos ocorreram. Se vrias vezes uma mquina quebrou, procuramos observar o que ocorreu junto com estas quebras. Se tivermos todas as quebras registradas ou descritas, procuraremos por eventos comuns. Se tivermos um grupo de campees num esporte, procuraremos saber o que eles fazem ou fizeram de comum. Se sabemos quais so os produtos que mais vendem, queremos

  • 22

    saber que caractersticas so comuns a todos. Se quisermos diminuir gastos com peas defeituosas, vamos procurar pelas causas mais frequentes. Se estamos precisando diminuir desperdcios de energia, vamos olhar para os casos mais frequentes. A nossa busca ento por repeties.

    E a que entra a estatstica, nos permitindo separar repeties interessantes das que no so significativas. Mas como os modelos no so perfeitos, precisam ser aperfeioados ou corrigidos. Isto pode ser feito por retroalimentao, aprendendo por experincia, por exemplo, com os erros cometidos e pela medio da incerteza (Stewart, 2000).

    2.5 Modelos para prever futuro

    Por que um computador ganha de humanos no jogo de xadrez ? Porque consegue reunir conhecimento de vrios enxadristas (atravs da anlise de jogos anteriores) e porque consegue realizar simulaes e previses de consequncias de jogadas possveis em situaes atuais, ou seja, consegue avaliar o que vai acontecer caso uma determinada pea seja movida para uma determinada casa. Mesmo que o computador no consiga fazer todas as combinaes possveis, conforme teoria de Simon (1972), ainda sim poder avaliar melhores jogadas do que um ser humano. Para tanto, os computadores so programados com modelos heursticos e no algortmicos. E usando probabilidades, conseguem avaliar qual a melhor alternativa. Pode ser ento que um modelo no consiga prever o futuro com exatido, mas permitir avaliar quais eventos mais provavelmente podero ocorrer.

    Nate Silver (2013) comenta que o verbo "prever" em portugus possui duas verses em ingls: predict e forecast. Ele comenta que hoje elas so usadas como sinnimas, mas na poca de Shakespeare tinham significados diferentes: predict era aquilo que faziam os adivinhos; forecast, por outro lado, implicava em planejar em condies de incerteza. Os modelos discutidos neste livro pretendem fazer previses do segundo tipo, baseados em dados. Seria como tentar predizer valores para atributos ou acontecimentos de eventos a partir da anlise de causas (valores de outros atributos).

    A previso com modelos j uma realidade nas mais diversas reas de conhecimento humano. Gorr (1999) discute a perspectiva de analisar dados histricos para entender estratgias e tentar prever concentraes de futuros crimes. Maltz e Klosak-Mullany (2000) utilizaram a tcnica de sequncia de tempo (um tipo de Data Mining) para encontrar padres estatsticos no comportamento de jovens delinquentes nos EUA e antever eventos ruins em suas vidas, para intervir antes que aconteam. Bill Gates, numa palestra recente, sugeriu utilizar tais tecnologias de predio na educao (http://www.technologyreview.com.br/read_article.aspx?id=43501). A ideia seria analisar dados sobre desempenho e comportamento de alunos, para entender por que um aluno pode estar faltando s aulas, e com isto tomar aes para diminuir taxas de abandono. Alm disto, podemos pensar em modelos que permitam entender causas de desempenho de alunos, para evitar problemas de baixo rendimento ou replicar as boas prticas dos melhores alunos.

    Tendncias futuras tambm podem ser inferidas de aes ou comportamentos coletivos. Estudos sobre Sabedoria das Massas ou Multides (Wisdom of Crowds) analisam o que

  • 23

    a maioria das pessoas est fazendo, e assim poder prever resultados ou entender o que est acontecendo. Por exemplo, o Google Trends usado para monitorar epidemias nos EUA. Quando h muitas pesquisas no Google, vindas de uma mesma regio, por palavras-chave relacionadas a uma determinada doena, isto significa que o nmero de casos desta doena est aumentando nesta regio. H um experimento do Google (http://www.google.org/flutrends/br/#BR) para monitorar casos de gripe. O artigo de Dugas et al. tambm trata do mesmo assunto.

    A anlise de redes sociais virou uma maneira fcil de observar as multides. Um artigo de 2011 (Bollen et al.), conseguiu provar a correlao entre o tipo de humor nas postagens do twitter e o ndice Dow Jones da bolsa de valores americana. Outros artigos provaram ser possvel prever receitas de filmes, aumento no nmero de turismo e mesmo prever eventos futuros analisando postagens ou buscas (Asur et al. 2010; Mishne, 2006; Radinsky & Horvitz, 2013; Choi & Varian, 2012). Spink e colegas (2001) analisam o comportamento de multides em mecanismos de busca para realizar diversas inferncias.

    Sargut e McGrath (2011) sugerem a gestores estabelecer um modelo que agregue trs tipos de informao preditiva: informaes passadas: dados sobre o que j aconteceu, incluindo indicadores

    financeiros e de desempenho; informaes presentes: alternativas de caminhos, aes, estratgias, oportunidades

    ou decises que podem ser tomados; informaes futuras: o que pode acontecer como consequncia das alternativas,

    incluindo respostas do meio-ambiente ou mudanas internas.

    O modelo deve integrar estes 3 tipos de informaes. Geralmente, so usados modelos matemticos, ou seja, preciso reduzir as informaes para valores quantitativos (nominais, categricos ou numricos) e a forma de interligao entre as variveis so frmulas matemticas.

    O fato que as novas tcnicas esto permitindo predizer com maior preciso alguns valores e ainda verificar a interligao entre eventos ou variveis. Desta forma, possvel saber se uma determinada ao vai impactar positivamente ou negativamente em algum contexto futuro. E quanto ir impactar. Por exemplo, se aumentarmos a exposio do produto em X dias na mdia convencional, quanto teremos de aumento de vendas e, com base nos custos desta estratgia, o quanto teremos de retorno financeiro (ou lucro).

    Se tivssemos como prever o futuro, poderamos evitar problemas futuros (como no filme Minority Report, dirigido por Steven Spielberg e estrelado por Tom Cruise). Ou poderamos indicar melhores alternativas ou mesmo saber se uma certa alternativa daria certo ou no. Mas isto no existe. Nenhuma deciso certa. Ningum tem como saber se uma escolha vai funcionar ou no.

    Mas nem por isto (porque vivemos na incerteza) vamos tomar decises sem critrios. Justamente, as tcnicas, os padres, os dados, nos ajudam a diminuir a incerteza e com isto melhorar nossas decises e consequentemente seus resultados. H alguns autores que so contra as tcnicas de planejamento, porque acreditam que no vale a pena planejar, pois o futuro nunca acontece como planejado. Entretanto, se no planejamos,

  • 24

    se no tomamos decises e aes, temos grandes chances de chegar onde estamos agora ou pior, chegar em algum lugar que no queremos.

    claro que os planos e caminhos, e digamos os modelos e padres, no contexto deste livro, devem ser ajustados com retroalimentao durante a jornada. Mas uma viagem sem planos tem mais probabilidade de dar errado ou chegar num destino no desejado. O modelo utilizado por Maltz e Klosak-Mullany (2000) para prever comportamento de jovens delinquentes justamente permite que aes sejam tomadas para modificar um futuro muito provvel e ruim na vida daqueles jovens. Resumindo os modelos permitem entender o passado e o presente, para que tomemos melhores decises para um futuro melhor.

    2.6 Anlise de Correlao e Causa-Efeito

    Como j dissemos antes, e vamos estressar muito neste livro, BI um processo que busca encontrar causas (para problemas ou para bons resultados). Portanto, BI um processo de investigao e descoberta, com algumas semelhanas com o processo criativo, como discutiremos mais adiante.

    Pessoas e empresas querem tomar melhores decises, para alcanar melhores resultados ou poder direcionar seu futuro. Entender quais condies geram quais resultados uma das formas de fazer este tipo de planejamento. Entretanto, como discutiremos neste livro, encontrar causas no to simples quanto parece. Traremos estudos de reas tais como investigao criminal, diagnstico mdico, previso do tempo, ecologia, biologia, mecnica, fsica, engenharia, cincias sociais, economia, poltica, etc.

    BI anlise de dados. E isto ocorre em diversas disciplinas, no sendo restrito ao meio computacional ou empresarial. O problema comum a diversas reas e talvez analogias possam ser utilizadas, para aplicarmos solues que j deram bons resultados, mesmo que em outras reas. Vrias cincias ou reas esto sempre procura de modelos que possam explicar fenmenos e que possam ajudar as pessoas a preverem acontecimentos.

    Ento, BI tambm inclui como objetivo descobrir as relaes causais, mesmo que estas envolvam diversas variveis e diversos tipos de relaes, inclusive indiretas em vrios nveis. Para uma empresa importante avaliar a correlao entre suas aes e os resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na atitude comportamental dos empregados implicava em 1,3 ponto de incremento na satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa. Tal descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se ela quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos colaboradores.

  • 25

    2.7 Dificuldades para identificar padres - pessoas e sistemas

    complexos

    O problema de prever eventos futuros que o futuro feito COM pessoas. A maioria dos modelos incluem pessoas. Se precisamos saber a causa por que mquinas quebram, temos que lembrar que elas so operadas por pessoas, pessoas fazem sua manuteno, pessoas as programam. Se quisermos prever ndices de vendas, temos que lembrar que so as pessoas que compram produtos e servios, e h tambm vendedores, promotores, publicitrios, especialistas em moda e por fim administradores determinando preos.

    Apesar de todos os autmatos embutidos em sistemas computacionais, das regras e procedimentos de qualidade, das interfaces planejadas para guiar o usurio, ainda sim as pessoas agem de forma no planejada, no prevista. E o "ser humano um ser racional e irracional, capaz de medida e desmedida; sujeito de afetividade intensa e instvel" (Morin, 2000, p.60)

    No temos como prever o que as pessoas faro em qualquer situao. Os genes condicionam vrios comportamentos dos seres humanos (Winston, 2006; Dawkins, 2007) e muitas vezes agimos por instintos bastante primitivos, enraizados em ns nos tempos das savanas (Winston, 2006). Mas as pessoas tambm so condicionadas ou influenciadas pelo meio que as cerca, podem receber treinamento para fazerem algo dentro de certos procedimentos e h ainda as vrias possibilidades do erro humano. E por fim, ainda h o livre arbtrio: os genes nos moldam como roteiristas de filmes mas o resultado final ns que decidimos, porque os genes nos do modelos de deciso e no a deciso final (Winston, 2006; Dawkins, 2007).

    Nate Silver (2013) conta o caso dos modelos utilizados pelos cientistas polticos prevendo a vitria esmagadora de Al Gore na eleio presidencial de 2000 nos Estados Unidos. Mas quem ganhou as eleies foi George W. Bush, e um dos motivos foi a cdula de votao, com marcadores mal associados aos nomes, confundindo eleitores que iriam votar em Al Gore.

    A raiz do problema est em que estamos tratando com sistemas complexos. Sistemas complicados so aqueles compostos por muitas partes, mas para os quais podemos prever o resultado final, se cada parte funcionar de forma planejada. Se conhecermos os dados de entrada, as condies ambientes e o sistema funcionar segundo o padro conhecido, ou seja, um contexto estvel, certo que saberemos o resultado final (Sargu and McGrath, 2011). Um exemplo de sistema complicado um carro: um mecnico conhece as partes, suas interaes e consegue prever o funcionamento. Se algum problema ocorrer, ele poder determinar a causa usando seus conhecimentos e coletando alguns dados diagnsticos.

    Por outro lado, sistemas complexos podem at ter poucas partes mas as interaes entre as partes podem causar funes ou resultados imprevisveis. As partes interagem de forma inesperada e por isto seu comportamento passado no pode ser usado para antecipar eventos futuros com acurcia (Sargu and McGrath, 2011). Sistemas complexos contm interaes dinmicas e portanto as mesmas condies de entrada podem levar a resultados diferentes em tempos diferentes. H 3 caractersticas que

  • 26

    determinam um sistema complexo: multiplicidade (relativa ao nmero de elementos ou partes do sistema), interdependncia (o nvel de conexes entre as partes) e a diversidade (heterogeneidade dos elementos). Conforme Sagu e McGrath, quanto maior o nvel de cada caracterstica, mais complexo ser o sistema. Um exemplo de sistema complexo foi a campanha (ou guerra) contra pardais na China em 1958. Os pardais estavam atacando as plantaes de arroz e ento o Governo chins fez uma campanha para dizimar os pardais. O problema que, aps a eliminao dos pardais, os gafanhotos que comearam a comer gros de arroz, porque os pardais eram predadores naturais dos gafanhotos.

    As loucuras que acontecem nos mercados econmicos e nas bolsas de valores tambm so resultados dos comportamentos complexos das multides. Muitas vezes no h uma explicao lgica para a correria de venda ou compra nos mercados. Simples boatos podem se difundir rapidamente e levantar medo na populao, gerando comportamentos ilgicos de indivduos e levando as massas para direes inesperadas.

    Entender o comportamento de multides um desafio. Conforme a teoria de Herbert Simon (1972), o ser humano toma decises sob uma Racionalidade Limitada informao disponvel, capacidade cognitiva das mentes e ao tempo disponvel. Na maioria das vezes no vale a pena (pelo custo ou tempo) coletar todas as informaes necessrias para tomar uma deciso. Por exemplo, se uma pessoa quiser comprar um sapato, pensar em verificar na cidade qual a loja com o preo mais barato. Entretanto, se for avaliar o preo de cada loja, ao terminar o processo, ter levado tanto tempo que os primeiros preos consultados j podero ter sido alterados e o custo total de deslocamentos e perda de tempo no valer o desconto que conseguir. impossvel que o indivduo conhea todas as alternativas para uma deciso e que possa avaliar todas as suas consequncias. A tendncia do ser humano simplificar as escolhas. Isto quer dizer que no temos como saber se a deciso tomada foi a mais acertada antes de tom-la; somente aps saberemos se deu certo ou no. E mesmo tendo alcanado xito, talvez no tenhamos certeza se foi a melhor alternativa.

    Em geral ento, as pessoas procuram diminuir a incerteza das decises mas assumem certos riscos pela racionalidade limitada. Por exemplo, se algum quiser traar uma rota de fuga em caso de incndio num prdio, talvez no consiga avaliar todas as alternativas possveis (local de incio do fogo, quantidade de pessoas, etc.). E no momento da situao de incndio, o ser humano tem que simplificar ao mximo seu processo de deciso para acelerar as aes. Isto quer dizer que os planos iniciais podem ter sido esquecidos ou tero que ser simplificados. E assim, as atitudes planejadas mudam pela racionalidade limitada. E o ser humano se torna imprevisvel. Tversky e Kahneman (1974, 1983) discutem o problema de avaliaes probabilsticas erradas em decises humanas. Eles apresentam diversos experimentos que comprovam que o ser humano avalia de forma errada muitas situaes, usando modelos probabilsticos errados ou incompletos.

    Alm disto, a ao de uma pessoa acaba por influenciar a deciso dos que esto prximos. Isto pode modificar o comportamento dos outros, que podem imitar ou fazer algo bem diferente. Por vezes, algumas decises de pessoas pensando no benefcio prprio e nico podem prejudicar ainda mais o sistema. H o famoso caso do paradoxo de Braess, que diz que criar atalhos em redes rodovirias pode no diminuir o tempo mdio, porque a maioria das pessoas ir escolher o atalho, gerando novos

  • 27

    engarrafamentos. Tomar decises de forma independente, talvez no seja a melhor alternativa, conforme a teoria do Equilbrio de John Nash. Talvez a melhor alternativa para todos seja cada um perder um pouco de algo para todos ganharem.

    As tcnicas relativas Teoria dos Jogos ajudam a entender os resultados nestes tipos de sistemas complexos. A Teoria dos Jogos uma tentativa de tentar prever resultados em sistemas complexos. Atravs da anlise da combinao de diferentes estratgias dos jogadores (componentes do sistema que possuem poder de deciso), pode-se prever os resultados possveis. A dificuldade est em prever as decises que sero tomadas.

    Apesar das dificuldades, das incertezas, mesmo assim precisamos procurar padres para entender a complexidade dos sistemas. Isto nos ajudar em situaes futuras, mesmo que no nos permitindo chegar a previses exatas. Ghani e Simmons (2004), por exemplo, conseguiram prever com 96% de acerto, o preo final em leiles no eBay, um tipo de situao bastante complexa, envolvendo diversas variveis e alm disto intuies, sentimentos, percepes e escolhas humanas.

  • 3 Processo Geral de BI

    BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver problemas, como discutido no captulo anterior. O objetivo final ento poder gerar conhecimento novo e til.

    Vrios autores descrevem o processo geral de descoberta de codescrito na Figura 2. A entrada do processo um banco de dados e a sada um conjunto de conhecimentos. A etapa principal a de Minerao ou AnlisMining). A anlise nunca feita sobre todos os dados e sim sobre amostras. Para tanto, necessrio ter antes uma etapa de preparao dos dados, a partir da base de entrada. Nesta etapa, os dados sero tratados (limpeza, integrao, dedudiferentes sero geradas, como ser discutido adiante.

    Figura 2: Processo Geral de Descoberta de Conhecimento

    A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados dentro do contexto da organizao ou do domnio, para a sim se tornarem conhecimento. Por exemplo, uma anlise de pacientes com diabetes descobriu que 95% dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico especialista da rea, no novidade nenhuma, pois o tratamento usual dado a pacientes deste tipo. O conhecimento interessante e novo est nas excees, nos 5% que tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que tenham alguma outra caracterstica que os impede de tomar tal medicao.

    O processo de descoberta de conhecimentporque precisa ser feito vrias vezesdiferentes tcnicas e ferramentas. Os padres estatsticos so, na maioria das vezes, hipteses de causas, devendo ser melhorMundo Fechado, que ser discutida mais adiante. O processo tambm porque precisa interveno humanainterpretao dos resultados, pessoas com conhec

    28

    Processo Geral de BI

    BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver problemas, como discutido no captulo anterior. O objetivo final ento poder gerar

    Vrios autores descrevem o processo geral de descoberta de conhecimento como o . A entrada do processo um banco de dados e a sada um conjunto

    de conhecimentos. A etapa principal a de Minerao ou Anlise dos Dados (Data Mining). A anlise nunca feita sobre todos os dados e sim sobre amostras. Para tanto, necessrio ter antes uma etapa de preparao dos dados, a partir da base de entrada. Nesta etapa, os dados sero tratados (limpeza, integrao, deduplicidade) e amostras diferentes sero geradas, como ser discutido adiante.

    : Processo Geral de Descoberta de Conhecimento

    A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados dentro do contexto da organizao ou do domnio, para a sim se tornarem

    Por exemplo, uma anlise de pacientes com diabetes descobriu que 95% dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico especialista da rea, no novidade nenhuma, pois o tratamento usual dado a

    conhecimento interessante e novo est nas excees, nos 5% que tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que tenham alguma outra caracterstica que os impede de tomar tal medicao.

    O processo de descoberta de conhecimento iterativo e interativo. Iterativo (ou cclico) vrias vezes, com diferentes amostras ou at mesmo com

    diferentes tcnicas e ferramentas. Os padres estatsticos so, na maioria das vezes, hipteses de causas, devendo ser melhor avaliados. Isto muito em razo da Teoria do Mundo Fechado, que ser discutida mais adiante. O processo tambm i

    precisa interveno humana. Para realizar a preparao dos dados e depois a , pessoas com conhecimento sobre o domnio precisam

    BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver problemas, como discutido no captulo anterior. O objetivo final ento poder gerar

    nhecimento como o . A entrada do processo um banco de dados e a sada um conjunto

    e dos Dados (Data Mining). A anlise nunca feita sobre todos os dados e sim sobre amostras. Para tanto, necessrio ter antes uma etapa de preparao dos dados, a partir da base de entrada.

    plicidade) e amostras

    A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados dentro do contexto da organizao ou do domnio, para a sim se tornarem

    Por exemplo, uma anlise de pacientes com diabetes descobriu que 95% dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico especialista da rea, no novidade nenhuma, pois o tratamento usual dado a

    conhecimento interessante e novo est nas excees, nos 5% que tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que

    (ou cclico) , com diferentes amostras ou at mesmo com

    diferentes tcnicas e ferramentas. Os padres estatsticos so, na maioria das vezes, avaliados. Isto muito em razo da Teoria do

    interativo, . Para realizar a preparao dos dados e depois a

    imento sobre o domnio precisam

  • 29

    colocar seu intelecto a servio da descoberta de conhecimento. Ainda no conseguimos colocar este tipo de conhecimento ou inteligncia em mquinas.

    3.1 Premissas do Processo de BI

    Para que o processo de BI tenha um resultado satisfatrio e de qualidade, algumas premissas devem ser observadas.

    Objetivo do BI Como trataremos mais adiante neste livro, o processo de BI pode ser feito de forma reativa ou proativa. Mas em ambos os casos h um objetivo. No primeiro tipo (BI reativo), o objetivo bem definido e busca identificar ou monitorar indicadores quantitativos. J no segundo caso, o objetivo mais vago e tem mais a ver com uma explorao (estamos procurando algo mas no sabemos bem o que , nem se vamos encontrar). Este "algo" que se procura no modo proativo pode ser simplesmente "algo novo", sem definio, forma ou qualidades.

    Coletar as informaes certas Coletar os dados que realmente influenciam os objetivos crucial para que o processo de BI atinjas os objetivos. Quanto mais informaes, menos incertezas. Entretanto, s quantidade no suficiente. Precisamos tambm de dados com qualidade. Falaremos da etapa de coleta num captulo s sobre isto e sobre qualificao de dados quando tratarmos de ETL.

    Formato certo das informaes Depois de coletados os dados, importante coloc-los no formato adequado para anlise. Dados numricos so mais fceis de serem analisados estatisticamente. Mas tambm podemos tratar informaes no-estruturadas com tcnicas como text mining. Se vamos predizer o total de espectadores de um filme e s temos informaes qualitativas como diretor, estdio, atores, produtores, gnero, resumo da histria, local de gravao, etc., seria interessante primeiro transformar tais informaes para um formato que permita aplicar tcnicas de anlise quantitativa para podermos relacionar tais informaes com um dado estruturado e numrico como o total de espectadores ou valores monetrios arrecadados.

    Qualidade das informaes Como os americanos falam "garbage in, garbage out". Ou seja, se o processo for feito com dados sem qualidade, o resultado ser compatvel, isto , tambm sem qualidade. Em alguns pontos deste livro discutiremos tcnicas para tratamento de dados e para enriquecimento. Mas h tantas outras tcnicas para avaliao da qualidade de dados que fogem ao escopo deste livro.

    Organizar as informaes Como discutiremos neste livro, a separao dos dados em amostras um passo importante para o processo de BI. Isto permite analisar os resultados e interpret-los luz da amostra. Se estamos analisando dados histricos dos 2 ltimos anos, os resultados se referem a esta amostra. Se formos utilizar os padres encontrados neste

  • 30

    histrico para nos preparar para o futuro (ou tentar prever o futuro), poderemos ter surpresas bem desagradveis. Alm disto, a separao em amostrar permite comparar os padres encontrados nas amostras. Separando dados por dias da semana, talvez possamos descobrir um padro diferente para cada dia da semana.

    Tcnicas e mtodos de anlise Utilizar a tcnica correta fundamental. Por isto, discutiremos neste livro vrias tcnicas de anlise e alguns cuidados na interpretao dos resultados.

    Recuperao e disseminao do conhecimento O processo de BI s se completa quando o conhecimento descoberto chega at as pessoas que precisam dele, no formato correto e no tempo exato. Se o processo demorar demais, se o resultado chegar num formato no adequado, o processo de deciso (razo da existncia das informaes) ser comprometido.

    3.2 Quem deve participar do Processo de BI

    Hoje h um cargo conhecido como Analista de BI. Este conhece principalmente as ferramentas de software utilizadas para a anlise dos dados e apresentao dos resultados em dashboards.

    Entretanto, deve haver um Analista de Negcios, que possa interpretar os resultados no contexto da organizao. Este tambm dever propor objetivos para o BI, como por exemplo a anlise de certos indicadores de desempenho (KPIs), pois far a ponte entre os problemas e objetivos da organizao e as tcnicas e ferramentas de BI e TI. O Analista de Negcios tambm dever auxiliar na preparao dos dados, indicando que tipo de amostrar poder ser utilizada e que atributos ou valores so mais importantes para serem analisados. Na falta de um profissional deste cargo, o Analista de BI dever assumir tal responsabilidade, e portanto dever procurar conhecer a organizao, seus problemas e objetivos. E a participao de gestores, administradores, executivos ou tomadores de deciso tambm importante, pois so os clientes das informaes a serem geradas pelo BI.

    Por fim, seria interessante contar com um cientista social ou estatstico, que pudesse ajudar na gerao de amostras e na seleo das tcnicas estatsticas a serem utilizadas.

    3.3 Processo de BI Pr-ativo X Reativo: comear com ou sem hipteses

    De acordo com Choudhury e Sampler (1997), existem dois modos para aquisio de informao: o modo reativo e o modo proativo. No primeiro caso, a informao adquirida para resolver um problema especfico do usurio (uma necessidade resultante de um estado anmalo de conhecimento). Nestes casos, o usurio sabe o que quer e poder identificar a soluo para o problema quando h encontrar.

  • 31

    Por outro lado, no modo proativo, o propsito de adquirir informao exploratrio, para detectar problemas potenciais ou oportunidades. Neste segundo caso, o usurio no tem um objetivo especfico.

    Oard e Marchionini (1996) classificam as necessidades de informao em estveis ou dinmicas e em especficas ou abrangentes (gerais). Taylor, citado por Oard e Marchionini (1996), define 4 tipos de necessidades, os quais formam uma escala crescente para a soluo do problema:

    necessidades viscerais: quando existe uma necessidade ou interesse, mas esta no percebida de forma consciente;

    necessidades conscientes: quando o usurio percebe sua necessidade e sabe do que precisa;

    necessidades formalizadas: quando o usurio expressa sua necessidade de alguma forma;

    necessidades comprometidas: quando a necessidade representada no sistema.

    As necessidades tratadas pela abordagem de descoberta reativa poderiam ser classificadas como estveis e especficas, segundo a classificao de Oard e Marchioninni, e como conscientes (no mnimo), segundo Taylor. Isto porque o usurio sabe o que quer, mesmo que no consiga formalizar.

    Exemplos de objetivos que caracterizam um processo reativo so: encontrar caractersticas comuns nos produtos mais vendidos; encontrar motivos que levam evaso ou a reclamaes de clientes; achar perfis de grupos de clientes; encontrar clientes potenciais para propaganda seletiva; encontrar concorrentes no mercado.

    No modo reativo, o usurio tem uma ideia, mesmo que vaga, do que pode ser a soluo ou, pelo menos, de onde se pode encontr-la. Pode-se dizer ento que o usurio possui algumas hipteses iniciais, que ajudaro a direcionar o processo de descoberta. Neste caso, necessrio algum tipo de pr-processamento, por exemplo para selecionar atributos (colunas em uma tabela) ou valores de atributos (clulas). Isto exige entender o interesse ou objetivo do usurio para limitar o espao de busca (na entrada) ou filtrar os resultados (na sada). o caso tpico de quando se deseja encontrar uma informao especfica, por exemplo, um valor para um atributo ou um processo (conjunto de passos) para resolver um problema.

    J as necessidades da abordagem proativa poderiam ser classificadas como dinmicas e abrangentes, segundo a classificao de Oard e Marchioninni. So dinmicas porque podem mudar durante o processo, j que o objetivo no est bem claro, e so abrangentes porque o usurio no sabe exatamente o que est procurando. Pela taxonomia de Taylor, as necessidades do modo proativo so viscerais. Isto quer dizer que h uma necessidade ou objetivo, mas o usurio no consegue definir o que precisa para resolver o problema. A necessidade tpica do modo proativo poderia ser representada pela expresso: diga-me o que h de interessante nesta coleo de dados. Neste caso, o usurio no tem de forma definida o que lhe seja de interesse (o que precisa), podendo tal interesse mudar durante o processo. Pode-se dizer que um processo exploratrio, sendo, em geral, iterativo (com retroalimentao) e interativo (com ativa participao e interveno do usurio).

  • 32

    Na abordagem proativa, no h hipteses iniciais ou elas so muito vagas. O usurio dever descobrir hipteses para a soluo do seu problema e explor-las, investig-las e test-las durante o processo. Em geral, acontece porque o usurio no sabe exatamente o que est procurando. o caso tpico de quando se quer monitorar alguma situao ou encontrar algo de interessante que possa levar a investigaes posteriores. Depois que hipteses so levantadas, o processo pode seguir como no paradigma reativo, talvez sendo necessrio avaliar as hipteses, para verificar se so verdadeiras ou no.

    Pode-se dizer que a abordagem proativa mais difcil de ser conduzida e at mesmo pode no levar a descobertas interessantes. A princpio, deve-se sempre procurar iniciar com indicadores bem definidos, ou seja, usando uma abordagem reativa. A pr-atividade til quando os indicadores j foram esgotados ou quando se quer descobrir algo realmente novo e inesperado. Muitas empresas utilizam abordagens para Gesto da Inovao baseadas em descobertas por acidente ou acaso (o que os americanos chamam de serendipity), e este "pulo do gato" pode fazer a grande diferena em mercados competitivos. Mas isto papo para outro captulo.

  • 33

    4 Pr-processamento e Preparao de dados

    Esta etapa tambm conhecida pelo termo ETL (extrao, transformao e carga/load) ou cleansing (limpeza). O objetivo melhorar a qualidade dos dados e gerar uma base separada para anlise (um data warehouse) para no sobrecarregar as bases usadas pelos sistemas transacionais. A limpeza serve para eliminar inconsistncias da base, completar dados, tratar valores nulos, eliminar registros duplicados, etc. (por exemplo, uma pessoa com dois telefones diferentes ou com um endereo incompleto ou faltando).

    O Data Mining na verdade veio de processos de correo de integridade em bases de dados. Por exemplo, num hospital, os procedimentos de cesariana s podem ser feitos em pacientes do sexo feminino. Ento, eram criadas regras de integridade e um software automaticamente verificava a probabilidade da regra. Neste caso, 100% dos procedimentos de cesariana deveriam ter sido feitos em mulheres. Se o resultado no fosse 100%, algum registro estava inconsistente.

    A grande ideia foi construir um software que identificasse regras automaticamente (sem que operadores humanos precisam definir as regras) e avaliasse a probabilidade. Quando os criadores viram que regras novas e interessantes eram descobertas, a nasceu a Minerao de Dados como conhecida hoje.

    A seguir sero discutidas algumas tcnicas desta etapa.

    4.1 Tratamento de valores nulos

    O que fazer se acontecer de pegarmos para analisar uma base de dados onde 50% dos registros no possuem dados para um determinado atributo (por exemplo, campo sexo). Isto pode gerar resultados no confiveis. Por exemplo, se uma anlise estatstica gerar um padro dizendo que 80% dos registros possuem valor "masculino" para este campo. Como no sabemos o que acontece com os outros 50% dos registros, possvel que todos eles sejam do mesmo sexo e com isto a regra descoberta estaria completamente distante da realidade.

    Uma possibilidade desconsiderar os valores nulos e interpretar os padres descobertos dentro deste contexto, como uma tendncia. Se os registros com valores nulos so apenas 10% do total, a margem de erro nas regras descobertas ser tambm de 10%.

    Outra possibilidade gerar dados por aproximao. Por exemplo, na minerao de uma base com dados climticos da regio sul do estado do Rio Grande do Sul, havia muitos dados faltantes. O que se fez foi completar os dados faltantes com os dados de estaes prximas, uma vez que a variao dos valores de uma estao de coleta para outra no muito grande.

  • 34

    A mdia e a interpolao tambm podem ser utilizadas, mas isto pode gerar distores drsticas nos resultados se os valores faltantes justamente destoavam da maioria (eram outliers). Se o conjunto de registros compunha uma minoria, os resultados finais tero um desvio muito pequeno.

    Outra possibilidade utilizar regras de classificao coletadas fora da empresa. Por exemplo, se no tivermos a renda de um cliente, podemos usar dados estatsticos sobre a renda da cidade onde ele mora. Se no tivermos o estado civil, podemos supor se ele casado ou solteiro analisando outros dados referentes a esta pessoa.

    4.2 Deduplicidade de registros

    A eliminao de registros duplicados evita contar duas vezes uma entidade. Alm disto, pode resolver problemas com dados conflitantes (ex.: cliente com dois endereos). H tcnicas que avaliam probabilidades para saber qual o valor mais correto.

    A identificao de registros duplicados pode ficar mais fcil se houver uma identificao nica. Ho