data analysis open data
TRANSCRIPT
1
Data Analysis
Open DataProfessoras: Ceça e Roberta
Estudantes: Jonathan e LisandraDepartamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)
ABCdas TIC
Analytics
ABCdas TIC
DaaS Database as a Service
AaaS Analytics as a Service
BD Relacional
Data Warehouse
OLAP e Data Mining: Inteligência da Empresa
Memória da
Empresa
BIG DATA
DATA WAREHOUSE
DATA MINING
MACHINE LEARNING
A mina de ouro dos bits!
Competência
Open Data
Big Data é um tsunami (ainda) em alto mar
Data Mining Lifecycle
Explosão de Dados
Source: International Data Corporation (IDC) - https://www.idc.com
Web 2.0 e IoT
10
20
30
40
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
2011 1,7 ZB
2017 14 ZB
2020 40 ZB
The measure of all digital data created, replicated and consumed
The Digital Universe
Fonte: IBM - http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html
15 petabytes de dados estruturados (10%) e não estruturados (90%) são gerados todos os dias!
Big Data can be characterised as amount
of digital data that is uncomfortable to
store, transport or analyse.
Seleção
Pré-Processamento
TransformaçãoEstratificação
Discretização
Cenários
Mineração e Interpretação dos
Resultados
BIG
DATAcharacterised using 4V’s
The amount of data
generated on planet earth
is growing exponentially
How much of the vast
amounts of data do we
analyse?
0,5%Just imagine the potential here!
Source: https://www.forbes.com/sites/bernardmarr
3% dos dados potencialmente úteis é identificado,
menos ainda é analisado.
Se você não está pagando
pelo produto/software,
você é o produto!Produto = dados que você gera
Deseja conhecer o perfil de clientes/estudantes/pacientes?
Deseja encontrar tendências úteis, tais como o comportamento dosconsumidores?
Pretende agregar valor (R$) com as técnicas de análise de dados?
Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar?
Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação daspolíticas públicas em benefício dos cidadãos?
Então, prepare-se para seus dados!
Previsão
Descrição
Aplicações Potenciais de DM
Áreas de Aplicações
Vendas e Marketing
Redes Sociais
Bancos e Finanças
Política
Saúde
Educação
(MDE)
Entre outras...
Exemplo clássico de DM
O que cerveja tem a ver com fraldas?
Suposições:
– Tem o mesmo número de letras?– Cerveja no presente, fraldas no futuro?– ???
• Constatou-se que muitos homens casados, entre 25 e 35 anos,compravam fraldas e cervejas às sextas-feiras à tarde/noite(provavelmente no caminho do trabalho para casa).
• Walmart otimizou as prateleiras nos pontos de vendas,colocando as fraldas ao lado das cervejas.
• Resultado: o consumo cresceu ainda mais.30%
Exemplo 2 (caso verídico em 2012)
Grande rede de varejo dos EUA descobre gravidez de adolescente antes dos pais.
TARGET
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
http://www.nytimes.com/2012/02/19/magazine/shopping-
habits.html?pagewanted=all&module=Search&mabReward=
relbias%3As&_r=0
Exemplo 2
Exemplo 3 - Banco Itaú
Enviava mais de 1 milhão de malas diretas, para todos os correntistas.
– No máximo 2% deles respondiam às promoções.
Hoje, com a mineração dos dados, as cartas são enviadas apenas a quem tem maior chance de responder.
– A taxa de retorno subiu para 30%.– A conta do correio foi reduzida a 1/5.
Exemplo 4 - SERPRO
Investiu milhões no seu projeto de DW e DM, desenvolvido emparceria com a Oracle.
Consolidou 5% de suas informações, mas atualmente já é possívelfazer em 5 minutos cruzamentos de dados que antes demandavamdias de trabalho.
PROJETOS
Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq)
OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional),
visando investigar obstáculos enfrentados pelos docentes, discentes e instituiçõesque ofertam cursos na modalidade a distância.
DADOS:Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES:
2007 a 2014
Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais de Aprendizagem da Educação a Distância (FACEPE/CNPq)
Deu origem a dois novos projetos:
1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação aDistância (PIBITI/CNPq) – 2014 a 2015.
2. Mineração de Dados Educacionais em Ambientes B-learning deInstituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016
Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP
OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfilde estudantes e instituições brasileiras de ensino fundamental, médio e superior.
DADOS:
Censo Escolar
Censo da Educação Superior
2014 e 2015
Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados Educacionais Abertos do INEP
Deu origem a dois novos projetos:
1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de DadosEducacionais do INEP (PIBIC/CNPq) – 2017.
2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dosCensos da Educação Básica e Superior (PIBITI/CNPq) – 2017.
Orientações TCCBacharelado em Sistemas de Informação
Orientações TCC
2014/2015
Comparação de Algoritmos do Aprendizado deMáquina Aplicados na Mineração de DadosEducacionais – Mirela.
Descoberta de Conhecimento Utilizando Mineraçãode Dados Educacionais Abertos – Tancicleide.
Implementação de SIG e Mapas de Kernel visandoAcessibilidade na Educação Superior – Fernanda.
Orientações TCC
2016
Análise de desempenho de banco de dados não relacionais nocenário de dados abertos educacionais – Felipe.
Processo de descoberta de conhecimento em Big Dataeducacional para implementação de um Sistema de InformaçãoGeográfica – Rafaella.
Análise de modelos de dados não relacionais emultidimensionais no contexto de Big Data – Maria Camila.
Um framework multiplataforma para análise e monitoramentode dados governamentais – Geraldo.
Orientações TCC
2017 (em andamento...)
Processo KDD de Decretos e Convênios: Estudo de CasoALEPE – Gustavo.
Mapas de Kernel para Análise de Dados Minerados DoMercado – Anderson.
Pesquisas em Análises de Dados e Dados Abertos
Obtenção (e limpeza) dos dados!
Limitações
Big Data é um tsunami AINDA em alto mar
Data Analyst
Data Scientist
Portal Brasileiro de Dados Abertos
Dados Abertos do Recife
Convênios e Contratos da Administração Pública Federal
Portal de Transparência dos Recursos Públicos Federais
Portal de Transparência do Conselho Nacional de Justiça
Portal de Transparência do Ministério Público Federal
Portal de Transparência da Polícia Federal
Instituto Brasileiro de Geografia e Estatística (IBGE)
Dados Abertos Educacionais do INEP/MEC
UCI Repository of Machine Learning Databases
Kaggle Datasets
Dados abertos da NASA
Gapminder
Google Public Data e Google Finance
Freebase
DataViva
Bases de Dados Abertas (Diversos Domínios)
Fonte: http://youtu.be/tfaYKbbYnXU (vídeo)
Introdução ao Tema
Cap. 28 - Conceitos de Mineração de DadosCap. 29 - Visão Geral de Data Warehousing e OLAP
Cap. 20Depósito e Mineração de Dados
William H. Inmon
Ian H. Witten
Pang-Ning Tan
Jiawei Han; Micheline Kamber;
Jian Pei
Matthew A. Russell
Gordon S. Linoff
Michael J. A. Berry
Viktor Mayer-schonberger
Bibliografias Indicadas
Roland Bouman
53
Data Analysis
Open DataProfessoras: Ceça e Roberta
Estudantes: Jonathan e LisandraDepartamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)