josé vianney mendonça de alencastro junior§ão... · orientador: silvio de barros melo recife...
TRANSCRIPT
José Vianney Mendonça de Alencastro Junior
CONFORMIDADE À LEI DE NEWCOMB-BENFORD DE
GRANDEZAS ASTRONÔMICAS SEGUNDO A MEDIDA DE
KOLMOGOROV-SMIRNOV
Dissertação de Mestrado
Universidade Federal de [email protected]
www.cin.ufpe.br/~posgraduacao
RECIFE2016
José Vianney Mendonça de Alencastro Junior
CONFORMIDADE À LEI DE NEWCOMB-BENFORD DEGRANDEZAS ASTRONÔMICAS SEGUNDO A MEDIDA DE
KOLMOGOROV-SMIRNOV
Trabalho apresentado ao Programa de Pós-graduação em
Ciência da Computação do Centro de Informática da Univer-
sidade Federal de Pernambuco como requisito parcial para
obtenção do grau de Mestre em Ciência da Computação.
Orientador: Silvio de Barros Melo
RECIFE2016
Catalogação na fonte
Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217
A368c Alencastro Júnior, José Vianney Mendonça de
Conformidade à lei de Newcomb-Benford de grandezas astronômicas segundo a medida de Kolnogorov-Smirnov / José Vianney Mendonça de Alencastro Júnior. – 2016.
85 f.: il., fig., tab. Orientador: Silvio de Barros Melo. Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,
Ciência da Computação, Recife, 2016. Inclui referências.
1. Ciência da computação. 2. Medidas de conformidade. I. Melo, Silvio de Barros (orientador). II. Título. 004 CDD (23. ed.) UFPE- MEI 2016-138
José Vianney Mendonça de Alencastro Junior
Conformidade à Lei de Newcomb-Benford de Grandezas Astronômicas Segundo a Medida de Kolmogorov-Smirnov
Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação
Aprovado em: 09/09/2016.
BANCA EXAMINADORA
__________________________________________ Prof. Dr. Silvio de Barros Melo Centro de Informática / UFPE
(Orientador)
__________________________________________ Prof. Dr. Wilton Bernardino da Silva
Departamento de Ciências Contábeis e Atuariais / UFPE
__________________________________________ Prof. Dr. Emerson Alexandre de Oliveira Lima
Escola Politécnica de Pernambuco / UPE
Eu dedico esse meu humilde trabalho aos meus pais, à
minha família e a todos os que contribuíram direta ou
indiretamente para me fazer o ser humano que hoje eu sou.
Agradecimentos
Agradeço antes de tudo a minha vida, por ter colocado todos os obstáculos necessáriosao meu crescimento como ser humano. Agradeço a meus pais por sempre estarem ao meu ladonos momentos mais difíceis e por me passar valores, os quais irei carregar durante toda minhaexistência. Agradeço à minha família por sempre acreditar em mim, aos meus amigos pelo apoioe carinho. Agradeço a todos meus mestres e professores, pela sabedoria compartilhada. Agradeçoao meu orientador professor Sílvio de Barros Melo por ter me acolhido. Agradeço a DouglasAugusto de Barros pela grande ajuda na área de ciências astronômicas e na busca por dados.Agradeço aos amigos da Sociedade Astronômica do Recife pelo apoio e ao Fábio Magalhãesde Novaes Santos por sua ajuda com artigos na área de astronomia. E por fim agradeço a todosque contribuíram de forma direta ou indireta por mais essa conquista e por me ajudarem a ser apessoa que sou hoje e a que serei amanhã. A todos vocês eu deixo o meu muito obrigado!
O que sabemos é uma gota, o que ignoramos é um oceano.
—ISAAC NEWTON
Resumo
A lei de Newcomb-Benford, também conhecida como a lei do dígito mais significativo,foi descrita pela primeira vez por Simon Newcomb, sendo apenas embasada estatisticamenteapós 57 anos pelo físico Frank Benford. Essa lei rege grandezas naturalmente aleatórias e temsido utilizada por várias áreas como forma de selecionar e validar diversos tipos de dados. Emnosso trabalho tivemos como primeiro objetivo propor o uso de um método substituto ao qui-quadrado, sendo este atualmente o método comumente utilizado pela literatura para verificaçãoda conformidade da Lei de Newcomb-Benford. Fizemos isso pois em uma massa de dadoscom uma grande quantidade de amostras o método qui-quadrado tende a sofrer de um problemaestatístico conhecido por excesso de poder, gerando assim resultados do tipo falso negativona estatística. Dessa forma propomos a substituição do método qui-quadrado pelo método deKolmogorov-Smirnov baseado na Função de Distribuição Empírica para análise da conformidadeglobal, pois esse método é mais robusto não sofrendo do excesso de poder e também é maisfiel à definição formal da Lei de Benford, já que o mesmo trabalha considerando as mantissasao invés de apenas considerar dígitos isolados. Também propomos investigar um intervalo deconfiança para o Kolmogorov-Smirnov baseando-nos em um qui-quadrado que não sofre deexcesso de poder por se utilizar o Bootstraping. Em dois artigos publicados recentemente, dadosde exoplanetas foram analisados e algumas grandezas foram declaradas como conformes à Lei deBenford. Com base nisso eles sugerem que o conhecimento dessa conformidade possa ser usadopara uma análise na lista de objetos candidatos, o que poderá ajudar no futuro na identificaçãode novos exoplanetas nesta lista. Sendo assim, um outro objetivo de nosso trabalho foi explorardiversos bancos e catálogos de dados astronômicos em busca de grandezas, cuja a conformidadeà lei do dígito significativo ainda não seja conhecida a fim de propor aplicações práticas para aárea das ciências astronômicas.
Palavras-chave: Lei de Newcomb Benford. Kolmogorov-Smirnov. Função de DistribuiçãoEmpírica. Medidas de conformidade. dados astronômicos. exoplanetas. crateras de impacto.crateras. aglomerados abertos. galáxias. aglomerados globulares.
Abstract
The Newcomb-Benford law, also known as the most significant digit law, was describedfor the first time by astronomer and mathematician Simon Newcomb. This law was just statis-tically grounded after 57 years after the Newcomb’s discovery. This law governing naturallyrandom greatness and, has been used by many knowledge areas to validate several kind of data.In this work, the first goal is propose a substitute of qui-square method. The qui-square methodis the currently method used in the literature to verify the Newcomb-Benford Law’s conformity.It’s necessary because in a greatness with a big quantity of samples, the qui-square methodcan has false negatives results. This problem is named Excess of Power. Because that, weproposed to use the Kolmogorov-Smirnov method based in Empirical Distribution Function(EDF) to global conformity analysis. Because this method is more robust and not suffering of theExcess of Power problem. The Kolmogorov-Smirnov method also more faithful to the formaldefinition of Benford’s Law since the method working considering the mantissas instead of singledigits. We also propose to invetigate a confidence interval for the Kolmogorov-Smirnov methodbased on a qui-square with Bootstrapping strategy which doesn’t suffer of Excess of Powerproblem. Recently, two papers were published. I this papaers exoplanets data were analysed andsome greatness were declared conform to a Newcomb-Benford distribution. Because that, theauthors suggest that knowledge of this conformity can be used for help in future to indentifynew exoplanets in the candidates list. Therefore, another goal of this work is explorer a severalastronomicals catalogs and database looking for greatness which conformity of Benford’s lawis not known yet. And after that , the authors suggested practical aplications for astronomicalsciences area.
Keywords: Newcomb-Benford Law. Kolmogorov-Smirnov. Empirical Distribution Function.conformity measures. astronomical data. exoplanet. impact crater. open cluster. galaxy. globularcluster.
Lista de Figuras
2.1 Gráfico Distribuição dos Primeiros Dígitos segundo a Lei de Newcomb-Benford 20
Lista de Tabelas
2.1 Exemplos de frequências de cada dígito de grandezas obtidas dos mais diversostipos de dados no trabalho de Benford (BENFORD, 1938) . . . . . . . . . . . 23
3.1 Valores críticos do qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . 373.2 P-Valores dos testes Kolmogorov-Smirnov (K-S) e qui-quadrado (χ2) (q-q) de
Pearson de grandezas conformes . . . . . . . . . . . . . . . . . . . . . . . . . 413.3 P-Valores dos testes K-S e Bootstrap de grandezas conformes . . . . . . . . . 423.4 P-Valores dos testes K-S e q-q de Pearson de grandezas não conformes . . . . 443.5 P-Valores dos testes K-S e Bootstrap de grandezas não conformes . . . . . . . 45
4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 66
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 68
4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 69
4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Lista de Acrônimos
M.A.D Mean Absolute Deviaton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
DCT Transformada Discreta de Cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
DWT Transformada Discreta de Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
ORF fases abertas a leitura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
q-q qui-quadrado (χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
K-S Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
FDA Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
FDE Função de Distribuição Empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Sumário
1 Introdução 151.1 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Referencial Teórico 182.1 Lei de Newcomb-Benford . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Conceitos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.2 Invariância de Escala e Invariância de Base . . . . . . . . . . . . . . . 21
2.2 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.1 Aplicações da Lei de Newcomb-Benford . . . . . . . . . . . . . . . . 25
2.2.1.1 Aplicações da Lei de Newcomb-Benford nas ciências Astronô-micas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Critérios de Conformidade da NB-Lei . . . . . . . . . . . . . . . . . . . . . . 32
3 Conformidade à Lei de Newcomb-Benford pelo método de Kolmogorov-Smirnov 363.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Método Adotado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 Qui-quadrado de Pearson (χ2) . . . . . . . . . . . . . . . . . . . . . . 373.2.2 Kolmogorov-Smirnov (K-S) . . . . . . . . . . . . . . . . . . . . . . . 373.2.3 Qui-quadrado com Bootstrapping . . . . . . . . . . . . . . . . . . . . 38
3.3 Análise da Conformidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.3.1 Grandezas cuja a conformidade é conhecida . . . . . . . . . . . . . . . 393.3.2 Grandezas cuja a não conformidade é conhecida . . . . . . . . . . . . 433.3.3 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Análise da Lei de Newcomb-Benford em dados Astronômicos 474.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Metodologia adotada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.1 Grandezas Conformes . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3.2 Grandezas não Conformes . . . . . . . . . . . . . . . . . . . . . . . . 564.3.3 Conjunto de Fronteira . . . . . . . . . . . . . . . . . . . . . . . . . . 694.3.4 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 744.3.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Conclusão 785.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Referências 80
151515
1Introdução
No final do século 19 um fenômeno curioso foi relatado pela primeira vez pelo astrônomoe matemático Charles Newcomb (NEWCOMB, 1881) e décadas depois foi melhor embasadocom evidências empíricas pelo físico Frank Benford (BENFORD, 1938), deste então diversasaplicações têm sido descobertas e muitas vezes causando um certo espanto, este fenômeno éconhecido hoje como a Lei de Newcomb-Benford, ou a lei do dígito significativo. Pouco tempodepois se deu o início de um dos séculos mais prósperos para a humanidade, o século 20. Esseperíodo produtivo, teve início no final do século 19, e avançando pelo século seguinte até os diasde hoje promovendo um crescimento científico jamais conhecido até então.
Nessa fase, dentre várias coisas, descobrimos o elétron, criamos a lâmpada, descobrimoso elemento radio, inventamos o automóvel, descobrimos a existência das galáxias e que o uni-verso está em expansão, aprendemos a voar, criamos os primeiros computadores e sistemas decomunicação globais, desenvolvemos foguetes, fomos ao espaço, pisamos na lua, evoluímos nosmais diversos campos da ciência, estendemos o nosso universo de pesquisas e conhecimentosa outros mundos, a outros planetas e a cada descoberta feita, descobrimos que sabemos muitopouco sobre tudo em nossa volta. A cada dia a quantidade de dados e informações geradas emnossos centros de pesquisa é maior e mais complexa. Por causa disso, nos deparamos com anecessidade de desenvolvermos novas ferramentas para lidar com esses dados que vêm crescendoem volume, velocidade e complexidade.
Seguindo essa tendência, nas duas primeiras décadas do século 21, além da agênciaespacial dos Estados Unidos, a NASA, diversos centros de pesquisas astronômicos no mundotem investido fortemente na pesquisa espacial. A Lei de Newcomb-Benford nesses poucos maisde 100 anos de sua descoberta tem sido utilizada com ferramenta que ajuda a lidar com diversostipos de dados e em diversas áreas porém, embora tenha sido descoberta por um astrônomo, suautilização no campo das pesquisas astronômicas ainda é pouco expressiva.
Nigrini (NIGRINI, 1999) fala sobre problema de excesso de poder que pode ocasionar
1.1. ESTRUTURA DO DOCUMENTO 16
em resultados do tipo falso negativo na estatística dos testes de conformidade quando se utilizauma massa de dados com um grande número de amostras. Dentre os testes susceptíveis a esseproblema está o qui-quadrado de Pearson que é o mais utilizado na literatura da lei dos dígitossignificativos.
Tendo consciência disso, temos como primeiro objetivo propor uma análise substituta aoteste qui-quadrado de Pearson, tendo em vista que grandezas astronômicas com certa frequênciapossuem uma massa de dados com uma quantidade de amostras suficientemente grande aoponto de poder provocar o excesso de poder. Propomos como alternativa à utilização do testede Kolmogorov-Smirnov, o qual baseado na Função de Distribuição Empírica dos dados, paraanálise da conformidade global, pois esse método é mais robusto não sofrendo do excessode poder e também é mais fiel à definição formal da Lei de Benford, pois o mesmo trabalhaconsiderando as mantissas dos números ao invés de apenas considerar dígitos isolados. Tambémpropomos juntamente com este teste definir um limiar para um intervalo de confiança para oKolmogorov-Smirnov.
Recentemente alguns trabalhos foram publicados envolvendo grandezas astronômicas ea lei de Newcomb-Benford. Dentre eles, destacamos dois artigos que afirmam ter encontradograndezas conformes em dados de exoplanetas obtidos através do telescópio espacial Kepler.Com base nessas descobertas os respectivos autores sugerem que o conhecimento dessa confor-midade possa ser usado para uma análise na lista de objetos candidatos, o que poderá ajudar nofuturo na identificação de novos exoplanetas nesta lista.
Sendo assim, o segundo objetivo de nosso trabalho, foi explorar diversos bancos e ca-tálogos de dados astronômicos em busca de grandezas, cuja a conformidade à lei do dígitosignificativo ainda não seja conhecida. A partir desses resultados propor aplicações práticas parao uso do conhecimento da conformidade dessas grandezas na área de ciências astronômicas.
1.1 Estrutura do Documento
O primeiro capítulo desse trabalho possui informações gerais sobre a área, escopo dotrabalho e expõe os objetivos que desejamos alcançar.
No segundo capítulo fazemos um estudo da fundamentação teórica da lei de Newcomb-Benford. Também fizemos uma vasta revisão de sua literatura, verificando o seu estado da arteaté o tempo atual e englobando também os trabalhos envolvendo grandezas astronômicas. E porultimo, falamos um pouco sobre os critérios de conformidade da lei de Benford.
1.1. ESTRUTURA DO DOCUMENTO 17
O terceiro capítulo é feito um estudo da aplicação do método de Kolmogorov-Smirnovbaseado na Função de Distribuição Empírica (FDE) para determinação da conformidade globalda Lei de Newcomb-Benford, assim como também foi feita uma análise de limiar para umintervalo de confiança para lei dos dígitos significativos.
No quarto capítulo expomos o resultado da busca de grandezas astronômicas conformesà lei de Newcomb-Benford, coletadas em bases e catálogos astronômicos assim como tambémsugerimos soluções de aplicações para as novas grandezas conformes descobertas. Tambémcomparamos alguns de nossos resultados com algumas grandezas astronômicas que tem a con-formidade já conhecida na literatura para a lei dos dígitos significativos.
O quinto capítulo contempla de forma breve as nossas conclusões sobre os estudos feitosnesse trabalho. Expondo uma visão geral dos resultados obtidos com base nos objetivos definidos.
181818
2Referencial Teórico
Nesta seção iremos falar sobre os conceitos e propriedades da Lei de Newcomb-Benford.Também abordaremos as propriedades de invariância de base e escala e critérios de conformidade.Em seguida iremos expor o seu estado da arte de início mostrando toda pesquisa feita de formamais geral e em seguida mostrando no estado da arte as aplicações da lei de Newcomb-Benfordpara as mais diversas áreas, incluindo nas imagens digitais e nas ciências astronômicas.
2.1 Lei de Newcomb-Benford
2.1.1 Conceitos Gerais
A lei do dígito mais significativo descreve o fenômeno da distribuição dos dígitos maissignificativos de uma grandeza naturalmente aleatória. Essa lei não segue uma distribuiçãouniforme como era de se esperar intuitivamente e sim uma distribuição logarítmica específica.
No final do século dezenove o astrônomo e matemático Simon Newcomb percebeu que odesgaste em folhas de tabelas de logaritmo não ocorria de forma uniforme, tendo as primeiras fo-lhas um desgaste maior e que esse desgaste ia diminuindo da primeira até a última folha seguindouma distribuição logarítmica. Esse foi o primeiro relato da Lei do primeiro dígito.(NEWCOMB,1881)
Newcomb define a lei do primeiro dígito como:"A lei de probabilidade de ocorrência dos números é tal que todas as mantissas dos seus
logaritmos são equiprováveis. (NEWCOMB, 1881)
Embora Newcomb não tenha embasado estatisticamente seu trabalho, cinquenta e seteanos após, o físico Frank Benford redescobriu o fenômeno e publicou em um trabalho indepen-dente. Trabalho este que foi embasado com evidências empíricas baseadas em frequências dedígitos significativos encontrados em vinte e uma tabelas contendo um total de mais vinte mil
2.1. LEI DE NEWCOMB-BENFORD 19
observações (BENFORD, 1938). Dentre as grandezas analisadas estavam dados de área de baciade rios, valores de tabelas de raízes quadradas, números retirados de edições de jornais, massasatômicas e constantes físicas.
De início a descoberta da lei do primeiro dígito foi atribuída a apenas Benford, issoocorreu devido à grande repercussão que teve o seu trabalho e a não valorização do trabalho deNewcomb na época. Para este trabalho iremos considerar como mesmo fenômeno os termos Leide Newcomb-Benford, Lei dos dígitos significativos, NB-Lei e Lei de Benford.
Tomando um numero x na base b, onde x ∈ R e b ∈ {2,3, ...} . Podemos escrever x naforma x = mb ·bn, para n pertencente a N, onde mb ∈
(1b ,1)
é a mantissa de x. E que D(b)k · (x)
representam o k-ésimo dígito significativo de x ∈ R∗. Ou seja, tomando como exemplo, parax = π(3.14) num sistema de base decimal (b=10), considerando o terceiro digito significativo(k=3) temos, D3
(10) · (π) = 4.
A versão mais geral da lei do primeiro dígito foi definida por (HILL, 1995a):
prob(
mb 6tb
)= logb(t), t ∈ [1,b)
� �2.1
Note que t representa a probabilidade acumulada do dígito d quando t=d.
Com base nessa definição, deduz-se que a probabilidade de d ser o dígito mais significa-tivo de um número real de base decimal é dada por:
prob(d) = log10
(1+
1d
)d = 1,2, ...,9
� �2.2
A equação a seguir mostra a probabilidade de um dígito d aparecer na posição n (Dn):
prob(Dn = d) =(10(n−1))−1
∑i=10n−2
log10(1+(10i+d)−1)� �2.3
E a probabilidade da sequência de dígitos (d1,d2, ...,dk) serem os dígitos mais significati-vos é representada por:
prob(D1 = d1, ...,Dk = dk) = log10
1+
(k
∑i=1
di · 10k−i
)−1 � �2.4
Tomando como exemplo a probabilidade do algarismo "1"seguido do "6"("16") seremdígitos mais significativos de um número real é log10
(1+ 1
16
)∼= 0.026. A figura 2.1 exibe asprobabilidades dos dígitos 1,2, ...,9 serem os dígitos mais significativos de um número de umasequência aleatória.
2.1. LEI DE NEWCOMB-BENFORD 20
Figura 2.1: Probabilidades dos dígitos (1, ...,9) aparecerem como dígito maissignificativo de um número segundo a NB-Lei
Segundo Hill as conformidades para lei de Benford para o primeiro ( Equação 2.2 ) esegundo dígito (Equação 2.3) se mantém mesmo que aconteça mudança de base ou de escalasdas distribuições. Essas duas equações são casos especiais da equação general da Lei do dígitomais significativo (HILL, 1995b).
Equação Geral do dígito mais significativo, para b ∈ Z e b > 1,
P
(k⋂
i=1
{D(b)
i = di
})= logb
1+
(k
∑i=1
bk−idi
)−1 � �2.5
Para todo k ∈ N; todo d1 ∈ {0,1, ...,b−1} , e todo d j ∈ {0,1, ...,b−1}, j = 2, ...,k.
Percebemos então que os dígitos significativos ao contrário do que se pensava são de-pendentes entre si e que essa dependência reduz à medida que a distância entre esses dígitosaumenta. Seguindo a equação genérica (Equação 2.4), nota-se que à medida que essa distância seaproxima do infinito, k→ ∞, a distribuição do k-ésimo dígito se aproxima de uma distribuição
2.1. LEI DE NEWCOMB-BENFORD 21
uniforme onde cada dígito 0,1, ...,9 ocorre com uma frequência uniforme de 110 . (HILL, 1995a)
Porém, nem todas as sequências atendem à Lei de Newcomb-Benford. Nigrini observouuma melhor aderência à lei em listas com as seguintes características (NIGRINI, 1997):
� Os dados devem ser obtidos de medidas de um mesmo fenômeno. Não devendo semisturar dados diferentes. Por exemplo, valores de diâmetros de crateras de impactose massas atômicas de elementos químicos.
� Não deve haver uma limitação de valores do tipo máximo e mínimo na distribuição.Tendo como exceção a esta regra os números negativos. Por exemplo, altura depessoas, idade.
� Os dados não podem ser atribuídos por serem humanos. Por exemplo, número detelefone, códigos pessoais.
� Devem haver mais dados dentre as ordens de grandeza de menor tamanho do quedentre as de maior tamanho. Isto torna a distribuição positivamente assimétrica, ouseja, com cauda direita mais alongada.
É importante salientar que o fato de satisfazer essas características não significa que umagrandeza é conforme a NB-Lei. Essas características podem ser usadas não como restrições paraNB-Lei, mas sim como ferramenta para avaliar se uma dada grandeza tem maior possibilidadede seguir a lei de Newcomb-Benford. Uma vez que as grandezas são proporcionais e para ummesmo fenômeno, espera-se se obter o mesmo resultado de conformidade tanto para listas deuma mesma grandeza testadas separadamente, quanto para uma única lista formada pela uniãode todos os dados daquele fenômeno, ou seja, será observado na lista final a mesma ocorrênciaobservada nas listas individuais. Também vários dados obtidos de medidas de fenômenos naturaispossuem limitações numéricas, como por exemplo, não encontraremos áreas com valor negativo.
2.1.2 Invariância de Escala e Invariância de Base
Dizemos que a NB-Lei é invariante de escala, pois ao multiplicarmos todos elementospor uma constante escalar diferente de zero as proporções de cada elemento não são alteradaspermanecendo conformes à lei. Também afirmamos que a ela é invariante de base, pois casomudemos a base de uma dada massa de dados ele deverá permanecer conforme a lei de Benford.As definições dessas duas características podem ser encontradas em (HILL, 1995b).
Terry Tao demonstra isso de forma mais simples que quando uma determinada grandezaque segue a NB-Lei dobrar de tamanho continuará conforme a lei. Já que ela inicialmente terácomo dígito mais significativo o número 1 e quando ela for multiplicada pelo escalar 2, dobraráde tamanho, podendo adquirir o valor do dígito mais significativo 2 ou 3 (TAO, 2009). Então
2.2. ESTADO DA ARTE 22
teremos a proporção de números começando com os dígitos 2 e 3 iguais à proporção de númeroque começam com dígito 1. Sendo assim, ele demonstra que:
log10(1+ 1
1
)= log10
(1+ 1
2
)+ log10
(1+ 1
3
)log10
(21
)= log10
(32
)+ log10
(43
)= log10
(42
)30,1% = 17,6% + 12,5%
Hill também afirma que se uma dada grandeza for invariante de escala isso implica queela será também invariante de base, porém o contrário não é verdadeiro, nem toda grandezainvariante de base é invariante de escala.(HILL, 1995b)
2.2 Estado da Arte
A NB-Lei determina a frequência com que os dígitos mais significativos ocorrem quandoextraídos de uma lista numérica de origem natural e aleatória. Como dito anteriormente, estefenômeno foi primeiro relatado pelo astrônomo e matemático Simon Newcomb no final do séculoXIX (NEWCOMB, 1881) ao observar o desgaste das folhas de livros de tabelas de logaritmos.
Em seu estudo, Newcomb afirma que os números que iniciavam com dígitos de valoresmais baixos eram mais frequentemente consultados que os com valores mais altos. E a frequênciade cada folha diminuía gradativamente à medida que se aumentava o valor do dígito inicial. Eleconclui seu trabalho afirmando que: a probabilidade na qual os números ocorrem é tal que asmantissas de seus logaritmos são equiprováveis.
Poincaré contribuiu para formalizar este estudo com um pequeno ensaio contido emsua obra Calcul des Probabilités (POINCARÉ, 1912). Ele argumenta que, ao se observaremnúmeros consecutivos em uma lista suficiente grande de logaritmos, nota-se que em dada posiçãosignificativa, considerando os dígitos 0,1,2,...,9 , a ocorrência de números pares ou ímpares sãoeventos equiprováveis.
Poincaré, avaliando uma função que retorna 1 caso o dígito observado seja par e -1 casoseja ímpar, demonstra que a média de tal função tende a zero. Ao final de seu trabalho, o autortem a necessidade de formular uma tabela numérica sobre as probabilidades das ocorrências dosdígitos. Em seguida Franel apresenta algumas correções ao trabalho de Poincaré e confirma quea probabilidade de qualquer dígito de fato tende a 1
10 quando a posição do dígito observada tendeao infinito (FRANEL, 1917).
2.2. ESTADO DA ARTE 23
Weyl discute sobre a distribuição dos números em módulo retomando a linha de pensa-mento que levou à formulação da lei do primeiro dígito (WEYL, 1916).
Após 57 anos da publicação de Newcomb, o físico Frank Benford, relatou o mesmo fenô-meno eu seu trabalho independente (BENFORD, 1938). Desenvolveu suas pesquisas avaliandoapenas o primeiro dígito significativo. Teve seu trabalho embasado com evidências empíricasbaseadas em frequências dos primeiros dígitos encontrados em vinte e uma tabelas contendo umtotal de mais vinte mil observações provenientes de fontes naturais.
Dentre as grandezas analisadas estavam dados de área de bacias hidrográficas, valoresde tabelas de raízes quadradas, números retirados de edições de jornais, massas atômicas econstantes físicas.
Tabela 2.1: Exemplos de frequências de cada dígito de grandezas obtidas dos maisdiversos tipos de dados no trabalho de Benford (BENFORD, 1938)
.
GRANDEZA 1 2 3 4 5 6 7 8 9 AmostrasNB-Lei 30,1 17,6 12,4 9,6 7,9 6,6 5,7 5,1 4,5 -Áreas de Baciasde Rios
31,0 16,4 10,7 11,3 7,2 8,6 5,5 4,2 5,1 335
Massa Molar 26,7 25,2 15,4 10,8 6,7 5,1 4,1 2,8 3,2 1800Números em edi-ções de jornais
30,0 18,0 12,0 10,0 8,0 6,0 6,0 5,0 5,0 100
Constantes físicas 41,3 14,4 4,8 8,6 10,6 5,8 1,0 2,9 10,6 104Massa atômica 47,2 18,7 5,5 4,4 6,6 4,4 3,3 4,4 5,5 91
No entanto, embora houve um certo desvio das frequências obtidas com relação àsesperadas nos dados estudados por Benford, as proporções dos dígitos mais significativos tiveramuma aproximação significante dos valores esperados. Weisstein verificou que 30% dos valorescontidos em uma base de dados com 54 milhões de grandezas físicas começavam com o dígito"1"(WEISSTEIN, 2016). Em seu trabalho Benford não apenas apresentou casos conformes, eletambém mostra casos de não conformidade à NB-Lei.
Após a publicação de Benford outros autores pesquisaram o tema. Levy (LÉVY, 1939) eRobbins (ROBBINS, 1953) desenvolveram teoria com base no trabalho de Weyl. Já outros comoGoudsmit (GOUDSMIT; FURRY, 1944) e Hsü (HSÜ, 1948) tiveram seus trabalhos baseadosnos fundamentos deixados por Benford. No entanto, foi Pinkham (PINKHAM, 1961) que obteveo avanço significativo na estruturação de uma lei que rege as probabilidades dos dígitos e foiestabelecida uma grande relação entre a Lei de Newcomb-Benford e a invariância de escala.
Anos mais tarde Knuth demonstra uma falha no trabalho de Pinkham (KNUTH, 1969).
2.2. ESTADO DA ARTE 24
Knuth demonstra que a função de probabilidade contínua de Pinkham não existe. No entanto,embora as correções, os resultados obtidos por Pinkham foram mantidos. A relação entre aprobabilidade de ocorrência dos dígitos com a invariância de escala é totalmente válida, sendoesta uma descoberta atribuída por Pinkham a R. Hamming.
Hamming (HAMMING, 1970) em seu trabalho estuda a distribuição das mantissas depontos flutuantes e mostra como operações aritméticas de computador podem transformar essasdistribuições. No mesmo trabalho ele faz um profundo exame dessas distribuições e afirma quea NB-Lei não é apenas um fenômeno curioso, pelo contrário, pode ser usada para desenvolverdiversas aplicações nas áreas de hardware, software e para computação em geral. Ele salienta aotimização de custo computacional na multiplicação de números de ponto flutuantes, estimaçãode erro de representação de números na base 2 e 16, assim como reduzir o erro propagadonessas operações. Por exemplo, se x1 possui um erro ε1 e x2 um ε2, ao multiplicarmos esses doisnúmeros os erros serão propagados no produto. Este erro pode ser estimado através da NB-Lei.
Em seu trabalho, Pinkham cita apenas cinco artigos e dois livros sobre a distribuição dosdígitos e dentre eles está o trabalho original de Benford, no entanto não menciona a publicaçãode Newcomb. Alguns anos mais tarde, Raimi (RAIMI, 1976) faz uma vasta revisão na literaturasobre o tema, onde ele, além de incluir o trabalho de Newcomb, estuda outros 27 trabalhossobre a NB-Lei. A pesquisa de Raimi indica que houve um grande crescimento e uma explosãode publicações a partir do ano de 1961. Entre elas, uma menção no livro An Introduction toProbability Theory and Its Applications feita por seu autor William Feller (FELLER, 1971).
Raimi comenta em seu trabalho sobre a falta de visibilidade da publicação de Newcomb,ele relata que o fenômeno já era conhecido e seria trabalhoso renomear o que já era chamado deLei de Benford (RAIMI, 1976).
Mesmo após o grande crescimento no número de publicações ocorridas a partir de 1961,e muitos pesquisadores se interessarem por pesquisar o fenômeno da Lei do Primeiro Dígito,somente na década de 1990 que a NB-Lei foi realmente formalizada a partir dos trabalhosde Hill ((HILL, 1988),(HILL, 1995c),(HILL, 1995b),(HILL, 1995a)), onde boa parte de todoconhecimento sobre o tema gerado durante todo século XX foi solidificado em suas publicações.
Berger e Eshun (BERGER; ESHUN, 2014) em seu trabalho demonstram a caracterizaçãoda Lei de Benford em tempo discreto e Sistemas Lineares.
Berger e Hill sintetizam um vasto conteúdo sobre a Lei de Newcomb-Benford (BERGER;HILL et al., 2011). Nesse trabalho foram adicionadas definições, provas, características eoutros conteúdos referentes ao tema. Em seguida os mesmos autores fizeram também um novolevantamento do estado da arte da área o qual pode ser consultado em (BERGER; HILL et al.,
2.2. ESTADO DA ARTE 25
2016).
2.2.1 Aplicações da Lei de Newcomb-Benford
Uma das primeiras aplicações da NB-Lei que se tem registro, foi feita por Boring noinício do século XX. Nela, o autor estuda seguindo um ponto de vista psicofísico como as pessoasatribuem probabilidades a eventos que elas desconhecem (BORING, 1920). Na época a teoriaque foi melhor aceita era que se uma pessoa não tem qualquer motivo para viés, ela admite quetodos os eventos são equiprováveis.
Uma série de aplicações foram propostas por Hamming. Aplicações de hardware esoftware que se beneficiariam do uso na NB-Lei (HAMMING, 1970). Tomando o mesmocaminho, outros autores mostraram que diversos algoritmos bem difundidos poderiam ter os seuserros de cálculo de operações de ponto flutuante minimizados se a lei de Newcomb-Benfordfosse aplicada. Berger e Hill estudaram os erros em operações de ponto flutuante do método deNewton (BERGER; HILL, 2007). Eles em seguida, juntos com Kaynar e Ridder, mostram apartir dos seus estudos sobre o comportamento das cadeias de Markov, que de fato elas seguem aNB-Lei. No mesmo trabalho eles também demonstram como minimizar erros de operação deponto flutuante como underflow, overflow e round-off usando a NB-Lei (BERGER; HILL et al.,2011).
A utilização da lei de Newcomb-Benford em sistemas dinâmicos também foi verificada,tendo uma vasta aplicabilidade em modelos de sistemas físicos e sociais, onde diversos autoresprocuraram encontrar relações entre esses modelos construídos e a NB-Lei. Foram avaliadosalguns modelos de autômato celular e de dinâmica dos fluidos por Tolle, Budsien e Laviole(TOLLE; BUDZIEN; LAVIOLETTE, 2000). Eles testaram os modelos sob condições que paraeles eram ótimas e chegaram à conclusão que os modelos de autômatos celulares produzemdígitos uniformemente distribuídos. No entanto, eles tiveram a surpresa em descobrir o alto graude conformidade tanto nos modelos de gases quanto nos modelos de líquidos. Após isso outrosautores adotaram linhas similares de pesquisas avaliando a conformidade da lei dos dígitos emsistemas discretos unidimensionais ((SNYDER; CURRY; DOUGHERTY, 2001), (BERGER;BUNIMOVICH; HILL, 2005)) e em sistemas de comportamento exponencial (BERGER, 2005).
A lei Newcomb-Benford foi usada pela primeira vez na análise de dados por Variancomo estratégia de validação de dados no contexto socioeconômico. Ele avaliou os resultadosobtidos a partir de uma simulação de um sistema de crescimento urbano para a região da Baía deSão Francisco na Califórnia (MORGAN, 1972).
Ao final da década de 1980, a NB-Lei passou a ser mais usada nas áreas de ciências
2.2. ESTADO DA ARTE 26
contábeis e auditoria financeira. Teve como precursor Carslaw ao estudar o comportamento dedados financeiros de empresas da Nova Zelândia (CARSLAW, 1988). Em seu trabalho, Carslawafirma que há indícios de que gerentes e administradores dessas empresas estão arredondandoos valores de balancetes para obter melhores resultados no desempenho das empresas. Deacordo com ele, os seres humanos por natureza tendem a apenas memorizar o primeiro dígitode um número e, portanto, o número que for imediatamente abaixo de n10k,n,k ∈ N, daria aimpressão de ter um valor bem inferior a n10k. Estratégia muito utilizada no comércio onde lojascostumam informar nas prateleiras valores um pouco menores que valores de venda para dar aimpressão que o produto é muito mais barato e induzindo o cliente à compra, um exemplo dissosão produtos vendidos com preços como R$:1,99, R$:3,99 e assim por diante, que embora sejamum pouco mais baratos que R$:2,00 e R$:4,00 respectivamente dão a impressão que custam bemmenos que apenas a diferença de 1 centavo de real.
Para verificar se realmente estava acontecendo aquilo que desconfiava nas empresasneozelandesas, Carslaw verificou a quantidade de ocorrências do dígito 0 que apareciam comosegundo dígito mais significativo nos valores que constavam nas demonstrações contábeis dasempresas que estavam sendo avaliadas. Ele usou a NB-Lei como frequência esperada dos seustestes. Em seus resultados o autor não apenas detectou que havia um excesso de dígitos zeros nasegunda posição, mas também que havia uma carência de números começando com o dígito 9.Carslaw considerou isso como evidência, e usou essa informação para dar suporte à hipótese quetenha ocorrido a manipulação de dados nessa empresa.
Thomas aplicou a técnica de Carslaw em firmas estadunidenses (THOMAS, 1989). Eleutilizou a lei dos dígitos para encontrar excesso e falta de dígitos. E da mesma forma que Carslaw,o autor através da NB-Lei encontrou diversas evidências para dar suporte à hipótese de queexistia manipulação de dados tanto para no ganho, arredondando os valores para cima, quanto naperda, arredondando os valores para baixo.
Nigrini, dentre os autores atuais, é um dos defensores mais assíduos do uso da NB-Leicomo procedimento analítico. Ele utilizou conceitos do trabalho de Carslaw e juntou com outrosdo trabalho de Thomas e desenvolveu em sua tese técnicas para detectar desvio em declarações deimposto de renda (NIGRINI, 1992). E em trabalho posterior ele demonstra que dados coletadosde declarações de imposto de renda são conformes à lei de Newcomb-Benford (NIGRINI, 1996).
Algum tempo mais tarde Nigrini novamente aplica a NB-Lei para detectar desvio dedados, mas desta vez em companhias petrolíferas (NIGRINI; MITTERMAIER, 1997). Eledemonstrou como a NB-Lei pode ser usada como ferramenta de revisão analítica de auxílio noplanejamento de auditorias.
2.2. ESTADO DA ARTE 27
Busta e Weinberg utilizaram uma abordagem diferente e estudaram um sistema de apoioa decisão baseado na NB-Lei e redes neurais (BUSTA; WEINBERG, 1998). Como eles nãotiveram acesso a dados reais, acabaram usando base de dados simulados, misturando dadosselecionados de uma sequência Newcomb-Benford pura com amostras de uma distribuiçãoruidosa utilizando uma proporção predeterminada.
Jolion foi o primeiro a estudar a conformidade à lei de Newcomb-Benford em imagensdigitais. (JOLION, 2001). O autor neste trabalho demonstra que, embora as intensidades de coresdos pixels das imagens não sigam a NB-Lei, as magnitudes dos gradientes e a decomposiçãopiramidal baseada na transformação de Laplace, obedecem à NB-Lei. Jolion sugere comoaplicação um método baseado na entropia que usa como probabilidade esperada as frequênciasda lei de Newcomb-Benford para classificar as imagens em duas categorias, Naturais( conformesa NB-Lei) e as imagens de ruído e texturas repetitivas (não conformes a NB-Lei).
Já Acebo e Sbert (ACEBO; SBERT, 2005) propuseram um método usando a lei deNewcomb-Benford para determinar se imagens sintéticas foram renderizadas por métodos fisica-mente realistas. No entanto, essa aplicação é colocada em questão pelo fato de diversas imagensnão seguirem a lei de Newcomb-Benford no domínio de pixel.
Sanches e Marques (SANCHES; MARQUES, 2006) fizeram um trabalho analisandoimagens de exames médicos. Eles mostraram que o primeiro dígito da magnitude dos gradientesde imagens de ressonância magnéticas, tomografias computadorizadas e ultrassons seguem aNB-Lei. Com base nisso, eles propuseram um algoritmo de reconstrução baseado na lei deNewcomb-Benford, que não requer ajuste de parâmetros regulatórios.
Fu, Shi e Su (FU; SHI; SU, 2007) ) pesquisaram a aplicação da lei de Newcomb-Benfordem compressão de imagem e para análise forense de imagens digitais e usando TransformadaDiscreta de Cosseno (DCT). Os autores mostram que a distribuição dos dígitos mais significati-vos dos coeficientes do bloco-DCT segue a NB-Lei. E que os coeficientes quantizadores JPEGseguem também uma distribuição logarítmica similar à da lei dos dígitos em imagens JPEGcomprimidas uma vez. Então eles propuseram um modelo paramétrico empírico para formularo fenômeno observado. Eles também demonstram que essa distribuição é muito sensível àcompressão JPEG dupla. Com base nisso, eles propuseram como aplicação a utilização da lei deNewcomb-Benford na análise forense de imagens.
Uma generalização da lei de Newcomb-Benford para o dígito mais significativo foiapresentada por Pérez-González, Heileman e Abdallah (PÉREZ-GONZÁLEZ; HEILEMAN;ABDALLAH, 2007) em um trabalho independente, porém relacionado. O objetivo dessa ge-neralização é de manter os dois primeiros termos da expansão de Fourier da função densidade
2.2. ESTADO DA ARTE 28
de probabilidade dos dados no domínio logarítmico modulado. Eles também demonstraramque imagens no domínio da Transformada Discreta de Cosseno (DCT) também seguem estageneralização. Os autores utilizaram a NB-Lei também na área de esteganografia e esteganálise,para tentar identificar se uma imagem possui uma mensagem escondida, ou seja, esteganografada.
A análise feita por Qadir, Zhao e Ho (QADIR; ZHAO; HO, 2010) estudava a aplicaçãoda NB-Lei no padrão de compressão de imagens JPEG 2000. Eles demonstram de forma expe-rimental que imagens no domínio da Transformada Discreta de Wavelet (DWT) seguem a leide Newcomb-Benford. Eles propuseram a aplicação da lei dos dígitos mais significativos comoforma de estimar um fator de qualidade da compressão de imagens utilizado no padrão JPEG2000. Em seguida foi proposto por Qadir et al. (QADIR et al., 2011) como aplicação da NB-Leià imagens no domínio DWT uma forma de identificar imagens naturais que contenham brilhoexagerado (glare). Poucos anos depois Senfeng Tong e colaboradores (TONG et al., 2013),propuseram um novo método para identificação de edição e fraude de imagens digitais baseadonas propriedades estatísticas da NB-Lei. Aplicando a transformada discreta wavelet DWT paratestar a imagem, de onde eles extraíram do domínio da transformada discreta de cosseno DCTdos três canais coloridos RGB de cada componente wavelet e calcularam a probabilidade a partirda distribuição do dígito mais significativo.
A lei dos dígitos mais significativos foi usada por Heijer e Eiben (HEIJER; EIBEN, 2010)como forma de medida da qualidade estética para a evolução sem supervisão de arte sintéticarevolucionária gerada por computação genética. De acordo com os autores a NB-Lei é uma dastrês medidas de qualidade e a arte evoluída de acordo com a sua avaliação possui característicasdistintas das demais medidas.
Indo por uma linha similar à de Busta e Weinberg, Bhattacharya, Xu e Kumar (BHATTA-CHARYA; XU; KUMAR, 2011) também propõem um sistema de suporte à decisão baseado emredes neurais. Mais uma vez o procedimento de revisão analítica foi utilizado para classificar osdados de acordo com sua conformidade com a lei de Newcomb-Benford. Também foi aplicadauma técnica de otimização baseada em um algoritmo genético com a finalidade de escolher qualrede neural melhor irá classificar um conjunto de dados com relação à conformidade à NB-Lei.No entanto, diferente de Busta e Weinberg os autores desse trabalho utilizaram conjunto comuma quantidade maior de elementos, e testaram novas entradas nas redes neurais, mantendoapenas as entradas que obtiveram sucesso.
Altamirano e Robledo (ALTAMIRANO; ROBLEDO, 2011) mostram que tanto a leide Newcomb-Benford quanto a lei Zipf (ZIPF, 1949) estão relacionadas com uma estruturageneralizada da termodinâmica. Segundo os autores essa estrutura é obtida a partir de um tipoestatístico de mecânica deformada e surge quando a configuração do espaço de fase é acessível
2.2. ESTADO DA ARTE 29
parcialmente e de uma forma restrita. Segundo essa restrição, a fração acessível desse espaçotem propriedades fractais.
Hui et al. (HUI; JIA-JIE; YU-MIN, 2011) utilizaram a lei de Newcomb-Benford paraanalisar estruturas atômicas no campo da física nuclear.
De e Sen (DE; SEN, 2011), estudaram a aplicação da lei de Newcomb-Benford nafísica quântica. Em seu trabalho, os autores afirmam que tanto podem detectar transições defase quântica quanto detectar terremotos utilizando métodos semelhantes. Eles afirmam que osseus resultados têm implicação direta na execução de experimentos na área e na pesquisa decomputadores quânticos.
Li e colegas (LI et al., 2012), propuseram um método para identificar regiões em imagensJPEG modificadas por softwares de manipulação de imagens, beneficiando-se dos recursosestatísticos da lei do primeiro dígito. Eles afirmam que regiões das imagens JPEG editadas poresses softwares tem um histórico de compressão diferente e através de NB-Lei eles conseguemdiferenciar essas regiões das que não sofreram qualquer manipulação.
James Friar et al. (FRIAR; GOLDMAN; PÉREZ-MERCADER, 2012) por sua vezaplicaram a NB-Lei no campo da genética molecular. Eles descobriram diferenças entre cé-lulas eucariontes e procariontes com relação à quantidade de fases abertas a leituras (ORFs),sequências de DNA que possuem os requisitos básicos para codificar uma proteína. De acordocom eles, nos organismos procariontes o número de ORFs cresce linearmente de acordo como tamanho total do genoma e enquanto nos eucariontes crescem logaritmicamente. Com basenisso e nos seus testes, os autores concluíram que o número de ORFs em células eucariontessegue a frequência da lei dos dígitos mais significativos.
Geyer e Martí (GEYER; MARTÍ, 2012) utilizam a NB-Lei como forma de validar dadosvulcanológicos. Os autores de início verificaram que os dados vulcanológicos são conformes àlei de Newcomb-Benford. E por fim chegaram a conclusão que erros de arredondamento, erronos dados, ou alguma anomalia podem ser detectadas nos dados através da comparação dasfrequências esperadas pela NB-Lei. Gianluca Sottili e Danilo M. Palladino (SOTTILI et al.,2012) também usaram a NB-Lei na análise de mais de 17 mil eventos sísmicos durante 6 anos naItália, incluindo o monte Etna. Eles propuseram um novo método para avaliar séries sísmicasrecorrentes.
Panagiotis Andriotis et al. (ANDRIOTIS; OIKONOMOU; TRYFONAS, 2013) desen-volveram um novo método na área de esteganografia. Foi proposta uma nova abordagem paraesteganálise baseada em um ataque estatístico de imagens JPEG para tentar identificar a presença
2.2. ESTADO DA ARTE 30
de mensagens escondidas. Esse novo ataque proposto pelos autores foi baseado na forma geral dalei de Newcomb-Benford. Os autores afirmam que o método proposto em sua abordagem indicade forma eficiente e veloz se há suspeita da existência de uma mensagem escondida na imagem,baseando-se na distribuição dos dígitos mais significativos contabilizados nos coeficientes datransformada discreta de cosseno DCT presentes no JPEG.
Orita e colaboradores (ORITA et al., 2013), propuseram uma aplicação para lei deNewcomb-Benford no setor de pesquisa de novos medicamentos. Os autores sugerem que a leidos dígitos significativos seja usada para criar um modelo de confiabilidade desses dados, nofinal eles sugerem a criação de um protocolo de qualidade baseado na NB-Lei.
Poucos anos depois Díaz, e Gallart (DÍAZ; GALLART; RUIZ, 2014), desenvolveramum novo método para avaliação e detecção de terremotos e discriminação de sinais sísmicos.Segundo os autores esse método foi o primeiro baseado na NB-Lei e através dele conseguirambons resultados com boa sensibilidade na detecção de sinais sísmicos de curta ou longa distânciae uma boa separação desses sinais do ruído de fundo.
Antkowiak e Drexler (ANTKOWIAK; DREXLER, 2014) testaram a conformidade à leide Newcomb-Benford dos dados registrados por exames de eletroencefalografia de pacientesantes e após a aplicação do anestésico usado em anestesia geral sevoflurano. Os autores afirmamque em todos registros tiveram resultados positivos para as frequências da NB-Lei, porém pode sediferenciar as distribuições que tiveram diferentes níveis de anestesia. Outro fato observado pelosautores, que na presença de ruído de alta frequência os dados não seguem a frequência da NB-Lei.
Iorliam et al. (IORLIAM et al., 2014) desenvolveram um estudo que verifica se asimagens utilizadas na identificação biométrica seguem a lei de Newcomb-Benford e se a NB-Leipoderá ser usada para identificar fraudes e manipulações dessas imagens. De acordo com osautores as imagens biométricas seguem a lei do dígito mais significativo e os métodos aplicadospara detecção de manipulação nessas imagens funcionaram de forma efetiva.
Golbeck (GOLBECK, 2015) verificou que a lei de Newcomb-Benford aplica-se a carac-terísticas encontradas em redes sociais on-line. A autora utilizou dados das 5 redes sociais maisimportantes no momento de sua pesquisa mostrando as distribuições dos primeiros dígitos maissignificativos para amigos, e seguidores, as quais de acordo com autora seguem a NB-Lei. Elatambém identificou a presença da conformidade à lei dos primeiros dígitos no número de mensa-gem que os usuários postam. Com base nisso tudo, foi proposto pela autora o desenvolvimentode uma ferramenta de detecção de fraudes on-line e de validação de dados.
2.2. ESTADO DA ARTE 31
2.2.1.1 Aplicações da Lei de Newcomb-Benford nas ciências Astronômicas
Nas ciências astronômicas também são encontradas aplicações da Lei de Newcomb-Benford. Shao e Ma observaram a conformidade de algumas propriedades de pulsares com aNB-Lei (SHAO; MA, 2010). Dentre essas grandezas conformes encontradas em pulsares estão operíodo baricêntrico e velocidade de rotação assim como também as suas derivadas com relaçãoao tempo.
Thomas W. Hair (HAIR, 2014) testou dados de massa de exoplanetas contidos na base dedados Exoplanet Orbit Database, os quais foram obtidos através do telescópio espacial Kepler everificou que são conformes à lei de Newcom-Benford tanto para exoplanetas confirmados quantopara objetos candidatos. Com base nisto ele sugere que o conhecimento dessa conformidadeseja usado no futuro como mais um indicativo de que esses objetos candidatos sejam de fatoexoplanetas.
Shukla et al. (Shukla; Pandey; Pathak, 2016) em seu trabalho analisaram a base de dadosdo telescópio espacial Kepler sobre exoplanetas em busca de grandezas conformes à NB-Lei. Osautores afirmam que a massa planetária, volume, densidade, maior semieixo orbital, período or-bital e velocidade radial apresentaram um alto grau de conformidade à lei de Newcomb-Benford.Enquanto as grandezas movimento próprio total, idade estelar e distância estelar apresentaramum grau moderado de conformidade. Já longitude, raio e temperatura efetiva não seguem aNB-Lei. Assim como Hair (HAIR, 2014), os autores sugerem que esse conhecimento possa serusado para se fazer análise na lista de candidatos a exoplanetas.
Theodoros Alexopoulos e Stefanos Leontsinis (ALEXOPOULOS; LEONTSINIS, 2014)em seu trabalho analisaram dados acumulados medidos com precisão a partir da década de 1970acerca de distâncias de galáxias e estrelas. Avaliaram essas medidas com relação à conformidadecom a NB-Lei para o primeiro, segundo e terceiro dígito mais significativos. Foram obtidosresultados significativos para a distância de galáxias avaliando o primeiro dígito e para a distânciade estrelas obteve resultados ótimos para os três primeiros dígitos. Foram no total analisadas 702galáxias e 115.256 estrelas. Embora tenham obtido resultados positivos, os autores avaliam anecessidade de refazer os experimentos utilizando catálogos maiores com diferentes distânciasgalácticas tanto para estrelas quanto para galáxias, a fim de reforçar a conformidade dessasgrandezas com a lei dos dígitos mais significativos.
Partindo da descoberta de Alexopoulos e Leontsinis (ALEXOPOULOS; LEONTSINIS,2014) que as distâncias das galáxias e das estrelas seguem as frequências da NB-Lei e usandoa lei Hubble (HUBBLE, 1929) e as propriedades matemáticas da lei de Newcomb-Benford,Hill e Ronald Fox (HILL; FOX, 2016) definiram uma nova lei chamada por eles de lei da
2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 32
distância das galáxias ou, galaxy-distance law, em inglês. Segundo eles, esta lei prediz umadistribuição logarítmica do dígito mais significante das distâncias das galáxias, dando assimum embasamento teórico para suas descobertas de forma empírica. A lei da distância dasgaláxias é considerada pelos autores como robusta à variância de base e escala, assim comotambém a uma possível variabilidade contida na constante de Hubble, e também é robusta a erroscomputacionais ou observacionais multiplicativos e aditivos. Assim, com a lei da distância dasgaláxias, as observações feitas por Alexopoulos e Leontsinis podem ser consideradas como umaevidência empírica e independente para validar a lei de Hubble. O que poderia ser expandido,segundo os autores, para uma lei da distância das estrelas e também poderia ser consideradacomo uma nova evidência empírica que as galáxias estão se expandindo internamente em umataxa exponencial.
2.3 Critérios de Conformidade da NB-Lei
O primeiro critério de conformidade foi estabelecido por Benford em seu trabalho original(BENFORD, 1938), onde foi feito o primeiro teste de conformidade à lei. O teste consiste nocálculo da diferença entre as frequências esperadas e as frequências observadas de cada teste(MORGAN, 1972). O desvio obtido, ε é dado por:
ε =n
∑i=m
|Poi−Pei|2
� �2.6
onde Po e Pe são respectivamente as probabilidades observadas e esperadas. A divisão por dois éfeita para se evitar um problema ocasionado pela de redundância de se considerar os desviosduas vezes na equação. Pois esse tipo de teste que trabalha com probabilidade acaba levando emconta informações duas vezes ou mais. Este fato ocorre por que a soma das probabilidades obri-gatoriamente tem que ser 1. Quando avaliamos o desvio de cada dígito individualmente obtemosinformações significantes, porém quanto avaliamos para o somatório consideramos o desvio duasvezes, sendo um para o excesso e o outro para a falta, pois quando um ou mais dígitos apresentarum desvio para cima, um ou mais dígitos terão um desvio para baixo para compensar e vice-versa.
Embora inicialmente Benford tenha utilizado essa metodologia, as medidas de confor-midades mais difundidas na literatura são baseadas em testes χ2 de Pearson, no teste Z e noteste Komolgorov-Smirnov (K-S). Primeiramente Diaconis usou o teste χ2 em seu trabalhocom objetivo de desenvolvimento de conteúdo teórico sobre a NB-Lei, não visando nenhumaaplicação (DIACONIS, 1977). Já o teste Z foi aplicado pela primeira vez para avaliar a lei deNewcomb-Benford por Carslaw (CARSLAW, 1988), no entanto esse teste só analisa o desviode um dígito por vez, o que não acontece no teste K-S, que por sua vez analisa todos os dígitos.Embora a maioria dos autores verifica a conformidade apenas para o primeiro dígito, são poucos
2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 33
que em seus trabalhos analisam mais que os dois primeiros dígitos.
O teste Z aplicado à NB-Lei pode ser calculado através da equação:
Z =|Po−Pe|− 1
2n√Po(1−Po)
n
� �2.7
onde Po e Pe são respectivamente as probabilidades observadas e esperadas para umdígito específico, n é o tamanho da amostra, e 1
2n que é um fator de continuidade que só é usadoquando 1
2n < |Po−Pe|. Uma descrição mais detalhada do teste Z aplicado a NB-Lei pode serencontrada em (THOMAS, 1989).
Por sua vez o teste estatístico χ2 de Pearson é dado por:
χ2 =
n
∑i=m
(Ooi−Oei)2
Oei
� �2.8
onde Oo e Oe são respectivamente a quantidade de elementos observada e esperada parao respectivo dígito.
A equação do teste de Kolmogorov-Smirnov Local ou discreto (PETTITT; STEPHENS,1977) é dada por:
S = max
(n
∑i=m|Poi−Pei|
) � �2.9
onde Po e Pe são respectivamente as probabilidades observadas e esperadas.
Nigrini (NIGRINI, 1999) relatou um problema chamado por ele de excesso de poder.Ele afirma que que à medida que a quantidade de observações a serem avaliadas aumentam ostestes estatísticos se tornam cada vez mais rigorosos. Segundo ele quando o conjunto excede1.000 observações, diferenças antes imperceptíveis em um gráfico causam grandes mudançasnos resultados dos testes fazendo com que o teste rejeite a hipótese de determinada grandezaser conforme a lei de Newcomb-Benford mesmo ela sendo. E a partir de 10.000 observaçõespequenas variações já começam a ter diferenças significativas nos resultados desses testes. Kra-kar e Zgela (KRAKAR; ŽGELA, 2009) relatam o mesmo fenômeno ao falar sobre o testeχ2. Em seu trabalho ele relata que em conjuntos de dados com mais de 10.000 amostras (NºObservações) o valor da estatística é na maioria dos casos sempre superior ao valor crítico,induzindo ao auditor a pensar que o conjunto não é conforme à lei dos dígitos mais significativos.Luque e Lacasa (LUQUE; LACASA, 2009), também afirmam que há o fenômeno de excessode poder nos testes Z e χ2. Esse problema ocorre também no teste de Kolmogorov-Smirnov local.
2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 34
Como forma de atenuar o problema de excesso de poder, uma distância de conformidadepara a NB-Lei foi sugerida por (NIGRINI; MITTERMAIER, 1997). Essa distância foi chamadade Mean Absolute Deviaton (M.A.D) e era calculado dividindo o somatório das diferenças abso-lutas pelo número de dígitos.
Para um dígito d, sejam Po e Pe as probabilidades esperadas e observadas respectivamente,o MAD pode ser obtido a partir da equação
∑Nd=1 |Po−Pe|
N,
� �2.10
onde d representa o dígito, sendo N=9 para primeira posição e N=10 para as demais.Assim os autores concluem que o MAD não é influenciado pelo tamanho da amostra e queconsequentemente não irá influenciar no resultado do teste não gerando resultados do tiposnegativos de testes de conformidade para Lei de Newcomb-Benford.
Busta e Weinberg (BUSTA; WEINBERG, 1998) seguindo uma linha diferente utilizaramredes neurais para classificar dados segundo a conformidade à NB-Lei. Em seu trabalho elesconsideraram análise de elementos da estatística descritiva como frequência de ocorrência dos dí-gitos das duas primeiras posições, média, mediana, desvio padrão, curtose e obliquidade além devalores de estatísticas como Z e χ2. Seguindo a mesma linha de Busta e Weinberg, Bhattacharyae equipe (BHATTACHARYA; XU; KUMAR, 2011) além replicar os testes feitos por Bustatambém verificaram a aplicação do novo método nos testes χ2 e Kolmogorov-Smirnov (K-S)discreto, distância de Kullbak-Lieber, entropia de Shannon, distância euclidiana, coeficiente derelação de Pearson e o alpha de Judge-Schechter.
Steele e Chaseling (STEELE; CHASELING, 2006), demonstraram que, dentre os testesavaliados, para distribuições de tendência, os que obtiveram melhores resultados foram K-Sdiscreto, Anderson-Darling (A2) discreto e o Cramér-von Mises (W 2) discreto. O teste Z não foiavaliado e o teste χ2 foi o que obteve piores resultados quando comparado aos demais.
Wong (WONG, 2010), em sua dissertação de mestrado, analisou a capacidade de diversostestes estatísticos verificando a detecção de desvios em sequências de Newcomb-Benford. Foramsimuladas várias naturezas de desvios em proporções crescentes sendo o poder do teste medidocaso a caso. Steele e Chaseling tiveram seus resultados comprovados, onde A2 e W 2 obtiveramos melhores resultados e novamente o teste χ2 obteve os piores resultados se comparado aosdemais, e o K-S não foi avaliado e só foram testados os dois primeiros dígitos. É importantesalientar que todos os testes citados trabalharam com valores de probabilidade, onde cada célularepresentava frequências de dígitos e não distribuições. Esses testes presumem que as amostrassão independentes.
2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 35
363636
3Conformidade à Lei de Newcomb-Benfordpelo método de Kolmogorov-Smirnov
3.1 Introdução
Neste capítulo iremos propor a utilização do método estatístico de Kolmogorov-Smirnovbaseado na Função de Distribuição Empírica (FDE) para determinação da conformidade globalda NB-Lei. Iremos comparar os seus resultados aos do teste qui-quadrado (χ2) (q-q) e a daestratégia de Bootstrapping associada ao mesmo q-q a fim de verificar a sua robustez ao problemade excesso de poder comum em massas de dados com grande número de amostras e na área deanálise de conformidade a NB-Lei.
3.2 Método Adotado
O excesso de poder é um problema comum quando se verifica que uma dada grandeza éconforme à lei de Newcomb-Benford. Neste trabalhado temos como um dos objetivos testar ograu de robustez com relação ao excesso de poder de alguns métodos estatísticos e verificar qualmétodo se adéqua melhor na verificação da conformidade à lei dos dígitos significativos.
Para testes de conformidade à NB-Lei o método mais adotado na literatura é o métodoq-q de Pearson, porém como já foi dito, ele é sensível ao problema de excesso de poder podendoocasionar em falsos negativos em um teste com grande número de amostras. Com base nissoresolvemos estudar alternativas ao método q-q de forma a tentar minimizar este problema.
Em nosso trabalho para determinação da conformidade global à NB-Lei utilizamos ométodo Kolmogorov-Smirnov (K-S), porém não é o mesmo K-S citado até agora pela literaturapara verificação de conformidade. O método usado por nós é baseado na FDE, versão discretada Função de Distribuição Acumulada (FDA), conforme descrito por (HENRIQUES, 2012), quealém de ser mais robusto ao excesso de poder é também mais fiel à definição formal da Lei de
3.2. MÉTODO ADOTADO 37
Benford, já que o mesmo trabalha considerando as mantissas ao invés de dígitos isolados.
Também propomos investigar um intervalo de confiança para o K-S baseando-nos em umq-q que não sofre do excesso de poder por se utilizar o Bootstrapping, pois lida com quantidadede amostras toleráveis, extraídas aleatoriamente do montante original da distribuição.
3.2.1 Qui-quadrado de Pearson (χ2)
Aplicamos o método q-q da mesmo forma que é comumente aplicado em outros testesde conformidade à NB-Lei já citados na literatura. Esse teste foi utilizado para verificação da leide Newcomb-Bendord desde que Diaconis o utilizou pela primeira vez (DIACONIS, 1977). Emnosso trabalho o utilizamos apenas para verificação da conformidade para o primeiro dígito.
Conforme a literatura utilizamos n-1 graus de liberdade onde n=9 para teste de conformi-dade do primeiro dígito significativo o que nos dá 8 graus de liberdade.
Segundo a tabela 3.1 de valores críticos segundo a literatura do teste q-q, para um nívelde significância de 0,05, ou seja 5% e 8 graus de liberdade, se o valor crítico do teste q-q formaior que 15,51 podemos rejeitar a conformidade com 95% de confiabilidade.
Tabela 3.1: Valores críticos do qui-quadrado.
Graus deLiberdade
χ2 (Valores)
1 0 0 0.1 0.2 0.5 1.07 1.64 2.71 3.84 6.64 10.832 0.1 0.2 0.5 0.7 1.4 2.41 3.22 4.6 5.99 9.21 13.823 0.35 0.6 1 1.4 2.4 3.66 4.64 6.25 7.82 11.3 16.274 0.71 1.1 1.7 2.2 3.4 4.88 5.99 7.78 9.49 13.3 18.475 1.14 1.6 2.3 3 4.4 6.06 7.29 9.24 11.1 15.1 20.526 1.63 2.2 3.1 3.8 5.4 7.23 8.56 10.6 12.6 16.8 22.467 2.17 2.8 3.8 4.7 6.4 8.38 9.8 12 14.1 18.5 24.328 2.73 3.5 4.6 5.5 7.3 9.52 11 13.4 15.51 20.09 26.129 3.32 4.2 5.4 6.4 8.3 10.7 12.2 14.7 16.9 21.7 27.8810 3.94 4.9 6.2 7.3 9.3 11.8 13.4 16 18.3 23.2 29.59
p-value(nívelde
significância)
0.95 0.9 0.8 0.7 0.5 0.3 0.2 0.1 0.05 0.01 0.001
3.2.2 Kolmogorov-Smirnov (K-S)
FDE
3.2. MÉTODO ADOTADO 38
Nós adotamos o método K-S utilizado por (HENRIQUES, 2012) assim como tambémutilizamos o código fonte da implementação disponibilizado pelo autor em seu trabalho. Se-gundo o autor esse método adotado é baseado na FDE das mantissas. Sendo esta calculadacomo primeiro passo. Para computar a FDE, é montado de início um histograma na escalalog mod 1 (log10(d)), ou seja contendo números entre zero e 1, observando as repetições destatransformação. Em seguida este histograma é acumulado e normalizado. O autor afirma quepor causa do comportamento atípico da NB-Lei no discreto e a natureza caótica dos dados reais,na FDE foi incluída entre pontos iniciais e finais uma quantidade de pontos equidistribuídosproporcional à representatividade daquele valor na distribuição. Ou seja, se a FDE possui npontos de valor A e o próximo ponto distinto possui valor B, então o valor das ordenadas em Aé repetido n vezes igualmente espaçados entre A e B. Desta forma segundo o altor é possívelcomparar fazer uma comparação com a FDE de uma sequência de Newcomb-Benford contendoa mesma quantidade de pontos e sequencias com apenas valores distintos, como as da NB-Lei,não sofrem qualquer alteração. Só após as FDE serem montadas é aplicado o método estatísticoK-S.
3.2.3 Qui-quadrado com Bootstrapping
Bootstrapping ou Bootstrap é um método estatístico de reamostragem utilizado paraaproximar distribuições. O método q-q com Bootstrap se beneficia dessa reamostragem nãosofrendo do problema de excesso de poder como o q-q comum. Neste contexto, o bootstrapping
consiste em selecionar aleatoriamente m amostras das n amostras originais, onde m<n, e mé um número de amostras para o qual o excesso de poder do q-q é desprezível , ao contráriode n. Esse procedimento é executado k vezes, e o valor do q-q final da grandeza será a mé-dia dos k valores de q-q dos conjuntos de m amostras. Onde k 6 Cn,m e Cn,m =
(n!
m!(n−m)!
),
pois Cn,m representa a quantidade máxima de combinações possíveis para o conjunto de amostras.
O problema chamado por Nigrini (NIGRINI, 1999) de excesso de poder pode ser dedu-zido facilmente ao se observar a equação 2.8 que descreve o qui-quadrado. Pois a o numeradorda equação é quadrático enquanto o denominador é de ordem linear fazendo que com o aumentodo número de amostra o valor da estatística tenda a ser maior.
Para determinação da conformidade à NB-Lei, tomamos como referência a tabela 3.1 devalores críticos e da mesma forma que o método q-q comum, para um nível de significância de0,05, ou seja 5% e 8 graus de liberdade, se o valor crítico for maior que 15,51 podemos rejeitar aconformidade com 95% de confiabilidade.
A técnica de bootstraping foi proposta por (EFRON; TIBSHIRANI, 1993) pela primeira
3.3. ANÁLISE DA CONFORMIDADE 39
vez de forma a fazer uma estimativa das propriedades de um estimador. Sendo uma técnicarecomendada em contextos onde outras abordagens não são indicadas, como por exemplo emum número de amostras reduzidos ou muito grande.
Em nosso trabalho utilizamos esse método como parâmetro de comparação com o mé-todo K-S e para estabelecer um intervalo de confiança para esta métrica global, já que ambos nãosofrem de excesso de poder. Usamos como tamanho de parcela máxima o valor de 500 amostras,pois foi um valor máximo para quantidade de amostras em nossos testes que não há tanto efeitodo excesso de poder no teste q-q.
Nós também utilizamos a implementação do q-q disponibilizada por (HENRIQUES,2012) e acrescentamos o Bootstrap para fazer a reamostragem.
3.3 Análise da Conformidade
Nosso objetivo nessa seção é tentar determinar um intervalo de confiança, ou seja, umamargem de tolerância para conformidade do método K-S em relação à distribuição ideal daLei de Newcomb-Benford, para a partir daí poder dizer se uma grandeza testada ainda podeser conforme ou não, como no caso do método q-q que para 8 graus de liberdade e nível designificância (p-valor) de 5% terá esse limiar de 15,51 para a estatística do qui-quadrado.
A determinação desse valor para o K-S será importante tendo em vista que valores degrandezas astronômicos geralmente tem um número de amostras (Nº Observações) grande osuficiente para provocar o problema de excesso de poder no qui-quadrado e o K-S como foi ditose aproxima mais da definição formal da NB-Lei.
Iremos submeter os testes q-q, q-q com Bootstrap e o Komolgorov-Smirnov a dois con-juntos de dados: o primeiro com grandezas cuja conformidade à NB-Lei é descrita pela literaturae o segundo cuja a não conformidade também é conhecida. Dessa forma consideramos váriasdistribuições de diversos graus de conformidade, medidas pelo q-q, e calculamos os valorescorrespondentes do K-S.
3.3.1 Grandezas cuja a conformidade é conhecida
A seguir exibiremos os resultados dos testes feitos em grandezas que são conhecidamenteconformes pela literatura. Na tabela 3.2 temos os resultados dos teste q-q de Pearson e K-S e natabela 3.3 os resultados do teste K-S e Bootstrap a fim de comparação.
3.3. ANÁLISE DA CONFORMIDADE 40
3.3. ANÁLISE DA CONFORMIDADE 41
Tabela 3.2: P-Valores dos testes K-S e q-q de Pearson de grandezas conformes.
Base Grandezas Amostras KS χ2
IBGE (CENSO2007)
Pop. Municípios Brasi-leiros
5564 0,018023104 18,43752233
Calculada Sequencia de Fibonacci 1476 0,001487586 0,047283356Calculada Sucessão das potências
de 21023 0,00213484 0,350815407
Calculada Lista de números Fatori-ais
170 0,052742801 7,833357678
ERS/USDA Pop. dos Condados US2016
3222 0,014973671 11,35369872
Center for HealthStatistics, Washing-ton State Departmentof Health
Reg. MortalidadeWashington 2005
504 0,038757567 4,85075112
States – Births andBirth Rates by Raceand Hispanic Originand Fertility Rate:2002h
Reg. Natalidade US2002
306 0,044924188 6,029617196
Analisando os dados da tabela 3.2 nota-se que o maior valor obtido pelo método K-S foio de um teste com apenas 170 amostras de uma tabela de números fatoriais e que observando oresultado do teste q-q para a mesma grandeza observamos que o mesmo obteve um valor inferioraos 15,51 determinado pela literatura, evidenciando a conformidade à NB-Lei. Observando osresultados dos testes referentes à sequencia de Fibonacci e sucessão de potências de número2, percebe-se que obtivemos valores muito baixos da estatística em ambos os métodos, o querepresenta um alto grau de conformidade para essas grandezas.
Observando os resultados das grandezas Registros de Natalidade dos Estados Unidos2002 e Registro de Mortalidade de Washington 2005, notamos valores baixos no teste K-S eabaixo de 15,51 no teste q-q, confirmando a conformidade à lei dos dígitos significativos emambos os casos.
Testamos também grandezas similares, população dos condados dos Estados Unidosde 2016, e população de todos os municípios brasileiros. Obtivemos valores baixos em ambasgrandezas na estatística do método K-S. No caso do q-q, nos condados, que são uma grandezacom uma quantidade menor de amostras, obtivemos valores da estatísticas conformes à NB-Lei,porém no caso dos municípios brasileiros o mesmo não aconteceu, extrapolando o limiar de15,51 permanecendo ainda dentre da margem dos 20,1 para p-valor de 1%.
3.3. ANÁLISE DA CONFORMIDADE 42
Tabela 3.3: P-Valores dos testes K-S e Bootstrap de grandezas conformes.
Base Grandeza Amostras KS Bootstrap DP
IBGE (CENSO2007)
Pop. Municí-pios Brasilei-ros
5564 0,018023104 8,79961906 4.250917407
Calculada Sequencia deFibonacci
1476 0,001487586 5,312981931 2.663042808
Calculada Sucessão daspotências de 2
1023 0,00213484 4,245364221 2,120949848
Calculada Lista de núme-ros Fatoriais
170 0,052742801 - -
ERS/USDA Pop. dosCondados US2016
3222 0,014973671 8,51021716 4,127630792
Center for HealthStatistics, Washing-ton State Depart-ment of Health
Reg. Mortali-dade Washing-ton 2005
504 0,038757567 4,878415637 0,400616734
States – Birthsand Birth Rates byRace and HispanicOrigin and FertilityRate: 2002h
Reg. Natali-dade US 2002
306 0,044924188 - -
3.3. ANÁLISE DA CONFORMIDADE 43
Observando na tabela 3.3 os resultados obtidos das mesmas grandezas sendo que agoracomparando os métodos estatísticos K-S, que não sofre de excesso de poder, com o Bootstrap,que é mais robusto a esse problema que o q-q, obtivemos os resultados tabelados. A coluna DPrepresenta os valores dos desvios padrões obtidos na execução da estratégia de Bootstrap.
As grandezas que já tinham obtido resultados conformes no q-q mantiveram-se confor-mes à NB-Lei, porém grandezas que obtiveram valores não conformes à lei de Newcomb-Benfordobtiveram conformidade confirmada.
As grandezas cuja quantidade de amostras são inferiores a 500 não foram submetidasao teste de Bootstrap, já que adotamos como parcela mínima para reamostragem o valor dequinhentas amostras neste método, pois foi um valor máximo para quantidade de amostras emnossos testes que não obteve tanto efeito do excesso de poder no teste q-q.
3.3.2 Grandezas cuja a não conformidade é conhecida
A seguir exibiremos os resultados dos testes feitos em grandezas que são conhecidamentenão conformes pela literatura. Na tabela 3.4 temos os resultados dos teste q-q de Pearson e K-Se na tabela 3.5 os resultados do teste K-S e Bootstrap a fim de comparação.
Observando a tabela 3.4 percebe-se claramente que nenhuma das grandezas obteve re-sultado positivo para nenhum dos dois testes, nem para o K-S, muito menos para o q-q e queem ambos os casos obtivemos valorem muito acima dos limiares estabelecidos para ambos osmétodos estatísticos para verificação da lei de Newcomb-Benford.
No entanto, resolvemos fazer duas verificações na grandeza cujo o dígito mais significa-tivo é 1. A primeira vez, utilizamos um número de dez mil amostras, e a segunda com apenas10% do número de amostras do conjunto de dados anterior, ou seja apenas mil amostras. Noteque o resultado do K-S entre os dois conjuntos de dados não obteve uma diferença significativa,no entanto, o mesmo não aconteceu no método q-q obtendo um valor dez vezes maior, o queevidencia o quanto cada um dos dois métodos é susceptível ao excesso de poder, mesmo emgrandezas que cuja a não conformidade já é conhecida se percebe isso.
Na tabela 3.5 observamos tanto para o método K-S quanto para o Bootstrap que em todasas grandezas, como se era de esperar, deram resultado negativo para a estatística na verificaçãoda conformidade à NB-Lei.
3.3. ANÁLISE DA CONFORMIDADE 44
Tabela 3.4: P-Valores dos testes K-S e q-q de Pearson de grandezas não conformes
.
Base Grandeza Amostras KS χ2
Comitê Gestor deRecuperação Fis-cal Receita Fede-ral
CNPJ 3415 0,272739669 1498,156
Num. telefônicosde empresas dosEstados unidos
Num. TelefonesEmpresas US
994 0,303777622 662,2693
Calculada Números começa-dos por 1
10000 0,698878594 23219,28
Calculada Números começa-dos por 1
1000 0,698600393 2321,928
Calculada Números começa-dos por 2
1000 0,522000401 4678,914
Calculada Números começa-dos por 3
1000 0,477145338 7003,842
Calculada Números começa-dos por 4
1000 0,602303229 9318,853
Calculada Números começa-dos por 5
1000 0,699092303 11629,45
Calculada Números começa-dos por 6
1000 0,778166125 13936,52
Calculada Números começa-dos por 7
1000 0,845168485 16244,35
Calculada Números começa-dos por 8
1000 0,903092709 18550,34
Calculada Números começa-dos por 9
1000 0,954288264 20853,15
Calculada Lista distribui-ção uniformeprimeiro dígito
9000 0,273121261 3685.249
Imagem Lena Val. RGB Ima-gens (Canal Ver-melho)
262144 0,484740638 252128,3
Imagem Lena Val. RGB Ima-gens (CanalVERDE)
262144 0,214855748 69890,72
Imagem Lena Val. RGB Ima-gens (CanalAZUL)
262144 0,22796337 210137,7
Imagem Lena Val. RGB Ima-gens (3 Canais)
786432 0,264218106 264219,7
3.3. ANÁLISE DA CONFORMIDADE 45
Tabela 3.5: P-Valores dos testes K-S e Bootstrap de grandezas não conformes.
Base Grandeza Amostras KS Bootstrap DP
Comitê Gestorde Recupe-ração FiscalReceita Fede-ral
CNPJ 3415 0,272739669 228,6695409 34,09825723
Num. telefôni-cos de empre-sas dos Esta-dos unidos
Num. Tele-fones EmpresasUS
994 0,303777622 339,0062472 20,25437266
Calculada Números come-çados por 1
10000 0,698878594 1160,964024 2.27374E-13
Calculada Números come-çados por 1
1000 0,698600393 1160,964024 2,27374E-13
Calculada Números come-çados por 2
1000 0,522000401 2339,457096 0
Calculada Números come-çados por 3
1000 0,477145338 3501,920922 4,54747E-13
Calculada Números come-çados por 4
1000 0,602303229 4659,426272 0
Calculada Números come-çados por 5
1000 0,699092303 5814,725941 1,81899E-12
Calculada Números come-çados por 6
1000 0,778166125 6968,259895 2,72848E-12
Calculada Números come-çados por 7
1000 0,845168485 8122,176237 2,72848E-12
Calculada Números come-çados por 8
1000 0,903092709 9275,171065 0
Calculada Números come-çados por 9
1000 0,954288264 10426,57343 0
Calculada Lista Distribui-ção uniformeprimeiro dígito
9000 0,273121261 203,6567515 28,82351979
Imagem Lena Val. RGBImagens (CanalVerm.) Lena
262144 0,484740638 485,1270084 32,67094246
Imagem Lena Val. RGBImagens (CanalVerd.)
262144 0,214855748 140,2181663 21,06018748
Imagem Lena Val. RGBImagens (CanalAzul)
262144 0,22796337 409,7169856 19,27941256
Imagem Lena Val. RGB Ima-gens (3 Canais)
786432 0,264218106 175,2739661 17,09618048
3.3. ANÁLISE DA CONFORMIDADE 46
Observamos também que os valores da estatística do Bootstrap deram bem inferior aoq-q. Destacando os dois grupos de amostras de números começados por 1, note que ao contráriodo valores da estatística obtida pelo qui-quadrado, ao utilizar o Bootstrap e os K-S obtivemos amesma estatística tanto para mil amostras quanto para dez mil amostra mostrando o quanto essedois métodos são robustos ao excesso de poder.
Alguns testes obtiveram o valor do desvio padrão muito pequeno, e por causa dissotiveram o valor zero atribuído a este resultado.
3.3.3 Conclusão
Assim sendo, como base no que foi visto nesse capítulo, podemos concluir que o métodoestatístico de Kolmogorov-Smirnov se mostra uma ótima alternativa para determinação da con-formidade global à lei de Newcomb-Benford, pois o mesmo não se mostra sensível ao excessode poder e é mais fiel à definição da lei de Benford por ser global utilizando mantissas ao invésde dígitos isolados.
Com relação da determinação de um limiar para um intervalo de confiança do métodoK-S chegamos às seguintes conclusões. Tendo em vista que valores acima de 0,1 do K-S comuma quantidade de amostras razoável, o método qui-quadrado dá um resultado não conforme.E que para valores do K-S abaixo de 0,1 também em uma quantidade de amostras razoável eleobtém valores da estatística do q-q conformes à NB-Lei. Podemos assim então a partir dessesdados com grandezas conformes e não conformes, juntamente com dados astronômicos queserão vistos no próximo capítulo, estimamos que o intervalo de confiança de conformidade àNB-Lei pelo K-S é de 0 a 0,1.
No entanto, salientamos que ao utilizarmos as grandezas astronômicas contidas nocapítulo 4 para determinar o Limiar do K-S, tivemos também que verificar a possibilidade deocorrência de desvios que possam ter sidos ocasionados por algum fenômeno na hora de usara grandeza para determinar o limiar, pois não sabíamos previamente se esses dados testadospossuíam algum tipo de desvio. Sendo assim, olhando a quantidade de amostras de cada grandeza,consideramos que uma grandeza com a quantidade de amostras (nº de repetições) muito grandeteria que ter um desvio também muito grande para poder influenciar nesse resultado, o queseria percebido por quem adquiriu os dados. Portanto, consideramos o grau de certeza alto paraconformidade à NB-Lei em grandezas com um grande número de amostras e um baixo grau decerteza para grandezas com uma quantidade muito pequena de amostras.
474747
4Análise da Lei de Newcomb-Benford em da-dos Astronômicos
4.1 Introdução
Neste capítulo iremos estudar a aplicação da lei de Newcomb-Benford na astronomia.Iremos verificar diversas grandezas astronômicas com relação a sua conformidade à NB-Lei.Apesar das pesquisas de sua aplicação nessa área ainda serem recentes, a cada dia surge umanova descoberta de uma nova grandeza astronômica conforme à lei dos dígitos significativos.No entanto, embora já se tenham alguns estudos na área, até o momento não foi desenvolvidanenhuma aplicação prática conhecida na área usando esse conhecimento, apenas sugestões deaplicações foram propostas até o momento. Iremos utilizar para verificação da conformidadeglobal o método de Kolmogorov-Smirnov e também para um comparativo usaremos os métodosq-q com a estratégia Bootstrap e o q-q de Pearson.
A aplicação da lei de Newcomb-Benford, apesar de crescente, ainda é algo recente nas ci-ências astronômicas. Uma das primeiras publicações conhecidas foi feita por Shao e Ma (SHAO;MA, 2010) que em seu trabalho descobriram que o período baricêntrico e a velocidade de rotaçãode pulsares são grandezas conformes à lei do dígito mais significativo. Alguns dos trabalhosmais recentes na área foram o de Alexopoulos e Leontsinis (ALEXOPOULOS; LEONTSINIS,2014) que afirmam que as distâncias das galáxias e de estrelas seguem a NB-Lei e de Hill eFox (HILL; FOX, 2016) que com base na descoberta de Alexopoulos, na Lei de Hubble e naspropriedades matemáticas da NB-Lei definiram uma nova lei chamada de lei da distância dasgaláxias. Thomas Hair (HAIR, 2014) e poucos anos depois Shukla et al. (Shukla; Pandey;Pathak, 2016) descobriram que grandezas obtidas de dados da exploração de exoplanetas sãoconformes à lei de Newcomb-Benford. Maiores informações sobre essas publicações e demaissobre o uso da NB-Lei nas ciências astronômicas podem ser encontradas no capítulo 2.
4.2. METODOLOGIA ADOTADA 48
4.2 Metodologia adotada
Neste trabalho foram testados um total de 16 bases de objetos contendo dados reais dediversas áreas das ciências astronômicas. Os catálogos consultados foram: NASA/IPAC, Extra
Galactic Objects (NED) (SCHMITZ et al., 2012); Video Meteor Database (VIDEO METEORDATABASE, 2015); Observable Comets, Minor Planet Center (MINOR PLANET CENTER,2015); Globular Clusters in the Milky Way (HARRIS, 1997); Moons of Solar System (NASA,2015a); Lunar Crater Data (LOLA) ((HEAD et al., 2010), (KADISH et al., 2011)); Lunar Impact
Crater Database (LOSIAK et al., 2015); Lunar Orbital Data Explorer (ODE) (NASA, 2015b);Mercury Orbital Data Explorer (NASA, 2015c); Venus Orbital Data Explorer (NASA, 2015d);Near Earth Objects Dicovery Statistics (NEO, 2014); Gazetteer of planetary nomenclature
(GAZETTEER, 2014); NASA Exoplanet Archive (AKESON et al., 2013); Catalog of Optically
Visible Open Clusters and Candidates (DIAS, 2009); Hipparcos Catalogue (PERRYMAN et al.,1997).
Além dos 16 catálogos contendo dados reais foi também testado um catálogo contendodados resultantes de simulações cosmológicas de formação de estruturas. Para isso se utilizou abase de dados simulados do projeto Millennium (LEMSON et al., 2006).
A partir de todos esses catálogos foram obtidas 219 grandezas, onde cada grandeza foitestada utilizando os métodos χ2 de Pearson, teste K-S baseado na FDE e qui-quadrado comestratégia de Bootstrapping, conforme foi demonstrado no capítulo 3 deste trabalho.
O método q-q embora seja o mais utilizado na literatura, nem sempre é o mais indicadopara todos os testes de conformidade à Nb-Lei. Em massas de dados com um número muitogrande de amostras, o teste χ2 poderá sofrer de excesso de poder podendo incorrer a falsosresultados de não conformidade. Mais informações sobre o problema de excesso de poder eutilização do método K-S estão também disponíveis no capítulo 3.
4.3 Resultados Obtidos
Nessa seção iremos exibir os resultados conformes obtidos em testes de grandezas as-tronômicas. Essa seção foi dividia em três partes. A primeira, contendo as gradezas cujosresultados dos testes foram conformes a NB-Lei, a segunda com as grandezas não conformes e aultima chamada de conjunto de fronteira onde colocamos as grandezas que não conseguimosdeterminar a sua conformidade.
Em cada parte teremos duas tabelas, a primeira contendo os resultados do testes K-S
4.3. RESULTADOS OBTIDOS 49
e q-q e a segunda tabela K-S e q-q com a estratégia de Bootstrapping. Além do resultado dostestes estatísticos em cada tabela iremos exibir o nome da base de dados, o nome da grandezaverificada e valores da quantidade de amostras utilizada em cada um dos testes comparando osmétodos utilizados.
Nas grandezas cujas quantidades de amostras são inferiores a quinhentas observações,utilizamos como comparativo ao K-S o q-q de Pearson, já em grandezas cuja quantidade deamostras eram superiores a quinhentas, devido à possibilidade de excesso de poder adotamoscomo comparativo ao K-S o método q-q com a estratégia de Bootstrapping.
4.3.1 Grandezas Conformes
Iremos exibir agora os resultados conformes a lei de Newcomb-Benford. Teremos nastabelas 4.1 e 4.2 grandezas cuja conformidade foi confirmada pelos testes de K-S, q-q e q-qcom a estratégia de Bootstrapping. Somando um total de 59 resultados conformes à lei deNewcomb-Benford.
Temos na tabela 4.1, grandezas conformes de acordo com os testes K-S e q-q, ondeobteve-se um total de 31 resultados conformes à NB-Lei.
Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).
Base Grandeza Amostras KS χ2
Video Meteor Database Quantidade de Meteo-ros observados por mês
194 0.062317 6.287640512
NASA Exoplanet Ar-chive
Período Orbital (UpperUnc. [dias]
1696 0.040684 14.42976812
NASA Exoplanet Ar-chive
Excentricidade 707 0.043867 3.744642455
NASA Exoplanet Ar-chive
Excentricidade (UpperUnc.)
653 0.073507 15.02015873
NASA Exoplanet Ar-chive
Massa do Pla-neta[Massa de Júpiter]
560 0.056413 12.32975415
NASA Exoplanet Ar-chive
Massa do Planeta (Up-per Unc.) [Massa de Jú-piter]
472 0.059322 11.48154221
4.3. RESULTADOS OBTIDOS 50
Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Massa do Planeta(Lower Unc.) [Massade Júpiter]
472 0.067797 13.42739234
NASA Exoplanet Ar-chive
Massa mínima deum planeta medidapela velocidade radial.(Msin(i)) [Massa deJúpiter]
506 0.035594 9.560202279
NASA Exoplanet Ar-chive
Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Upper Unc.) [Massa deJúpiter]
402 0.054726 6.22585376
NASA Exoplanet Ar-chive
Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Lower Unc.) [Massa deJúpiter]
402 0.049786 6.504953872
NASA Exoplanet Ar-chive
Densidade do Planeta(Upper Unc.) [gcm3]
314 0.046104 8.448684168
NASA Exoplanet Ar-chive
Densidade do Planeta(Lower Unc.) [gcm3]
314 0.045023 3.549864709
NASA Exoplanet Ar-chive
Inclinação (Upper Unc.)[graus]
368 0.048313 7.687666235
NASA Exoplanet Ar-chive
Inclinação (Lower Unc.)[graus]
374 0.053476 6.679850725
NASA Exoplanet Ar-chive
Tempo do Periastro (Up-per Unc.) [dias]
469 0.042644 10.50358848
NASA Exoplanet Ar-chive
Tempo do Periastro(Lower Unc.) [dias]
469 0.042644 8.291706741
NASA Exoplanet Ar-chive
Longitude do Periastro(Upper Unc.) [graus]
573 0.041885 14.28908691
NASA Exoplanet Ar-chive
Longitude do Periastro(Lower Unc.) [graus]
571 0.043783 10.10937793
4.3. RESULTADOS OBTIDOS 51
Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Amplitude da Veloci-dade Radial [m/s]
673 0.035994 8.542023255
NASA Exoplanet Ar-chive
Amplitude da Veloci-dade Radial (LowerUnc.) [m/s]
659 0.072146 14.95276957
NASA Exoplanet Ar-chive
Temperatura de Equilí-brio (Upper Unc.) [K]
239 0.075537 12.24630063
NASA Exoplanet Ar-chive
Massa do Planeta (Up-per Unc.) [Massa daTerra]
472 0.059746 10.79365682
NASA Exoplanet Ar-chive
Massa mínima de umplaneta medida pelavelocidade radial. (Msin(i)) [Massa daTerra]
506 0.053457 9.261035032
NASA Exoplanet Ar-chive
Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Upper Unc.) [Massa daTerra]
402 0.057274 12.2780593
NASA Exoplanet Ar-chive
Movimento Próprio(RA) [masyr]
872 0.050015 13.9672206
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação09 de Pike
8716 0.014141 8.58059227
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação12 de Pike
8716 0.011709 8.850560368
Globular Clusters in theMilky Way
Latitude galáctica (emgraus) (GLAT deg)
147 0.036105 8.757947442
4.3. RESULTADOS OBTIDOS 52
Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
Globular Clusters in theMilky Way
Altura do aglomeradocom relação ao plano ga-láctico (em kpc) (z kpc)
144 0.07397 5.972309738
Globular Clusters in theMilky Way
Velocidade radial heli-ocêntrica (em km/s)(Vrkm/s)
126 0.087405 4.204123636
Globular Clusters in theMilky Way
Raio do core do aglo-merado (em minutos dearco)(Rc arcmin)
141 0.061062 11.46407988
Na tabela 4.2 abaixo são encontrados os resultados dos testes de grandezas astronômicasutilizando o métodos K-S e o qui-quadrado com bootstrap. Comparando os dois obtivemos umtotal de 28 novos resultados conformes que foram ditos não conformes a NB-Lei pelo q-q dePearson. Note que, para ambos os casos, o teste K-S obteve valores de sua estatística inferiores a0,1 assegurando a conformidade.
Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)
.
Base Grandeza Amostras KS Bootstrap DP
Millennium Data-base
Taxa de formação deestrelas
3228 0,026221 9,241501 4,375166
NASA ExoplanetArchive
Período Orbital(Lower Unc). [dias]
1696 0,041274 10,50836 4,853206
NASA ExoplanetArchive
Maior Semi Eixo or-bital
1719 0,05478 13,03265 5,533274
NASA ExoplanetArchive
Maior Semi Eixo or-bital (Upper Unc.)[UA]
823 0,087485 14,14534 4,574462
NASA ExoplanetArchive
Maior Semi Eixo or-bital (Lower Unc.)[UA]
822 0,082725 15,10433 4,868793
4.3. RESULTADOS OBTIDOS 53
Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
NASA ExoplanetArchive
Raio do Planeta (Up-per Unc.) [Raio deJúpiter]
1221 0,05835 13,3229 5,217034
NASA ExoplanetArchive
Distância (UpperUnc.) [pc]
825 0,095778 14,01759 4,379438
NASA ExoplanetArchive
Amplitude da Velo-cidade Radial (Up-per Unc.) [m/s]
659 0,070377 14,33413 3,123189
NASA ExoplanetArchive
Raio do Planeta (Up-per Unc.) [Raio daTerra]
1221 0,049737 12,59823 4,909634
NASA ExoplanetArchive
Raio do Planeta(Lower Unc.) [Raioda Terra]
1219 0,061122 14,82011 5,618969
NASA ExoplanetArchive
Movimento Próprio(Dec) [masyr]
887 0,03772 13,03336 4,800185
Catalog of OpticallyVisible Open Clus-ters and Candidates
Diâmetro FísicoCalculado Aglome-rados Abertos
2033 0,040035 12,33079 5,242456
Lunar Impact CraterDatabase
Diâmetro Craterasde Impacto Lunares
8716 0,042972 12,98124 6,044334
Lunar Impact CraterDatabase
Raio Crateras de Im-pacto Lunares KM
8716 0,035745 11,34898 5,292271
Lunar Impact CraterDatabase
Diâmetro AparenteCrateras de ImpactoLunares
8716 0,043047 14,36394 6,326425
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de 10 milmetros além daborda [m], eq. 10Pike
8716 0,015916 8,58919 4,253521
Lunar Impact CraterDatabase
Distância radial dematerial ejetado con-tínuo [km]
8582 0,045996 12,38598 5,868714
4.3. RESULTADOS OBTIDOS 54
Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Lunar Impact CraterDatabase
Distância radial dematerial ejetado con-tínuo [km]
8656 0,041944 12,31052 5,899639
Lunar Impact CraterDatabase
Raio do manto dematerial ejetadocom espessuramaior que 10m [km]
8716 0,028061 11,65936 5,480793
Lunar Impact CraterDatabase
Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- valor minimo
8716 0,037113 10,01375 4,671689
Lunar Impact CraterDatabase
Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- Melhor estimativa
8716 0.04597 9.451345 4.612785
Lunar Impact CraterDatabase
Raio do halo-escuropor radar ( radar-dark halo) [km]
8716 0,020389 8,72259 4,204406
Lunar Impact CraterDatabase
Volume Derretido[km3̂]
8716 0.034663 14.43471 6.183863
Lunar Impact CraterDatabase
Volume derretido,45° em basalto[km3̂]
8716 0,043436 12,30459 5,689255
Lunar Impact CraterDatabase
Volume Derretido,45° em Anortosito[km3̂]
8716 0,03672 14,45915 6,185416
Hipparcos Catalo-gue
pmRA (componentedo movimento pró-prio da estrela na di-reção do eixo de co-ordenadas de ascen-são reta)
117923 0,015395 8,240126 4,055139
4.3. RESULTADOS OBTIDOS 55
Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Hipparcos Catalo-gue
pmDE (componentedo movimento pró-prio da estrela na di-reção do eixo de co-ordenadas de decli-nação)
117923 0,01414 8,178882 4,034364
Hipparcos Catalo-gue
Movimento PróprioTOTAL (PM)
117955 0,023807 9,286517 4,530922
4.3. RESULTADOS OBTIDOS 56
4.3.2 Grandezas não Conformes
Iremos agora exibir uma vasta lista contendo 119 grandezas que obtiveram resultadosnegativos em nossos testes de conformidade. Como os demais testes, esses também foramdivididos em duas tabelas: tabela 4.3 e tabela 4.4.
Na tabela 4.3 abaixo temos os resultados do K-S e q-q. Note que tanto o q-q obteveresultados acima do limiar de 15,51 para p-valor de 5% com 8 graus de liberdade, quanto o K-Sobteve valores acima de 0,1 caracterizando em ambos os casos a não conformidade.
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).
Base Grandeza Amostras KS χ2
Observable Comets, Mi-nor Planet Center
Período Orbital de Co-metas
550 0,30244 310,6224
Moons of Solar System Diâmetro médio dasluas do sistema solar
146 0,120957 25,39522
Moons of Solar System Comprimento da órbitadas luas do sistema solar
146 0,309712 58,24812
Moons of Solar System Período Orbital das luasdo sistema solar
146 0,254298 82,568
Moons of Solar System Densidade das Luas dosistema solar
143 0,410201 122,4724
Moons of Solar System Período Orbital das luasdo sistema solar
146 0,234058 76,93555
Moons of Solar System Raio médio das luas dosistema solar
146 0,173564 19,06041
Lunar Crater Data(LOLA)
Diâmetro das Craterasda Lua
5185 0,250423 2775,415
Mercury Orbital DataExplorer
Diâmetro das Craterasde Mercúrio
377 0,138536 56,91901
Moons of Solar System Circunferência Orbitaldas Luas do Sistema So-lar
143 0,349654 56,95373
Moons of Solar System Velocidade Média Orbi-tal das Luas do SistemaSolar
145 0,267638 124,302
4.3. RESULTADOS OBTIDOS 57
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
Moons of Solar System Circunferência Equato-rial das Luas do SistemaSolar
142 0,131423 34,42877
Gazetteer of planetarynomenclature
Diâmetro das Craterasda Lua 0_6KM
1569 0,146018 152,0949
Millennium Database Raio do disco Galático 4000 0,105316 429,5699Millennium Database Velocidade de ro-
tação máxima dosubhalo_galáxia
4000 0,42503 3547,503
Millennium Database Massa da Galáxia emGás frio
4000 0,118802 227,0403
NASA Exoplanet Ar-chive
Número de Planetas noSistema Solar
1887 0,399023 718,4525
NASA Exoplanet Ar-chive
Raio do Planeta [Raiode Júpiter]
1265 0,325392 541,3212
NASA Exoplanet Ar-chive
Inclinação [graus] 399 0,850008 5517,882
NASA Exoplanet Ar-chive
RA(ascensão reta)[graus decimais]
1887 0,366688 3557,717
NASA Exoplanet Ar-chive
Dec(declinação) [Grausdecimais]
1887 0,324963 3971,216
NASA Exoplanet Ar-chive
Distância (Lower Unc.)[pc]
825 0,113774 31,53947
NASA Exoplanet Ar-chive
V-band (Johnson) [mag] 787 0,308607 698,4393
NASA Exoplanet Ar-chive
V-band (Johnson) Unc.[mag]
434 0,410952 267,0848
NASA Exoplanet Ar-chive
Temperatura Efetiva [K] 1648 0,554978 6300,068
NASA Exoplanet Ar-chive
Temperatura Efetiva(Upper Unc.) [K]
1553 0,312621 331,4658
NASA Exoplanet Ar-chive
Temperatura Efetiva(Lower Unc.) [K]
1457 0,320796 323,5449
4.3. RESULTADOS OBTIDOS 58
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Massa Estelar [MassaSolar]
1473 0,246268 1214,507
NASA Exoplanet Ar-chive
Massa Estelar (LowerUnc.) [Massa Solar]
808 0,107673 82,39633
NASA Exoplanet Ar-chive
Raio Estelar [Raio So-lar]
1523 0,205282 895,7433
NASA Exoplanet Ar-chive
Raio Estelar (UpperUnc.) [Raio Solar]
1460 0,154455 365,1455
NASA Exoplanet Ar-chive
Raio Estelar (LowerUnc.) [Raio Solar]
1364 0,155869 359,8561
NASA Exoplanet Ar-chive
Tempo do Periastro[dias]
487 0,604764 2278,631
NASA Exoplanet Ar-chive
Longitude do Periastro[graus]
607 0,208113 132,5906
NASA Exoplanet Ar-chive
Temperatura de Equilí-brio [K]
272 0,266495 91,81758
NASA Exoplanet Ar-chive
Temperatura de Equilí-brio (Lower Unc.) [K]
239 0,121562 22,40771
NASA Exoplanet Ar-chive
Raio do Planeta [Raioda Terra]
1265 0,318565 520,2279
NASA Exoplanet Ar-chive
Raio do Planeta [RaioSolar]
1265 0,33523 552,8969
NASA Exoplanet Ar-chive
Profundidade do Tran-sito [porcentagem]
224 0,146457 63,23936
NASA Exoplanet Ar-chive
Duração do Trânsito[dias]
1027 0,259107 401,4442
NASA Exoplanet Ar-chive
Ponto no centro do Trân-sito (Midpoint) [dias]
1170 0,605299 5474,33
NASA Exoplanet Ar-chive
Parâmetro de Impacto 1021 0,155868 150,5453
NASA Exoplanet Ar-chive
Razão entre à Distânciae o Raio estelar
280 0,121732 33,26618
NASA Exoplanet Ar-chive
RA(Ascensão reta) [hrs] 1887 0,479717 2045,39
4.3. RESULTADOS OBTIDOS 59
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Latitude Galática[graus]
1887 0,218965 463,5331
NASA Exoplanet Ar-chive
Longitude galática[graus]
1887 0,420536 5498,947
NASA Exoplanet Ar-chive
Longitude da Eclíptica[graus]
1887 0,371847 3249,217
NASA Exoplanet Ar-chive
Latitude da Eclíptica[graus]
1887 0,413873 5506,669
NASA Exoplanet Ar-chive
Paralaxe [mas] 526 0,124887 50,02277
NASA Exoplanet Ar-chive
Movimento Próprio(RA) (Unc.) [masyr]
546 0,414928 448,6062
NASA Exoplanet Ar-chive
Movimento Próprio(Dec) (Unc.) [masyr]
546 0,400276 430,4538
NASA Exoplanet Ar-chive
Movimento Próprio To-tal [masyr]
887 0,100481 41,32161
NASA Exoplanet Ar-chive
Movimento Próprio To-tal (Unc.) [masyr]
546 0,456953 455,4473
NASA Exoplanet Ar-chive
Gravidade SuperficialEstelar [log10(cms2)]
1493 0,519621 11178,98
NASA Exoplanet Ar-chive
Metalicidade Estelar[dex]
1496 0,135633 109,7733
NASA Exoplanet Ar-chive
Idade Estelar [Gyr] 601 0,119636 67,46741
NASA Exoplanet Ar-chive
Velocidade Rotacional(Vsin(i)) [km/s]
821 0,143905 65,64895
NASA Exoplanet Ar-chive
Atividade Estelar (S-index)
224 0,462691 226,7719
NASA Exoplanet Ar-chive
Atividade Estelarlog(RHK)
163 0,640481 863,0739
NASA Exoplanet Ar-chive
Atividade X-raylog(Lsubxsub)
83 0,509097 377,1569
NASA Exoplanet Ar-chive
U-band (Johnson)[mag]
121 0,317636 152,6036
4.3. RESULTADOS OBTIDOS 60
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
B-band (Johnson) [mag] 641 0,40339 874,9632
NASA Exoplanet Ar-chive
R-band (Cousins) [mag] 121 0,286509 57,82013
NASA Exoplanet Ar-chive
I-band (Cousins) [mag] 129 0,328649 75,32785
NASA Exoplanet Ar-chive
J-band (2MASS) [mag] 1838 0,46477 1346,055
NASA Exoplanet Ar-chive
H-band (2MASS) [mag] 1841 0,457804 1225,452
NASA Exoplanet Ar-chive
Ks-band (2MASS)[mag]
1838 0,458686 1196,346
NASA Exoplanet Ar-chive
WISE 3.4um [mag] 1797 0,456315 1197,931
NASA Exoplanet Ar-chive
WISE 4.6um [mag] 1797 0,459021 1156,074
NASA Exoplanet Ar-chive
WISE 12.um [mag] 1797 0,490247 1152,143
NASA Exoplanet Ar-chive
WISE 22.um [mag] 1797 0,614448 8844,385
NASA Exoplanet Ar-chive
IRAC 3.6um [mag] 11 0,603608 29,60127
NASA Exoplanet Ar-chive
IRAC 4.5um [mag] 11 0,60536 29,60127
NASA Exoplanet Ar-chive
IRAC 8.0um [mag] 11 0,605535 29,60127
NASA Exoplanet Ar-chive
MIPS 24um [mag] 115 0,382835 156,1258
NASA Exoplanet Ar-chive
MIPS 70um [mag] 115 0,320078 133,2557
NASA Exoplanet Ar-chive
MIPS 160um [mag] 13 0,237705 25,4017
NASA Exoplanet Ar-chive
IRAS 12um Flux [Jy] 202 0,247859 264,5423
4.3. RESULTADOS OBTIDOS 61
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
IRAS 25um Flux [Jy] 202 0,353891 503,8794
NASA Exoplanet Ar-chive
IRAS 60um Flux [Jy] 202 0,71844 292,8125
NASA Exoplanet Ar-chive
IRAS 100um Flux [Jy] 202 0,331505 1132,465
NASA Exoplanet Ar-chive
Número de medidas Fo-tométricas
1854 0,558834 2230,554
NASA Exoplanet Ar-chive
B-V (Johnson) [mag] 592 0,425476 608,7591
NASA Exoplanet Ar-chive
V-I (Johnson-Cousins)[mag]
115 0,278865 94,75198
NASA Exoplanet Ar-chive
V-R (Johnson-Cousins)[mag]
99 0,277501 66,60933
NASA Exoplanet Ar-chive
J-H (2MASS) [mag] 1836 0,284144 1395,816
NASA Exoplanet Ar-chive
H-Ks (2MASS) [mag] 1833 0,139187 288,5587
NASA Exoplanet Ar-chive
J-Ks (2MASS) [mag] 1836 0,365138 1389,623
NASA Exoplanet Ar-chive
b-y (Stromgren) [mag] 278 0,49978 686,0472
NASA Exoplanet Ar-chive
m1 (Stromgren) [mag] 278 0,24543 163,8371
NASA Exoplanet Ar-chive
c1 (Stromgren) [mag] 278 0,381156 645,7483
NASA Exoplanet Ar-chive
Número de medições decor
1839 0,448834 7531,75
Catalog of Optically Vi-sible Open Clusters andCandidates
Distância Aglomera-dos_Parsercs
2038 0,133906 137,5599
Catalog of Optically Vi-sible Open Clusters andCandidates
Log10 Idade dos Aglo-merados
2011 0,796682 11125,73
4.3. RESULTADOS OBTIDOS 62
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
Lunar Crater Data(LOLA) Base Grande
Diâmetro Crateras Lu-nares
5185 0,250423 2775,415
Lunar Impact Crater Da-tabase
Profundidade Borda As-soalho[km]
8672 0,234131 4645,396
Lunar Impact Crater Da-tabase
Profundidade Aparente[km]
8716 0,338696 4985,563
Lunar Impact Crater Da-tabase
Altura da borda [km] 8683 0,145317 1521,175
Lunar Impact Crater Da-tabase
Diâmetro máximo dosblocos ejetados [km]
8433 0,115627 466,5324
Lunar Impact Crater Da-tabase
Diâmetro máximo dosblocos ejetados [km]
8433 0,110946 528,2252
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade um raio [m]
8716 0,314037 3562,155
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade dois raios[m]
8716 0,273919 2606,001
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade três raios [m]
8716 0,298737 3117,157
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade quatro raios [m]
8716 0,220951 2621,736
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade cinco raios [m]
8716 0,25147 3196,605
Lunar Impact Crater Da-tabase
Profundidade de Escava-ção [km]
2595 0,401028 2027,426
Lunar Impact Crater Da-tabase
Profundidade do derreti-mento [km]
2595 0,190046 301,8503
Hipparcos Catalogue Rarad ( Ascensão Retaem Radianos)
117955 0,249759 31897,04
4.3. RESULTADOS OBTIDOS 63
Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
Hipparcos Catalogue Derad ( Declinação emRadianos)
117955 0,156767 25001,13
Hipparcos Catalogue Vmag (magnitude apa-rente na banda V)
117955 0,646636 399495,7
Hipparcos Catalogue B-V (índice de cor B-V) 116631 0,132705 17476,27NED Velocidade_KM_s 544 0,143537 64,76825NED Red Shift_z 549 0,121575 76,41008Globular Clusters in theMilky Way
Longitude galáctica (emgraus) (GLON deg)
147 0,207742 158,4974
Globular Clusters in theMilky Way
Distância do aglome-rado (em kpc) (Rsunkpc)
145 0,247616 73,54429
Globular Clusters in theMilky Way
Magnitude V aparente(V mag)
146 0,380732 171,0616
Globular Clusters in theMilky Way
Índice de cor (B-V) ((B-V)t mag)
117 0,319 107,2786
Globular Clusters in theMilky Way
Metalicidade na forma[Fe/H] ([Fe/H] Sun)
139 0,381172 87,03499
Globular Clusters in theMilky Way
Raio half-mass (em mi-nutos de arco)(Rh arc-min)
141 0,125329 17,89323
A seguir, na tabela 4.4, observamos diversas grandezas que obtiveram resultado nãoconforme, tanto para o K-S quanto para o q-q com bootstrap. Independente do número deamostra de cada grandeza todos os resultados obtiveram valores das estatísticas do K-S e q-qcom bootstrap superiores a 0,1 e 15,51 respectivamente constatando a não conformidade.
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)
.
Base Grandeza Amostras KS Bootstrap DP
Observable Comets,Minor Planet Center
Período Orbital deCometas
550 0,30244 283,31 10,82002
4.3. RESULTADOS OBTIDOS 64
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Lunar Crater Data(LOLA)
Diâmetro das Crate-ras da Lua
5185 0,250423 273,8138 25,38603
Gazetteer of plane-tary nomenclature
Diâmetro das Crate-ras da Lua 0_6KM
1569 0,146018 54,67902 12,05579
Millennium Data-base
Raio do disco Galá-tico
4000 0,105316 60,05091 13,43076
Millennium Data-base
Velocidade de ro-tação máxima dosubhalo_galáxia
4000 0,42503 453,6507 38,11119
Millennium Data-base
Massa da Galáxiaem Gás frio
4000 0,118802 36,02857 10,75414
NASA ExoplanetArchive
Número de Planetasno Sistema Solar
1887 0,399023 193,814 15,69361
NASA ExoplanetArchive
Raio do Planeta[Raio de Júpiter]
1265 0,325392 216,991 17,71885
NASA ExoplanetArchive
Inclinação [graus] 399 0,850008 0 0
NASA ExoplanetArchive
RA(ascensão reta)[graus decimais]
1887 0.366688 945,1073 62,30095
NASA ExoplanetArchive
Dec(declinação)[Graus decimais]
1887 0,324963 1057,675 88,8527
NASA ExoplanetArchive
Distância (LowerUnc.) [pc]
825 0,113774 21,9188 5,501215
NASA ExoplanetArchive
V-band (Johnson)[mag]
787 0,308607 447,5229 28,0621
NASA ExoplanetArchive
V-band (Johnson)Unc. [mag]
434 0,410952 0 0
NASA ExoplanetArchive
Temperatura Efetiva[K]
1648 0,554978 1917,408 90,92056
NASA ExoplanetArchive
Temperatura Efetiva(Upper Unc.) [K]
1553 0,312621 111,1018 12,3242
NASA ExoplanetArchive
Temperatura Efetiva(Lower Unc.) [K]
1457 0,320796 115,3519 12,85977
NASA ExoplanetArchive
Massa Estelar[Massa Solar]
1473 0,246268 418,3178 37,37018
4.3. RESULTADOS OBTIDOS 65
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
NASA ExoplanetArchive
Massa Estelar(Lower Unc.)[Massa Solar]
808 0,107673 54,2505 9,721063
NASA ExoplanetArchive
Raio Estelar [RaioSolar]
1523 0,205282 299,9709 22,99968
NASA ExoplanetArchive
Raio Estelar (UpperUnc.) [Raio Solar]
1460 0,154455 130,1808 17,84639
NASA ExoplanetArchive
Raio Estelar (LowerUnc.) [Raio Solar]
1364 0,155869 136,712 17,94094
NASA ExoplanetArchive
Longitude do Perias-tro [graus]
607 0,208113 110,2609 8,368143
NASA ExoplanetArchive
Raio do Planeta[Raio da Terra]
1265 0,318565 208,1491 16,53485
NASA ExoplanetArchive
Raio do Planeta [Ra-dio Solar]
1265 0,33523 221,547 17,17443
NASA ExoplanetArchive
Duração do Trânsito[dias]
1027 0,259107 198,5497 17,28431
NASA ExoplanetArchive
Ponto no centro doTrâsito (Midpoint)[dias]
1170 0,605299 2339,457 0
NASA ExoplanetArchive
Parâmetro de Im-pacto
1021 0,155868 78,84239 12,39439
NASA ExoplanetArchive
RA(Ascensão reta)[hrs]
1887 0,479717 543,9036 34,95606
NASA ExoplanetArchive
Latitude Galática[graus]
1887 0,218965 127,9026 19,57133
NASA ExoplanetArchive
Longitude galática[graus]
1887 0,420536 1465,331 129,8327
NASA ExoplanetArchive
Longitude da Eclíp-tica [graus]
1887 0,371847 864,3006 64,367
NASA ExoplanetArchive
Latitude da Eclíptica[graus]
1887 0,413873 1463,66 123,5308
NASA ExoplanetArchive
Paralaxe [mas] 526 0,124887 47,89423 3,004097
4.3. RESULTADOS OBTIDOS 66
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
NASA ExoplanetArchive
Movimento Próprio(RA) (Unc.) [masyr]
546 0,414928 411,1812 8,958913
NASA ExoplanetArchive
Movimento Pró-prio (Dec) (Unc.)[masyr]
546 0,400276 394,647 8,747621
NASA ExoplanetArchive
Movimento PróprioTotal [masyr]
887 0,100481 26,57956 6,456167
NASA ExoplanetArchive
Movimento PróprioTotal (Unc.) [masyr]
546 0,456953 417,5163 9,811245
NASA ExoplanetArchive
Gravidade Su-perficial Estelar[log10(cms2)]
1493 0,519621 3743,918 97,29363
NASA ExoplanetArchive
Metalicidade Estelar[dex]
1496 0,135633 41,13113 8,652411
NASA ExoplanetArchive
Idade Estelar [Gyr] 601 0,119636 57,66594 6,063293
NASA ExoplanetArchive
Velocidade Rotacio-nal (Vsin(i)) [km/s]
821 0,143905 42,80121 6,968376
NASA ExoplanetArchive
B-band (Johnson)[mag]
641 0,40339 684,1139 32,98144
NASA ExoplanetArchive
J-band (2MASS)[mag]
1838 0,46477 370,2764 24,35658
NASA ExoplanetArchive
H-band (2MASS)[mag]
1841 0,457804 337,0099 24,12903
NASA ExoplanetArchive
Ks-band (2MASS)[mag]
1838 0,458686 330,3141 24,13955
NASA ExoplanetArchive
WISE 3.4um [mag] 1797 0,456315 337,547 23,19863
NASA ExoplanetArchive
WISE 4.6um [mag] 1797 0,459021 325,979 23,59466
NASA ExoplanetArchive
WISE 12.um [mag] 1797 0,490247 325,1596 23,02348
NASA ExoplanetArchive
WISE 22.um [mag] 1797 0,614448 2469,805 152,6908
4.3. RESULTADOS OBTIDOS 67
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
NASA ExoplanetArchive
Número de medidasFotométricas
1854 0,558834 604,1753 31,63671
NASA ExoplanetArchive
B-V (Johnson)[mag]
592 0,425476 516,1607 16,44617
NASA ExoplanetArchive
V-I (Johnson-Cousins) [mag]
115 0,278865 0 0
NASA ExoplanetArchive
V-R (Johnson-Cousins) [mag]
99 0,277501 0 0
NASA ExoplanetArchive
J-H (2MASS) [mag] 1836 0,284144 385,148 23,56934
NASA ExoplanetArchive
H-Ks (2MASS)[mag]
1833 0,139187 85,54042 16,00493
NASA ExoplanetArchive
J-Ks (2MASS)[mag]
1836 0,365138 385,0142 26,49194
NASA ExoplanetArchive
Número de medi-ções de cor
1839 0,448834 2053,983 133,7473
Catalog of OpticallyVisible Open Clus-ters and Candidates
Distância Aglomera-dos_Parsercs
2038 0,133906 38,68193 9,725788
Catalog of OpticallyVisible Open Clus-ters and Candidates
Log10 Idade dosAglomerados
2011 0,796682 2774,039 115,5005
Lunar Crater Data(LOLA) BaseGrande
Diâmetro CraterasLunares
5185 0,250423 274,5296 25,73335
Lunar Impact CraterDatabase
Profundidade BordaAssoalho[km]
8672 0,234131 273,4659 34,25277
Lunar Impact CraterDatabase
Profundidade Apa-rente [km]
8716 0,338696 290,6943 28,76751
Lunar Impact CraterDatabase
Altura da borda[km]
8683 0,145317 96,34001 21,44351
Lunar Impact CraterDatabase
Diâmetro máximodos blocos ejetados[km]
8433 0,115627 36,20686 11,15582
4.3. RESULTADOS OBTIDOS 68
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Lunar Impact CraterDatabase
Diâmetro máximodos blocos ejetados[km]
8433 0,110946 37,987 10,2876
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de um raio[m]
8716 0,314037 208,5848 22,3191
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de doisraios[m]
8716 0,273919 154,4355 17,30737
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de trêsraios [m]
8716 0,298737 188,5387 25,27586
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de quatroraios [m]
8716 0,220951 155,8415 20,78267
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de cincoraios [m]
8716 0,25147 189,8349 23,05679
Lunar Impact CraterDatabase
Profundidade de Es-cavação [km]
2595 0,401028 397,171 33,48693
Lunar Impact CraterDatabase
Profundidade do der-retimento [km]
2595 0,190046 65,34026 13,44662
Hipparcos Catalo-gue
Rarad ( AscensãoReta em Radianos)
117955 0,249759 141,6703 21,55003
Hipparcos Catalo-gue
Derad ( Declinaçãoem Radianos)
117955 0,156767 114,5995 20,16144
Hipparcos Catalo-gue
Vmag (magnitudeaparente na bandaV)
117955 0,646636 1708,111 103,032
4.3. RESULTADOS OBTIDOS 69
Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Hipparcos Catalo-gue
B-V (índice de corB-V)
116631 0,132705 83,1028 14,90356
NED Velocidade_KM_s 544 0,143537 60,05688 4,4276NED Red Shift_z 549 0,121575 70,4145 5,609255
4.3.3 Conjunto de Fronteira
Nas tabelas 4.5 e 4.6 a seguir teremos as grandezas cujo resultados dos testes foraminconclusivos para a conformidade. Ou seja, os testes discordam em seus resultados fazendocom que não possamos dizer se uma determinada grandeza é conforme ou não.
Assim como nos demais testes usamos como parâmetros para comparação com o K-Spara grandezas com número de até 500 amostras o q-q e para grandezas com número acima de500 amostras o q-q associado a estratégia de Boostrapping deixando qui-quadrado, assim comoo K-S, imune ao excesso de poder. Na tabela 4.5 temos os resultados do K-S e q-q
Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).
Base Grandeza Amostras KS χ2
Moons of Solar System Volume das luas do Sis-tema Solar
142 0,131411 8,701966
Moons of Solar System Massa das luas do sis-tema solar
126 0,081398 23,92026
Near Earth Objects Di-covery Statistics
Qtd de asteoides próxi-mos a Terra
40 0,198746 6,138568
Venus Orbital Data Ex-plorer
Diâmetro das Craterasde Venus
896 0,072254 28,32858
Millennium Database Massa Galática Estrelas 3849 0,055785 154,5944Millennium Database A idade da galaxia po-
denrada pela massa3849 0,089433 152,0807
NASA Exoplanet Ar-chive
Período Orbital de Exo-planetas
1828 0,037713 36,05128
4.3. RESULTADOS OBTIDOS 70
Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Excentricidade (LowerUnc.)
649 0,079718 23,20807
NASA Exoplanet Ar-chive
Raio do Planeta (LowerUnc.) [Raio de Júpiter]
1219 0,072117 26,90565
NASA Exoplanet Ar-chive
Distância [pc] 919 0,079748 42,09789
NASA Exoplanet Ar-chive
Massa Estelar (UpperUnc.) [Massa Solar]
906 0,096026 101,1626
NASA Exoplanet Ar-chive
Fluxo de Insolação[Fluxo da Terra]
21 0,205941 6,843109
NASA Exoplanet Ar-chive
Temperatura de Equi-líbrio (Upper Unc.)[Fluxo da Terra]
21 0,234868 9,200364
NASA Exoplanet Ar-chive
Temperatura de Equi-líbrio (Lower Unc.)[Fluxo da Terra]
21 0,271922 9,614199
NASA Exoplanet Ar-chive
Massa do Planeta[Massa da Terra]
560 0,046661 18,23328
NASA Exoplanet Ar-chive
Massa do Planeta(Lower Unc.) [Massada Terra]
472 0,057068 19,5233
NASA Exoplanet Ar-chive
Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Lower Unc.) [Massa daTerra]
402 0,064737 19,14303
NASA Exoplanet Ar-chive
Raio do Planeta (UpperUnc.) [Raio Solar]
1185 0,2 14,82117
NASA Exoplanet Ar-chive
Raio do Planeta (LowerUnc.) [Raio Solar]
1184 0,196791 14,90206
NASA Exoplanet Ar-chive
Razão entre os raios doplaneta e da estelar
342 0,098815 55,41308
NASA Exoplanet Ar-chive
Velocidade Radial[km/s]
657 0,068153 39,70853
4.3. RESULTADOS OBTIDOS 71
Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
NASA Exoplanet Ar-chive
Luminosidade Estelar[log(Solar)]
454 0,067449 28,5029
NASA Exoplanet Ar-chive
Densidade Estelar[gcm3]
279 0,096355 18,63334
Catalog of Optically Vi-sible Open Clusters andCandidates
Diâmetros angularesaglomerados min arco
2161 0,087703 132,4707
Lunar Impact Crater Da-tabase
Diâmetro do Assoalho[km]
8565 0,039221 215,4372
Lunar Impact Crater Da-tabase
Profundidade da cavi-dade transiente [km]
8716 0,066024 702,0506
Lunar Impact Crater Da-tabase
Volume interior [km3̂] 7421 0,072662 172,6035
Lunar Impact Crater Da-tabase
Largura da parede late-ral (borda) [km]
8683 0,044977 385,0241
Lunar Impact Crater Da-tabase
Altura do Pico Central[km]
2994 0,094759 96,45422
Lunar Impact Crater Da-tabase
Diâmetro do Pico Cen-tral [km]
4003 0,081291 112,7422
Lunar Impact Crater Da-tabase
Área Basal do Pico Cen-tral [km2̂]
3955 0,097725 157,1243
Lunar Impact Crater Da-tabase
Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação 4de Kring
8716 0,082829 240,6651
Lunar Impact Crater Da-tabase
Raio do manto de ma-terial ejetado com es-pessura maior que 10m[km] - valor máximo
8716 0,054626 373,0645
Lunar Impact Crater Da-tabase
Raio do halo brilhanteem crateras medido porradar [km]
8716 0,094474 406,8469
4.3. RESULTADOS OBTIDOS 72
Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).
Base Grandeza Amostras KS χ2
Lunar Impact Crater Da-tabase
Profundidade de Escava-ção [km]
8716 0,083028 345,2457
Lunar Impact Crater Da-tabase
Profundidade do derreti-mento[km]
8612 0,091201 330,726
Catalog of Optically Vi-sible Open Clusters andCandidates
Idade dos AglomeradosAbertos
2011 0,077966 149,2166
Hipparcos Catalogue Plx ( Paralaxe) 117916 0,057792 2137,985Hipparcos Catalogue Distância (Parsecs) 117955 0,060029 2006,455Hipparcos Catalogue Magnitude Absoluta
(MV)117955 0,062064 4555,069
Hipparcos Catalogue Velocidade transversal(Vt)
117955 0,041614 2294,529
Na tabela 4.6 temos os resultados do K-S e q-q com bootstrap.
Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)
.
Base Grandeza Amostras KS Bootstrap DP
Venus Orbital DataExplorer
Diâmetro das Crate-ras de Venus
896 0,072254 19,07728 5,414291
Millennium Data-base
Massa Galática Es-trelas
3849 0,055785 26,57756 8,106679
Millennium Data-base
A idade da gala-xia podenrada pelamassa
3849 0,089433 27,60717 9,906319
NASA ExoplanetArchive
Orbital de Exoplane-tas
1828 0,037713 15,66839 6,554993
NASA ExoplanetArchive
Excentricidade(Lower Unc.)
649 0,079718 19,96871 4,477056
NASA ExoplanetArchive
Raio do Planeta(Lower Unc.) [Raiode Júpiter]
1219 0,072117 16,25308 5,826736
4.3. RESULTADOS OBTIDOS 73
Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
NASA ExoplanetArchive
Distância Estelar[pc]
919 0,079748 26,62775 6,820378
NASA ExoplanetArchive
Massa Estelar (Up-per Unc.) [MassaSolar]
906 0,096026 59,7334 10,89893
NASA ExoplanetArchive
Massa do Planeta[Massa da Terra]
560 0,046661 17,13414 2,707656
NASA ExoplanetArchive
Raio do Planeta (Up-per Unc.) [Raio So-lar]
1185 0,2 10,78095 4,375401
NASA ExoplanetArchive
Raio do Planeta(Lower Unc.) [RaioSolar]
1184 0,196791 10,79085 4,293411
NASA ExoplanetArchive
Velocidade Radial[km/s]
657 0,068153 32,02871 5,204628
Catalog of OpticallyVisible Open Clus-ters and Candidates
Diâmetros angularesaglomerados minarco
2161 0,087703 36,87326 10,95202
Lunar Impact CraterDatabase
Diâmetro do Assoa-lho [km]
8565 0,039221 19,71765 6,623926
Lunar Impact CraterDatabase
Profundidade dacavidade transiente[km]
8716 0,066024 47,77677 8,565026
Lunar Impact CraterDatabase
Volume interior[km3̂]
7421 0,072662 19,38684 7,409698
Lunar Impact CraterDatabase
Largura da parede la-teral (borda) [km]
8683 0,044977 29,77364 8,557464
Lunar Impact CraterDataba
Altura do Pico Cen-tral [km]
2994 0,094759 22,84005 7,817368
Lunar Impact CraterDatabase
Diâmetro do PicoCentral [km]
4003 0,081291 21,24696 7,732169
Lunar Impact CraterDatabase
Área Basal do PicoCentral [km2̂]
3955 0,097725 27,28335 9,196944
4.3. RESULTADOS OBTIDOS 74
Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)
.
Base Grandeza Amostras KS Bootstrap DP
Lunar Impact CraterDatabase
Espessura do mate-rial ejetado à umadistância de 10 milmetros além daborda [m], eq. 4Kring
8716 0,082829 20,7514 7,851069
Lunar Impact CraterDatabase
Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- valor máximo
8716 0,054626 28,68176 10,55505
Lunar Impact CraterDatabase
Raio do halo bri-lhante em craterasmedido por radar[km]
8716 0,094474 31,19789 9,550077
Lunar Impact CraterDatabase
Profundidade de Es-cavação [km]
8716 0,083028 27,52716 9,110138
Lunar Impact CraterDatabase
Profundidade do der-retimento[km]
8612 0,091201 27,27382 8,866131
Catalog of OpticallyVisible Open Clus-ters and Candidates
Idade dos Aglomera-dos Abertos
2011 0,077966 42,53366 10,15966
Hipparcos Catalo-gue
Plx ( Paralaxe) 117916 0,057792 17,34037 7,289021
Hipparcos Catalo-gue
Distância (Parsecs) 117955 0,060029 15,80924 6,594009
Hipparcos Catalo-gue
Magnitude Absoluta(MV)
117955 0,062064 26,80659 9,591365
Hipparcos Catalo-gue
Velocidade transver-sal (Vt)
117955 0,041614 17,29274 7,231661
4.3.4 Análise dos Resultados
Como já foi dito, a busca por grandezas astronômicas conformes NB-Lei é algo muitorecente. Nos últimos anos têm surgido algumas descobertas na área.
4.3. RESULTADOS OBTIDOS 75
Dois dos mais recentes desses trabalhos foram o de Hair (HAIR, 2014) e o de Shuklae equipe (Shukla; Pandey; Pathak, 2016) sobre grandezas relacionadas a exoplanetas, tambémconhecidos como planetas extra solares. Ambos testaram a base com os dados obtidos atravéstelescópio espacial Kepler. Hair verificou em seu estudo que a massa dos exoplanetas seguema lei de Newcomb-Benford, resultado confirmado em seguida por Shukla e equipe que alémde confirmar a descoberta de Hair afirmam que também terem encontrados outras grandezasconformes pertencente ao mesmo tipo de objeto astronômico.
Shukla et al. além da confirmação da massa planetária, afirmam que o volume, a densi-dade, o maior semi-eixo orbital, o período orbital e a velocidade radial obtiveram um alto graude conformidade a NB-Lei. E que o movimento próprio total, idade estelar e distância estelarobtiveram um grau moderado de conformidade em seus testes. Tendo as grandezas longitude,raio, temperatura efetiva obtido resultados não conformes em seus testes.
Tanto Shukla quanto Hair((HAIR, 2014), (Shukla; Pandey; Pathak, 2016)) concluíramseus respectivos trabalhos sugerindo o uso do conhecimento da conformidade dessas grandezascomo futura ferramenta na identificação de novos exoplanetas, podendo esse ser usado para umaanálise na lista de objetos candidatos, o que poderá ajudar no futuro na identificação de novosexoplanetas nesta lista.
Um dos nossos objetivos neste trabalho foi encontrar grandezas astronômicas conformesà lei dos dígitos significativos, pesquisando em vários catálogos e bases de objetos e por fimsugerir aplicações para esse conhecimento. Dentre vários objetos celestes testados se encontramos planetas extra solares, para esses testes usamos os mesmos dados do telescópio espacialKepler utilizados pelos autores aqui citados e como mostrado nesse capítulo obtivemos um totalde 24 resultados conformes para exoplanetas.
Comparando os nossos resultados conformes com as grandezas já pesquisadas na litera-tura sobre exoplanetas constatamos a conformidade nas grandezas Massa do Planeta, Densidadedo Planeta, Período Orbital, e maior semi-eixo orbital, este ultimo foi confirmado através do q-qcom estratégia de Bootstrap. Além disso, também dentre as mesmas grandezas já pesquisadas naliteratura, confirmamos a não conformidade tanto da longitude galática quanto da eclíptica assimcomo também do raio do planeta e da temperatura efetiva.
No entanto as grandezas movimento próprio total, idade estelar e distância estelar ob-tiveram resultados diferentes do de Shukla, sendo consideradas em nossos testes como nãoconformes à NB-Lei. As grandezas volume e velocidade radial que foram consideradas confor-mes por Shukla, em nossos testes os resultados foram inconclusivos sendo colocadas ambas no
4.3. RESULTADOS OBTIDOS 76
conjunto de fronteira.
Salientamos que as grandezas conhecidas não foram as únicas grandezas de exoplanetasque obtiveram resultado conforme em nossos testes, como pode ser observado nos resultadostabelados nesse capítulo.
Além de grandezas de planetas extra solares obtivemos também resultado conformesem dados de quantidade de meteoros observados por mês de uma base de monitoramento deavistamento de meteoros por vídeo, 14 resultados conformes de dados de crateras de impactona lua, 4 resultados de dados de aglomerados globulares da via láctea, 1 resultado conforme dagrandeza taxa de formação de estrelas de uma base de dados simulados do projeto Millennium ,1 resultado conforme da grandeza Diâmetro Físico Calculado Aglomerados Abertos do catálogode aglomerados abertos visíveis e 3 resultados conformes de grandezas do catálogo estelar dosatélite Hipparcos. Somando todos os resultados obtivemos um total de 59 resultados positivos àlei de Newcomb-Benford.
4.3.5 Conclusão
Com base no que foi visto neste capítulo, podemos observar que o segmento das pesqui-sas astronômicas se mostra um campo prospero para o desenvolvimento de aplicações baseadosna Lei de Newcomb-Benford. À medida que avançamos e expandimos o nosso conhecimentosobre o universo, novas pesquisas e tecnologias vão surgindo, abrindo um campo cada vezmaior. A conformidade da NB-Lei de grandezas astronômicas ainda é pouco explorada, mas semostra como uma ferramenta promissora para o futuro da pesquisa artonômica, pois através doconhecimento da conformidade podemos criar ferramentas que auxiliarão a análise e validaçãode dados astronômicos e na identificação de novos objetos. Tendo em vista que a medida quea tecnologia avança conseguimos coletar dados com mais precisão aumentando as chances dedetecção de conformidade.
Sugerimos então a utilização do conhecimento da conformidade das grandezas listadasnesse trabalho como uma ferramenta de auxilio na seleção e validação de dados astronômicos.Ajudando a selecionar objetos na lista de candidatos a exoplanetas, a aglomerados abertos e aaglomerados globulares. Na identificação de crateras de impactos, não só em nossa lua mastambém em outros objetos do nosso sistema solar, na verificação de simulações cosmológicas eastronômicas e na verificação de dados de monitoramento de meteoros.
Outro aspecto muito importante observado nesse capítulo, é a possibilidade do uso doteste K-S para determinação da conformidade global. Nota-se claramente que nos resultados dostestes de conformidade ele obteve resultados coerentes com os demais testes, salvas algumas
4.3. RESULTADOS OBTIDOS 77
poucas exceções que estão no conjunto de fronteira. Percebe-se que, ao comparar o resultadodo K-S ao q-q com uma quantidade pequena e razoável de amostras, os resultados de ambos ostestes foram coerentes na maior parte dos casos, o mesmo aconteceu em grandezas com umagrande quantidade de amostras quando substituirmos o q-q pelo qui-quadrado com Bootstrappara evitar o problema de excesso de poder. Isso mostra que o teste de kolmogorov-smirnov comFDE é uma ótima opção para se determinar a conformidade a NB-Lei principalmente quando setrabalha com grandezas com grande número de amostras.
787878
5Conclusão
Este trabalho propôs inicialmente a substituição do método qui-quadrado pelo Kolmogorov-Smirnov baseado na Função de Distribuição Empírica para determinação da conformidade global.Foi feita também uma análise de um limiar para intervalo de confiança comparando os seusresultados com os do método qui-quadrado com estratégia de Bootstrapping para grandezascom grande número de amostras e qui-quadrado de Pearson para grandezas com um numero deamostras moderadamente pequenas.
Em nossos resultados para determinação de um limiar para um intervalo de confiança doK-S observamos que para grandezas com uma quantidade de amostras razoável e com resultadodo q-q com Bootsrapping acima do limiar de 15,51 o valor do teste K-S foi superior a 0,1. Epara valores do q-q com Bootsrapping conformes, ou seja, abaixo do limiar de 15,51 obtivemosresultados do K-S inferiores a 0,1. O mesmo comportamento foi observado em grandezas comquantidades de amostras inferiores a 500, onde utilizamos como teste comparativo o q-q dePearson. Apenas algumas grandezas deram resultados não conclusivos, onde um teste discordado outro, nesses casos colocamos os resultados em um conjunto de fronteira. Dessa formaconcluímos que o valor 0,1 pode ser utilizado como limiar para o teste K-S para verificação daconformidade à NB-Lei.
Portanto, podemos utilizar o método de Kolmogorov-Smirnov como ferramenta paraverificação da conformidade de grandezas à Lei de Newcomb-Benford pois fora ser um métodomenos sujeito a dar resultados do tipo falsos negativos na estatística em grandezas com grandequantidade de amostras é mais fiel à definição formal da Lei dos dígitos significativos, poistrabalha considerando as mantissas ao invés de apenas os dígitos isolados.
Como segunda proposta, neste trabalho exploramos diversos bancos e catálogos de dadosastronômicos em busca de grandezas cuja a conformidade à lei de Newcomb-Benford ainda nãoseja conhecida. Foram testadas 16 bases de dados foram encontradas 33 grandezas conformes àlei dos dígitos significativos.
5.1. TRABALHOS FUTUROS 79
Em seguida foram propostas 6 aplicações futuras Observamos que o segmento das pes-quisas astronômicas se mostra um campo próspero para utilização da NB-Lei como ferramentapara auxilio na descoberta de novos objetos celestes.
Sendo uma grandeza obtida de dados de registro de meteoros, 18 grandezas de dados deexoplanetas, 7 grandezas de crateras de impacto da lua, 4 grandezas de aglomerados globulares,3 de dados de estrelas do catálogo hiparcos. Também obtiveram conformidade à NB-Lei, taxa deFormação de estrelas de dados simulados, diâmetro físico de aglomerados abertos.
5.1 Trabalhos Futuros
Sugerimos que como trabalhos futuros que seja feita um estudo mais aprofundado paradeterminação de um intervalo de confinação para o K-S a fim de obter limiares mais precisos.
Recomendamos que o conhecimento das conformidades de grandezas astronômicasencontradas nesse trabalho seja utilizado para melhorar a área de pesquisa astronômica. Sendorecomendado desenvolver aplicações para:
� auxiliar na identificação de exoplanetas na lista de objetos candidatos à exoplanetas.
� auxiliar na identificação de crateras de impacto não só na nossa lua mas também emoutros objetos do sistema solar.
� auxiliar na identificação de novos aglomerados abertos na lista de objetos candidatos.
� auxiliar na identificação de novos aglomerados globulares na lista de objetos candi-datos.
� auxiliar na verificação de simulações cosmológicas.
� auxiliar na verificação de dados de monitoramento de meteoros.
� auxiliar na verificação de dados de estelares.
808080
Referências
ACEBO, E.; SBERT, M. Benford’s Law for Natural and Synthetic Images. In: FIRSTEUROGRAPHICS CONFERENCE ON COMPUTATIONAL AESTHETICS IN GRAPHICS,VISUALIZATION AND IMAGING, Aire-la-Ville, Switzerland, Switzerland. Proceedings. . .Eurographics Association, 2005. p.169–176. (Computational Aesthetics’05).
AKESON, R. et al. The NASA exoplanet archive: data and tools for exoplanet research.Publications of the Astronomical Society of the Pacific, [S.l.], v.125, n.930, p.989, 2013.
ALEXOPOULOS, T.; LEONTSINIS, S. Benford’s Law in Astronomy. Journal ofAstrophysics and Astronomy, [S.l.], p.1–10, 2014.
ALTAMIRANO, C.; ROBLEDO, A. Possible thermodynamic structure underlying the laws ofZipf and Benford. The European Physical Journal B, [S.l.], v.81, n.3, p.345–351, 2011.
ANDRIOTIS, P.; OIKONOMOU, G.; TRYFONAS, T. JPEG steganography detection withBenford’s Law. Digital Investigation, [S.l.], v.9, n.3, p.246–257, 2013.
ANTKOWIAK, B.; DREXLER, B. Brain Electrical Activity Obeys Benford’s Law. Anesthesiaand Analgesia, [S.l.], v.118, n.1, 2014.
BENFORD, F. The law of anomalous numbers. Proceedings of the American PhilosophicalSociety, [S.l.], p.551–572, 1938.
BERGER, A. Benford’s Law in power-like dynamical systems. Stochastics and Dynamics,[S.l.], v.5, n.04, p.587–607, 2005.
BERGER, A.; BUNIMOVICH, L.; HILL, T. One-dimensional dynamical systems andBenford’s Law. Transactions of the American Mathematical Society, [S.l.], v.357, n.1,p.197–219, 2005.
BERGER, A.; ESHUN, G. A characterization of Benford’s law in discrete-time linear systems.Journal of Dynamics and Differential Equations, [S.l.], p.1–39, 2014.
BERGER, A.; HILL, T. P. Newton’s method obeys Benford’s law. The AmericanMathematical Monthly, [S.l.], v.114, n.7, p.588–601, 2007.
BERGER, A.; HILL, T. P. et al. A basic theory of Benford’s Law. Probability Surveys, [S.l.],v.8, p.1–126, 2011.
BERGER, A.; HILL, T. P. et al. VIEW CHRONOLOGICAL. BENFORD ONLINEBIBLIOGRAPHY. [S.l.]: American Mathematical Society, 2016.
BHATTACHARYA, S.; XU, D.; KUMAR, K. An ANN-based auditor decision support systemusing Benford’s law. Decision support systems, [S.l.], v.50, n.3, p.576–584, 2011.
BORING, E. G. The logic of the normal law of error in mental measurement. The AmericanJournal of Psychology, [S.l.], v.31, n.1, p.1–33, 1920.
BUSTA, B.; WEINBERG, R. Using Benford’s law and neural networks as a review procedure.Managerial Auditing Journal, [S.l.], v.13, n.6, p.356–366, 1998.
REFERÊNCIAS 81
CARSLAW, C. A. Anomalies in income numbers: evidence of goal oriented behavior.Accounting Review, [S.l.], p.321–327, 1988.
DE, A. S.; SEN, U. Benford’s law detects quantum phase transitions similarly as earthquakes.EPL (Europhysics Letters), [S.l.], v.95, n.5, p.50008, 2011.
DIACONIS, P. The distribution of leading digits and uniform distribution mod 1. The Annalsof Probability, [S.l.], p.72–81, 1977.
DIAS, W. Catalog of Optically Visible Open Clusters and Candidates, v. 2.10. 2009.
DÍAZ, J.; GALLART, J.; RUIZ, M. On the Ability of the Benford’s Law to Detect Earthquakesand Discriminate Seismic Signals. Seismological Research Letters, [S.l.], 2014.
EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap Chapman & Hall. New York,[S.l.], v.436, 1993.
FELLER, W. An introduction to probability and its applications, Vol. II. Wiley, New York,[S.l.], 1971.
FRANEL, J. A propos des tables de logarithmes. On tables, [S.l.], 1917.
FRIAR, J. L.; GOLDMAN, T.; PÉREZ-MERCADER, J. Genome sizes and the Benforddistribution. PloS one, [S.l.], v.7, n.5, p.e36624, 2012.
FU, D.; SHI, Y. Q.; SU, W. A generalized Benford’s law for JPEG coefficients and itsapplications in image forensics. In: ELECTRONIC IMAGING 2007. Anais. . . [S.l.: s.n.], 2007.p.65051L–65051L.
GAZETTEER, I. Gazetteer of planetary nomenclature. International Astronomical UnionWorking Group for planetary system nomenclature. 2014.
GEYER, A.; MARTÍ, J. Applying Benford’s law to volcanology. Geology, [S.l.], v.40, n.4,p.327–330, 2012.
GOLBECK, J. Benford’s Law Applies to Online Social Networks. PloS one, [S.l.], v.10, n.8,p.e0135169, 2015.
GOUDSMIT, S.; FURRY, W. Significant figures of numbers in statistical tables. Nature, [S.l.],v.154, n.3921, p.800–801, 1944.
HAIR, T. W. Benford’s Law of First Digits and and the Mass of Exoplanets. "Disponívelem: http://www.hou.usra.edu/meetings/abscicon2015/pdf/7022.pdf ,http://www.fgcu.edu/CAS/MathBS/files/Hair-ppt-Benford.ppsx. Acesso em 26 de abril de2015".
HAMMING, R. W. On the distribution of numbers. Bell System Technical Journal, [S.l.],v.49, n.8, p.1609–1625, 1970.
HARRIS, W. E. Globular Clusters in the Milky Way - The catalogue of Globular Clusters.Disponível em: http://vizier.u-strasbg.fr/viz-bin/VizieR?-source=VII%2F202 . Acesso em 6 dejaneiro de 2016.
REFERÊNCIAS 82
HEAD, J. W. et al. Global distribution of large lunar craters: implications for resurfacing andimpactor populations. science, [S.l.], v.329, n.5998, p.1504–1507, 2010.
HEIJER, E. den; EIBEN, A. Using aesthetic measures to evolve art. In: EVOLUTIONARYCOMPUTATION (CEC), 2010 IEEE CONGRESS ON. Anais. . . [S.l.: s.n.], 2010. p.1–8.
HENRIQUES, D. B. B. UMA INVESTIGAÇÃO DAS MEDIDAS DE CONFORMIDADEÀ LEI DE BENFORD EM 1 E 2 DIMENSÕES COM DADOS REAIS. 2012. Dissertação(Mestrado em Ciência da Computação) — Centro de Informática, Universidade Federal dePernambuco, Av. Jornalista Aníbal Fernandes, s/n - Cidade Universitária (Campus Recife)50.740-560 - Recife - PE.
HILL, T. P. Random-number guessing and the first digit phenomenon. Psychological Reports,[S.l.], v.62, n.3, p.967–971, 1988.
HILL, T. P. The Significant-Digit Phenomenon. The American Mathematical Monthly, [S.l.],v.102, n.4, p.322–327, 1995.
HILL, T. P. Base-invariance implies Benford’s law. Proceedings of the AmericanMathematical Society, [S.l.], v.123, n.3, p.887–895, 1995.
HILL, T. P. A Statistical Derivation of the Significant-Digit Law. Statistical Science, [S.l.],v.10, n.4, p.354–363, 1995.
HILL, T. P.; FOX, R. F. Hubble’s Law Implies Benford’s Law for Distances to Galaxies.Journal of Astrophysics and Astronomy, [S.l.], v.37, n.1, p.1–8, 2016.
HSÜ, E. An experimental study on “mental numbers” and a new application. The Journal ofgeneral psychology, [S.l.], v.38, n.1, p.57–67, 1948.
HUBBLE, E. A relation between distance and radial velocity among extra-galactic nebulae.Proceedings of the National Academy of Sciences, [S.l.], v.15, n.3, p.168–173, 1929.
HUI, J.; JIA-JIE, S.; YU-MIN, Z. Benford’s Law in Nuclear Structure Physics. Chinese PhysicsLetters, [S.l.], v.28, n.3, p.032101, 2011.
IORLIAM, A. et al. Do Biometric Images Follow Benford’s Law? In: EUROPEAN SIGNALPROCESSING CONFERENCE (EUSIPCO), 22. Proceedings. . . IEEE, 2014. Last Viewed:7/7/2014.
JOLION, J.-M. Images and Benford’s law. Journal of Mathematical Imaging and Vision,[S.l.], v.14, n.1, p.73–81, 2001.
KADISH, S. et al. A Global Catalog of Large Lunar Craters (>= 20 km) from the Lunar OrbiterLaser Altimeter. In: LUNAR AND PLANETARY SCIENCE CONFERENCE. Anais. . .[S.l.: s.n.], 2011. v.42, p.1006.
KNUTH, D. E. The Art of Computer Programming. [S.l.: s.n. addisonwesley. Reading, MA,[S.l.], p.229–279, 1969.
KRAKAR, Z.; ŽGELA, M. Application of Benford’s Law in Payment Systems Auditing.Journal of information and organizational Sciences, [S.l.], v.33, n.1, p.39–51, 2009.
REFERÊNCIAS 83
LEMSON, G. et al. Halo and galaxy formation histories from the millennium simulation: publicrelease of a vo-oriented and sql-queryable database for studying the evolution of galaxies in thelambdacdm cosmogony. arXiv preprint astro-ph/0608019, [S.l.], 2006.
LI, X. H. et al. Detection of tampered region for JPEG images by using mode-based first digitfeatures. EURASIP Journal on advances in signal processing, [S.l.], v.2012, n.1, p.1–10,2012.
LOSIAK et al. Lunar Impact Crater Database 2015. Revised by T. Öhman, LPI (2011) and(2015).
LUQUE, B.; LACASA, L. The first-digit frequencies of prime numbers and Riemann zeta zeros.In: ROYAL SOCIETY OF LONDON A: MATHEMATICAL, PHYSICAL ANDENGINEERING SCIENCES. Proceedings. . . [S.l.: s.n.], 2009. p.rspa–2009.
LÉVY, P. L’addition des variables aléatoires définies sur une circonférence. Bulletin de laSociété Mathématique de France, [S.l.], v.67, p.1–41, 1939.
MINOR PLANET CENTER, I. MPC Observable Comets.http://www.minorplanetcenter.net/iau/Ephemerides/Comets/index.html, [S.l.], 2015.
MORGAN, J. A. e. a. Letters to the Editor. The American Statistician, [S.l.], v.26, n.3,p.62–66, 1972.
NASA. Our Solar System: moons. Disponível em:http://solarsystem.nasa.gov/planets/solarsystem/sats. Acesso em 16 de julho de 2015.
NASA. Lunar Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/moon/. Acessoem 15 de agosto de 2015.
NASA. Mercury Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/mercury/.Acesso em 15 de agosto de 2015.
NASA. Mercury Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/Venus/.Acesso em 15 de agosto de 2015.
NEO. NEO Discovery Statistics. Disponível em: http://neo.jpl.nasa.gov/stats/ . Acesso em 13de setembro de 2015.
NEWCOMB, S. Note on the frequency of use of the different digits in natural numbers.American Journal of Mathematics, [S.l.], v.4, n.1, p.39–40, 1881.
NIGRINI, M. Digital Analysis Tests and Statistics. Allen: The Nigrini Institute, [S.l.], 1997.
NIGRINI, M. J. The detection of income tax evasion through an analysis of digital frequencies.Doctorat en sciences de gestion, Cincinnati: université de Cincinnati, [S.l.], 1992.
NIGRINI, M. J. A taxpayer compliance application of Benford’s law. The Journal of theAmerican Taxation Association, [S.l.], v.18, n.1, p.72, 1996.
NIGRINI, M. J. The peculiar patterns of first digits. IEEE potentials, [S.l.], v.18, n.2, p.24–27,1999.
REFERÊNCIAS 84
NIGRINI, M. J.; MITTERMAIER, L. J. The use of Benford’s law as an aid in analyticalprocedures. Auditing, [S.l.], v.16, n.2, p.52, 1997.
ORITA, M. et al. Agreement of drug discovery data with Benford’s law. Expert opinion ondrug discovery, [S.l.], v.8, n.1, p.1–5, 2013.
PÉREZ-GONZÁLEZ, F.; HEILEMAN, G. L.; ABDALLAH, C. T. Benford’s Lawin ImageProcessing. In: IMAGE PROCESSING, 2007. ICIP 2007. IEEE INTERNATIONALCONFERENCE ON. Anais. . . [S.l.: s.n.], 2007. v.1, p.I–405.
PERRYMAN, M. A. et al. The HIPPARCOS catalogue. Astronomy and Astrophysics, [S.l.],v.323, 1997.
PETTITT, A. N.; STEPHENS, M. A. The Kolmogorov-Smirnov goodness-of-fit statistic withdiscrete and grouped data. Technometrics, [S.l.], v.19, n.2, p.205–210, 1977.
PINKHAM, R. S. On the distribution of first significant digits. The Annals of MathematicalStatistics, [S.l.], v.32, n.4, p.1223–1230, 1961.
POINCARÉ, H. Calcul des probabilités. [S.l.]: Gauthier-Villars, 1912.
QADIR, G. et al. Image forensic of glare feature for improving image retrieval using Benford’sLaw. In: CIRCUITS AND SYSTEMS (ISCAS), 2011 IEEE INTERNATIONAL SYMPOSIUMON. Anais. . . [S.l.: s.n.], 2011. p.2661–2664.
QADIR, G.; ZHAO, X.; HO, A. T. Estimating JPEG2000 compression for image forensics usingBenford’s Law. In: SPIE PHOTONICS EUROPE. Anais. . . [S.l.: s.n.], 2010. p.77230J–77230J.
RAIMI, R. A. The first digit problem. The American Mathematical Monthly, [S.l.], v.83, n.7,p.521–538, 1976.
ROBBINS, H. On the Equidistribution of Sums of Independent Random Variables. [S.l.]:American Mathematical Society, 1953. 786-799p. v.4, n.5.
SANCHES, J.; MARQUES, J. Image reconstruction using the Benford law. In:INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, 2006. Anais. . . [S.l.: s.n.],2006.
SCHMITZ, M. et al. NASA/IPAC Extragalactic Database. reference code2003AJ....125..525J.
SHAO, L.; MA, B.-Q. Empirical mantissa distributions of pulsars. Astroparticle Physics, [S.l.],v.33, n.4, p.255–262, 2010.
Shukla, A.; Pandey, A. K.; Pathak, A. Benford’s distribution in extrasolar world: do theexoplanets follow benford’s distribution? ArXiv e-prints, [S.l.], June 2016.
SNYDER, M. A.; CURRY, J. H.; DOUGHERTY, A. M. Stochastic aspects of one-dimensionaldiscrete dynamical systems: benford’s law. Physical Review E, [S.l.], v.64, n.2, p.026222, 2001.
SOTTILI, G. et al. Benford’s Law in time series analysis of seismic clusters. MathematicalGeosciences, [S.l.], v.44, n.5, p.619–634, 2012.
REFERÊNCIAS 85
STEELE, M.; CHASELING, J. Powers of discrete goodness-of-fit test statistics for a uniformnull against a selection of alternative distributions. Communications inStatistics—Simulation and Computation®, [S.l.], v.35, n.4, p.1067–1075, 2006.
TAO, T. Benfords law, Zipfs law, and the Pareto distribution. Retrieved from, [S.l.], 2009.
THOMAS, J. K. Unusual patterns in reported earnings. Accounting Review, [S.l.], p.773–787,1989.
TOLLE, C. R.; BUDZIEN, J. L.; LAVIOLETTE, R. A. Do dynamical systems follow Benford’slaw? Chaos: An Interdisciplinary Journal of Nonlinear Science, [S.l.], v.10, n.2, p.331–336,2000.
TONG, S. et al. Image splicing detection based on statistical properties of Benford model. In:OF THE 2ND INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE ANDELECTRONICS ENGINEERING. Proceedings. . . [S.l.: s.n.], 2013. p.792–795.
VIDEO Meteor Database. Disponível em: http://www.imonet.org/reports/. Acesso em 05 deoutubro de 2015.
WEISSTEIN, E. W. Newton-Cotes Formulas. Disponível em:http://mathworld.wolfram.com/Newton-CotesFormulas.html. Acesso em 24 maio 2016.
WEYL, H. Über die gleichverteilung von zahlen mod. eins. Mathematische Annalen, [S.l.],v.77, n.3, p.313–352, 1916.
WONG, S. C. Y. Testing Benford’s Law with the First Two Significant Digits. 2010.
ZIPF, G. K. Human behavior and the principle of least effort. [S.l.]: Addison-Wesley Press,1949.