2016: fundamentos matemáticos para inteligência artificial

33
Fundamentos Matemáticos para Inteligência Artificial 1 FUNDAMENTOS MATEMÁTICOS PARA IA Copyright © 2016 by Leandro Nunes de Castro Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados: Conceitos Básicos, Algorit- mos e Aplicações, Ed. Saraiva, 2006, p. 351. O uso deste material para fins acadêmicos é li- vre e gratuito, desde que sejam mantidas as informações originais de autoria. Material dispo- nível no Slideshare do autor: http://www.slideshare.net/lndecastro. Sumário 1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR ................................................................................... 3 1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS ............................................................................................ 3 1.1.1 Conjuntos ........................................................................................................................................ 3 1.1.2 Operações com Conjuntos .............................................................................................................. 3 1.2 ESCALARES, VETORES E MATRIZES .......................................................................................................... 4 1.2.1 Escalar ............................................................................................................................................. 4 1.2.2 Vetor ............................................................................................................................................... 4 1.2.3 Matriz.............................................................................................................................................. 4 1.2.4 Conceitos Adicionais para Matrizes ................................................................................................ 5 1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES........................................................................ 6 1.4 ESPAÇO VETORIAL LINEAR ....................................................................................................................... 7 1.4.1 Axiomas (Propriedades Vetoriais) ................................................................................................... 8 1.4.2 Subespaço Vetorial Linear............................................................................................................... 8 1.4.3 Combinação Linear e Combinação Convexa ................................................................................... 8 1.4.4 Dependência Linear de um Espaço Vetorial .................................................................................... 9 1.5 PRODUTO INTERNO ................................................................................................................................... 9 1.6 PRODUTO EXTERNO ................................................................................................................................ 10 1.7 NORMA, SEMI-NORMA E QUASE-NORMA ................................................................................................ 10 1.8 ÂNGULO ENTRE DOIS VETORES .............................................................................................................. 11 1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES .......................................................... 11 1.10 ESPAÇOS ORTOGONAIS ...................................................................................................................... 11 2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS ........................................................................... 12 2.1 DEFINIÇÕES............................................................................................................................................. 12 2.2 ÁRVORES ................................................................................................................................................ 13 3 CONCEITOS ELEMENTARES EM REDES NEURAIS ARTIFICIAIS ................................................................ 14 3.1 BASE BIOLÓGICA DAS RNAS .................................................................................................................. 14 3.1.1 O Sistema Nervoso ........................................................................................................................ 14 3.1.2 Base Biológica e Física da Aprendizagem e Memória ................................................................... 16 4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUSCA ........................................................................ 17 4.1 OTIMIZAÇÃO ........................................................................................................................................... 17 4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA................................................................................................... 18

Upload: leandro-de-castro

Post on 13-Feb-2017

169 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Fundamentos Matemáticos para Inteligência Artificial

1

FUNDAMENTOS MATEMÁTICOS PARA IA Copyright

© 2016 by Leandro Nunes de Castro

Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO,

L. N.; FERRARI, D. G. Introdução à Mineração de Dados: Conceitos Básicos, Algorit-

mos e Aplicações, Ed. Saraiva, 2006, p. 351. O uso deste material para fins acadêmicos é li-

vre e gratuito, desde que sejam mantidas as informações originais de autoria. Material dispo-

nível no Slideshare do autor: http://www.slideshare.net/lndecastro.

Sumário

1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR ................................................................................... 3

1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS ............................................................................................ 3

1.1.1 Conjuntos ........................................................................................................................................ 3

1.1.2 Operações com Conjuntos .............................................................................................................. 3

1.2 ESCALARES, VETORES E MATRIZES .......................................................................................................... 4

1.2.1 Escalar ............................................................................................................................................. 4

1.2.2 Vetor ............................................................................................................................................... 4

1.2.3 Matriz.............................................................................................................................................. 4

1.2.4 Conceitos Adicionais para Matrizes ................................................................................................ 5

1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES ........................................................................ 6

1.4 ESPAÇO VETORIAL LINEAR ....................................................................................................................... 7

1.4.1 Axiomas (Propriedades Vetoriais) ................................................................................................... 8

1.4.2 Subespaço Vetorial Linear ............................................................................................................... 8

1.4.3 Combinação Linear e Combinação Convexa ................................................................................... 8

1.4.4 Dependência Linear de um Espaço Vetorial .................................................................................... 9

1.5 PRODUTO INTERNO ................................................................................................................................... 9

1.6 PRODUTO EXTERNO ................................................................................................................................ 10

1.7 NORMA, SEMI-NORMA E QUASE-NORMA ................................................................................................ 10

1.8 ÂNGULO ENTRE DOIS VETORES .............................................................................................................. 11

1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES .......................................................... 11

1.10 ESPAÇOS ORTOGONAIS ...................................................................................................................... 11

2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS ........................................................................... 12

2.1 DEFINIÇÕES ............................................................................................................................................. 12

2.2 ÁRVORES ................................................................................................................................................ 13

3 CONCEITOS ELEMENTARES EM REDES NEURAIS ARTIFICIAIS ................................................................ 14

3.1 BASE BIOLÓGICA DAS RNAS .................................................................................................................. 14

3.1.1 O Sistema Nervoso ........................................................................................................................ 14

3.1.2 Base Biológica e Física da Aprendizagem e Memória ................................................................... 16

4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUSCA ........................................................................ 17

4.1 OTIMIZAÇÃO ........................................................................................................................................... 17

4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA ................................................................................................... 18

Fundamentos Matemáticos para Inteligência Artificial

2

4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA ................................................................................................ 19

5 CONCEITOS ELEMENTARES EM ESTATÍSTICA ......................................................................................... 20

5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS ....................................................................................................... 20

5.2 PROBABILIDADE ...................................................................................................................................... 21

5.2.1 Evento e Espaço Amostral ............................................................................................................. 21

5.2.2 Probabilidade ................................................................................................................................ 21

5.2.3 Probabilidade Condicional ............................................................................................................ 22

5.2.4 Teorema de Bayes ......................................................................................................................... 22

5.2.5 Contagem ...................................................................................................................................... 22

5.3 VARIÁVEIS ALEATÓRIAS ......................................................................................................................... 23

5.3.1 Variável Aleatória ......................................................................................................................... 23

5.3.2 Variável Aleatória Discreta ........................................................................................................... 23

5.3.3 Distribuições de Probabilidade ..................................................................................................... 23

5.4 MEDIDAS RESUMO .................................................................................................................................. 25

5.4.1 Medidas de Tendências Central .................................................................................................... 25

5.4.2 Medidas de Dispersão ................................................................................................................... 26

5.4.3 Medidas de Forma ........................................................................................................................ 26

5.5 MEDIDAS DE ASSOCIAÇÃO ...................................................................................................................... 28

5.6 ENTROPIA DA INFORMAÇÃO .................................................................................................................... 29

5.7 A CURVA NORMAL ................................................................................................................................. 30

5.8 INTERVALO DE CONFIANÇA .................................................................................................................... 31

6 BIBLIOGRAFIA ....................................................................................................................................... 32

Fundamentos Matemáticos para Inteligência Artificial

3

“O instinto do empreendedor é explorar o mundo natural. O ins-

tinto do engenheiro é mudá-lo. O instinto do cientista é tentar

compreendê-lo - entender o que realmente está acontecendo. O

instinto do matemático é estruturar esse processo de entendi-

mento buscando generalidades que vão além de subdivisões ób-

vias. Há um pouco de cada um desses instintos em todos nós.”

I. Stewart (1995), Nature's Numbers - The Unreal Reality of

Mathematics, Basic Books, p. 13.

1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR

A álgebra linear é o ramo da matemática preocupada com o estudo de vetores, matrizes, es-

paços vetoriais, transformações lineares e sistemas de equações lineares. Todos esses concei-

tos são centrais para um bom entendimento da mineração de dados e serão brevemente revi-

sados nesta seção.

1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS

1.1.1 Conjuntos

Um conjunto pode ser definido como uma agregação ou coleção de objetos, chamados de

elementos ou membros do conjunto. Os conjuntos são denotados aqui por letras maiúsculas

em itálico do alfabeto Romano. Alguns conjuntos particulares serão denotados por símbolos

específicos:

o : conjunto dos numerous naturais.

o : conjunto dos numerous reais.

o c: conjunto dos numerous complexos.

O estado lógico ou associação de um elemento x a um conjunto X é representado por:

x X: x pertence à X.

x X: x não pertence à X.

Um conjunto pode ser especificado listando seus elementos:

X = {x1, x2,..., xn},

ou descrevendo as propriedades que caracterizam seus elementos:

X2 = {x X1 tal que P(x) é verdadeiro} ou X2 = {x X1: P(x)}

1.1.2 Operações com Conjuntos

As principais operações com conjuntos são:

o União: X1 X2 = {x : x X1 ou x X2}

o Interseção: X1 X2 = {x : x X1 e x X2}

X1 X2 = (conjunto vazio) se X1 e X2 são conjuntos disjuntos.

Fundamentos Matemáticos para Inteligência Artificial

4

O complemento de um conjunto X é representado por X e é definido como

X X x x: .

S é um subconjunto de X se cada elemento em S é também um elemento de X. Neste caso,

diz-se que S está contido em X (S X) ou que X contém S (X S).

1.2 ESCALARES, VETORES E MATRIZES

1.2.1 Escalar

Uma variável que assume valores no eixo dos números reais é denominada escalar. Os esca-

lares são descritos por letras minúsculas do alfabeto romano expressas em itálico, ou do alfa-

beto grego. O conjunto de todos os escalares reais é representado por ou 1. O módulo de

um escalar real x é dado na forma:

0 se

0 se

xx

xxx

.

1.2.2 Vetor

Um arranjo ordenado de n escalares xi (i = 1,2,...,n) é denominado vetor de dimensão n.

Os vetores são descritos por letras minúsculas do alfabeto romano expressas em negrito e as-

sumem a forma de vetores-coluna ou vetores-linha. Os vetores geralmente são representados

por vetores-coluna, na forma:

nx

x

x

2

1

x

ou Tnxxx 21x .

O conjunto de todos os vetores de dimensão n com elementos reais é representado por n.

Diz-se então que x n. Um escalar é um vetor de dimensão 1.

Alguns vetores de particular interesse são:

o Vetor 0n: é o vetor nulo de dimensão n, com todos os elementos iguais a zero. O subs-

crito n é suprimido quando não há margem à dúvida.

o Vetor 1n: é o vetor de dimensão n com todos os elementos iguais a 1.

o Vetor ei: é o vetor normal unitário de dimensão n (a dimensão deve ser indicada pelo

contexto) com todos os elementos iguais a 0, exceto o i-ésimo elemento que é igual a

1. Neste caso, 1 i n.

1.2.3 Matriz

Um arranjo ordenado de m.n escalares xij (i=1,2,...,m; j=1,2,...,n) é denominado matriz de di-

mensão mn. As matrizes são descritas por letras maiúsculas do alfabeto romano expressas

em itálico (ou apenas em negrito), e assumem a forma:

Fundamentos Matemáticos para Inteligência Artificial

5

mnmm

n

n

xxx

xxx

xxx

21

22221

11211

X .

O conjunto de todas as matrizes mn com elementos reais é representado por m

n ou

mn

. Diz-se então que X mn

. As colunas da matriz X são vetores-coluna descritos por:

mi

i

i

i

x

x

x

2

1

x

, i=1,...,n.

As linhas da matriz X são vetores-linha descritos por:

jnjjj xxx 21)( x , j=1,...,m.

Um vetor é uma matriz com número unitário de linhas ou colunas.

1.2.4 Conceitos Adicionais para Matrizes

A transposta de uma matriz A, escrita AT, é a matriz obtida escrevendo as colunas de A, em

ordem, como linhas. Ou seja, se A = [aij] é uma matriz mn, então AT = [bij] é a matriz nm

onde bij = aji. O transposto de um vetor linha é um vetor coluna, e vice-versa.

Dada uma matriz A de dimensão nn, o cofator do elemento aij (i,j=1,2,...,n) é dado na

forma:

ijji

ij mc

1 ,

onde mij é o determinante da matriz formada eliminando-se a i-ésima linha e a j-ésima coluna

da matriz A.

Dada uma matriz A de dimensão nn, o determinante de A é dado na forma:

ica

jca

n

j ijij

n

i ijij

qualquer para ,

ou

qualquer para ,

det

1

1

AA ,

onde cij é o cofator do elemento aij.

Com isso, se B é uma matriz obtida a partir de A pela troca de duas de suas colunas, então

det(B) = det(A).

Dada uma matriz A de dimensão nn, a adjunta de A, representada por adj(A), é dada na

forma:

adj(A) = {ija },

Fundamentos Matemáticos para Inteligência Artificial

6

onde ija = cji, o cofator do elemento aji.

São válidas as seguintes igualdades:

A

AA

AAA

AAA

det

adj

.det = .adj

.det = .adj1

I

I.

A inversa de uma matriz A nn

é uma matriz M nn

tal que

AM = MA = I.

A notação adotada para a matriz M é: M = A1

.

Para que uma matriz seja inversível, ela tem que ser quadrada e não singular. Vale a se-

guinte propriedade: (A1

)T = (A

T)1

.

Um operador linear é uma transformação que pode ser descrita por formas matriciais, de

modo que D X. Um operador linear, que mapeia vetores do n no

m, pode ser descrito por

uma matriz A mn

, tal que

y = Ax, x n e y

m.

Seja A uma matriz de dimensão n n. Um scalar C (conjunto dos números complexos) é

um autovalor de A se existe um vetor não nulo x Cn, chamado de autovetor associado, tal

que

Ax = x

o Ax = x pode ser reescrito como (I A)x = 0.

o x Cn, x 0 tal que (I A)x = 0 se e somento se det(I A) = 0.

o

det I A é o polinômio característico de A.

o Como o grau de () é n, a matriz A possui n autovalores.

1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES

Dados dois vetores x, y m, x = [x1, x2,..., xm]

T e y = [y1, y2,..., ym]

T, a adição e subtração

(Figura I.1) deles é feita como a seguir:

o Adição Vetorial: x + y = [x1+y1, x2+y2,..., xm+ym]T.

o Subtração Vetorial: x y = [x1y1, x2y2,..., xmym]T.

Fundamentos Matemáticos para Inteligência Artificial

7

x

y x + y

x

y

x y

(a) (b)

Figura I.1: Adição vetorial (a) e subtração vetorial (b).

A multiplicação de um vetor x m por um escalar a é feita da seguinte forma:

o Multiplicação por um escalar: a.x = [a.x1, a.x2,..., a.xm]T.

Uma matriz A mn

pode ser multiplicada por outra matriz B rl

se, e somente se,

n = r; e o resultado é uma matriz C ml

. Dadas:

mnmm

n

n

aaa

aaa

aaa

21

22221

11211

A ,

rlrr

l

l

bbb

bbb

bbb

21

22221

11211

B .

Cada elemento cij da matriz C ml

, C = A.B, é obtido como a seguir:

.,...,1;,...,1,1

ljmibacn

k

kjikij

A multiplicação de uma matriz A mn

por um escalar b é feita simplesmente multi-

plicando cada elemento da matriz A pelo escalar, de maneira similar à multiplicação de um

vetor por um escalar. Da mesma forma, a soma ou subtração de duas matrizes pressupõe que

elas sejam de mesma dimensão e é feita somando-se ou subtraindo-se elemento a elemento

das matrizes.

1.4 ESPAÇO VETORIAL LINEAR

Um campo é uma estrutura algébrica na qual as operações de adição, subtração, multiplicação

e divisão (exceto divisão por zero) podem ser feitas e onde também valem as regras da asso-

ciatividade, comutatividade e distributividade. Os campos são objetos importantes de estudo,

pois eles fornecem uma generalização apropriada dos domínios dos números, como os con-

juntos dos números racionais, conjunto dos números reais e conjunto dos números comple-

xos.

O espaço vetorial é a estrutura básica da álgebra linear. A definição de um espaço vetorial

V, cujos elementos são denominados vetores, envolve um campo arbitrário F, cujos elemen-

tos são denominados escalares. Ao considerarmos vetores, suas operações (p. ex., adição e

Fundamentos Matemáticos para Inteligência Artificial

8

multiplicação por escalar) e algumas de suas propriedades, chegamos a uma descrição de uma

estrutura matemática denominada espaço vetorial.

Um espaço vetorial X, associado a um campo F, consiste em um conjunto de elementos

(vetores) sobre os quais estão definidas duas operações:

1. Adição (X X X): (x + y) X, x, y X;

2. Multiplicação por escalar (F X X): (x) X, x X e F.

1.4.1 Axiomas (Propriedades Vetoriais)

(1) x + y = y + x (comutatividade)

(2) (x + y) + z = x + (y + z) (associatividade)

(3) (x + y) = x + y (distributividade)

(4) x + 0 = x (vetor nulo)

(5) ()x = (x) (associatividade)

(6) ( + )x = x + x (distributividade)

(7) 1x = x (elemento neutro)

1.4.2 Subespaço Vetorial Linear

Um subespaço vetorial é um espaço vetorial “menor” dentro de um espaço vetorial “maior”.

Por exemplo, uma reta w que passa pela origem do espaço vetorial V = 2 é um subespaço de

V. Um subconjunto não vazio S de um espaço vetorial linear X é um subespaço de X se

.x + .y S sempre que x e y S.

Dito de outra forma, seja (X,F) um espaço vetorial linear e S um subconjunto de X. Diz-se

então que (S,F) é um subespaço vetorial de (X,F) se S forma um espaço vetorial sobre F atra-

vés das mesmas operações definidas sobre (X,F). Exemplos:

1. S {0}

2. S n é subespaço de X

n

Se M e N são subespaços de X, então M N também é um subespaço de X. Todo espaço

é um subespaço de si mesmo.

1.4.3 Combinação Linear e Combinação Convexa

Seja S = {x1, x2, ..., xn} um conjunto de vetores de um espaço vetorial linear (X,). O vetor

v V é dito uma combinação linear de x1, x2, ..., xn se

v = a1x1 + a2x2 + ... + anxn,

onde a1, a2, ..., an .

Fundamentos Matemáticos para Inteligência Artificial

9

A combinação linear de vetores permite a obtenção de novos vetores a partir de vetores

dados. Se os escalares a1, a2, ..., an são tais que ai 0 (i=1,2,...,n) e i ai = 1, então a

combinação linear é chamada combinação convexa dos elementos x1, x2, ..., xn X.

Nota: Genericamente, expressar um vetor v Fn como uma combinação linear dos vetores

u1, u2,..., um, ui Fn, i = 1,...,m, é equivalente a resolver um sistema de equações lineares

Ax = b, onde v é o vetor coluna b de constantes, e ui, i = 1,...,m, são os vetores-coluna da ma-

triz de coeficientes A.

1.4.4 Dependência Linear de um Espaço Vetorial

Considere {x1, x2, ..., xn} um conjunto de vetores pertencentes a X. O conjunto S [x1, x2, ...,

xn], chamado subespaço gerado pelos vetores {x1, x2, ..., xn}, consiste de todos os vetores em

X escritos como combinação linear de vetores em {x1, x2, ..., xn}. Neste caso, S é um subes-

paço vetorial de X.

Um conjunto de vetores {x1, x2, ..., xn} é dito linearmente independente se e somente se

i ai xi = 0 implica ai = 0, i=1,...,n. Caso contrário eles são ditos linearmente dependentes.

Um conjunto de vetores linearmente independentes {x1, x2, ..., xn} forma uma base para X

se X [x1, x2, ..., xn]. Neste caso, diz-se que X tem dimensão n. Se n é finito, então X é um

espaço vetorial de dimensão finita.

O posto de uma matriz A mn

é dado pelo número de colunas (ou linhas) linearmente

independentes, de modo que posto(A) min(m,n). Se posto(A) = min(m,n), então diz-se que a

matriz tem posto completo.

1.5 PRODUTO INTERNO

Considere x,y X e . O produto interno x,y é um número real que satisfaz:

(1) x,y = y,x

(2) x+y,z = x,z + y,z

(3) x,y = x,y

(4) x,x 0 x X, e x,x = 0 x = 0

Para X n e x,y X, tem-se que x = [x1, x2, ..., xn]

T e y = [y1, y2, ..., yn]

T, e o produto interno

assume a forma:

yxyxT

n

iii yx

1

,.

Fundamentos Matemáticos para Inteligência Artificial

10

1.6 PRODUTO EXTERNO

O produto externo entre dois vetores x n e y

m é uma matriz de dimensão n m de

posto unitário. Sendo x = [x1, x2, ..., xn]T e y = [y1, y2, ..., ym]

T, o produto externo assume a

forma:

mnn

m

T

yxyx

yxyx

yxyxyx

1

2212

12111

xy

.

Em contraste com o caso do produto interno, os vetores x e y podem ter dimensões distintas.

Mesmo quando as dimensões são as mesmas, ou seja, n = m, a matriz quadrada resultante po-

de não ser simétrica.

1.7 NORMA, SEMI-NORMA E QUASE-NORMA

As definições até agora apresentadas permitem relacionar propriedades algébricas. Introdu-

zindo-se a noção de norma (medida de distância), é possível tratar propriedades topológicas,

como continuidade e convergência.

Norma é uma função |||| que associa a cada elemento x X um número real ||x||, obede-

cendo aos seguintes axiomas:

(1) 0xxxx 0;,0 X ;

(2) X yxyxyx ,, (desigualdade triangular);

(3) ,, Xxxx .

Toda vez que se associa uma norma a um espaço vetorial (sendo que a este espaço já está as-

sociado um campo), diz-se que se tem um espaço vetorial normado.

Uma semi-norma satisfaz todas as propriedades de norma, com exceção do primeiro axi-

oma. Para X n, o subespaço linear X0

n, cujos elementos obedecem ||x|| = 0, é denomi-

nado espaço nulo da semi-norma.

Uma quase-norma satisfaz todas as propriedades de norma, com exceção do segundo axi-

oma (desigualdade triangular), o qual assume a forma:

bXb com ,, , yxyxyx .

Exemplos de normas e relações entre normas X n (Figura I.2):

o pn

i

p

ipx

1

1

x, p 1 é um número real.

o 212

xxx n

Fundamentos Matemáticos para Inteligência Artificial

11

o

xxx n2

o

xxx n1

.

o 2

1

,xx é a conhecida norma euclidiana, pois 2

12

1

1

2

2,xxx

n

iix

.

A relação entre o produto interno e a norma euclidiana (desigualdade de Cauchy-Schwartz-

Buniakowsky) é dada por: |x,y|2 x,x . y,y → |x,y| ||x||2.||y||2.

x1

x2

+1

+1

1

1 x1

x2

+1

+1

+1

1

1

p=2 p=1

x1

x2

+1

1

1

p=+

Figura I.2: Topologia das normas em duas dimensões (n = 2): p = 1, p = 2 e p = + .

1.8 ÂNGULO ENTRE DOIS VETORES

Para qualquer inteiro n 2, dados dois vetores x,y X n, x,y 0, o coseno do ângulo

formado pelos vetores x e y é dado na forma:

22

cosyx

yx

T.

1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES

Se cos() = 0, isto implica que x,y = xTy = 0. Então se diz que x e y são ortogonais entre si,

condição representada na forma: x y. Além disso, se x,x = y,y = 1, então os vetores x, y

X n são ortonormais entre si.

1.10 ESPAÇOS ORTOGONAIS

Um vetor x é ortogonal a um espaço vetorial Y se for ortogonal a todos os vetores pertencen-

tes a Y, condição representada na forma: x Y. Os espaços vetoriais X e Y são ortogonais en-

tre si se cada vetor pertence a X for ortogonal a todos os vetores pertencentes a Y, condição

representada na forma: X Y.

Fundamentos Matemáticos para Inteligência Artificial

12

2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS

A teoria dos grafos estuda os grafos, estruturas matemáticas usadas na modelagem de rela-

ções entre pares de objetos. Ela constitui uma ferramenta poderosa em matemática e teoria da

computação e também apresenta diversas aplicações práticas em áreas como processamento

de imagens, otimização combinatória e análise de dados.

Considere o mapa apresentado na Figura I.3 ilustrando diversas cidades brasileiras e suas

possíveis conexões em linha reta. Cada cidade nesta figura corresponde a um vértice, ponto

ou nó, e cada ligação conectando os nós é denominada de arco. Este tipo de objeto ou repre-

sentação gráfica é denominado de grafo e representa um conjunto de nós possivelmente liga-

dos por arcos.

x2*

Figura I.3: Mapa do Brasil com algumas cidades representadas como nós em um grafo e ligadas entre

si por arcos.

Um grafo G pode, portanto, ser definido como sendo um conjunto V de vértices (nós) e um

conjunto E de arcos ligando pares de vértices de V: G = V,E. Dito de outra forma, um grafo

é uma 2-tupla dada por G = V,E. Portanto, V = {v0,v1,…,vN} é o conjunto de nós de G, e

E = {(vi,vj) : i j} é o conjunto de arcos de G.

2.1 DEFINIÇÕES

Uma série de conceitos em teoria dos grafos é particularmente relevante em análise de dados,

a saber:

Caminho: um caminho em um grafo G corresponde a uma sequência alternada de

vértices e arcos. Quando não há ambiguidade, um caminho pode ser denotado pela

sua sequência de vértices (v0,v1,…,vN).

Caminho fechado: o caminho é dito fechado se v0 = vN.

Grafo conexo: um grafo é dito conexo quando há pelo menos um arco ligando cada

um de seus nós, ou seja, quando há um caminho entre quaisquer dois vértices.

Fundamentos Matemáticos para Inteligência Artificial

13

Grafo direcionado: um grafo é dito direcionado quando há um sentido pré-definido

de percurso no grafo, ou seja, quando os arcos possuem um sentido específico.

Grafo ponderado e peso (ou comprimento) do arco: um grafo é dito ponderado se

para cada arco e E um número não negativo denominado de peso ou comprimento

de e, w(e) 0, é especificado.

Comprimento do caminho: para um grafo não ponderado, o comprimento de um

caminho é dado pelo número de arcos no caminho. Para grafos ponderados, o com-

primento ou peso de um caminho é determinado pela soma dos pesos dos arcos do

caminho.

Nós adjacentes: dois nós vi e vj são ditos adjacentes se há um arco e G conectando-

os, ou seja, e = {vi,vj}.

Ciclo: um ciclo é um caminho fechado de comprimento 3 ou mais no qual todos os

vértices são distintos, exceto v0 e vN.

Grau do nó: o grau de um nó é o número de arcos incidentes no nó.

EXEMPLO:

A Figura I.4 ilustra alguns conceitos em teoria dos grafos discutidos anteriormente. Para o

grafo G1, os conjuntos V1 e E1 são, respectivamente, V1 = {A,B,C,D,E} e

E1 = {(A,B),(A,C),(C,E),(E,D)}, e para o grafo G2 os conjuntos V2 e E2 são, respectivamente,

V2 = {A,B,C} e E2 = {(A,B),(B,C)}.

Os grafos G1 e G2 são, respectivamente, não ponderados e não direcionados, enquanto o

grafo G3 é direcionado e não ponderado, e G4 é direcionado e ponderado. Somente o grafo G3

é não conexo. O peso (comprimento) do caminho (D,E,B,F,C) de G4 é 10.

Se um grafo G é ponderado, ele pode ser representado por G = V,E,w, onde w(e) é o peso

do arco e, também representado por w(i,j): o peso do arco (i,j) que conecta os nós i e j. Para o

grafo G4 da Figura I.4, w(D,E) = 5, w(E,B) = 2, etc.

A B A A C A C

C G1 B G2 B F G3 B F G4

E D C E D E D

3

2

1

2

5

4

1

Figura I.4: Exemplos de grafos. G1: conexo, não direcionado e não ponderado. G2: conexo, não direcionado e

ponderado. G3: não conexo, direcionado e não ponderado. G4: conexo, direcionado e ponderado.

2.2 ÁRVORES

Uma árvore é um caso particular de um grafo no qual quaisquer dois nós estão conectados

por exatamente um caminho, ou seja, não existem ciclos em uma árvore. Um nó de grau 1 é

conhecido como folha e qualquer nó interno da árvore possui grau ao menos 2.

Fundamentos Matemáticos para Inteligência Artificial

14

Em teoria dos grafos as árvores são grafos não direcionados, mas em computação há mui-

tas estruturas de dados denominadas árvores que são grafos direcionados. Essas estruturas são

conhecidas como árvores enraizadas (do inglês rooted trees), pois possuem um nó raiz a par-

tir do qual (ou para o qual) os arcos se orientam.

Nos exemplos da Figura I.4, os grafos G1 e G2 são árvores, mas G3 e G4 não são, pois são

direcionados. No grafo G2, por exemplo, se assumirmos que o nó B é o nó raiz, pode-se dizer

que a árvore é enraizada e, portanto, os nós A e C são nós folhas.

3 CONCEITOS ELEMENTARES EM REDES NEURAIS AR-

TIFICIAIS

As redes neurais artificiais (RNAs) constituem uma das mais modernas e poderosas ferra-

mentas de processamento de informação da atualidade. Inspiradas na operação do sistema

nervoso humano, elas fazem uso de um processamento massivamente paralelo e distribuído

de informação que lhes conferem grandes capacidades de realizar mapeamentos não lineares

de elevada complexidade, dentre muitas outras coisas. Essa seção faz uma breve revisão so-

bre os conceitos elementares da área e é útil para um melhor entendimento dos capítulos que

falam sobre predição, agrupamento e detecção de anomalias.

3.1 BASE BIOLÓGICA DAS RNAS

O cérebro é especialista em desempenhar funções como reconhecimento de padrões, controle

motor, percepção, inferência, intuição, adivinhações, etc. Os neurônios são considerados as

unidades básicas de processamento do cérebro e, de modo análogo, modelos simplificados

dos neurônios biológicos constituem as unidades básicas de processamento das RNAs.

Os neurônios biológicos estão conectados uns aos outros por meio de conexões sinápticas.

Acredita-se que a capacidade das sinapses serem moduladas é a principal base para todos os

processos cognitivos, como percepção, raciocínio e memória. Sendo assim, algumas informa-

ções essenciais sobre neurônios, sinapses e organização estrutural são importantes para o pro-

jeto de RNAs.

3.1.1 O Sistema Nervoso

Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja complexi-

dade e organização variam de acordo com o tipo de animal. Mesmo os vermes, lesmas e inse-

tos são capazes de adaptar seu comportamento e armazenar informações em seus sistemas

nervosos.

O sistema nervoso é responsável por dotar o organismo, por meio de entradas sensoriais,

de informações sobre o estado do ambiente no qual ele vive e se move. A informação de en-

trada é processada, comparada com as experiências passadas, e transformada em ações apro-

priadas ou absorvidas sob a forma de conhecimento. Sua organização pode se dar em diferen-

tes níveis: moléculas, sinapses, neurônios, camadas, mapas e sistemas, como ilustra a Figura

I.5.

Fundamentos Matemáticos para Inteligência Artificial

15

h

Brain

Network of neurons

Neuron

Synapse

Figura I.5: Níveis organizacionais do sistema nervoso.

O processo de transmissão de sinais entre neurônios é central para a capacidade de processa-

mento de informação do cérebro. Uma das descobertas mais empolgantes em neurociências

foi a de que a efetividade da transmissão de sinais pode ser modulada, permitindo ao cérebro

se adaptar a diferentes situações. Essa plasticidade sináptica, ou seja, capacidade das sinap-

ses sofrerem modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.

Os neurônios podem receber e enviar sinais a vários outros neurônios. Aqueles que envi-

am sinais, chamados de neurônios pré-sinápticos ou “enviadores”, fazem contato com os

neurônios receptores ou pós-sinápticos em regiões especializadas denominadas de sinapses.

A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o dendrito ou

corpo celular de um neurônio pós-sináptico (ver Figura I.6).

Figura I.6: Representação pictórica do neurônio biológico.

A capacidade de processamento de informação das sinapses permite que elas alterem o estado

de um neurônio pós-sináptico, eventualmente gerando um pulso elétrico, denominado poten-

cial de ação, no neurônio pós-sináptico. A ativação de um neurônio ocorre apenas quando

Fundamentos Matemáticos para Inteligência Artificial

16

seu potencial de membrana é maior do que um dado limiar. Portanto, um neurônio pode ser

visto como um dispositivo capaz de receber estímulos (de entrada) de diversos outros neurô-

nios e propagar sua única saída, função dos estímulos recebidos e do estado interno, a vários

outros neurônios.

Os neurônios podem ter conexões de sentido positivo (do inglês feedforward) e/ou de sen-

tido negativo (do inglês feedback) com outros neurônios, ou seja, as conexões podem ter um

único sentido ou serem recíprocas. Diversos neurônios interconectados geram uma estrutura

em rede conhecida como rede neural. Um agrupamento de neurônios interconectados pode

exibir comportamentos complexos e uma capacidade de processamento de informação que

não pode ser predita tomando-se cada neurônio individualmente.

Uma característica marcante das redes neurais é a representação distribuída de informa-

ção e seu processamento paralelo. Muitas áreas do cérebro apresentam uma organização la-

minar de neurônios, ou seja, camadas de neurônios em contato com outras camadas. Um dos

arranjos mais comuns de neurônios é uma estrutura bidimensional em camadas organizada

por meio de um arranjo topográfico das respostas de saída. O exemplo mais conhecido deste

tipo de estrutura é o córtex humano, que corresponde à superfície externa do cérebro; uma

estrutura bidimensional com vários dobramentos, fissuras e elevações.

Em geral os neurônios do córtex estão organizados em camadas distintas, que são subdivi-

didas em camada de entrada, camadas intermediárias ou escondidas e camada de saída. A

camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída envia sinais

para outras partes do cérebro e as camadas intermediárias recebem (enviam) sinais de (para)

outras camadas do córtex. Isso significa que as camadas intermediárias nem recebem entradas

diretamente e nem produzem uma saída do tipo motora, por exemplo.

3.1.2 Base Biológica e Física da Aprendizagem e Memória

O sistema nervoso está continuamente sofrendo modificações e atualizações. Virtualmente

todas as suas funções, incluindo percepção, controle motor, regulação térmica e raciocínio,

são modificadas por estímulos.

Observações comportamentais permitiram verificar graus de plasticidade do sistema ner-

voso: existem mudanças rápidas e fáceis, mudanças lentas e profundas, e mudanças mais

permanentes (porém ainda modificáveis).

Em geral, a aprendizagem global é resultado de alterações locais nos neurônios, por exem-

plo, dendritos podem nascer, assim como também podem ser removidos, alguns dendritos

podem se esticar ou serem encolhidos permitindo ou eliminando, respectivamente, a conexão

com outras células, novas sinapses podem ser criadas ou sofrerem alterações, sinapses tam-

bém podem ser removidas, e todo neurônio pode morrer e também se regenerar.

Toda esta vasta gama de adaptação estrutural pode ser convenientemente condensada sim-

plesmente referindo-se às sinapses, pois estas modificações envolvem a modificação sinápti-

ca de forma direta ou indireta. Sendo assim, a aprendizagem via modulação sináptica é o

mecanismo mais importante para as redes neurais, sejam elas biológicas ou artificiais. A mo-

Fundamentos Matemáticos para Inteligência Artificial

17

dulação sináptica poderá depender de mecanismos de adaptação de neurônios individuais e de

redes neurais como um todo.

4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUS-

CA

Problemas nas mais diversas áreas do conhecimento podem ser entendidos como problemas

de busca ou otimização. Encontrar uma rota de custo mínimo entre um centro de distribuição

e as empresas ou consumidores que receberão um produto, ou encontrar os objetos que, em

conjunto, compõem um determinado grupo de uma base de dados, são apenas dois exemplos

de tarefas que podem ser resolvidas por métodos de busca e otimização. Essa seção inicia

com uma revisão mais clássica da tarefa de otimização e prossegue discutindo os conceitos

básicos da solução de problemas via métodos de busca.

4.1 OTIMIZAÇÃO

Otimização refere-se aos conceitos, métodos e aplicações relacionadas à determinação das

melhores (ótimas) soluções para um dado problema. Ela envolve o estudo de condições de

otimalidade, o desenvolvimento e análise de algoritmos, experimentos computacionais e apli-

cações.

Antes de aplicar um algoritmo de otimização para resolver um dado problema, é necessá-

rio desenvolver uma formulação matemática do problema, que descreve todos os aspectos

relevantes do problema, incluindo um objetivo a ser otimizado e um conjunto de restrições a

serem satisfeitas. Portanto, a formulação matemática de um problema de otimização requer a

definição de uma função objetivo a ser otimizada (maximizada ou minimizada), e um conjun-

to de soluções, denominadas soluções factíveis, que satisfazem as restrições do problema.

Por exemplo, considere um problema de otimização formulado como a seguir:

Minimize f(x)

Sujeito a gi(x) 0, i = 1,…,m

hj(x) = 0, j = 1,…,l

x X.

onde as funções f, gi, hj (i = 1,…,m; j = 1,…,l), X , e x n.

Este problema deve ser resolvido para os valores das variáveis x1, x2,…, xn, que satisfazem

as restrições (1) e (2), e que, ao mesmo tempo, minimizam a função f(x).

A função f é geralmente denominada de função objetivo, função custo ou função critério.

Um vetor x que satisfaz todas as restrições, (1) e (2), é denominado de solução factível

do problema.

Fundamentos Matemáticos para Inteligência Artificial

18

O conjunto de todas as possíveis soluções para o problema é denominado de espaço de

busca. O espaço de busca pode ser de duas formas principais: contínuo (número infinito de

possíveis soluções) e discreto (número contável de possíveis soluções).

Dependendo das características e da formulação do problema, sua solução pode ser obtida

de forma algébrica fechada. Entretanto, a maioria dos problemas de otimização apresenta ca-

racterísticas (por exemplo, não linearidade e explosão combinatória de possíveis soluções)

que não permitem uma solução analítica fechada, requerendo a aplicação de processos itera-

tivos de busca por uma solução, partindo de uma dada condição inicial. A presença de restri-

ções complica ainda mais o problema, dividindo o espaço de possíveis soluções em soluções

factíveis e soluções infactíveis.

Outro aspecto que deve ser considerado é a característica de convergência do processo ite-

rativo de busca. Três condições são desejáveis: garantia de convergência, velocidade de con-

vergência e convergência para uma solução de boa qualidade, ou seja, uma solução ótima ou

satisfatória.

Resolver o problema de minimização formulado acima corresponde a encontrar uma solu-

ção factível x* tal que f(x*) f(x), x n. O vetor x* é denominado de um ótimo ou um

mínimo do problema. A solução x* que satisfaz esta condição é denominada de ótimo global,

ou mínimo global, pois ela corresponde ao menor valor factível possível da função objetivo.

Diferentemente do ótimo global, um ótimo local é uma solução factível x* em uma dada vi-

zinhança N de um ponto y, se e somente se f(x*) f(y), y N(x*), onde N(x) = {y F

: dist(x,y) }, dist é uma função que determina a distância entre x e y, e é uma constante

positiva. Nota: maximizar uma função é equivalente a minimizar o negativo desta função:

(max f(x) = min f(x)). A Figura I.7 ilustra os conceitos de ótimo local e global.

Ótimo global (mínimo)

Ótimos locais (mínimos)

Figura I.7: Conceitos de ótimo (mínimo) local e global.

4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA

Sob uma perspectiva de aprendizagem de máquina, um problema pode ser entendido como

uma coleção de informações a partir das quais algo deverá ser extraído ou inferido. Exem-

plos:

Fundamentos Matemáticos para Inteligência Artificial

19

1. Função numérica a ser otimizada: f(x) = x3 + x + 1.

2. Sequenciamento de tarefas: dado um conjunto de máquinas, operadores, jornadas

de trabalho, etc., qual configuração leva a uma melhor distribuição

tarefa/operador?

3. Dado um conjunto de objetos, encontre a melhor forma de separá-los em grupos

tal que a soma das distâncias intragrupos seja sempre menor que a soma das

distâncias intergrupos.

O processo de resolução do problema corresponderá a tomada de ações (passos), ou

sequências de ações (passos), que levam a um desempenho desejado, ou melhoram o

desempenho relativo de soluções candidatas. Este processo de procura por um desempenho

desejado ou um melhor desempenho é denominado de busca.

Um algoritmo de busca terá como entrada um problema e retornará como saída uma

solução. Neste caso, uma ou mais soluções candidatas podem ser utilizadas no processo de

busca. Os métodos que utilizam mais de uma solução candidata no processo de busca são

denominados de métodos populacionais (p.ex., algoritmos evolutivos).

O primeiro passo na resolução de um problema é a formulação do problema, que irá

depender das informações disponíveis. Três conceitos são fundamentais na resolução de

problemas via métodos de busca:

1. Escolha de uma representação: codificação de soluções candidatas, que por sua vez

sofrerão algum tido de manipulação. Sua interpretação implicará no espaço de busca

e sua dimensão. O espaço de busca é definido pela sua configuração (estado) inicial e

pelo conjunto de possíves configurações (estados).

2. Especificação de um objetivo: é a descrição de uma meta. Trata-se de uma expressão

(e não uma função) matemática que descreve o problema.

3. Definição de uma função de avaliação: retorna um valor específico indicando a

qualidade (relativa) de uma solução candidata particular, dada a representação

adotada. Trata-se geralmente de um mapeamento do espaço de soluções candidatas,

dada a representação adotada, para um conjuto de números, onde cada elemento do

espaço de soluções candidatas possui um valor numérico indicativo de sua qualidade.

Geralmente o objetivo sugere uma função de avaliação particular.

4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA

Dado um espaço de busca S e uma região F factível deste espaço, F S, encontre x F tal

que:

eval(x*) eval(x), x F

Trata-se assim, de um problema de minimização, onde valores menores de x são considerados

de qualidade superior.

Fundamentos Matemáticos para Inteligência Artificial

20

O ponto x* que satisfaz a condição acima é dito ser o ótimo global ou mínimo global do

problema. Ao contrário do ótimo global, uma solução x F é dita ser um ótimo local em

relação a uma vizinhança N de um ponto y, se e somente se

eval(x) eval(y), y N(x),

onde N(x) = {y S : dist(x,y) }, dist é uma função que determina a distância entre x e y, e

é uma constante positiva.

A função de avaliação define uma superfície de resposta semelhante a uma topografia de

vales e picos. Sendo assim, a determinação de soluções ótimas para um problema

corresponde a uma busca por picos (assumindo maximização) em uma superfície de

resposta.

Essa superfície pode apresentar uma grande quantidade de picos, platôs, vales, etc., o que

dificulta o processo de busca e a determinação de ótimos locais e globais. Métodos de busca

eficientes devem ser capazes de fornecer um equilíbrio entre dois objetivos aparentemente

conflitantes: busca local (do inglês exploitation) e exploração do espaço de busca (do inglês

exploration).

5 CONCEITOS ELEMENTARES EM ESTATÍSTICA

A estatística pode ser entendida como uma coleção de métodos usados para planejar experi-

mentos, coletar, organizar, sumarizar, analisar e interpretar dados de forma a extrair conclu-

sões a partir deles. Esta seção faz uma breve revisão sobre conceitos elementares em estatísti-

ca que serão necessários no livro.

5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS

Uma população é a coleção completa de elementos a serem estudados, por exemplo, valores,

medidas, cidades, etc. Amostra é um subconjunto dos elementos extraído da população. Um

atributo é uma medida que descreve uma característica de uma população. Cada uma destas

características é denominada de variável e pode ser classificada em quantitativa (numérica)

ou qualitativa (não numérica), como resumido na Figura I.8. Uma variável quantitativa cor-

responde a números que representam contagens ou medições, podendo ser dividida em dis-

creta (com um número finito ou contável de valores possíveis) ou contínua (com um número

infinito de possíveis valores). Uma variável qualitativa pode ser dividida em nominal (consis-

tindo apenas de nomes, rótulos ou categorias) ou ordinal (envolvendo variáveis que podem

ser ordenadas).

Fundamentos Matemáticos para Inteligência Artificial

21

Variáveis

Qualitativas Quantitativas

Nominal Ordinal Contínua Discreta

Figura I.8: Tipos de variáveis em estatística.

A estatística pode ser dividida em três ramos:

1. Estatística descritiva: que tem por objetivo descrever e sumarizar os dados obtidos

de uma amostra ou experimento;

2. Probabilidade: é a teoria matemática usada para estudar a incerteza de eventos alea-

tórios;

3. Estatística inferencial: ramo da estatística que se ocupa da generalização da infor-

mação e conclusões obtidas.

5.2 PROBABILIDADE

5.2.1 Evento e Espaço Amostral

Seja um evento uma coleção de resultados de um experimento. Um evento simples é aquele

que não permite decomposição. O espaço amostral, , de um experimento corresponde a to-

dos os possíveis eventos.

5.2.2 Probabilidade

A probabilidade é uma função P() que atribui um valor numérico aos eventos em um espaço

amostral satisfazendo as seguintes condições:

(1) 0 P(A) 1, A .

(2) P() = 1.

(3)

n

j

j

n

j

j APAP11

)( , onde Aj’s são eventos disjuntos.

A probabilidade de ocorrência de um determinado evento pode ser aproximada, ou estimada,

pela sua frequência relativa:

oexperiment do repetições de número

evento do socorrência de número)(

AAP .

Assuma que um experimento possua n diferentes eventos, cada qual com a mesma chance de

ocorrer. Se o evento A ocorre em s de n formas, então:

n

sAAP

diferentes simples eventos de número

ocorrer pode que formas de número)( .

Fundamentos Matemáticos para Inteligência Artificial

22

O complemento Ā do evento A consiste em todos os resultados nos quais o evento A não

ocorre.

A probabilidade da união dos eventos A e B, P(A B) é dada pela lei da adição:

P(AB) = P(A) + P(B) P(AB),

onde P(AB) corresponde à probabilidade de que ambos eventos ocorram simultaneamente

em um dado experimento.

5.2.3 Probabilidade Condicional

Em muitos casos um processo aleatório pode ser dividido em estágios e a informação corres-

pondente ao que aconteceu em certo estágio pode influenciar a probabilidade de ocorrência

de outros estágios.

A probabilidade condicional P(A|B) (leia-se ‘probabilidade de A dado B’) é a probabilida-

de de que um evento A ocorra dado que B já ocorreu:

0)(,)(

)()|(

BP

BP

BAPBAP .

Partindo da definição de probabilidade condicional é possível deduzir a lei da multiplicação

das probabilidades:

P(AB) = P(A | B) P(B), com P(B) > 0.

Dois eventos A e B são ditos independentes se a informação sobre a ocorrência ou não de B

não altera a probabilidade de ocorrência de A e vice-versa, ou seja:

P(A | B) = P(A), P(B) > 0.

Ou equivalentemente

P(AB) = P(A)P(B).

5.2.4 Teorema de Bayes

Uma das relações mais importantes envolvendo probabilidade condicional é dada pelo Teo-

rema de Bayes, que expressa uma probabilidade condicional em termos de outras probabili-

dades condicionais e marginais (ou seja, probabilidade de um evento ocorrer ignorando os

outros).

Assuma que os eventos C1, C2, … , Ck, formam uma partição de e que suas probabilida-

des são conhecidas. Assuma também que para o evento A as probabilidades P(A|Ci) são co-

nhecidas para i = 1, 2, ... , k. Assim, para qualquer j,

kjAP

CPCAPACP

jj

j ,...,2,1,)(

)()|()|( .

5.2.5 Contagem

Dados dois eventos, o primeiro ocorrendo de m formas distintas e o segundo ocorrendo de n

formas distintas. Ambos os eventos podem ocorrer de n.m formas distintas. Uma permutação

Fundamentos Matemáticos para Inteligência Artificial

23

é uma lista ordenada sem repetições, ou seja, uma sequência ordenada na qual não há dois

elementos iguais, retirados de um conjunto fixo de símbolos e de comprimento máximo. As-

sim, uma diferença essencial entre uma permutação e um conjunto é que os elementos da

permutação são organizados em uma ordem pré-definida.

O número de possíveis permutações, também denominadas de arranjos, de k elementos

escolhidos a partir de n elementos, P(n,k), sem repetição é:

)!(

!),(

kn

nknP

,

onde o símbolo “!” corresponde à função fatorial: n! = n (n 1) (n 2) ... 1, e, por

definição, 0! = 1.

Se há repetições, ou seja, se há n elementos com n1 elementos do mesmo, n2 elementos do

mesmo, etc., então o número de permutações é:

!!...!

!

21 knnn

nP .

O número de combinações de k elementos extraídos de um conjunto com n elementos distin-

tos é o coeficiente binomial:

!)!(

!),(

kkn

n

k

nknC

5.3 VARIÁVEIS ALEATÓRIAS

5.3.1 Variável Aleatória

Uma variável aleatória X é uma variável que admite um valor numérico para cada resultado

de um experimento. A palavra aleatória indica que, normalmente, só podemos saber seu va-

lor após a execução do experimento. Portanto, para cada valor possível da variável há uma

probabilidade associada.

5.3.2 Variável Aleatória Discreta

Uma variável aleatória discreta admite um número finito ou contável de possíveis valores.

Por outro lado, uma variável aleatória contínua pode assumir uma quantidade infinita de va-

lores, que podem estar associados a uma escala contínua.

5.3.3 Distribuições de Probabilidade

O termo probabilidade se refere à frequência relativa de ocorrência de um dado ou evento

qualquer, ou seja, a probabilidade associada a um evento qualquer é o número de vezes que

tal evento pode ocorrer em relação ao número total de eventos.

A distribuição de probabilidade especifica uma probabilidade para cada valor possível de

uma variável aleatória. No caso de variáveis aleatórias discretas tem-se uma função probabi-

lidade de massa (pmf, do inglês probability mass function) e para variáveis aleatórias contí-

Fundamentos Matemáticos para Inteligência Artificial

24

nuas tem-se uma função densidade de probabilidade (pdf, do inglês probability density func-

tion). A pmf fornece a probabilidade de ocorrência de cada valor de uma variável aleatória

discreta. Qualquer distribuição P deve satisfazer as seguintes condições:

(1) P(X) = 1, X; e

(2) 0 P(X) 1, X.

Algumas variáveis aleatórias aparecem com frequência em aplicações práticas, motivando

um estudo mais aprofundado. Nestes casos, a distribuição de probabilidade deve ser escrita

de forma compacta, ou seja, existe uma regra para se atribuir as probabilidades. Alguns

exemplos são a distribuição uniforme, a distribuição binomial, a distribuição normal e a dis-

tribuição de Poisson:

1. Distribuição uniforme: uma variável aleatória discreta Xi, i = 1, … , k, segue uma

distribuição uniforme se a mesma probabilidade 1/k é atribuída a cada um dos k valo-

res da variável Xi.

2. Distribuição binomial: uma variável aleatória discreta Xi, i = 1, … , k, segue uma

distribuição binomial se ela obedece a seguinte distribuição: C(n,k).pk.(1 p)

nk, onde

C(n,k) é o coeficiente binomial, n é o número de (Bernoulli) tentativas e p é a probabi-

lidade de sucesso.

3. Distribuição normal: a distribuição normal ou Gaussiana é uma distribuição de pro-

babilidade contínua que ocorre com grande frequência prática. Dada uma variável

aleatória contínua x, uma distribuição normal possui a seguinte forma:

2),,(

2

2

2

)(

x

exf ,

onde é a média da distribuição e seu desvio padrão.

4. Distribuição de Poisson: uma variável aleatória discreta X tem uma distribuição de

Poisson com parâmetro > 0 se sua função de probabilidade é dada por (e

k)/k!,

k = 1, 2, ….

A Figura I.9 apresenta o gráfico de diferentes distribuições de probabilidade para uma variá-

vel aleatória X = 1,..., 50. Para distribuição uniforme, todos os valores de X possuem probabi-

lidade igual a 0,05. A distribuição binomial foi parametrizada com 25 tentativas e 0,7 de pro-

babilidade de sucesso. Para distribuição normal, a variável X foi tratada como uma variável

aleatória contínua com média 25,5 e desvio padrão 7. A distribuição de Poisson foi parame-

trizada com igual a 5.

Fundamentos Matemáticos para Inteligência Artificial

25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

0,20

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49

Uniforme Binomial Normal Poisson

Figura I.9: Diferentes distribuições de probabilidade.

5.4 MEDIDAS RESUMO

Algumas medidas podem ser usadas para resumir a informação contida em uma distribuição

de probabilidade de uma variável aleatória ou sumarizar a informação contida em uma base

de dados. Três tipos de medidas são importantes, as medidas de tendência central, as medidas

de dispersão e as medidas de forma da distribuição.

5.4.1 Medidas de Tendências Central

Uma medida de tendência central corresponde a um valor central ou um valor típico de uma

distribuição de probabilidade. É um valor único que tenta descrever um conjunto de dados

por meio da identificação de sua posição central. As medidas de tendência central mais co-

muns são média, mediana e moda, resumidas na Tabela I.1:

o Média: também conhecida como valor esperado, em uma base de dados é dada sim-

plesmente pela soma de todos os valores dividida pela quantidade de valores soma-

dos.

o Mediana: é o valor central, ou seja, o valor numérico que separa as duas metades de

uma amostra ou população. Se o número de observações é ímpar, toma-se o valor do

meio; se é par, a mediana é tomada como sendo a média dos dois valores centrais. Em

ambos os casos ordena-se as observações para que se encontre a mediana.

o Moda: é o valor que ocorre com maior frequência na base de dados.

Tabela I.1: Medidas de tendência central para uma base de dados e variáveis aleatórias discretas: média, medi-

ana e moda (Md é a moda).

Base de Dados Variável Aleatória

Fundamentos Matemáticos para Inteligência Artificial

26

Média

N

i

ixN

x1

1

N

i

ii XpN 1

1

Mediana Valor central P(X Md) 0.5 e P(X Md) 0.5

Moda Valor mais frequente Valor mais provável

5.4.2 Medidas de Dispersão

Enquanto as medidas de tendência central buscam valores centrais, as medidas de dispersão

ou espalhamento expressam quantitativamente a variabilidade, ou dispersão, dos dados. Dito

de outra forma, as medidas de dispersão denotam o quanto uma distribuição está compacta ou

alongada. As medidas de dispersão mais comuns são a variância e o desvio padrão, resumi-

das na Tabela I.2:

o Variância: mede a dispersão de um conjunto de valores e é sempre não negativa.

Uma variância pequena indica que os dados tendem a estar bem próximos à média e,

portanto, uns aos outros. Valores grandes de variância indicam dados dispersos, ou se-

ja, distantes da média e uns dos outros.

o Desvio Padrão: é a raiz quadrada da variância, particularmente relevante como uma

medida de referência da variabilidade dos dados em relação à média. Por exemplo, ao

se dizer que em uma distribuição normal um determinado valor está a três desvios pa-

drões da média, já se sabe que ele está significativamente distante da maioria dos ou-

tros valores.

Tabela I.2: Medidas de dispersão para bases de dados e variáveis aleatórias: variância e desvio padrão.

Base de Dados Variável Aleatória

Variância

N

i

i xxN

x1

2)(1

)var(

N

i

ii XpX1

2)()var(

Desvio Padrão )var()( xx )var()( XX

5.4.3 Medidas de Forma

As medidas de forma trazem informações sobre o formato da distribuição. A assimetria

(do inglês skewness), , é a medida de assimetria da função de distribuição de probabilidade

de uma variável aleatória em torno de sua média. Se a assimetria for negativa a distribuição

tende para direita, mas se for positiva tende para esquerda, como ilustra a Figura I.10. A as-

simetria é calculada como:

3

3)(

xx

E,

onde é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou

esperança da variável.

Fundamentos Matemáticos para Inteligência Artificial

27

(a) (b)

Figura I.10: Exemplo de duas funções de distribuição de probabilidade. (a) Assimetria negativa. (b) Assimetria

positiva.

A curtose (do inglês kurtosis), β, é a medida de dispersão que caracteriza o pico ou achata-

mento da curva da função de distribuição de probabilidade de uma variável aleatória. Se a

curtose for igual à zero, então o pico da curva possui achatamento similar à distribuição nor-

mal; se a curtose for positiva, então o pico da função é mais afunilado e a função é mais con-

centrada; e se a curtose for negativa, então o pico da função é mais achatado e a função é

mais dispersa. A Figura I.11: ilustra o exemplo de curvas com diferentes valores de curtose.

A curtose é dada pela equação:

4

4)(

xx

E,

onde é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou

esperança da variável.

Fundamentos Matemáticos para Inteligência Artificial

28

3

2

1,2

0

-0,6

-1.2

Figura I.11: Exemplo de diferentes curvas com o valor de curtose na legenda.

5.5 MEDIDAS DE ASSOCIAÇÃO

Para duas variáveis (aleatórias) distintas é possível determinar se há alguma dependência en-

tre elas usando alguma medida de associação. Por exemplo, se duas variáveis desviam de su-

as respectivas médias de maneira similar, é possível dizer que elas são covariantes, ou seja,

há uma correlação estatística entre suas ‘flutuações’.

Assuma uma base de dados com N pares (xi,yi), i = 1, 2, … , N. A covariância, cov(x,y),

entre duas variáveis aleatórias x e y é dada por:

N

i

ii yyxxN

yx1

))((1

),cov( .

Note que a variância e o desvio padrão operam em uma única dimensão, ou seja, em uma

única variável da base independentemente das outras. A covariância, por outro lado, é sempre

medida entre duas variáveis. Se a covariância for calculada entre uma dimensão e ela mesma

o resultado e a variância.

Uma forma intuitiva de generalizar os conceitos de variância e covariância para espaços de

múltipla dimensão é usando a matriz de covariância, também conhecida como matriz de va-

riância-covariância, normalmente representada por . A matriz de covariância é aquela cujo

elemento ij corresponde à covariância entre os elementos i e j da base de dados:

Fundamentos Matemáticos para Inteligência Artificial

29

ij = cov(xi,xj), i,j.

Note que as variâncias aparecem na diagonal principal da matriz, que é quadrada e simétrica,

e as covariâncias aparecem fora da diagonal.

Como o valor da covariância depende da escala usada para medir x e y, é difícil usá-la co-

mo um padrão para comparar o grau estatístico de associação de diferentes pares de variáveis.

Para resolver este problema, um fator de escala pode ser aplicado dividindo cada desvio indi-

vidual pelo desvio padrão da respectiva variável, resultando no coeficiente de correlação, co-

nhecido como coeficiente de correlação de Pearson:

)().(

),cov(),(

yx

yxyx

.

O coeficiente de correlação, (x,y), mede a dependência linear entre as variáveis. Em outras

palavras, ele determina se há uma relação (linear) entre as variáveis. Quando aplicada a uma

amostra ela é normalmente representada pela letra r e é conhecida como coeficiente de corre-

lação amostral de Pearson:

N

j

j

N

j

j

N

i

ii

yyxx

yyxx

r

1

2

1

2

1

)(.)(

))((

.

Note que o coeficiente de correlação entre as variáveis x e y pode assumir valores no interva-

lo [1, 1], onde 1 é uma correlação totalmente positiva, 0 significa ausência de correlação e

1 é uma correlação totalmente negativa. Um valor 1 significa que uma equação linear des-

creve perfeitamente a relação entre as variáveis, sendo que as duas crescem ou decrescem

juntas. Um valor 1 indica o oposto, ou seja, quando uma variável cresce a outra decresce.

5.6 ENTROPIA DA INFORMAÇÃO

Em teoria da informação, a entropia de Shanon ou entropia da informação, é uma medida da

incerteza associada a uma variável aleatória. Ela quantifica a informação contida em uma

mensagem, geralmente em bits ou bits/símbolo, e corresponde ao comprimento mínimo da

mensagem para comunicar informação.

A entropia também pode ser vista como o conteúdo da informação. No caso de uma fonte

de dados, ela corresponde ao número médio de bits por símbolo necessários para codificá-la e

depende, essencialmente, de um modelo probabilístico. Por exemplo:

o Uma moeda possui uma entropia de um bit. Se a moeda estiver viciada, então a incer-

teza é menor e, portanto, a entropia é menor. Nota: a probabilidade de ocorrência de

cada face da moeda quando lançada é a mesma (50%).

o Uma longa sentença de caracteres repetidos possui uma entropia nula, pois todo carac-

tere é previsível. Nota: a probabilidade de ocorrência de cada caractere é máxima.

Fundamentos Matemáticos para Inteligência Artificial

30

A entropia da informação de uma variável aleatória X, que pode assumir os valores {x1, x2, ...

, xn} é:

n

i

ibin xpxpxxxIXI1

21 )(log)(),...,,()( ,

onde I(X) é o conteúdo da informação ou auto-informação de X, que é uma variável aleatória;

p(xi) = Pr(X = xi) é a probabilidade de xi; e b é a base do logaritmo. Nota: 0log0 é assumido 0.

As principais propriedades da entropia são:

o Continuidade: a entropia é contínua, ou seja, pequenas mudanças nos valores das

probabilidades resultam em pequenas mudanças nos valores da entropia.

o Simetria: a medida não muda se os resultados dos experimentos (xi) forem reordena-

dos.

o Máximo: a medida é máxima se todos os resultados forem igualmente prováveis.

o Aditividade: a entropia independe do processo estar dividido em partes ou não.

Valores possíveis de b são 2, e e 10. A unidade de medida da entropia é o bit para b = 2, nat

para b = e, e dit para b = 10.

Para entender o significado da equação da entropia, considere primeiramente o conjunto

dos n eventos possíveis de mesma probabilidade p(xi) = 1/n. A incerteza u deste conjunto de n

resultados é definida por:

U = logb(n).

O logaritmo é usado para fornecer a característica de aditividade para as incertezas indepen-

dentes. Por exemplo, considere o resultado de um experimento com n possíveis valores se-

guido do resultado de outro experimento com m possíveis valores. A incerteza do conjunto de

nm resultados é:

u = logb(nm) = logb(n) + logb(m).

Assim, a incerteza associada aos dois experimentos é obtida somando-se a incerteza de cada

um dos experimentos isoladamente. Como a probabilidade de cada evento isoladamente é

1/n, é possível escrever

u = logb(1/p(xi)) = logbp(xi), i.

Quanto menor a probabilidade, maior a entropia:

p(xi) 0, implica em ui .

5.7 A CURVA NORMAL

Em estatística, a curva normal é uma distribuição comum na qual é possível determinar a

probabilidade associada a todos os pontos da linha de base da distribuição. Ela pode ser vista

como uma distribuição de frequências, onde a frequência total sob a curva é 100%. Essa cur-

Fundamentos Matemáticos para Inteligência Artificial

31

va apresenta uma área central que circunda a média ū onde se localizam os escores mais fre-

quentes e há, ainda, áreas progressivamente menores nas extremidades ou caudas ().

ū 2 2 3 3

68,26%

95,44%

99,74%

Figura I.12: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.

Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da curva normal

é empregada uma tabela. O cálculo da distância sigma a partir da média ū produz um valor

chamado escore z ou escore padronizado, que indica, em unidades de desvio padrão, o senti-

do e o grau com que um dado escore bruto se afasta da média da sua distribuição de frequên-

cias:

z = (u ū)/,

onde é o desvio padrão da distribuição.

Por exemplo, um escore z de 1,4 significa que o escore bruto está a 1,4 (1,4 desvio padrão) à

direita da média. O escore z também pode ser usado para a comparação de valores de diferen-

tes conjuntos de dados.

5.8 INTERVALO DE CONFIANÇA

Um intervalo de confiança está associado ao nível de confiança correspondente a uma medi-

da de certeza de que o intervalo contém um parâmetro da população. O nível de confiança é a

probabilidade (1 ), normalmente expressa como um valor percentual, de que o intervalo

de confiança contém o valor verdadeiro daquele parâmetro. Escolhas comuns para o nível de

confiança são 90%, 95% e 99%, pois eles fornecem um bom equilíbrio entre precisão e con-

fiança.

Para amostras com mais de 30 objetos (grandes amostras) e assumindo uma distribuição

normal, o intervalo de confiança da média, , da população é dado por:

Nzx

Nzx

μ ,

Fundamentos Matemáticos para Inteligência Artificial

32

onde x é a média da amostra e N

zE

é a margem de erro (a máxima diferença provável

entre a média amostral e a média populacional).

O parâmetro z é chamado de valor crítico e assume alguns valores padronizados com base

no nível de confiança desejado: 90% z = 1.645; 95% z = 1.96; e 99% z = 2.575. O

parâmetro é o desvio padrão da população e pode ser substituído pelo desvio padrão amos-

tral quando seu valor populacional não é conhecido.

É possível determinar o menor tamanho da amostra para estimar certo parâmetro, como a

média da população, a partir da equação da margem de erro:

2

E

zN

.

6 BIBLIOGRAFIA

Anton, H. A. (2000), Elementary Linear Algebra, Wiley.

Bazaraa, M. S., Sherali, H. D. and Shetty, C. M. (1993), Nonlinear Programming: Theory

and Algorithms, John Wiley and Sons, Inc., New York, 2nd

Ed.

Bondy, J. A. and Murty, U. S. R. (1976), Graph Theory with Applications, Elsevier North-

Holland.

Chen C.-T. (1984), Linear Systems: Theory and Design, New York: Holt, Rinehart and

Winston.

de Castro, L. N., Fundamentals of Natural Computing: Basic Concepts, Algorithms, and

Applications. CRC Press, 2006.

Diestel, R. (2000), Graph Theory, 2nd

Edition, Springer-Verlag.

Garey, M. and Johnson, D. (1979), Computers and Intractability, Freeman.

Lay, D. C. (2002), Linear Algebra and Its Applications, Addison Wesley, 3rd

Ed..

Levin, J. Estatística Aplicada a Ciências Humanas, Harbra, 1978.

Lipschutz, S. and Lipson, M. (1997), Shaum’s Outlines: Discrete Mathematics, McGraw-

Hill.

Lipschutz, S. and Lipson, M. (2000), Shaum’s Outlines: Linear Algebra, McGraw-Hill.

Luenberger, D. G. (1989), Linear and Nonlinear Programming, 2nd

Ed, Kluwer Academic

Publishers.

Michalewicz, Z. and Fogel, D. B. (2000), How to Solve It: Modern Heuristics, Springer-

Verlag.

Naadimuthu, G. (1997), Schaum's Outline of Operations Research, Schaum, 2nd

Ed.

Nocedal, J. and Wright, S. J. (1999), Numerical Optimization, Springer-Verlag.

Fundamentos Matemáticos para Inteligência Artificial

33

Rardin, R. L. (1998), Optimization in Operations Research, Prentice-Hall.

Triola, M. F. Introdução à estatística. 7. ed. LTC Livros Técnicos e Científicos Editora

S.A., 1999;

Tutte, W. T. (1984), Graph Theory, Encyclopedia of Mathematics and Its Applications, 21,

Addison-Wesley Publishing Co., Reading, Mass.