3 sistemas neuro-fuzzy hierárquicos · número de entradas permissíveis e quanto à criação de...

3 Sistemas Neuro-Fuzzy Hierárquicos 3.1 Introdução

Sistemas neuro-fuzzy (SNF) são sistemas híbridos que combinam as

vantagens das redes neurais, no que se refere ao aprendizado, com o poder de

interpretação lingüístico dos sistemas de inferência fuzzy.

Os sistemas neuro-fuzzy realizam, internamente, um mapeamento entre

regiões do espaço de entrada em regiões fuzzy do espaço de saída, através de

regras fuzzy do sistema. As regiões fuzzy do espaço de E/S são determinadas no

processo de identificação da estrutura. Nesse processo, os espaços de entrada e/ou

saída são divididos segundo um determinado método de partição. As variáveis de

entrada e saída dos sistemas neuro-fuzzy são divididas em vários termos

lingüísticos (por exemplo: baixo, alto) que são utilizados pelas regras fuzzy.

Os sistemas neuro-fuzzy atuais apresentam limitações quanto ao reduzido

número de entradas permissíveis e quanto à criação de sua própria estrutura e

regras. Os modelos neuro-fuzzy hierárquicos possuem capacidade de criar e

expandir automaticamente sua estrutura, reduzem a limitação quanto ao número

de entradas, e são capazes de extrair regras de conhecimento a partir de um

conjunto de dados.

Este capítulo apresenta os modelos Neuro-Fuzzy Hierárquicos BSP

Takagi-Sugeno, NFHB-Class e NFHB Mamdani, criados por [SOUZ99],

[GONÇ01] e [BEZE02] respectivamente.

DBD

PUC-Rio - Certificação Digital Nº 0024859/CA

Capitulo III 40

3.2 Principais Tipos de Particionamentos

Nos Sistema Neuro-Fuzzy o particionamento do espaço de entrada indica a

forma como as regras fuzzy estão relacionadas no espaço. Os particionamentos

mais utilizados pelos SNF estão ilustrados na Figura 3.1. Esses tipos de

particionamentos se referem a um espaço bidimensional, embora possam ser

generalizados para uma dimensão maior.

A Figura 3.1 mostra vários tipos de particionamento para o espaço de

entrada, onde as variáveis de entrada correspondem às dimensões horizontal e

vertical de cada figura.

Figura 3.1 Particionamentos mais comuns dos sistemas neuro-fuzzy

O particionamento Fuzzy Grid é fixo, não permitindo ajustes nas funções

de pertinência. Os sistemas que o utilizam ajustam apenas os parâmetros dos

conseqüentes. O particionamento Adaptative Fuzzy Grid permite ajustes nos

perfis das funções de pertinência. O particionamento Fuzzy Box aparece em

sistemas que utilizam aprendizado Self-Organization Map e o particionamento

Fuzzy Cluster é gerado por redes neurais do tipo Redes de Funções de Bases

Radiais RBFs.

DBD


Capitulo III 41

O particionamento BSP é utilizado para dividir o espaço de entrada e criar

a estrutura hierárquica binária do modelo NFHB. No particionamento BSP, o

espaço é dividido sucessivamente, em duas regiões. Este particionamento pode ser

representado por uma árvore BSP que ilustra as sucessivas sub-divisões do espaço

n-dimensional em subespaços fechados. O processo de construção desta árvore

toma um subespaço e o divide por um hiperplano de dimensão ‘n-1’ que passa

pelo interior deste subespaço. Isto resulta em dois novos subespaços, não

necessariamente iguais, que podem ser posteriormente particionados pela

aplicação do mesmo método (recursividade). A Figura 3.2, ilustra, para o caso

bidimensional, um exemplo deste tipo de particionamento e sua respectiva árvore

representativa.

F

A B

C D EF

EC

BA

D

1x

2x

(a) (b)

Figura 3.2 (a) Particionamento BSP. (b) Árvore BSP referente ao

particionamento BSP.

O particionamento mostrado na Figura 3.2 mostra que o espaço foi

dividido em duas partes na direção da dimensão vertical (variável X2). A partição

superior foi subdividida em duas novas partições A e B, segundo a direção da

DBD


Capitulo III 42

dimensão horizontal (variável X1). A partição inferior, por sua vez, foi subdividida

sucessivamente, na direção horizontal e vertical, gerando finalmente as partições

C, D, E e F. A Figura 3.2 mostra cada partição final representada por nós folhas

na árvore BSP. Cada partição final é representada por nós-folhas na árvore BSP.

Os nós interiores representam as diversas partições intermediárias realizadas.

3.3 Modelo Neuro-Fuzzy Hierárquico BSP

Utilizando o particionamento recursivo BSP foi criada a célula básica

neuro-fuzzy BSP que dá origem ao modelo Neuro-Fuzzy Hierárquico BSP,

criado por [SOUZ99], e às extensões deste desenvolvidas por [GONÇ01] e

[BEZE02]. O modelo NFHB é composto de uma ou várias células BSP dispostas

numa estrutura hierárquica de árvore binária. A célula de maior hierarquia gera a

saída, as de menor hierarquia trabalham como conseqüentes das células de maior

hierarquia e as células intermediárias e a de saída têm como conseqüentes as

saídas das células de menor hierarquia.

3.3.1 Célula Neuro-Fuzzy BSP

Uma célula NFHB (Neuro-Fuzzy Hierárquico Binário) é um mini sistema

neuro-fuzzy que realiza um particionamento fuzzy binário em um determinado

espaço, segundo as funções de pertinência sigmóide ρ (baixo) e µ (alto). A célula

NFHB gera uma saída precisa (crisp) após um processo de defuzzificação.

A Figura 3.3 ilustra o processo de defuzzificação da célula e o

encadeamento dos conseqüentes. Nesta célula, a entrada ‘x’ gera os antecedentes

das duas regras fuzzy após serem computados os graus de pertinência ρ(x) e µ(x)

DBD


Capitulo III 43

onde: ρ é o conjunto nebuloso baixo e µ é o conjunto nebuloso alto. A Figura 3.4

ilustra a representação desta célula de forma simplificada.

ix

x

x

µρ

1d2d ∑

y

1d y

x (entrada )

(saída)2d

Figura 3.3 Interior da Célula Neuro-Fuzzy Figura 3.4 Célula Neuro-Fuzzy Simplificada. BSP.

Nesta célula, ‘x’ representa a entrada e ρ e µ são as funções de pertinência

que geram os antecedentes das duas regras. A interpretação lingüística do

mapeamento implementado pela célula NFHB é dada pelo seguinte conjunto de

regras:

Regra 1: Se x ∈ ρ então y = d1. (partição 1)

Regra 2: Se x ∈ µ então y = d2. (partição 2)

A regra 1 tem maior nível de disparo quando as entradas incidem sobre a

partição 1; e a regra 2 tem maior nível de disparo quando a incidência é sobre a

partição 2.

As funções de pertinência ρ e µ têm seu perfil descrito pela Figura 3.5.

x

1

b

aθθ ~, tgµρ

Figura 3.5 Exemplo de perfil das funções de Pertinência da célula BSP.

( ) [ ] −=

− = b x a sig i µρ

µ1

DBD


Capitulo III 44

A saída (crisp) ‘y’ de uma célula NFHB é dada pela equação a seguir.

( ) dixyi

i∑=

=2

1*α Equação 3.1

Onde os αi’s simbolizam o nível de disparo das regras e são dados por α1

= ρ e α2 = µ.

Cada di da Equação 3.1 corresponde a um dos três conseqüentes possíveis:

singleton, combinação linear das entradas, ou saída de um estágio de nível

anterior [SOUZ99].

3.3.2 Arquitetura NFHB

Pode-se criar modelos NFHB a partir da interligação de várias células

NFHB na forma de uma árvore binária. A seguir a Figura 3.6 ilustra uma pequena

estrutura NFHB; o seu respectivo particionamento BSP é mostrado pela Figura

3.7. Cada partição não subdividida é chamada de bi-partição.

BSP

1

BSP

2

BSP

12

BSP

0 122 d

22 d

121 d

11 d

21 d

2 X

2 X 1 X

1X

y1

y2

12 y

y ( saída )

Figura 3.6 Exemplo de um sistema NFHB. Figura 3.7 Particionamento do espaço de entrada do sistema NFHB.

DBD


Capitulo III 45

Nesta estrutura NFHB as partições inicias 1 e 2 (célula ‘BSP 0’) foram

subdivididas, portanto os conseqüentes de suas regras são as saídas dos

subsistemas 1 e 2, respectivamente. Estes, por sua vez, têm, como conseqüentes

os valores d11, y12, d21, d22, respectivamente. O conseqüente y12 é a saída da

célula ‘BSP 12’. Cada ‘di’ corresponde a um ‘singleton’ ou a uma combinação

linear das entradas.

A saída do sistema NFHB de 3 níveis mostrado pela Figura 3.6 é dada pela

Equação 3.2 a seguir. As variáveis ki e kij assumem apenas valores iguais a ‘0’ou

‘1’, indicando a existência ou não das bi-partições de ordem ‘i’e ‘ij’,

respectivamente.

∑=

+××=2

1iiii dky α ∑∑

= =

+×××2

1

2

1i jijijiji dkαα

∑∑∑= = =

××××2

1

2

1

2

1i j kijkijkijkiji dkααα

Equação 3.2

onde:

• αi, αij, αijk, são os níveis de disparo das regras de cada bi-partição i,

ij, ou ijk, respectivamente;

• ki (kij, kijk), é igual a ‘1’ se a partição i, (ou ij, ou ijk) existe e ‘0’

caso contrário;

• di, dij, dijk, são os conseqüentes (singletons ou combinações

lineares) das regras existentes.

O conjunto de regras que traduz lingüisticamente o exemplo da Figura 3.6

é:

DBD


Capitulo III 46

Se x1 é baixo (x1 ∈ ρ0) então

{Se x2 é baixo (x2 ∈ ρ1) então y = d11

Se x2 é alto (x2 ∈ µ1) então


Se x1 é alto (x1 ∈ µ12) então y = d122}

}

Se x1 é alto (x1 ∈ µ0) então


Se x2 é alto (x2 ∈ µ2) então y = d22}

Onde:

• ρ0 , µ0 , ρ1 , µ1 , ρ2 , µ2 , ρ12 , µ12 , são as funções de pertinência

que definem a partição de nível 0, a subdivisão da partição1, 2 e 12

correspondentes às células ‘BSP 0’, ‘BSP 1’, ‘BSP 2’, ‘BSP 12’,

respectivamente.

Cada uma das funções de pertinência acima possui 2 parâmetros, ‘a’ e ‘b’,

que definem o perfil das funções alto (µ) e baixo (ρ) de cada variável de entrada.

O parâmetro ‘a’ define a inclinação das funções de pertinência das células. No

segundo nível o parâmetro ‘α’ é o dobro do ‘a’ das funções de pertinência da

célula do primeiro nível. O parâmetro ‘b’ define o ponto médio de transição das

funções de pertinência das células. Este é ajustado para que o ponto médio de

transição das funções de pertinência das células do segundo nível coincida com a

metade do quadrante do primeiro nível que foi decomposto.

DBD


Capitulo III 47

3.3.3 Algoritmo de Aprendizado

O processo de aprendizado do modelo NFHB é efetuado em oito passos

conforme apresentado no fluxograma da Figura 3.8. No sistema NFHB, os di e os

parâmetros ‘a’ e ‘b’ são encarados como sendo os pesos fuzzy do modelo.

Separar as bi-partições com alto erro

1

Erro<Tol Fim

Decompor cada bi-

partição separada

simnão

Inicializar pesos fuzzy 2

3

4

5

6 8

Início

Ajustar os pesos fuzzy (d i’s, a e b )

Criar bi-partição inicial

Densidade de padrões < δ

7

não

simFim

Figura 3.8 Algoritmo de aprendizado do modelo NFHB

Os oito passos do algoritmo de aprendizado são:

1) Cria-se a bi-partição inicial dividindo-se em duas partes o espaço de

entrada, utilizando dois conjuntos fuzzy, alto e baixo, da variável de entrada

x. Neste passo é criada a primeira célula BSP, chamada de célula raiz.

2) Cada parâmetro ajustável di (peso fuzzy) é inicializado com a média dos

valores alvo dos padrões de saída que incidem sobre a bipartição de índice i.

DBD


Capitulo III 48

Esse processo se aplica aos conseqüentes singletons ou, no caso de

conseqüentes de combinações lineares, ao parâmetro constante “bias”. O

parâmetro ‘b’ dos antecedentes das regras é inicializado com o valor igual

à metade do intervalo do universo de discurso da variável de entrada da

célula. O parâmetro ‘a’ dos antecedentes das regras foi inicializado, por

escolha heurística, com o valor igual ao dobro do inverso do universo de

discurso daquele intervalo. As equações 3.3 e 3.4 ilustram a inicialização de

‘a’ e ‘b’.

)(2

LimILimSa −= Equação 3.3

( )2

LimILimSb += Equação 3.4

onde : LimI e LimS são, respectivamente, os limites inferior e superior do

universo de discurso da variável de entrada do particionamento da célula.

3) O erro total do sistema é calculado para todo o conjunto de treinamento, de

acordo com a expressão do erro médio quadrático dado pela Equação 3.5.

( )∑=

−=L

n

dnnRMS yy

LE

1

21 Equação 3.5

onde: L é o número de padrões do conjunto de treinamento e yn e ynd são,

respectivamente, o valor de saída do sistema NFHB e o valor desejado de

saída para o padrão de índice ‘n’.

DBD


Capitulo III 49

Caso este erro esteja abaixo do mínimo desejado, o processo de aprendizado

pára; caso contrário, o processo de aprendizado continua com o passo 4.

4) Este passo, referente ao ajuste dos pesos fuzzy, pode ter sua implementação

diversificada. Foram sugeridas as seguintes opções:

a) O método dos mínimos quadrados ordinários (MQO) ajusta os pesos

fuzzy di (conseqüentes singleton ou combinações lineares). Neste caso,

é utilizado o particionamento fixo, não havendo ajuste dos perfis dos

antecedentes ‘a’ e ‘b’.

b) O método do “Gradiente Descendente” ajusta apenas os pesos fuzzy di

(conseqüentes singleton ou combinações lineares). Neste caso também é

utilizado o particionamento fixo.

c) O método dos mínimos quadrados ordinários (MQO) ajusta os pesos

fuzzy di e um método de “Gradiente Descendente” ajusta os parâmetros

dos antecedentes. Neste caso tem-se o que se chama de particionamento

adaptativo.

d) O método de “Gradiente Descendente” ajusta tanto os pesos fuzzy di

quanto os parâmetros a e b das funções de pertinência dos antecedentes.

Neste caso tem-se também o particionamento adaptativo.

As equações desenvolvidas para a atualização destes pesos encontram-se em

[SOUZ99].

5) Nesta etapa, cada bi-partição é avaliada em relação à sua contribuição para o

erro total e em relação ao erro mínimo aceitável. Cada bi-partição com

erro inaceitável é separada; a avaliação do erro gerado pelo conjunto de

dados que incidem sobre a partição ij é calculada pela Equação 3.6.

DBD


Capitulo III 50

( )∑=

−=L

n

dnn

nij

niRMS yy

LE

1

21 αα Equação 3.6

Onde: αin , e αij

n são os níveis de disparo das regras para o padrão ‘n’.

6) Para limitar o crescimento indefinido da estrutura do sistema, foi utilizado

um parâmetro de aprendizado denominado taxa de decomposição (δ)

[SOUZ99]. Este parâmetro é adimensional e atua impedindo que o processo

de decomposição seja realizado indefinidamente. Seu valor situa-se,

geralmente entre, 0,001 e 0,05. Ele é constantemente comparado, durante o

aprendizado, com a população de padrões que incidem sobre um

determinado quadrante. Quando a densidade populacional de padrões de um

quadrante (razão entre o número de padrões que incidem sobre o quadrante

e o número total de padrões) cai abaixo da taxa de decomposição, este

quadrante não deve ser decomposto, o que limita o crescimento da estrutura.

7) Neste passo é efetuada a decomposição das partições separadas. Para cada

bi-partição separada é realizado um processo de decomposição [SOUZ99].

8) Volta ao passo “3” para continuar o aprendizado.

3.4 Modelo Neuro-Fuzzy Hierárquico NFHB-Class

Este modelo é uma extensão do modelo NFHB original [SOUZ99] para

problemas de classificação. Este modelo possui o número de saídas igual ao

número de classes dos padrões da base de dados. Dessa forma, evita-se o uso de

faixas de valores para inferir a que classe a que o padrão pertence (como é o caso

DBD


Capitulo III 51

do NFHB original), uma vez que o sistema por si só é capaz de informar a classe

do padrão. As regras geradas por esse novo sistema têm portanto maior

interpretabilidade que as geradas pelo sistema NFHB original. O modelo NFHB-

Class gera sua própria estrutura utilizando a célula básica NFHB-Invertida, e cria

uma nova estrutura hierárquica já invertida.

3.4.1 Célula Básica NFHB-Class

Uma célula básica NFHB-Class é um mini sistema neuro-fuzzy que realiza

um particionamento fuzzy e binário em um determinado espaço, segundo as

funções de pertinência sigmóides ρ e µ. A célula NFHB-Class gera duas saídas

precisas (crisp) após um processo de defuzzificação.

A Figura 3.9 mostra a representação básica da célula NFHB-Class e a

Figura 3.10 ilustra o interior da célula NFHB-Class.

Figura 3.9 Célula NFHB-Class Figura 3.10 Interior da Célula NFHB-Class

As saídas (crisp) de uma célula NFHB-Class são dadas pelas equações:

( )xy ρβ ∗=1 Equação 3.7 ( )xy µβ ∗=2 Equação 3.8

onde β corresponde a um dos dois casos possíveis abaixo:

DBD


Capitulo III 52

• à entrada da primeira célula: caso em que β = 1, onde o valor ‘1’ na

entrada da primeira célula representa todo o espaço de entrada, ou

seja, todo o universo de discurso da variável xi que está sendo

utilizada como entrada da célula.

• à saída de um estágio de nível anterior: caso em que β = yj, onde yj

representa uma das duas saídas de uma célula genérica ‘j’, cujo

valor é calculado também pela equação 3.7 ou pela equação 3.8.

3.4.2 Arquitetura NFHB-Class

O modelo NFHB-Class utiliza a célula básica NFHB-Class. A Figura

3.11 (a) mostra um exemplo de uma arquitetura NFHB-Class para uma base de

dados que possui três classes distintas; o seu respectivo particionamento é

ilustrado pela Figura 3.11 (b).

Figura 3.11 (a) Arquitetura NFHB–Class. (b) Particionamento do espaço de entrada do sistema NFHB-Class.

DBD


Capitulo III 53

Na arquitetura NFHB-Class (Figura 3.11 (a)), o sistema possui várias

saídas, que são conectadas às células T-conorms que definem as classes. A saída

do sistema (neste caso classe1, classe2, ou classe3) com maior valor define a

classe a que pertence o padrão apresentado ao sistema.

As saídas das células folhas do sistema da Figura 3.11 (a) são calculadas

pelo seguinte conjunto de equações:

10 .1 ρρ=y Equação 3.9

1210 ..2 ρµρ=y Equação 3.10

1210 ..3 µµρ=y Equação 3.11

20 .4 ρµ=y Equação 3.12

20 .5 µµ=y Equação 3.13

Após ter-se calculado a saída de cada célula folha do sistema, é feita a

ligação dessas células folhas com os neurônios T-conorms que definem as classes.

A saída do sistema (classe1, classe2, ou classe3) com o maior valor, define a

classe a que pertence o padrão que foi apresentado ao sistema.

Cada neurônio T-conorm está associado a uma classe específica. As

ligações das células folhas com os neurônios T-conorms são feitas, inicialmente,

conectando-se todas as células folhas com todos os neurônios T-conorms,

conforme o número de classes em que está organizada a base de dados. Após esta

conexão, é necessário estabelecer pesos para essas ligações (arcos). Para a

atribuição desses pesos, foi utilizado o método dos Mínimos Quadrados

[GONÇ01].

DBD


Capitulo III 54


Os parâmetros que definem os perfis das funções de pertinência ‘a’ e ‘b’ dos

antecedentes são encarados como os pesos fuzzy do sistema neuro-fuzzy. Neste

modelo não existem mais os parâmetros ‘di’ do modelo NFHB original que

definiam os conseqüentes singletons. Além disso é necessário ajustar os pesos dos

arcos que ligam as células folhas aos neurônios T-conorms.

O processo de aprendizado do modelo NFHB-Class é efetuado em nove

passos, conforme apresentado no fluxograma da Figura 3.12.

Figura 3.12 Algoritmo de aprendizado do modelo NFHB-Class

Maiores detalhes sobre o algoritmo de aprendizado podem ser encontrados em [GONÇ01].

DBD


Capitulo III 55

3.5 Modelo Neuro-Fuzzy Hierárquico BSP Mamdani

O modelo NFHB-Mamdani possui as mesmas características de geração

automática de sua própria estrutura, além de ser um modelo mais interpretável

linguüisticamente. Este modelo possui apenas uma saída. Os antecedentes deste

modelo são os mesmo do modelo NFHB-Class. Entretanto, os conseqüentes são

conjuntos fuzzy com funções de pertinência triangulares. O modelo NFHB-

Mamdani foi desenvolvido para aplicações genéricas, tais como: sistemas de

controle, previsão, classificação e aproximação de funções.

3.5.1 Célula Básica NFHB-Mamdani

A célula básica NFHB-Mandani é igual à célula do modelo NFHB-Class,

sendo um mini-sistema neuro-fuzzy que realiza um particionamento fuzzy e

binário em um determinado espaço, segundo as funções de pertinência sigmóides

ρ e µ. Esta célula gera duas saídas precisas (crisp) após um processo de

defuzzificação.

3.5.2 Arquitetura NFHB-Mandani

A Figura 3.13 ilustra um exemplo de uma arquitetura NFHB-Mamdani

com três conjuntos fuzzy no conseqüente. A arquitetura NFHB-Mamdani é

composta de três partes: estrutura do particionamento, definição dos T-conorms e

determinação dos conseqüentes.

DBD


Capitulo III 56

Figura 3.13 Arquitetura NFHB-Mamdani

Conforme apresentado na Figura 3.13, a estrutura de particionamento é

baseado no particionamento BSP. O particionamento referente à Figura 3.13 é

ilustrado pela Figura 3.14.

Figura 3.14 Particionamento do espaço de entrada do sistema NFHB-Mamdani.

A Figura 3.13 também indica que a arquitetura NFHB-Mamdani possui

várias saídas, no caso específico 5 saídas d1, d2, d3, d4, d5.

Após ter-se calculado as saídas da estrutura do particionamento do espaço

de entrada, é feita a ligação dessas saídas di com cada um dos neurônios T-

DBD


Capitulo III 57

conorms. O número de neurônios T-conorms é igual ao número de termos

lingüísticos atribuídos à variável de saída (no caso, 3 termos; por exemplo: baixo,

médio e alto). Após esta conexão, é necessário estabelecer pesos para essas

ligações (arcos). Para a atribuição desses pesos, foi também utilizado o método

dos Mínimos Quadrados Ordinários (MQO). A saída de cada neurônio T-conorm

é calculada mediante a soma limitada dos pesos das conexões incidentes nesse

neurônio.

Por fim, para a determinação dos conseqüentes, o modelo NFHB-

Mamdani utiliza conjuntos fuzzy com funções de pertinência triangulares com

perfis fixos, ou seja, bases e inclinações fixas. O modelo NFHB-Mamdani tem

uma única saída (y) após processo de defuzzificação. Como a saída y é um valor

real (crisp), esta saída pertence, no máximo, a dois conjuntos fuzzy vizinhos e

complementares. A identificação dos conjuntos fuzzy para uma saída y do

sistema é importante para o cálculo do erro médio quadrático ERMS na fase de

treinamento e no processo de extração de regras.

A Figura 3.15 ilustra um exemplo do conseqüente com cinco conjuntos

fuzzy triangulares com perfis fixos, onde: LimI e LimS são os limites inferior e

superior para o universo de discurso da saída; e C1, C2, C3, C4, C5 são os valores

máximos dos conjuntos fuzzy.

Figura 3.15 Determinação dos conjuntos fuzzy.

DBD


Capitulo III 58

A determinação dos conjuntos fuzzy que contribuem para o cálculo da

saída y e o cálculo do grau de pertinência desta saída a estes conjuntos é feita

como segue. Seja a saída yj do padrão j contida no intervalo [LimI, LimS] (ver

Figura 3.15). Verifica-se onde o valor da saída yj está cortando o eixo y da Figura

3.15, obtendo-se assim os dois conjuntos que estão sobre este valor (na Figura

3.15 os conjuntos fuzzy são M2 e M3). O cálculo dos valores dos graus de

pertinência da saída yj nesses conjuntos é realizado pela equação 3.14.

32

3322 **

jj

jjj

CCy

αααα

++

= Equação 3.14

onde: αj2, e αj3 são os graus de pertinência da saída yj nos conjuntos fuzzy M2 e

M3 respectivamente, e C2 e C3 são valores no eixo y onde os conjuntos fuzzy

M2 e M3 têm valores máximos.

Como as funções de pertinência triangulares são complementares:

132 =+ jj αα Equação 3.15

Das equações 3.14 e 3.15, o valor do grau de pertinência da saída yj no conjunto

fuzzy M2 é dado pela equação 3.16 e o valor do grau de pertinência da saída yj no

conjunto fuzzy M3 é dado pela equação 3.17.

23

23 CC

Cy jj −

−=α

Equação 3.16 32

32 CC

Cy jj −

−=α

Equação 3.17

A defuzzificação do sistema é realizada para obter um valor real (crisp) na

saída y do modelo NFHB-Mamdani. O cálculo da defuzzificação é feito através da

média ponderada dos valores máximos. A Figura 3.16 ilustra graficamente o

DBD


Capitulo III 59

procedimento de defuzzificação do modelo NFHB-Mamdani com três conjuntos

fuzzy no universo de saída. Na Figura 3.16, α1, α2 e α3 são as saídas dos

neurônios t-conorms T1, T2 e T3 e também são os graus de ativação dos

conjuntos fuzzy M1, M2 e M3 respectivamente. M1, M2 e M3 são as funções de

pertinência triangulares com bases fixas B/2, B e B/2 respectivamente, como

ilustra a Figura 3.17.

Figura 3.16 Processo de defuzzificação do modelo NFHB Mamdani

Figura 3.17 Funções de pertinência triangulares fixas do conseqüente do modelo

NFHB Mamdani

DBD


Capitulo III 60

Na Figura 3.16, os graus de ativação geram regiões fuzzy nos conjuntos do

conseqüente. Estas regiões são representadas pelos triângulos menores, e os

valores dessa regiões são calculados pela Equação 3.18.

Ai

ji M*α Equação 3.18

Onde :

jiα - representa o valor da saída do neurônio T-conorm i (Ti) para o

padrão j.

AiM - representa o valor da área do conjunto Mi.

* - representa o operador produto.

O cálculo da defuzzificação da saída yj para um padrão j é efetuado pela Equação

3.19.

∑

∑

=

== n

i

ji

n

ii

ji

j

Cy

1

1*

α

α Equação 3.19

onde:

yj – representa a saída do modelo NFHB Mamdani para um padrão j.

Ci – representa um valor constante no eixo y, onde conjunto fuzzy i tem seu o

maior grau de pertinência.

jiα - representa a saída do neurônio T-conorm i (Ti) para um padrão j.

n – representa o número total de conjuntos fuzzy no conseqüente.

DBD


Capitulo III 61


O processo de aprendizado do modelo NFHB-Mamdani é efetuado em

nove passos, conforme apresentado no fluxograma da Figura 3.18. Os parâmetros

‘a’ e ‘b’ são encarados como os pesos fuzzy do sistema neuro-fuzzy, assim como

é necessário ajustar os pesos dos arcos que ligam os di a cada neurônio T-conorm.

A Figura 3.18 ilustra o algoritmo de aprendizado do modelo NFHB-

Mamdani

Separar as bi-partiçõescom alto erro

1

Erro<Tol Fim

Decompor cada bi-partição separada

simnão

Inicializar pesos fuzzy 2

4

5

6

7 9

Início

Ajustar os pesos fuzzy (a e b)

Criar bi-partição inicial

Densidade de padrões < δ

8

não

simFim

Ajustar os pesos T-conorms

3

Figura 3.18 Algoritmo de aprendizado do modelo NFHB-Mamdani

DBD


Capitulo III 62

Os nove passos do algoritmo de aprendizado são descritos em detalhes em

[BEZE02].

3.6 Algoritmo de Seleção de Características

Os modelos Neuro-Fuzzy hierárquicos BSP apresentam uma técnica de

seleção de variáveis do tipo dependente do modelo (Model Based).

Os modelos Neuro-Fuzzy Hierárquico BSP [SOUZ99], NFHB-Class

[GONÇ01] e NFHB-Mamdani [BEZE02] apresenta como técnica de seleção de

variáveis um método baseado no modelo neuro-fuzzy ANFIS de Jang [JANG93],

[JANG94], descrito na seção 2.2.1.1. As sub-seções seguintes descrevem a

metodologia empregada em cada um dos modelos hierárquicos.

3.6.1. Seleção de Características do Modelo Neuro-Fuzzy Hierárquico BSP Takagi-Sugeno

O Modelo Neuro-Fuzzy Hierárquico BSP Takagi-Sugeno [SOUZ99]

utiliza, como técnica de seleção de variáveis, um modelo ANFIS de Jang com

duas entradas.

O método baseia-se na execução de mini-sistemas ANFIS, cada um com

uma combinação de 2 entradas do total de características presentes no problema.

Os mini-sistemas ANFIS são treinados por um número específico de ciclos

e os pares de variáveis são ordenados por ordem crescente de erro no treinamento.

A seqüência de pares de entradas obtida por este processo é utilizada na

arquitetura BSP escolhendo-se para todas as células de um certo nível da

DBD


Capitulo III 63

hierarquia uma variável da seqüência, sem repetição, entre as variáveis de entrada

dos primeiros pares listados na ordenação crescente de erro.

Exemplificando, supondo a seqüência de pares de entradas obtida após o

treinamento dos mini-sistemas ANFIS, para um sistema com 9 entradas, como

ilustrado na tabela 3.1 [SOUZ99].

PAR ERRO2, 5 0.023 2, 7 0.031 2, 3 0.033 3, 5 0.039 3, 8 0.041 1, 3 0.056 1, 4 0.065 5, 7 0.088 5, 9 0.091 4, 6 0.098 4, 8 0.120 3, 7 0.155

Tabela 3.1 - Exemplo de uma seqüência de pares de entrada por ordem

crescente de erro.

A partir da seqüência da Tabela 3.1 cria-se uma seqüência de entradas: 2,

5, 7, 3, 8, 1, 4, 9 e 6. Esta será a seqüência definitiva de entradas a ser utilizada

pelo algoritmo de aprendizado do modelo NFHB Takagi-Sugeno.

3.6.2 Seleção de Características dos Modelos NFHB-Class e NFHB Mamdani

No método descrito na seção anterior percebe-se um problema: como cada

célula NFHB possui apenas uma entrada, deve-se escolher qual das duas variáveis

do par deve ser escolhida.

DBD


Capitulo III 64

Para resolver esse problema, os Modelos Neuro-Fuzzy Hierárquicos

NFHB-Class [GONÇ01] e NFHB Mamdani [BEZE02] utilizaram mini-sistemas

ANFIS de apenas uma entrada, com 8 conjuntos fuzzy, conforme pode ser

observado pela Figura 3.19, particionando o espaço total segundo mostrado na

Figura 3.20.

Figura 3.19 Sistemas ANFIS simplificado Figura 3.20 Particionamento ANFIS

(1 entrada) para seleção de características. respectivo.

O novo algoritmo para seleção de características, baseado no sistema

ANFIS de uma entrada, seleciona um atributo da base de dados e treina o sistema

durante um número de ciclos especificado. Em seguida, é calculado o erro para

esse atributo. Um outro atributo é então escolhido e um novo treinamento do

sistema é realizado. Posteriormente os atributos são listados em função do erro,

escolhendo-se, primeiramente, os atributos de menor erro de treinamento.

3.7 Estratégias de Aplicação do Algoritmo de Seleção aos Sistemas Neuro-Fuzzy Hierárquicos

Foram implementadas duas estratégias de aplicação dos métodos de

seleção de características para distribuir as variáveis selecionadas

DBD


Capitulo III 65

hierarquicamente de acordo com a árvore binária dos modelos Neuro-Fuzzy

Hierárquicos BSP: seleção fixa e seleção adaptativa.

A estratégia de seleção fixa proporciona bons resultados com um custo

computacional muito reduzido, enquanto a seleção adaptativa trata de obter a

estrutura neuro-fuzzy BSP mais compacta possível, acarretando em um custo

computacional maior. A seguir são descritas as duas estratégias.

3.7.1 Seleção Fixa

Esta estratégia utiliza a base de dados completa (original) para escolher as

características mais relevantes.

A estratégia de seleção fixa consiste em determinar a ordem dos atributos

mediante um dos métodos de seleção e posteriormente, durante o processo de

aprendizado e construção da arquitetura neuro-fuzzy BSP, cada uma destas

características é escolhida e usada como entrada para cada nível da árvore BSP. A

mesma entrada (atributo) é utilizada para todos os nós do mesmo nível.

Uma desvantagem desta estratégia é que ela gera particionamentos

desnecessários devido ao fato de que todos os nós de um mesmo nível são

forçados a utilizar a mesma entrada previamente fixada, a qual nem sempre é a

característica mais adequada para esse nó.

Uma das vantagens desta estratégia é que o custo computacional é muito

pequeno, já que a seleção de características é realizada uma única vez, antes do

processo de aprendizado. Os resultados obtidos são bem competitivos, resultando,

em muitos casos, em uma alternativa interessante em termos do compromisso

entre tempo e desempenho.

A metodologia da estratégia de seleção fixa pode ser resumida em dois

passos:

DBD


Capitulo III 66

• A base de dados original é utilizada em sua totalidade para escolher os

atributos mais relevantes do ponto de vista da informação contida neles.

Mediante o algoritmo de seleção anteriormente descrito, os atributos são

ordenados de forma decrescente de importância. Este processo é realizado

uma única vez, antes do processo de treinamento.

• A lista com o resultado e ordem dos atributos é armazenada. Posteriormente,

durante o processo de treinamento e geração da estrutura de árvore BSP, é

extraído da lista o atributo correspondente a cada nível. Ou seja, todos os nós

do nível “i” utilizam como entrada o atributo contido na posição “i” da lista

previamente ordenada. A Figura 3.21 resume esta estratégia.

Figura 3.21 Seleção fixa de atributos

3.7.2 Seleção Adaptativa

Esta estratégia escolhe a melhor característica de entrada (atributo) para

cada nó da árvore, independentemente do nível no qual o nó se encontra. A base

de dados original é sucessivamente subdividida em subconjuntos de acordo com a

DBD


Capitulo III 67

estrutura da árvore BSP criada. A subdivisão é realizada em função do nível de

disparo de cada padrão em cada nó. Para cada nó é escolhida a melhor entrada

(atributo) utilizando unicamente o subconjunto associado a esse nó.

Uma vantagem desta estratégia é que ela gera estruturas neuro-fuzzy BSP

mais compactas (menos nós => menos regras) em função da especialização de

cada nó, resultando em melhor desempenho na generalização. Uma desvantagem

é o custo computacional que é bem mais alto, uma vez que o algoritmo de seleção

deve ser rodado para cada novo nó da árvore BSP.

A metodologia da estratégia adaptativa [LANA00] pode ser descrita em 4

passos:

1. A base de dados é subdividida em dois subconjuntos de dados em função do

atributo mais relevante escolhido (por exemplo Idade): base de dados “Baixo”

e base de dados “Alto”, conforme ilustrado na Figura 3.22. Cada base de

dados contém todos os padrões e seus correspondentes graus de disparo

resultantes das funções de pertinência do nó (usando a variável idade).

Figura 3.22 Graus de pertinência dos subconjuntos “Baixo” e “Alto”.

DBD


Capitulo III 68

2. Para eliminar os padrões cujo grau de disparo é pequeno, implementa-se um

α-cut igual a 0.4. Deste modo, não são considerados nessa partição (do ponto

de vista da escolha de variáveis) padrões com grau de disparo inferior a 0.4.

Na Figura 3.22, somente os padrões destacados são considerados no passo 3

para realizar a nova escolha do atributo.

3. Mediante o algoritmo de seleção, é escolhido o melhor atributo para o nó

correspondente, utilizando-se somente os padrões selecionados no passo

anterior.

4.4. O processo é repetido novamente até que não existam novos nós na árvore

BSP.

3.8 Resumo

Neste capítulo foram apresentados os modelos Neuro-fuzzy BSP original,

NFHB-Class e NFHB Mamdani, com suas células básicas, suas arquiteturas, seus

tipos de conseqüentes e seus algoritmos de aprendizado. Foram também

desenvolvidas os métodos de seleção de características utilizados por esses

modelos.

O próximo capítulo introduz novas estratégias e métodos de seleção de

características para as entradas de particionamento de cada célula neuro-fuzzy

hierárquica.

DBD


3 sistemas neuro-fuzzy hierárquicos · número de entradas permissíveis e quanto à criação de...

Documents