mémoire générale associative bidirectionnelle · 2015-06-12 · 4. febam • les réseaux acp...

Mémoire Générale Associative

Bidirectionnelle

Sylvain Chartier Laboratory for Quantitative Investigation

of Brain and Behavior

Collaborateurs

• Mounir Boukadoum, Université du Québec à Montréal

• Gyslain Gigère, Université de Montréal

• Craig Leth-Steensen, Carleton University

• Christophe Tremblay, University of Ottawa

• Nareg Berberian, University of Ottawa

• Francis Jeanson, Ontario Brain Institute

1. Réseaux de neurones artificiels

• Ils sont définis par trois postulats 1. Architecture

Décrit la topographie du réseau

2. Fonction de transmission Décrit comment l’information circule

3. Fonction d’apprentissage Décrit comment les poids de connexion sont modifiés.


S x1

x2

x3

xi

w11

w1j

w13

w12 y1 a1

f(a1)

Entrée Poids Activation Sortie

Hidden units Output Input


Sup

ervi

sé

Les entrées et les valeurs désirées de sortie doivent être fournies.

Seulement les entrées sont nécessaire N

on s

uper

visé

Une fois l’information de l’entrée est donné, le réseau doit effectuer une action, l’environnement fournie alors la rétroaction (succès ou échec)

Ren

forc

emen

t

BAM

Supe

rvis

é N

on s

uper

visé

R

enfo

rcem

ent

But général

Mémoire bidirectionnelle associative

2. Mémoire Bidirectionnelle Associative

• But? – Tâche – Processus.

• Pourquoi une MAB?

– Processus parallèle – L’information est distribuée. – Auto adaptation – Neurodynamique – Tolérance au bruit


• Architecture

1. Les dimensions des couches W et V n’ont pas à être identique

2. V n’est pas la transpose de W


• Architecture

X(0)

Y(0)


• Fonction de transmission

3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx 3( 1) ( 1) ( ) ( ( ))t t t x Vy Vy


• Fonction de transmission: portrait de phases

Points fixes Point fixe instable

(0) (0) 1x y (0) (0) [ 1, 1]x y

Nœuds stables


• Fonction de sortie

3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx

• Caractère distinctif: attracteurs avec des valeurs réelles – Les poids de connexions permettent de développer des attracteurs

à des valeurs autres que bipolaires.

positive négative


• Fonction de transmission: association bipolaire et association avec des valeurs réelles

X(0)

Y(0)


• Fonction d’apprentissage

T T T T

T

( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]

( 1) ( ) [ (0) ( )][ (0) ( )]

k k t t t t

k k t t

W W y x y x y x y x

W W y y x x

T T T T

T

( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]

( 1) ( ) [ (0) ( )][ (0) ( )]

k k t t t t

k k t t

V V x y x y x y x y

V V x x y y

L’apprentissage est itératif et en ligne



T T T T

T

( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]

( 1) ( ) [ (0) ( )][ (0) ( )]

k k t t t t

k k t t

W W y x y x y x y x

W W y y x x

T T T T

T

( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]

( 1) ( ) [ (0) ( )][ (0) ( )]

k k t t t t

k k t t

V V x y x y x y x y

V V x x y y

Les poids de connexions vont converger lorsque les valeurs de sortie seront égales aux valeurs d’entrée


• Simulation I

X(0)

Y(0)


• Convergence des poids de connexions.


• Exemples de rappels bruités

Contrôle de la mémoire: fonction de sortie asymétrique

3. Fonction de sortie asymétrique

• Transmission

3( ) ( * ) ( * )dx f x h r w x w xdt

Paramètre de biais • If h = 0


• surface « froncée » (Cusp catastrophe surface)

3( ) ( * ) ( * )dx f x h r w x w xdt


• Énergie

2 3 4* * *( ) *2 4

r w x w xE x h x C


• Énergie

h = [0,0] h = [1,0] h = [1,1]


• Rappel avec des antécédents

Antécédents Apprentissage Rappel


• Apprentissage par renforcement

Output = h0

Environment

h0

1. Learning of the task as linearly separable

Output Input BAM Cost

Value generation

2. Determination of h values for nonlinear adaptation

h=0

Output Input BAM

Output Input BAM

BAM

3. Final model

a)

b)

c)

Stimuli

Apprentissage

Procédure


• Apprentissage par renforcement

Output = h0

Environment

h0

1. Learning of the task as linearly separable

Output Input BAM Cost

Value generation

2. Determination of h values for nonlinear adaptation

h=0

Output Input BAM

Output Input BAM

BAM

3. Final model

a)

b)

c)

Comportement général du réseau

Mémoire associative bidirectionnelle extractrice de caractéristiques

4. MAB extractrice de caractéristiques

• Les humains sont constamment exposés à des patrons perceptuels, et doivent – Créer des représentations à partir des patrons – Reconnaitre/identifier/discriminer des patrons – Catégoriser/classifier/réorganiser les catégories

• Certains auteurs ont argumenté la présence de représentations

perceptuels atomiques – Le système doit générer son propre code – Il doit créer de façon autonome par un processus “bas vers

le haut”.

4. FEBAM Réseaux d’analyses en composantes principales

• Réseaux ACP peuvent traiter de la variabilité dans les entrées.

• Ils extraient des caractéristiques de bas niveau qui représentent l’information intrinsèque.

• Les caractéristiques sont sélectionnées de façon à réduire la dimensionnalité des données, tout en conservant l’information importante.

W

x1 x1

x2

xm

y1

y2

yn

4. FEBAM

• Les réseaux ACP traitent le bruit, mais ils n’ont pas les propriétés des modèles à attracteurs.

• Les MAB ont des comportements dynamiques mais ont de la difficulté à traiter le bruit.

• En unissant les deux classes de modèles cela permettrait d’avoir un avantage par rapport à l’explication de l’apprentissage supervisé et non supervisé.

• Ainsi une architecture de type MAB peut être modifiée de façon à inclure les propriétés des réseaux ACP.

4. FEBAM Architecture • L’architecture est modifiée en enlevant une des entrée de la

MAB, y(0).

4. FEBAM Architecture • L’architecture est modifiée en enlevant une des entrée de la

MAB, y(0). • Afin de réduire la dimensionalité, le nombre d’unités y doit être

inférieur au nombre d’unités x.

4. FEBAM Procédure d’apprentissage

Fonction d’apprentissage (t=1)

Cycle de transmission Architecture

Ww

x(0) y(0)

V

W

x(1)

y(1)

Ww

x(0) y(0)

V

W

x(1)

y(1)


Architecture

Fonction d’apprentissage (t=1)

Cycle de transmission

Ww

x(0) y(0)

V

W

x(1)

y(1)


Cycle de transmission

Patrons initiaux Extraction des caractéristiques

Patrons reconstruits

Extraction des caractéristiques

FEBAM + Self Organizing Feature Map

5. FEBAM+SOFM

• L’apprentissage et la transmission demeurent les mêmes.

5. FEBAM+SOFM

• Une fonction de type chapeau mexicain est utilisée pour renforcer l’unité gagnates et ses voisines immédiates.

2 2, ( ) , ( )

2 2( ) 4 ( ), ( )

1( ) 32

j i j id d

p pj ih p e e

x x

x

5. FEBAM+SOFM • Le modèle FEBAM permet maintenant d’inclure des propriétes

des cartes auto-organisatrices.

FEBAM + Self Organizing Feature Map dans un contexte de K gagnants.

6. FEBAM+SOFM utilisant un kWTA

• Permet de distribuer l’information parmi les unités topographiques y

6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation

• Méthodologie – 20, 6x6 examplaires dans 4 catégories – La corrélation intra catégories est de 0.72 et la corrélation

inter catégories est de 0.08. – La taille de la grille des unités (y) est de 15x15 – Le nombre d’unités gagnantes est de 15.

6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation • Résultats:

– Topographie 2-D en fonction du nombre d’essais d’apprentissage

• La performance est similaire à celle du SOFM clasique


• Résultats: Poids de connexions

FEBAM-SOFM SOFM (Kohonen’s)

W V


• Résultats: Sortie (unités y)

15 gagnants 15 gagnants+”Mexican-hat”


• Résultats – Extraction des prototypes (unités x)

(a)

(b)

(c)

(d)

(e)

6. FEBAM+SOFM utilisant un kWTA

En utilisant un kwta cela permiet d’avoir des variances fixes.

WTA

kW

TA

6. FEBAM+SOFM utilisant un kWTA L’effet de l’augmentation du nombre de patrons

• Patrons

Phase 1

Phase 2

• Apprentissage

6. FEBAM+SOFM utilisant un kWTA Agrandissement du nombre de patrons

A B C D E F

(a)

(b)

(c)

• Résultats

6. FEBAM+SOFM utilisant un kWTA Agrandissement du nombre de patrons

Initial

End phase1 / Beginning phase 2

End phase 2

Recherche actuelle…

• L’aprentissage dans le bruit • Interaction mémoire court et long terme • Attracteurs périodiques et chaotiques • Apprentissage par renforcement • Apprentissage de tâches non séparable linéairement • MAB à impulsion

Recherche actuelle…

• L’aprentissage dans le bruit • Interaction mémoire court et long terme • Attracteurs périodiques et chaotiques • Apprentissage par renforcement • Apprentissage de tâches non séparables linéairement • MAB à impulsion

Tâches non séparables linéairement


• XOR (2-bit parity)

Inpu

ts

Targ

ets


• XOR (2-bit parity)


• N-bit parity


• Double moon

• N-bit parity



• Double moon

MAB à impulsions

Liens verticaux

Impulsions

MAB

Spiking BAM

• Fonction de sortie (une EDO)

3)*()*( xwxwrhdtdx

Neurone de type Fitzhugh-Nagumo

zbaxdtdz

zxwxwrhdtdx

*

)*()*( 3

• Fonction de sortie (deux EDOs)

Spiking BAM

• Apprentissage: STDP

Spiking BAM

• Apprentissage: 2 patrons

Spiking BAM

• Rappel

Spiking BAM

• Fonction de transmission binaire

32 )*(2)*(3 xwxwy

• Fonction de transmission ODE

in *- )*(2)*(3 32 xwxwxwdtdy

in < -1/(63]) 1/(63]) < in < 1/(63]) in > 1/(63])

Spiking BAM

• Fonction d’énergie

in** )*(- )*()*(3)( 22

142

13 xwxwxwxwxE

in < 0 in = 0 in > 0

Spiking BAM

• L’effet de la variable in sur l’émission de potentiels d’action

Spiking BAM • Exemple

Erre

ur

Nb. Essais

• Apprentissage

Spiking BAM

• Rappel

Bruité

Reconstruit

Spiking BAM

• Rappel

Bruité

Reconstruit

Bruité

Reconstruit

Discussion • La MAB peut donc être utilisée dans différents contextes

(supervisé, auto-supervisé, non supervisé et par renforcement) • Elle permet de regrouper différentes classes de modèles (RAM,

SOFM, PCA, RNN). • Elle peut apprendre des associations simple et plus complexes;

One-to-one; many-to-one and one-to-many; linear and non-linear task.

• Le modèle est en mesure de réaliser toutes ces différentes tâches en conservant la même règle de transmission, d’apprentissage et sans modifier l’architecture de base.

• Une mémoire associative bidirectionnelle est centrale dans le développement d’un modèle de la cognition et tisser des liens avec les modèles en neurosciences.

Aperiodic behavior: Chaotic BAM

3. Chaotic BAM

• Output function

3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx 3( 1) ( 1) ( ) ( ( ))t t t x Vy Vy

Output

Parameter

3. Chaotic BAM

• Bifurcation diagram

Fixed Points

Chaotic attractor(s)

1.45 1.65

3. Chaotic BAM

• Output variations within the basin of attraction (chaos, = 1.45) • All the variations stay within their corresponding quadrant.

3. Chaotic BAM

• Example

X(0)

Y(0)

3. Chaotic BAM

• Output variations within the basin of attraction

3. Chaotic BAM

• Output variations within the basin of attraction (chaos, = 1.65) • The variations are globally constrained.

3. Chaotic BAM

• Nonperiodic associative memory.

• The state vector wanders from one stored pattern to another.

3. Chaotic BAM

• Nonperiodic associative memory

• Can be used as a search procedure.

Target = “Triangle “

Random pattern

The transmission parameter is reduced = 1.4

The transmission parameter is reduced = 0.4

0. Models in Psychology (adapted from Coombs, 1983)

Empirical and Mathematical Systems

A

I (interpretation)

(abstraction)

M

Logical consequence

Axiom system

T

Empirical generalization

Segment of the real

world

Model

A

I

M

Logical consequence

Axiom system

T


Segment of the real

world

Theory

A

I

M

Logical consequence

Axiom system

T


Segment of the real

world

A

I

M

Logical consequence

Axiom system

T

Empirical generalizatio

n

Segment of the real

world

The empirical world is rich, the mathematical world is powerful. The match is fruitful.

If AMI = T, then scientific knowledge has increased

Nonlinear Dynamic Systems

"In this empire, the art of cartography was taken to such a peak of perfection that the map of a single province took up an entire city and the map of the empire, an entire province. In time, these oversize maps outlived their usefulness and the college of cartographers drew a map of the empire equal in format to the empire itself, coinciding with it point by point. The following generations, less obsessed with the study of cartography, decided that this overblown map was useless and somewhat impiously abandoned it to the tender mercies of the sun and seasons. There are still some remains of this map in the western desert, though in very poor shape, the abode of beasts and beggars. No other traces of the geographical disciplines are to be seen throughout the land." Jorge Luis Borges in "On Rigor in Science," part of "A Universal History of Infamy," 1946

Multistep Pattern Recognition

2. Multistep Pattern Recognition

• Cyclic behavior

Sequence 45° 90° 135° 180° 225° 270° 315° 0°

1

2

3

4

5

• Recall examples



• Cyclic behavior: Results Step 0 (Input)

Step 1 (Output)

Step 2 (Output)

Step 3 (Output)

Step 4 (Output)

Step 5 (Output)

Step 6 (Output)

Step 7 (Output)

Step 8

(Output) Step 9

(Output) Step 10

(Output) Step 11

(Output) Step 12

(Output) Step 13

(Output) Step 14

(Output)

Step 0 (Input)

Step 1 (Output)

Step 2 (Output)

Step 3 (Output)

Step 4 (Output)

Step 5 (Output)

Step 6 (Output)

Step 9 (Output)

Step 8

(Output) Step 9

(Output) Step 10

(Output) Step 11

(Output) Step 12

(Output) Step 13

(Output) Step 14

(Output)


• Fixed point behavior

Sequence 45° 90° 135° 180° 225° 270° 315° 0°

1

2

3

4

5


• Fixed point behavior: Results Step 0 (Input)

Step 1 (Output)

Step 2 (Output)

Step 3 (Output)

Step 4 (Output)

Step 5 (Output)

Step 6 (Output)

Step 7 (Output)

Step 0 (Input)

Step 1 (Output)

Step 2 (Output)

Step 3 (Output)

Step 4 (Output)

Step 5 (Output)

Step 6 (Output)

Step 9 (Output)

Step 0 (Input)

Step 1 (Output)

Step 2 (Output)

Step 3 (Output)

Step 4 (Output)

Step 5 (Output)

Step 6 (Output)

Step 7 (Output)

Noise

New pattern

New rotation


• Simulation: associations du type: Many-to-one

X(0) Y(0)



X(0) Y(t)



Y(0) X(t)

4. FEBAM Compression d’image

• But – Extraire une quantité limitée de caractéristiques d’une

image; – Reconstruire l’image originelle; – Évaluer les performances de généralisation du réseau.


• Méthodologie – Ddimension de l’image 128x128 pixels. – Dimension de la fenêtre de convolution 5x5, Extraction de

15376 vecteurs d’entrée de 25 dimensions chacun – Le nombre d’unités y est de 5. Learning Generalization

(a)

Model Resulting image PSNR

(dB) Resulting image PSNR (dB)

(b) A

PEX

16.7

21.6

(c) N

PCA

21.0

21.7

(d) f

astIC

A

32.1

26.6

(e) F

EBA

M

26.3

25.0


• Résultats: détection de caractéristiques

Les 25 unités sont devenues sensibles à la détection d’information présentes à différents endroits.

Les 5 unités sont devenues sensibles à différentes orientations

x y x y


• Résultats

Learning Generalization

(a)



(b) A

PEX

16.7

21.6

(c) N

PCA

21.0

21.7

(d) f

astIC

A

32.1

26.6

(e) F

EBA

M

26.3

25.0


(a)



(b) A

PEX

16.7

21.6

(c) N

PCA

21.0

21.7

(d) f

astIC

A

32.1

26.6

(e) F

EBA

M

26.3

25.0

,2

, 110 , 2

, ,, 1

255( ) 10log

row col

i jrow col

i j i ji j

PSNR zz o


• Results: Généralisation


(a)



(b) A

PEX

16.7

21.6

(c) N

PCA

21.0

21.7

(d) f

astIC

A

32.1

26.6

(e) F

EBA

M

26.3

25.0


(a)



(b) A

PEX

16.7

21.6

(c) N

PCA

21.0

21.7

(d) f

astIC

A

32.1

26.6

(e) F

EBA

M

26.3

25.0

,2

, 110 , 2

, ,, 1

255( ) 10log

row col

i jrow col

i j i ji j

PSNR zz o

mémoire générale associative bidirectionnelle · 2015-06-12 · 4. febam • les réseaux acp...

Documents