mémoire générale associative bidirectionnelle · 2015-06-12 · 4. febam • les réseaux acp...
TRANSCRIPT
Mémoire Générale Associative
Bidirectionnelle
Sylvain Chartier Laboratory for Quantitative Investigation
of Brain and Behavior
Collaborateurs
• Mounir Boukadoum, Université du Québec à Montréal
• Gyslain Gigère, Université de Montréal
• Craig Leth-Steensen, Carleton University
• Christophe Tremblay, University of Ottawa
• Nareg Berberian, University of Ottawa
• Francis Jeanson, Ontario Brain Institute
1. Réseaux de neurones artificiels
• Ils sont définis par trois postulats 1. Architecture
Décrit la topographie du réseau
2. Fonction de transmission Décrit comment l’information circule
3. Fonction d’apprentissage Décrit comment les poids de connexion sont modifiés.
1. Réseaux de neurones artificiels
S x1
x2
x3
xi
w11
w1j
w13
w12 y1 a1
f(a1)
Entrée Poids Activation Sortie
Hidden units Output Input
1. Réseaux de neurones artificiels
Sup
ervi
sé
Les entrées et les valeurs désirées de sortie doivent être fournies.
Seulement les entrées sont nécessaire N
on s
uper
visé
Une fois l’information de l’entrée est donné, le réseau doit effectuer une action, l’environnement fournie alors la rétroaction (succès ou échec)
Ren
forc
emen
t
Une fois l’information de l’entrée est donné, le réseau doit effectuer une action, l’environnement fournie alors la rétroaction (succès ou échec)
Ren
forc
emen
t
BAM
Supe
rvis
é N
on s
uper
visé
R
enfo
rcem
ent
But général
Mémoire bidirectionnelle associative
2. Mémoire Bidirectionnelle Associative
• But? – Tâche – Processus.
• Pourquoi une MAB?
– Processus parallèle – L’information est distribuée. – Auto adaptation – Neurodynamique – Tolérance au bruit
2. Mémoire Bidirectionnelle Associative
• Architecture
1. Les dimensions des couches W et V n’ont pas à être identique
2. V n’est pas la transpose de W
2. Mémoire Bidirectionnelle Associative
• Architecture
X(0)
Y(0)
2. Mémoire Bidirectionnelle Associative
• Fonction de transmission
3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx 3( 1) ( 1) ( ) ( ( ))t t t x Vy Vy
2. Mémoire Bidirectionnelle Associative
• Fonction de transmission: portrait de phases
Points fixes Point fixe instable
(0) (0) 1x y (0) (0) [ 1, 1]x y
Nœuds stables
2. Mémoire Bidirectionnelle Associative
• Fonction de sortie
3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx
• Caractère distinctif: attracteurs avec des valeurs réelles – Les poids de connexions permettent de développer des attracteurs
à des valeurs autres que bipolaires.
positive négative
2. Mémoire Bidirectionnelle Associative
• Fonction de transmission: association bipolaire et association avec des valeurs réelles
X(0)
Y(0)
2. Mémoire Bidirectionnelle Associative
• Fonction d’apprentissage
T T T T
T
( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]
( 1) ( ) [ (0) ( )][ (0) ( )]
k k t t t t
k k t t
W W y x y x y x y x
W W y y x x
T T T T
T
( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]
( 1) ( ) [ (0) ( )][ (0) ( )]
k k t t t t
k k t t
V V x y x y x y x y
V V x x y y
L’apprentissage est itératif et en ligne
2. Mémoire Bidirectionnelle Associative
• Fonction d’apprentissage
T T T T
T
( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]
( 1) ( ) [ (0) ( )][ (0) ( )]
k k t t t t
k k t t
W W y x y x y x y x
W W y y x x
T T T T
T
( 1) ( ) [ (0) (0) (0) ( ) ( ) (0) ( ) ( ) ]
( 1) ( ) [ (0) ( )][ (0) ( )]
k k t t t t
k k t t
V V x y x y x y x y
V V x x y y
Les poids de connexions vont converger lorsque les valeurs de sortie seront égales aux valeurs d’entrée
2. Mémoire Bidirectionnelle Associative
• Fonction d’apprentissage
2. Mémoire Bidirectionnelle Associative
• Fonction d’apprentissage
2. Mémoire Bidirectionnelle Associative
• Fonction d’apprentissage
2. Mémoire Bidirectionnelle Associative
• Simulation I
X(0)
Y(0)
2. Mémoire Bidirectionnelle Associative
• Convergence des poids de connexions.
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
2. Mémoire Bidirectionnelle Associative
• Exemples de rappels bruités
Contrôle de la mémoire: fonction de sortie asymétrique
3. Fonction de sortie asymétrique
• Transmission
3( ) ( * ) ( * )dx f x h r w x w xdt
Paramètre de biais • If h = 0
3. Fonction de sortie asymétrique
• surface « froncée » (Cusp catastrophe surface)
3( ) ( * ) ( * )dx f x h r w x w xdt
3. Fonction de sortie asymétrique
• Énergie
2 3 4* * *( ) *2 4
r w x w xE x h x C
3. Fonction de sortie asymétrique
• Énergie
h = [0,0] h = [1,0] h = [1,1]
3. Fonction de sortie asymétrique
• Rappel avec des antécédents
Antécédents Apprentissage Rappel
3. Fonction de sortie asymétrique
• Apprentissage par renforcement
Output = h0
Environment
h0
1. Learning of the task as linearly separable
Output Input BAM Cost
Value generation
2. Determination of h values for nonlinear adaptation
h=0
Output Input BAM
Output Input BAM
BAM
3. Final model
a)
b)
c)
Stimuli
Apprentissage
Procédure
3. Fonction de sortie asymétrique
• Apprentissage par renforcement
Output = h0
Environment
h0
1. Learning of the task as linearly separable
Output Input BAM Cost
Value generation
2. Determination of h values for nonlinear adaptation
h=0
Output Input BAM
Output Input BAM
BAM
3. Final model
a)
b)
c)
Comportement général du réseau
Mémoire associative bidirectionnelle extractrice de caractéristiques
4. MAB extractrice de caractéristiques
• Les humains sont constamment exposés à des patrons perceptuels, et doivent – Créer des représentations à partir des patrons – Reconnaitre/identifier/discriminer des patrons – Catégoriser/classifier/réorganiser les catégories
• Certains auteurs ont argumenté la présence de représentations
perceptuels atomiques – Le système doit générer son propre code – Il doit créer de façon autonome par un processus “bas vers
le haut”.
4. FEBAM Réseaux d’analyses en composantes principales
• Réseaux ACP peuvent traiter de la variabilité dans les entrées.
• Ils extraient des caractéristiques de bas niveau qui représentent l’information intrinsèque.
• Les caractéristiques sont sélectionnées de façon à réduire la dimensionnalité des données, tout en conservant l’information importante.
W
x1 x1
x2
xm
y1
y2
yn
4. FEBAM
• Les réseaux ACP traitent le bruit, mais ils n’ont pas les propriétés des modèles à attracteurs.
• Les MAB ont des comportements dynamiques mais ont de la difficulté à traiter le bruit.
• En unissant les deux classes de modèles cela permettrait d’avoir un avantage par rapport à l’explication de l’apprentissage supervisé et non supervisé.
• Ainsi une architecture de type MAB peut être modifiée de façon à inclure les propriétés des réseaux ACP.
4. FEBAM Architecture • L’architecture est modifiée en enlevant une des entrée de la
MAB, y(0).
4. FEBAM Architecture • L’architecture est modifiée en enlevant une des entrée de la
MAB, y(0). • Afin de réduire la dimensionalité, le nombre d’unités y doit être
inférieur au nombre d’unités x.
4. FEBAM Procédure d’apprentissage
Fonction d’apprentissage (t=1)
Cycle de transmission Architecture
Ww
x(0) y(0)
V
W
x(1)
y(1)
Ww
x(0) y(0)
V
W
x(1)
y(1)
4. FEBAM Procédure d’apprentissage
Architecture
Fonction d’apprentissage (t=1)
Cycle de transmission
Ww
x(0) y(0)
V
W
x(1)
y(1)
4. FEBAM Procédure d’apprentissage
Cycle de transmission
Patrons initiaux Extraction des caractéristiques
Patrons reconstruits
Extraction des caractéristiques
Ww
x(0) y(0)
V
W
x(1)
y(1)
4. FEBAM Procédure d’apprentissage
Cycle de transmission
Patrons initiaux Extraction des caractéristiques
Patrons reconstruits
Extraction des caractéristiques
FEBAM + Self Organizing Feature Map
5. FEBAM+SOFM
• L’apprentissage et la transmission demeurent les mêmes.
5. FEBAM+SOFM
• Une fonction de type chapeau mexicain est utilisée pour renforcer l’unité gagnates et ses voisines immédiates.
2 2, ( ) , ( )
2 2( ) 4 ( ), ( )
1( ) 32
j i j id d
p pj ih p e e
x x
x
5. FEBAM+SOFM • Le modèle FEBAM permet maintenant d’inclure des propriétes
des cartes auto-organisatrices.
FEBAM + Self Organizing Feature Map dans un contexte de K gagnants.
6. FEBAM+SOFM utilisant un kWTA
• Permet de distribuer l’information parmi les unités topographiques y
6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation
• Méthodologie – 20, 6x6 examplaires dans 4 catégories – La corrélation intra catégories est de 0.72 et la corrélation
inter catégories est de 0.08. – La taille de la grille des unités (y) est de 15x15 – Le nombre d’unités gagnantes est de 15.
6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation • Résultats:
– Topographie 2-D en fonction du nombre d’essais d’apprentissage
• La performance est similaire à celle du SOFM clasique
6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation
• Résultats: Poids de connexions
FEBAM-SOFM SOFM (Kohonen’s)
W V
6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation
• Résultats: Sortie (unités y)
15 gagnants 15 gagnants+”Mexican-hat”
6. FEBAM+SOFM utilisant un kWTA Tâche de catégorisation
• Résultats – Extraction des prototypes (unités x)
(a)
(b)
(c)
(d)
(e)
6. FEBAM+SOFM utilisant un kWTA
En utilisant un kwta cela permiet d’avoir des variances fixes.
WTA
kW
TA
6. FEBAM+SOFM utilisant un kWTA L’effet de l’augmentation du nombre de patrons
• Patrons
Phase 1
Phase 2
• Apprentissage
6. FEBAM+SOFM utilisant un kWTA Agrandissement du nombre de patrons
A B C D E F
(a)
(b)
(c)
• Résultats
6. FEBAM+SOFM utilisant un kWTA Agrandissement du nombre de patrons
Initial
End phase1 / Beginning phase 2
End phase 2
Recherche actuelle…
• L’aprentissage dans le bruit • Interaction mémoire court et long terme • Attracteurs périodiques et chaotiques • Apprentissage par renforcement • Apprentissage de tâches non séparable linéairement • MAB à impulsion
Recherche actuelle…
• L’aprentissage dans le bruit • Interaction mémoire court et long terme • Attracteurs périodiques et chaotiques • Apprentissage par renforcement • Apprentissage de tâches non séparables linéairement • MAB à impulsion
Tâches non séparables linéairement
Tâches non séparables linéairement
• XOR (2-bit parity)
Inpu
ts
Targ
ets
Tâches non séparables linéairement
• XOR (2-bit parity)
Tâches non séparables linéairement
• N-bit parity
Tâches non séparables linéairement
• Double moon
• N-bit parity
Tâches non séparables linéairement
• N-bit parity
Tâches non séparables linéairement
Tâches non séparables linéairement
• Double moon
MAB à impulsions
Liens verticaux
Impulsions
MAB
Spiking BAM
• Fonction de sortie (une EDO)
3)*()*( xwxwrhdtdx
Neurone de type Fitzhugh-Nagumo
zbaxdtdz
zxwxwrhdtdx
*
)*()*( 3
• Fonction de sortie (deux EDOs)
Spiking BAM
• Apprentissage: STDP
Spiking BAM
• Apprentissage: 2 patrons
Spiking BAM
• Rappel
Spiking BAM
• Fonction de transmission binaire
32 )*(2)*(3 xwxwy
• Fonction de transmission ODE
in *- )*(2)*(3 32 xwxwxwdtdy
in < -1/(63]) 1/(63]) < in < 1/(63]) in > 1/(63])
Spiking BAM
• Fonction d’énergie
in** )*(- )*()*(3)( 22
142
13 xwxwxwxwxE
in < 0 in = 0 in > 0
Spiking BAM
• L’effet de la variable in sur l’émission de potentiels d’action
Spiking BAM
• L’effet de la variable in sur l’émission de potentiels d’action
Spiking BAM • Exemple
Erre
ur
Nb. Essais
• Apprentissage
Spiking BAM
• Rappel
Bruité
Reconstruit
Spiking BAM
• Rappel
Bruité
Reconstruit
Bruité
Reconstruit
Discussion • La MAB peut donc être utilisée dans différents contextes
(supervisé, auto-supervisé, non supervisé et par renforcement) • Elle permet de regrouper différentes classes de modèles (RAM,
SOFM, PCA, RNN). • Elle peut apprendre des associations simple et plus complexes;
One-to-one; many-to-one and one-to-many; linear and non-linear task.
• Le modèle est en mesure de réaliser toutes ces différentes tâches en conservant la même règle de transmission, d’apprentissage et sans modifier l’architecture de base.
• Une mémoire associative bidirectionnelle est centrale dans le développement d’un modèle de la cognition et tisser des liens avec les modèles en neurosciences.
Merci
Aperiodic behavior: Chaotic BAM
3. Chaotic BAM
• Output function
3( 1) ( 1) ( ) ( ( ))t t t y Wx Wx 3( 1) ( 1) ( ) ( ( ))t t t x Vy Vy
Output
Parameter
3. Chaotic BAM
• Bifurcation diagram
Fixed Points
Chaotic attractor(s)
1.45 1.65
3. Chaotic BAM
• Output variations within the basin of attraction (chaos, = 1.45) • All the variations stay within their corresponding quadrant.
3. Chaotic BAM
• Example
X(0)
Y(0)
3. Chaotic BAM
• Output variations within the basin of attraction
3. Chaotic BAM
• Output variations within the basin of attraction (chaos, = 1.65) • The variations are globally constrained.
3. Chaotic BAM
• Nonperiodic associative memory.
• The state vector wanders from one stored pattern to another.
3. Chaotic BAM
• Nonperiodic associative memory
• Can be used as a search procedure.
Target = “Triangle “
Random pattern
The transmission parameter is reduced = 1.4
The transmission parameter is reduced = 0.4
0. Models in Psychology (adapted from Coombs, 1983)
Empirical and Mathematical Systems
A
I (interpretation)
(abstraction)
M
Logical consequence
Axiom system
T
Empirical generalization
Segment of the real
world
Model
A
I
M
Logical consequence
Axiom system
T
Empirical generalization
Segment of the real
world
Theory
A
I
M
Logical consequence
Axiom system
T
Empirical generalization
Segment of the real
world
A
I
M
Logical consequence
Axiom system
T
Empirical generalizatio
n
Segment of the real
world
The empirical world is rich, the mathematical world is powerful. The match is fruitful.
If AMI = T, then scientific knowledge has increased
Nonlinear Dynamic Systems
"In this empire, the art of cartography was taken to such a peak of perfection that the map of a single province took up an entire city and the map of the empire, an entire province. In time, these oversize maps outlived their usefulness and the college of cartographers drew a map of the empire equal in format to the empire itself, coinciding with it point by point. The following generations, less obsessed with the study of cartography, decided that this overblown map was useless and somewhat impiously abandoned it to the tender mercies of the sun and seasons. There are still some remains of this map in the western desert, though in very poor shape, the abode of beasts and beggars. No other traces of the geographical disciplines are to be seen throughout the land." Jorge Luis Borges in "On Rigor in Science," part of "A Universal History of Infamy," 1946
Multistep Pattern Recognition
2. Multistep Pattern Recognition
• Cyclic behavior
Sequence 45° 90° 135° 180° 225° 270° 315° 0°
1
2
3
4
5
• Recall examples
2. Multistep Pattern Recognition
2. Multistep Pattern Recognition
• Cyclic behavior: Results Step 0 (Input)
Step 1 (Output)
Step 2 (Output)
Step 3 (Output)
Step 4 (Output)
Step 5 (Output)
Step 6 (Output)
Step 7 (Output)
Step 8
(Output) Step 9
(Output) Step 10
(Output) Step 11
(Output) Step 12
(Output) Step 13
(Output) Step 14
(Output)
Step 0 (Input)
Step 1 (Output)
Step 2 (Output)
Step 3 (Output)
Step 4 (Output)
Step 5 (Output)
Step 6 (Output)
Step 9 (Output)
Step 8
(Output) Step 9
(Output) Step 10
(Output) Step 11
(Output) Step 12
(Output) Step 13
(Output) Step 14
(Output)
2. Multistep Pattern Recognition
• Fixed point behavior
Sequence 45° 90° 135° 180° 225° 270° 315° 0°
1
2
3
4
5
2. Multistep Pattern Recognition
• Fixed point behavior: Results Step 0 (Input)
Step 1 (Output)
Step 2 (Output)
Step 3 (Output)
Step 4 (Output)
Step 5 (Output)
Step 6 (Output)
Step 7 (Output)
Step 0 (Input)
Step 1 (Output)
Step 2 (Output)
Step 3 (Output)
Step 4 (Output)
Step 5 (Output)
Step 6 (Output)
Step 9 (Output)
Step 0 (Input)
Step 1 (Output)
Step 2 (Output)
Step 3 (Output)
Step 4 (Output)
Step 5 (Output)
Step 6 (Output)
Step 7 (Output)
Noise
New pattern
New rotation
2. Mémoire Bidirectionnelle Associative
• Simulation: associations du type: Many-to-one
X(0) Y(0)
2. Mémoire Bidirectionnelle Associative
• Simulation: associations du type: Many-to-one
X(0) Y(t)
2. Mémoire Bidirectionnelle Associative
• Simulation: associations du type: Many-to-one
Y(0) X(t)
4. FEBAM Compression d’image
• But – Extraire une quantité limitée de caractéristiques d’une
image; – Reconstruire l’image originelle; – Évaluer les performances de généralisation du réseau.
4. FEBAM Compression d’image
• Méthodologie – Ddimension de l’image 128x128 pixels. – Dimension de la fenêtre de convolution 5x5, Extraction de
15376 vecteurs d’entrée de 25 dimensions chacun – Le nombre d’unités y est de 5. Learning Generalization
(a)
Model Resulting image PSNR
(dB) Resulting image PSNR (dB)
(b) A
PEX
16.7
21.6
(c) N
PCA
21.0
21.7
(d) f
astIC
A
32.1
26.6
(e) F
EBA
M
26.3
25.0
4. FEBAM Compression d’image
• Résultats: détection de caractéristiques
Les 25 unités sont devenues sensibles à la détection d’information présentes à différents endroits.
Les 5 unités sont devenues sensibles à différentes orientations
x y x y
4. FEBAM Compression d’image
• Résultats
Learning Generalization
(a)
Model Resulting image PSNR
(dB) Resulting image PSNR (dB)
(b) A
PEX
16.7
21.6
(c) N
PCA
21.0
21.7
(d) f
astIC
A
32.1
26.6
(e) F
EBA
M
26.3
25.0
Learning Generalization
(a)
Model Resulting image PSNR
(dB) Resulting image PSNR (dB)
(b) A
PEX
16.7
21.6
(c) N
PCA
21.0
21.7
(d) f
astIC
A
32.1
26.6
(e) F
EBA
M
26.3
25.0
,2
, 110 , 2
, ,, 1
255( ) 10log
row col
i jrow col
i j i ji j
PSNR zz o
4. FEBAM Compression d’image
• Results: Généralisation
Learning Generalization
(a)
Model Resulting image PSNR
(dB) Resulting image PSNR (dB)
(b) A
PEX
16.7
21.6
(c) N
PCA
21.0
21.7
(d) f
astIC
A
32.1
26.6
(e) F
EBA
M
26.3
25.0
Learning Generalization
(a)
Model Resulting image PSNR
(dB) Resulting image PSNR (dB)
(b) A
PEX
16.7
21.6
(c) N
PCA
21.0
21.7
(d) f
astIC
A
32.1
26.6
(e) F
EBA
M
26.3
25.0
,2
, 110 , 2
, ,, 1
255( ) 10log
row col
i jrow col
i j i ji j
PSNR zz o