stochastische automaten als grundlage linearer lernmodelle

17
I. Stadsdsche Theorie G. Feichtinger Stochastische Automaten als Grundlage linearer Lemmoddle 1. Einfiihrung Der Gedanke, das Ph;inomendes Lernens quantitativ zu untersuchen, ist seit den Experi- menten yon Ebbinghaus (1885) und Thorndike (1898) in der Psychologie lebendig. Seine konsequente Vetfolgung vor allem dutch die amerikanische Schule der Verhaltens- psychologie f~hrte in den letzten zwei Jahrzehnten zur Weiterentwicklung und zu einem beachtlichen Aufschwung der mathematischen Lerntheorie. Diese kann als formale Methode zur begrifflichen Darstellung des Lemvorgangs aufgefaBt werden. Mittels mathe- matischer Formulietung yon Hypothesen fiber den LernprozeB sucht man zu quanti- tativen Aussagen zu getangen, welche an Hand yon Lernexperimenten empirisch zu verifizieren sin& Im Sinne yon Bush und A4osteller [1] versteht man untet Lernen jede systemalische Ver- haltenslinderung. Der Lernproze/~, der sich in einem Tier oder in einem Menschen vollzieht, drtickt sich demgem~B in einer Folge yon Entscheidungen zwischen mehteren Altemativen (Ant- worten) aus. Nun sind selbst bei einfachen Lemexpetimenten die Antworten in typischer Weise irrtumsbehaftet. Dieser Gesichtspunkt legt nahe, daB Wahrscheinlichkeiten bei der Auswahl der Antworten eine RoUe spielen. Der Lernvorgang manifestiett sich dann gerade in einer yon Versuch zu Versuch eines Experimentes erfolgenden An&rung der Antwortwahrscheinlichkeiten. In den neueren mathematischen Untersuchungen zur Lern- theorie wetden Lemvotg~nge meist als stochastische Prozesse aufgefaBt. So geben auch Bush und Mosteller in [1] ihrer Ansicht Ausdruck, dab Lemvorghnge ihrem Wesen nach probabilistisch seien. Das Leitmotiv der vorliegenden Arbeit liegt in der Auffassung des Lernvorganges als Wechselwirkung zweier Automaten, n~mlich zwischen dem lernenden Subjekt und seiner Umwelt. Ist einmal klargestellt, dab Lemmodellen zwei aufeinander einwirkende (riick- gekoppelte) Automaten zugrunde liegen, dann kann die mathematische Lemtheorie als Teilgebiet der Kybemetik und insbesondete der Theotie mathematischer Maschinen angesehen werden. Die automatentheoretische Formulierung des Lemmodells l~iuft auf folgendes Schema hinaus: Jedem LemptozeB liegt ein lernendes Subjekt ~ (lernendes System) zugrunde. ist inneter Zust~inde Fihig und vetftigt fiber Reaktionen aus einer bestimmten Menge. Welche Reaktion gerade auftritt, das h~ngt vom jeweils angenommenen Zustand ab. Die Eingabesignale, welche das Verhalten yon ~ steuern, bezieht das lemende System aus der Umwelt. Bei Lernexperimenten wird nicht die ganze Umwelt ffir das Verhalten yon ~ ausschlaggebend sein, sondem nur der yore Experimentator gestaltete Teil ~. Von der (relevanten) Umwelt ~ kann angenommen werden, dab sie ebenIalls Auto- matenstruktur besitzt. Die Reaktionen yon ~ wirken auf ~ als Inputs, die Ausgabe- signale von ~ werden yon ~ als Eingabe vetarbeitet (Prinzip der Riickkoppelung).

Upload: gustav-feichtinger

Post on 25-Aug-2016

215 views

Category:

Documents


2 download

TRANSCRIPT

I. Stadsdsche Theorie

G. Feichtinger

Stochastische Automaten als Grundlage linearer Lemmoddle

1. Einfiihrung

Der Gedanke, das Ph;inomen des Lernens quantitativ zu untersuchen, ist seit den Experi- menten yon Ebbinghaus (1885) und Thorndike (1898) in der Psychologie lebendig. Seine konsequente Vetfolgung vor allem dutch die amerikanische Schule der Verhaltens- psychologie f~hrte in den letzten zwei Jahrzehnten zur Weiterentwicklung und zu einem beachtlichen Aufschwung der mathematischen Lerntheorie. Diese kann als formale Methode zur begrifflichen Darstellung des Lemvorgangs aufgefaBt werden. Mittels mathe- matischer Formulietung yon Hypothesen fiber den LernprozeB sucht man zu quanti- tativen Aussagen zu getangen, welche an Hand yon Lernexperimenten empirisch zu verifizieren sin& Im Sinne yon Bush und A4osteller [1] versteht man untet Lernen jede systemalische Ver- haltenslinderung. Der Lernproze/~, der sich in einem Tier oder in einem Menschen vollzieht, drtickt sich demgem~B in einer Folge yon Entscheidungen zwischen mehteren Altemativen (Ant- worten) aus. Nun sind selbst bei einfachen Lemexpetimenten die Antworten in typischer Weise irrtumsbehaftet. Dieser Gesichtspunkt legt nahe, daB Wahrscheinlichkeiten bei der Auswahl der Antworten eine RoUe spielen. Der Lernvorgang manifestiett sich dann gerade in einer yon Versuch zu Versuch eines Experimentes erfolgenden An&rung der Antwortwahrscheinlichkeiten. In den neueren mathematischen Untersuchungen zur Lern- theorie wetden Lemvotg~nge meist als stochastische Prozesse aufgefaBt. So geben auch Bush und Mosteller in [1] ihrer Ansicht Ausdruck, dab Lemvorghnge ihrem Wesen nach probabilistisch seien. Das Leitmotiv der vorliegenden Arbeit liegt in der Auffassung des Lernvorganges als Wechselwirkung zweier Automaten, n~mlich zwischen dem lernenden Subjekt und seiner Umwelt. Ist einmal klargestellt, dab Lemmodellen zwei aufeinander einwirkende (riick- gekoppelte) Automaten zugrunde liegen, dann kann die mathematische Lemtheorie als Teilgebiet der Kybemetik und insbesondete der Theotie mathematischer Maschinen angesehen werden. Die automatentheoretische Formulierung des Lemmodells l~iuft auf folgendes Schema hinaus: Jedem LemptozeB liegt ein lernendes Subjekt ~ (lernendes System) zugrunde.

ist inneter Zust~inde Fihig und vetftigt fiber Reaktionen aus einer bestimmten Menge. Welche Reaktion gerade auftritt, das h~ngt vom jeweils angenommenen Zustand ab. Die Eingabesignale, welche das Verhalten yon ~ steuern, bezieht das lemende System aus der Umwelt. Bei Lernexperimenten wird nicht die ganze Umwelt ffir das Verhalten yon ~ ausschlaggebend sein, sondem nur der yore Experimentator gestaltete Teil ~. Von der (relevanten) Umwelt ~ kann angenommen werden, dab sie ebenIalls Auto- matenstruktur besitzt. Die Reaktionen yon ~ wirken auf ~ als Inputs, die Ausgabe- signale von ~ werden yon ~ als Eingabe vetarbeitet (Prinzip der Riickkoppelung).

Abb. 1

lernendes Expefimentator System (relevante Umwelt)

Rtickgekoppeltes System

Das Studium dieser zusammengekoppelten Systeme ist einem besseren Verst~ndnis der Lernsituation f6rderlieh. Ein Subjekt lemt in Wechselwirkung mit seiner Umwett: Durch gelernte Handlungsweisen formt es die Umwelt, und diese wirkt in Abh~ngigkeit von Subjektreaktionen auf das Individuum ein. Der Aufbau der vorliegenden Arbeit ist folgendermaBen: Zun~chst werden in ] 2 die ben6tigten Begriffsbildungen aus der Automatentheorie zusammengestellt. Lineare stochastische Lernmodelle werden in ~ 3 diskutiert. Nach einer Diskussion der Klassi= fizierung yon Lemexperimenten (§ 4) kommen wir im 5. Abschnitt zur Anwendung der t Automatentheorie auf Lernmodelle. Es zeigt sich, dab manchen Fragestellungen der Lerntheorie rein automatentheoretische Probleme entsprechen. Dies wird durch die mehr technischen Abschnitte 6 bis 8 verdeutlicht.

2. AbriB aus der Automatentheorie

Da sich die Klasse der vorgeschlagenen Lernmodelle auf Begriffe der Theorie abstrakter Automaten st~tzt, so seien in der Folge die ben6tigten Konzepte und Notationen kurz zusammengestellt. Es sei gleich erw~ihnt, dab wit die automatentheoretischen Deft- nitionen im Hinblick auf ihre sp~tere lerntheoretische Verwendung zuschneiden. Die allgemeinen Begriffe k6nnen etwa bei Gluscbkow [2] (determinierte Automaten) und Starke [3] (stochastische Automaten) eingesehen werden.

Definition: Unter einem determimerten abstrakten Automaton verstehen wir ein System ~l[ = (Z, X, ~b). Die Elemente der Menge Z heiBen Zustil)lde, die x aus X Eingabesignale. Jedem x ~ X entspreche eine Tranfformationfz yon Zin sieh, und es sei • ----- {fx I x ~ X} die Menge dieser Funktionen. 93[ = (Z, X, qs) arbeitet in einer diskreten Zeitskala mit abz~hlbar unendlich vielen Takten t = 1, 2 . . . . In jedem Takt befindet sich ~[ in genau einem Zustand und nimmt einen Input auf. Ist Z der Zustand und x der Input im Takt t, so soll sich 0d im Takte t + 1 im Zustandfx(z) befinden. Der jeweils angenommene Zustand kann als Ausgabe- signal aufgefaBt werden, das im betreffenden Takt ausgesendet wird. Solche Systeme wurden beispielsweise yon Rabin und Scott [4] studiert und spielen u. a. in der mathematischen Linguistik eine groBe Rolle. Die Theorie determinierter Auto- maten kann als Teilgebiet der Algebra betrachtet werden. Man vergleiche dazu etwa [5], [6]. Sind durch die Transformationenfz ~ q~ die Bildelemente f z (~ (Z ~ Z) in Z nicht ein- deutig festgelegt, sondern ist nut die Wahrscheinlichkeitsverteilung Px(Z, w) dafiir ge- geben, dab der Zustand Z verm6ge des Inputs x in irgendein w ~ Z iibergeht, so ge- langt man zum Begriff des stochastischen Automaten.

Definition: Ein abstrakter stochastischer Automat ~[ = (Z, X , 17 3 besteht (fiir unsere Zweeke) aus einer Zustandsmenge Z, einer Menge X yon Eingabesignalen und einer zu- geordneten Menge/7 yon quadratischen stoehastisehen Matrizen 9~z = (Pz(fij)) der Ordnung IZI"

Bemerkungen W dieser Definition :

Die Stochastizit/it der Transitionsmatrix ~3z bedeutet:

pz( i , j ) >_-- 0 ftir alle i , j ~ Z u n d ~ pz( i , j ) = 1 fiir alle i eZ . i~z

Beziiglich der Matrizen wihle man fiir die Zust~inde eine beliebige, dana aber feste Ordnung. Das System besitzt wohlbestimmte TDbergangswahrscheinlichkeiten, um yon einem Zustand i verm6ge eines Inputwortes (Folge yon Eingabesignalen x l x 2 . . . x , in ein j e Z iiberzugehen. Diese Wahrscheinlichkeit berechnet sich dutch Produktbildung der stochastischen Matrizen ~3zi ~3zz. . . ~3,s. In tier Kybemetik spielen solche dynamischen Systeme mit stochastischem Charakter eine wichtige Rolle. Ashby [8] bezeichnet sie als Markovsche Maschinen und wendet sie in der Regelungstheorie an. Analog zum deterministischen Fall wollen wit wieder die Zust~inde selbst als Ausgabe- signale ansehen. Der allgemeine Fall dieses sogenannten stochastischen Moore-Automaten, wo jedem Zustand nut mehr eine Wahrscheinlichkeitsverteilung m6glicher Outputs zugeordnet ist, gelangt hier nicht zur Anwendung. Die Theorie stochastischer Automaten wurde erst in jiingster Zeit vorangetrieben; bier ,,;ind vor allem die zahlreichen Arbeiten von Starke zu nennen (vgl. auch [7]). Die fotgende ErklSrung unterscheidet sich yon der des g~ngigen MeaO/-Automaten (siehe etwa [2]) durch eine leichte Modifizierung des Ausgabekonzepts.

Definition: Unter einem modiflzierten stochastischen Meaty-Automaten wollen wit das System 9~ = (Z, X , Y, 17, co) verstehen. Dabei bedeutet Z die Zustandsmenge, X die Menge der Inputsignale, Y die Menge der Outputsignale und 17 = {~zl x E X} die Menge der Transitionsmatrizen. Der Ablaut des Systems geschieht wieder in diskreten Takten. In jedem Takt t nimmt ~[ einen Input aug, und die Zust~nde geniigen einer Wahrscheinliehkeitsverteilung pt. Kommt im Takt i das Signal xe an, so ist die Zustandsverteilung zur.Zeit t + 1 gegeben dutch

Pe+i = Prize In jcdem TaMe t q- 1 gibt fe2:ner od ein Signalye+ 1 aus Y aus~ das nlcht nut yore tat- sfichlich im Takte t + 1 angenommenen Zustande ge+l abh~ngt, sondern auch vom Eingabesignal xt, das dicsen Zustand bewirkt hat. Diese eindeutige Abh~tngigkeit werde durch eine Abbildung C O : X × Z - + Y spezifiziert (stoehastisehe Transition, deter- minierter Output).

3. Das lineare stochastische Lernmodell

Verdeutlichen wit uns die Situation, der sich ein lernendes Subjekt in einem Lern- experiment gegeniibersieht. Jeder Versuch beginnt mit der Darbietung einer Rei z- situation. Das Subjekt antwortet darau~ durch Auswahl einer Aktion (Verhaltensweise) aus einer bIenge von verRigbaren Alternativen. Der Versuch cadet mit dem Auftreten eines sogenannten Ausganges (outcome) aus einer Menge yon m6glichen Ausg~ngen (z. B. Belohnung, Kenntnisgabe des Resultats). Das Lemen des Subjekts manifestiert sich in einer Xnderung der Verhaltenswahrscheinlichkeiten in Abh~ingigkeit yon der Versuchsnummer.

Die konstituierenden Begriffe jedes stochastischen Lernmodells entsprechen den Kom- ponenten des Lernexperiments. Ein Lernexperiment besteht aus einer (abz~hlbar unend- lichen oder endlichen) Folge yon Versuchen (trials). Bei jedem Versuch wird zun~chst festgehalten, wie sich das Subjekt verh~It. Wie iiblich sei mit A = {al, a2 . . . . . at} die Menge der Antworten (responses, Aktionen, Alternativen) bezeichnet, fiber die das Individuum verf/igt. Der Experimentator mul3 A so definieren, dab bei jedem Versuch genau ein a 1 auftritt. Welter bezeichnen wit (gem~iB der Notation yon Bush und Mosteller) mit O = {01, 02 . . . . ,0s} die Menge der sogenannten Ausgiinge (outcomes). Damit sind die vom Experimentator durchgefiihrten Handlungen gemeint, z. B. Belohnung, Be- strafung usw. Soweit besteht ein Lernexperiment also aus dem Protokoll des Experi- mentators, wo sein und das Verhalten des Lemenden aufgezeichnet sin& Nun kommen wit zum eigentlJchen Lernvorgang: Jedes Antwort-Ausgangspaar bildet ein sogenanntes Experimentalereignis (aj, ok). Aus verhaltenspsychologischen Experimenten wird klar, daft i. a. die Altemativwahl sowohl vom vorhergehenden Ausgang als auch yon der vorausgegangenen Antwort abh~ngen kann. Es zeigt sich jedoch, dab oft verschiedene Experimentalereignisse yon gleicher Wirksamkeit in bezug auf die n:ichstfolgende Alternativwahl sind. Wir teilen deshalb die Experimentalereignismenge .,4 x O ein in .~-quivalenzklassen gleicher Wirksamkeit be- ztiglich des Lernens. Die Menge dieser Klassen yon Paaren (al, o~ ) werde mit E = (ex, e~. . . . . , eu} bezeichnet und Menge der Modellereignisse genannt (vgl. Sternberg [9]). Ist im folgenden yon Ereignissen (verstiirkenden Ereignimn, reinforcing events) die Rede, dann sind stets diese Modellereignisse e~ gemeint. Ein Versuch eines Lernexperi- merits besteht somit aus einem Tripd (al, o~, e~), wobei e, die _~quivalenzklasse gleicher Wirksamkeit yon (al, o~) auf die Antwortwahrscheinlichkeit bedeutet. Da die Kompo- nenten eines Tripels nicht voneinander unabh~ngig sind, so werden in der Literatur die 0k manchmal auch weggelassen. Die Crux eines stochastischen Lernmodells ist die Anderung der Antwortwahrschein- lichkeiten yon einem Versuch zum andem. Eine Art der Beschreibung dieses Wechsels geschieht mittels expliziter Angabe der ~3bergangsregeln, n~mfich mit Operatoren. Im linearen Lernmodell wird das Lernen dutch lineare Transformationen der Antwort- wahrschelnllchkeiten dargesteUt, die Operatoren sind also Alatrizen. Um nun das angekiindigte lineare Operatormodell vollstiindig anzugeben, ordnen wir jedem e, eine stochastische r × r Matrix ~3~(i = 1, 2 . . . . . u) zu. Jetzt k/Snnen wir die

: ~(t) ~(t) ~(t)~ Funktionsweise des Modells folgenderweise dariegen: Es sei Pt = ~*'1 ,t'z , "",~'r , die Verteilung der r Antwortwahrscheinllchkeiten beim t-ten Versuch. (pt kann gem~13 dem Gesetz der grol3en Zahlen folgendermal3en interpretiert werden: Man denke sich sehr viele, etwa N Realisierungen - Versuchsfolgen - desselben Lernexperiments durch- gefiihrt. Dann tritt beim t-ten Versuch fast sicher pl 0 N-mal die Antwort i auf). Es sei beim t-ten Versuch die Alternative a 1 und der Ausgang 0/c realisiert, was dem reinforcing event e, entspreche. Dann muf~ auf Pt der Operator ~, angewendet werden, um zur Ant- wortverteilung zur Zeit t + 1 zu gelangen:

4. Klassifizierung yon Lernexperimenten

Je nachdem, ob der Experimentator, das Subjekt oder beide das Auftreten der Ereignisse (und damit der Operatoren) bewirken, fiihrt dies zu folgender fundamentaler Einteihmg der Lernexperimente :

a) Vom Experimentator kontrollierte Ereignisse, kurz EK (experimenter-controlled events), b) yore Subjekt kontrollierte Ereignisse, SK (subject-controlled events), c) vom Experimentator und vom Subjekt kontrollierte Ereignisse, ESK (experimenter-

subject-controlled events).

Entsteht das Lernen durch Anwendung yon Operatoren auf variable Wahrschdnlich- keiten, so legt die obige Klassifikation lest, wet die Anwendung der Operatoren steuert. Es sei gleich bemerkt, dab diese Kontrolle nicht im deterministischen Sinne verstanden zu werden braueht; es genfigt, wenn fiber die Wahrscheinlichkeiten f/Jr das Auftreten der Ereignisse (Operatoren) verffigt wird. Wie wirkt sich diese Klassifizierung auf die )kquivalenzklassen der Experimental- ereignismenge A x 0 aus ?

A• °1 02 . . . ok . . . os

at a2

aj

a r

(al ,01) (al, 02) . . . (al, 0 k ) . . .

. . . . , .

@, oi) ~ , 0 2 ) . . . ( a j , o k ) . . .

Der Fall E K : Hier bestimmt allein der Ausgang das Ereignis. Unabh~ngig yon der gew~hlten Alternative h/ingt der verwendete Operator ausschlieBlich vom Ausgang ab. Seine Anwendung (oder zumindest die Wahrscheinlichkeit derselben) hat der Experi- mentator in H~inden. W/ihlt man die Ausg~inge verniinftigerweise so, dab verschiedene 0, auch verschiedene Lernwirkung zeigen, so erscheinen in obigem Tableau die Aqui- valenzklassen e~ als Spalten. Der Fall SK: Allein yon der vorhergehenden Antwort h~ngt das Modellereignis ab. Jedes Experiment, bei welchem die gew/ihlte Antwort den Ausgang vollst.;tndig festlegt, ist hier subsumiert. Im Tableau entspricht jeder Zeile eine Klasse gleichwirksamer be- kr/iftigender Ereignisse. Der Fall E S K : Sowohl die Kennmis der Antwort als auch der Ausgang werden be- nutzt, um das Auftreten eines Modellereignisses festzulegen. Jeder Antwort a t u n d jedem Ausgang 0k ist genau ein Ereignis e~ zugeordnet. Es gilt also: A x O = E. Im Tableau sind alle Eing/inge verschieden. Zur Illustration ffihren wit fiir jeden der drei F~ille ein charakteristisches Beispiel an. Zum Fall E K : Vorhersageexperiment (prediction experiment): Ein Subjekt sitzt vor einem Pult, auf dem zwei Lampen angebracht sind. Bei jedem Versuch leuchtet irgend- eine der beiden auf. Die Aufgabe des Subjekts besteht darin, zu erraten, welche der beiden es sein wird. Fiir seine Antworten hat das Subjekt zwei Druckkn6pfe zur Ver- ffigung, die den beiden Lampen entsprechen. Folgende vier M6glichkeiten bestehen fiir den Ablauf eines Versuchs:

M6glichkeit

1 (korrekte Antwort) 2 (inkorrekt) 3 (inkorrekt) 4 (korrekt)

Antwort

al: Drticke linken Knopf a2: Drticke rechten Knopf ax: Driick¢ iinken Knop[ a2: Drticke rechten Knopf

Ausgang

or: Linkes Licht leuchtet auf or: Linkes Licht teuchtet auf o2: Rechtes Licht leuchtet auf oz: Rechtes Licht leuchtet auf

Jedes Paar Antwort-Ausgang bildet ein Experimentaleteignis; pro Versuch gibt es also vier mSgliche Experimentalereignisse. Das Auftreten eines Ausganges wird als unab- hfingig yon der gew~hlten Antwort vorausgesetzt (nichtkontingente Verstdrkungsvorschrift). Es liegt nahe, anzunehmen, daft die .~nderungen der Antwortwahrscheirdichkeiten nut yon den Ausg~ingen abMngen und nicht yon den Antworten. Man setzt voraus, dai3 eine Belohnung yon al dutch ol als ~quivalent angesehen werden kann zu einer Nicht- belohnung yon a2 mit 01. Die vier Experimentalereignisse werden somit in zwei Aqui- valenzklassen eingeteilt,

{(al, Ol), (a2, Ol)}, {(al, 09.), (a2, o2)},

welche die beiden Modellereignisse el und e2 definieren. Dieses Vorhersageexperiment scheint auf Estes und Straughan [10] zurfickzugehen. Zum Fall SK: Shuttlebox-Experiment: Dieses Experiment wurde yon Solomon und Wynne [ 11 ] beschrieben. Es behandelt das sogenannte ~ avoidance training<< yon Hunden.

Ein Hund kann fiber eine Barriere zwischen zwei beleuchteten Abteilungen eines K/ifigs hin- und herspringen. 10 Sekunden vor dem Auftreten eines intensiven elektrischen Schocks erlischt das Licht in jenem Abteil, wo sich gerade der Hund befindet. Die Hunde sollen lernen, den elektrischen Schock zu vermeiden (avoidance training), indem sie auf den bedingten Rei z (Erl6schen des Lichtes) durch Wechseln des Abteils antworten. Das Versuchsschema gestattet folgende zwei MSglichkeiten des Ablaufs:

Antwort Ausgang

al: Springt uor Eintritt des Schocks o1: Vermeidung des Schocks a~.: Springt nach Eintritt des Schocks o,_: Erleidung des Schocks

Im Gegensatz zum Fall EK sind die Ausg~inge dutch die Aktionen des Hundes voll- st~indig festgelegt. Das Modellereignis e~ ist ausschlieBlich yon der Antwort ai bestimmt.

Zum Fall E S K : T-K~fig-Experiment (T-maze experiment) : Eine Ratte sitzt am unteren Ende eines T-fSrmigen K~ifigs und kann zum linken (al) oder rechten oberen Ende (a._,) laufen. Dort findet sie entweder Futter vor (01) oder nicht (o2). Folgende vier MSglich- keiten kSnnen bei einem Versuch auftreten:

Antwort Ausgang

al : Linkswendung al : Linkswendung a2 : Rechtswendung a2: Rechtswendung

ox: Futter oz: kein Futter Ol : Futter o-.: kein Futter

Im Unterschied zum Fall EK sind die Ausg~nge nicht mehr unabhfingig yon den Ant- worten. Abet anders als im Falle SK sind die Antworten mit den Ausg~ingen nicht mehr vollst~indig korreliert. Es handelt sich um eine sogenannte kontingente Verstdrkungsvor- schrift. Ein fixer Anteil ~ n der Link swendungen werde etwa mit Futter belohnt; der Anteil der Belohnungen der Rechtswendungen hingegen betrage ~21. Es liegt hier der kontingente Fall vor, weil die bedingten Wahrscheinlichkeiten

Prob {0~1 al} = ztt~

yon j abhangen. Jedem Paar (aj, 0~) entspricht ein Ereignis e~. T-Kfifig-Experimente wurden beispielsweise yon Brunswik in [12] behandelt.

10

5. Das Iernende System als stochastischer Automat

Der Grundgedanke unserer Ausfiihrungen besteht nun darin, dab das lineare Lernmodell eine automatentheoretische Formulierung gestattet. Der Vorteil einer solchen liegt nicht nur darin, dab automatentheoretische Resultate (etwa fiber Grenzverteilungen der Ant- wortwahrscheinlichkeiten) in der Lerntheorie Anwendung finden. Die Klassifikation der Lernmodelle (siehe im vorigen Abschnitt) erscheint dutch die Automatentheorie in neuem Licht. Bisher mehr oder weniger beziehungslos nebeneinanderstehende Modell- gattungen k/Snnen dutch diesen Ansatz unter neuen Aspekten gesehen werden: Mathe- matische Lernmodelle erweisen sich als ein Spezialfall der Theorie stochastischer Auto- maten. Zusammenfassend kann gesagt werden, dab unserer Meinung nach die automaten- theoretische Wendung der Lerntheorie auch ein besseres Verst~indnis des Lernprozesses bringt. Im linearen ModeU deuten wit das lernende System ~ folgendermaBen als stochastischen ( Moore-)Automaten :

= ( A , E , H )

Dabei wird aus Einfachheitsgrfinden die Zustandsmenge des Automaten mit der Antwortmenge A = {al, a2 . . . . , ar} (eigentlich Menge der Ausgabesignale) iden- tifiziert. Die Ereignismenge E = {el, e2 . . . . , eu} fungiert als Menge der Eingabesignale, die Operatorenmenge H = { ~ , i = 1, 2, . . . , u} als Familie der zugeh6rigen Transitions- matrizen. Je nach Art des Eingabevorganges der e~ unterscheiden wir verschiedene Lernmodell- klassen. Diese Einteilung entspricht der Modellklassifizierung des vorigen Abschnitts. Im Falle EK werden die e~ yon der Umwelt geliefert. Vom determinierten systematischen Eingabewort fiber die Markovkette bis zur zufiilligen Operatorfolge sind verschiedene Eingabem6glichkeiten denkbar und ftir tats~ichliche verhaltenspsychologische Experi- mente auch yon Bedeutung. Im Fall SK treten die Antworten a 1 als Eingaben e i aug: Das System ~ verarbeitet seinen eigenen Output. Der Fall ESK schlieBlich entsteht durch Zusammenlegen tier beiden ersten M6glich- keiten. Die Eingabe ist hier sowohl v o n d e r Umwelt als auch vom Subjekt selbst abh~ingig. Es erweist sich nun als gtinstig, die Umwelt des lernenden Subjekts ~ ebenhlls zu strukturieren. Die ffir den Lernvorgang relevante Umwelt fassen wit in unserem Modell zum System ~ des Experimentators zusammen. Verhaltenspsychologische Lernexperi- mente legen es nahe, als Zust/inde yon ~ die Ausg/inge 0k aufzufassen. Wir gehen nun an Hand der verschiedenen Modellklassen an die Erkl~.rung der Funktionsweise yon in Wechselwirkung mit ~.

EK SK ESK

Klassifizierung yon Lernvorg/ingen Abb. 2

EK: Das System ~ kann Zustiinde aus der Menge 0 der Ausg/inge annehmen. Ist im Zustand ore, dann tritt (das eindeutig bestimmte) Ereignis e~ als Input fiir den Auto- maten ~ auf. (Im Falle EK ist ja E = 0.) Das System ~ kann als ~ffeier<< Inputlieferant

11

fi~r ~ angesehen werden ([rei deswegen, weil ~ nicht von ~ beeinfluBt wird). Ftir die Aufeinanderfolge der Zust~nde yon ~ (und damit der Inputs yon 6) shad [olgende MSglichkeiten yon Wichtigkeit:

- Wiederholung eines einzigen Zustandes (Operators) - Systematische Folge - Zuf~llige Folge - Markovkette.

Unser Mode]/gestattet jedoch auch die Betrachtung zus~tzlicher F~lle, die bisher in der Literatur nicht auftraten. Man kann n'~mlich ~ selbst als (determinierten oder stochasti- schen) Moore-Automaten mit der Zustandsmenge 0 betrachten. Im Falle EK wirkt der Input - aus der iibrigen Umweh kommend - auf ~ ein. Der Fall EK l~13t sich als eine (einseitige) Koppelung der beiden Automaten 6 und cleuten. Zwei Automaten heiBen bier dabei gekoppeh, wenn die Ausgabesignale des einen mit der Inputmenge des anderen iibereinstimmen (vgl. dazu auch Ashby [8]). SK: Hier ist die Eir~iihrung einer Umwelt iiberfliissig. Da E = A, so bildet ~ einen abgeschlossenen stochastischen Automaten: 6 = (A, A , 17). Die Auswahl des gerade au{ die Zustandsverteilung anzuwendenden Operators hSngt vom gerade angenommenen Zustand ab. E S K : Im Falle ESK nehmen wir wie unter EK an, dab ~ Zust~inde aus einer Menge O annehmen kann. Diese treten jedoch in Abh~ngigkeit yon den Antworten a I ein. ~ wird mit den Ausgabesignalen yon ~ gefiittert. Diese Outputs h~ngen sowohl vom gerade angenommenen Zustand yon ~ ab, als auch yon der zuletzt gew~hlten Alternative Y O n ~. Der allgemeinste Fall besteht wohl darin, daft ~ und ~ stochastische Automaten sind, die gegenseitig gekoppeh (riickgekoppelt) sind:

= ( A , E , 17) ~ = ( O , A , E , A )

Das Tripel 6 hatten wit zu Beginn dieses Abschnitts erkl/irt. Nun zu ~: Jedem Input a t e A sei ein Operator (stochastische Matrix) ~21 zugeordnet, und es sei A = {El, j = 1, 2, . . . , r}. Die Menge der Ausgabesignale besteht aus E = A x 0. @ ist als ein modifizierter Mealy-Automat aufzufassen (vgl. ~ 2: aJ ist hier die identische Abbildung yon ~" = A x 0 auf sich selbst). Die Funktionsweise des allgemeinen ESK-Modells kann dutch die wechselseitig ge- koppelten Automaten 6 und ~ beschrieben werden. Zun~chst ist die Outputmenge yon

(n~irnlich A) mit der Inputmenge yon ~ identisch. Wit sagen in diesem Fall, daft an ~ gekoppelt ist, symbolisch ~ -+ ~. Die Outputsignale von ~ dienen nun abet ihrer- seits als Input yon 6 : ~ --> 6 . Fiir diese Riickkoppelung schreiben wit kurz:

Erla'uterung Zu Abb. 3 : Die P[eilrichtung deutet die Ablaufrichtung an. Gleichzeitig erkennt man die einzelnen Abh~ngigkeiten. Beispielsweise iibersieht man die Eigenschaft des Outputs des modi- fizierten Mealy-Automaten ~, n~mlich dab et+z n+l yon at+2 n und 0t+2 n+l abh~ingt. Von

und ~ seien die Anfangszust~nde vorgegeben. Zum Beispiel wahlt 6 aufs geratewohl eine Antwort. (Diese Annahme ist realistisch, da vor dem ersten reinforcement dem Subjekt jedes Motiv fehlt, irgendeine Antwort zu bevorzugen.) In den Takten t, t q- 2, . . . , t q- 2 n . . . . wirkt 6 mittels der Matrix Eat+2 n au{ ~ ein. In den Takten t + 1, t + 3 . . . . . t + 2 n + 1 . . . . beeinfluflt ~ durch ~3et+2n+~ seiner- seits ~.

12

Der Vorgang t.~uft schematisch folgendermaBen ab:

Takt

Automat ~ Automat

Eingabe yon

----- Ausgabe VOn

Operator Zustand Ausgabe

v o n

= Eingabe v o n

Operator Zustand

t + l

t + 2

t + 3

Abb. 3

at .= a~

i / e t+l ~ ~ e t + l a s

)

a~+2

g~+3 I* ~ e t + 3 at+2

~ T , , ° . . . . . ° . . .

Ablaufschema der gekoppelten Automaten ~ und ~

a t + 2

/

. . °

I

~ , ~ a t 0 t - 1

0 t + l

~ - ~ a ~ + 2 0 t + l

0t+S

1 T

. , ° . . .

W~hrend des 0berganges vom Takt t + 2 n - - 1 zum Takt t + 2 n ~ndert sich der Zustand (bzw. die Zustandsverteilung) yon ~ ; der Zustand yon ~ bleibt erhalten: Ot+2 n "~" Or+2 n - 1 •

Hingegen wechseh ~ w/ihrend des 1~berganges yon t q- 2 ,l zu t + 2 n q- 1 den Zu- stand. ~ bleibt dabei unge/indert: at+2 n+l = at+= n. Wesentlich fiir die vorliegende Koppelung ist, dab die Rtickwirkung yon ~ au[ ~ erst einen Takt nach der Wirkung yon ~ in Richtung ~ er£olgt. - Der Begriffdes gekoppelten stochastischen Automaten scheint £tir die Lerntheorie zentral zu sein. In [13] wird gezeigt, dab gekopp'elte stochastische Moore-Automaten ohne time-lag in der Riickwir- kung eine Rolle spielen bei Lernvorg/ingen in Zwei-Personen Wechselwirkungs- situationen.

6. Vom Experimentator lcontrollierte Ereignisse (EK)

In den restlichen Abschnitten stellen wir u. a. haupts~ichlich Formeln ftir Grenzver- teilungen yon Zustandswahrscheinlichkeiten auf. Zun/ichst erl/iutern wit f/.ir r > 2 eine Einschrfinkung, die in der Lerntheorie stochastischen Automaten der Ordnung r auferlegt wird (Ordnung eines Automaten = Kardinalzahl der Zustandsmenge):

A) Die Bedingung der kombinierten Antwortklassen (combining classes condition, im folgenden kurz CC-Bedingung genannt) Die CC-Bedingung tr/igt der Tatsache Rechnung, daB die Definition der Antwort- alternativen weitgehend willkiirlich ist. Es muB im Lernmodell m6glich sein, jede Menge

13

yon Aktionen zu einer Alternative zusammenzufassen. Kurz gesagt fordert die CC- Bedingung folgendes: Der Vektor der Antwortwahrscheinlichkeiten mull unbeeinflullt davon sein, ob das Zusammenfassen yon Aktionen vor oder nach der Anwendung eines Operators geschieht. Diese Invarianz in bezug auf die Kombinierungsoperation soll fiir alle Operatoren und alle Teilmengen yon A gelten. Fiir r = 2 ist die CC-Bedingung fiir alle stochastischen Matrizen erfiillt. In [1] wird ausgefiihrt, dab ffir r :> 3 die Aufer- legung der CC-Bedingung auf die Antwortvektoren zu Operatoren ~ der folgenden Gestalt ffihrt:

wo ~ die r-dimensionale Einheitsmatrix ist und

/ l z l 2 . . . l r ~

\ 6 h . . . l r /

eine Matrix mit lauter gleichen Zeilenvektoren, n.~mlich I = (ll . . . . . lr). I is t ein Wahrscheinlichkeitsvektor. Damit ~ stochastisch ist, m u g . gewissen Forde- rungen genfigen; diese sind sicher erfiillt, wenn 0 N . ~ 1.

B) IViederholte Anwendung des linearen Operators ~3 = .(~ + (1 - - ~) Mittels vollst~ndiger Induktion zeigt man leicht, dab die n-te Potenz ~3 n von ~ gegeben ist dutch ~ . = .,,l~ + (1 - - . n ) Es gilt

p ~ = . p + ( 1 - - . ) [

Mittels Induktion ergibt sich welter

Ist ].[ < 1, so erweist sich I - - ( /1, & . . . . , g ) als Grenzverteilung.

C) Kommutativitiit zweier Operatoren, systematische Folge von Operatoren Es seien ~1, ~2 zwei lineare Operatoren, welche die CC-Bedingung erftillen, also

~1 = -1~ + (1 - - . 1 ) ~1, ~2 = -2~ + (1 - - . 2 ) %

Die Differenz der beiden Produkte ~1~2 und ~Z~l ergibt sich zu

Da Ol und t22 stochastisch sind und aus lauter gleichen Zeilenvektoren [1 bzw. 12 bestehen, so gilt

~ i ~ 2 = ~ 2 und ~ 2 o 1 = 0 1 , also

~ 2 - - ~ 2 ~ , = (1 - - . 1 ) (1 - - . 2 ) (~2 - - ~1)

Genau wenn diese Matrix gleich der rxr-Nullmatrix ist, dann sind ~1 und ~2 ver- tauschbar. Das ist in den folgenden drei F/illen erffillt:

(i) .I-=--1, d.h.¢.131 = ~

(ii) .~. = 1 , d.h. q32=

(iii) °1 = ~2, d. h. die Grenzverteilungen II und I2 sind gleich.

14

Treten nur zwei Ereignisse au[, dann hat eine systematische Folge von Operatoren [olgende I ! 11 n . . . Gestalt: (~1~2) , u, v, */ irgendwelche natfirliche Zahlen 0, 1, 2, Ist die CC-Be-

dingung efffillt, so kann man den entstehenden Operator ~,~.~ angeben. Auch eine Verallgemeinerung au[ mehr als zwei Ereignisse ist m6glich. Fragen der Kommutativit/it yon Operatoren spielen eine Rolle, wenn es darum geht, durch Vertauschung der verst~irkenden Ereignisse eventuell eine Verbesserung der Lernwirkung zu erreichen.

D) Zufdllige Folge Die Situation ist die folgende: Man hat den FallEK und eineprobabilistlsche Ver~tgirkungs- vorschrift (probabilistic reinforcement schedule). Das heiBt, die Matrizen ~ , die gem/iB den Ereignissen e¢ auf die Antwortverteilungen wirken, kommen mit den Wahrschein- lichkeiten ~ an (i = 1, 2 , . . . , u). Die Grenzverteilung der Antwortwahrscheinlich- keiten genfigt den Gleichgewichtsgleichungen

p = p _~',. ,~ %~ (1) i = l

Die Systemmatrix v xt ~3~ geht aus den ~i gem~iB dem Satz fiber die vollst/indige i = 1

Wahrscheinlichkeit hervor. Da man in der Lerntheorie for die linearen Operatoren stets die CC-Bedingung voraus- setzt, so kann (1) folgendermaBen gel6st werden Sei

$~ = ~ + (1 - - ~ ) 2~, W O

( und I~ t/(i) l(O ., Oi)), "~-\1 ' 2 ' ""

i = 1 , 2 , . . . , t ¢ .

Die Obergangsmatrix ~ hat die Form

,, v =~(1 - - oq) .~i 0z, ~3~ -= ~ ~ n~'a~ + /V ~(1 - - a~) oi = ~ + (1 - - ~)

i=l 1 - - ~

wobei

ist also selbst yon der CC-Gestalt:

wenn wir definieren

=

= ~ ¢ + (1 - - ~) E ,

v (1 a,) ~,

x~ (1"-- ~i) 1~

Der Vektor i der Grenzwahrscheinlichkeiten ist also gegeben durch

15

genauer ist also

u

Z ze, (1 --~e,) 493

I ~ ' (2)

Die Interpretation der station~ren Wahrscheinlichkeiten lj fiir die Antwort aj ist be- kanntlich eine zweifache: Zun~chst kann ein Experiment fiber sehr viele Versuche hinweg wiederholt werden. Der Anteil der Vetsuche, wo das lemende Subjekt mit aj antwortet, betr~gt n~herungsweise lj. Andererseits betrachten wir eine groBe Anzahl parallellaufender Experimente mit ebensovielen Subjekten. Zu jedem beliebig heraus- gegriffenen Zeitpunkt werden fast sicher/j I00% der Subjekte die Alternative aj w~hlen (statistisches Gleichgewicht). Zur Herleitung yon (2) siehe auch [1], wo das Resultat abet anders gewonnen wird. Spezialisierung auf den wichtigen Fall r = 2: Mit den Wahrscheinliehkeiten ~1 bzw. x2 = 1 - - xl wirken die beiden linearen Operatoren ~ und ~ auf die jeweilige Vertei- lung der Antwortwahrscheinliehkeiten ein. Dem stochastischen Automaten mit zu- f~lliger Eingabe entspricht die Markovkette mit der Transitionsmatrix

dies wieder nach dem Satz fiber die vollst~ndige Wahrscheinlichkeit. Sind ~ = (P t t ) und ~ = (qtj), also

~l~+.~2£),=("rlPll-+-~r2qll alPl2 q- ~2q12 /

\ulPl2 q- nzq21 zrlP22 q- =2q22/

so ist die Grenzwahrscheinlichkeit p der Antwort 1 gegeben dutch

-- :Zlp21 -4- a2q21 __ :zlp~.l n t- x2qzl .

P axp21 q- .noqzl q- alpl.o -4- a2q12 -- al(p12 q-P21) q- :z2(q12 q- q21) ' ¢ = 1 - - p

O) Die Grenzverteilungen yon ~ bzw. £~ seien (u, 1 - - u ) bzw. (v, 1 --v). Sie berechnen sich zu

P~I q21 / ¢ - - _ _ p - - _ _

P12 q-P21' ql= q- q=l

Man kann somit p dutch u und v darstellen:

:zip21 -4- n2q~l p = m?-.~ 4 .~2q21

I I P

(3) ist in l~bereinstimmung mit der Formel (4.16) yon Bush und Mosteller [1], S. 89, welche dort durch L~Ssung einer Differenzengleichung gewonnen wird. Das gewonnene Resultat wollen wir nun auf das zitierte Vorhersageexperiment an- wenden. Dabei wird aus Symmetriegrfinden angenommen, dab ol (linkes Licht leuchtet auf) auf p dieselbe Wirkung habe wie o2 (Aufleuchten rechts) auf q. Weiters ist es plau- sibel, dab ein fortwfihrendes Auftreten des Ausganges 01 die Wahrscheinlichkeit p (n~imlich den linken Knop[ zu driicken) gegen 1 treibt.

16

Dies liefert

~3= 1 - -~ O

Im Falle 01 ist ~}, beim Ausgang 02 hingegen ~ auf die Zustandsverteilung anzuwenden. Auf Gtund der nichtkontingenten probabilistischen Verst/irkungsvorschrift handett es sich um einen station~ren BernoulliprozeB als InputprozeB:

Prob {01. n} = =, Prob {oi, n} = 1 --,'z; n. . .Versuchsnummer.

Folglich ist

= 9 ~ + ( 1 - - = ) ~ = ( a + ~ ( 1 - - a ) ( 1 - - =) ( 1 - - a)~ = ( 1 - - ~ ) 1 - - = ( 1 - - ~ ) ]

die Matrix der Kette. Nach (3) ist die Gtenzwahrscheinlichkeit gegeben dutch

p lim erob {al, .} =(1 - - a) r l .--+ o o 1 - -

(Satz vom Wahtscheintichkeitslernen, vgL auch [14].)

E) Markovkette I x

Das Au[treten der Operatoren ~31 und ~z geschehe gemfiB einer Markovkette{ =n =lz). \;z21 a221

Befindet sich die Kette im Zustand I, so wirke ~31, dem Zustand 2 sei ~32 zugeordnet. Wie berechnet man die Grenzverteilung p det Zust~inde (Antwotten) des Subjekts ? Es gilt p,+, = p,[={")~3, +a~")~2 ], wobei (,'z~"), a~ ')) die Zustandsvetteilung det Markovkette beim n-ten Vetsuch ist (bei det Wahl itgendeinet Ausgangsvetteilung). Ist (•1, ,'z2) die Grenzverteilung det Kette, so gelten for p die Gleichgewichtsgleichungen

P = P [ = l ~ l "~- =2~2]"

Die Formel ist anschaulich klar: Nach Einstellung der Gtenzverteilung des Input- lieferanten liegt im wesentlichen der Fall rein zufiillig auftretender Operatoren vor.

F) ~ als Moore-Automat Der allgemeinste EK-Fall besteht in einer einseitigcn Koppelung zweier Automaten

= (A, E , /7 ) und ~ = (0, X, A):

Die Koppelung geschieht dutch die Festsetzung/3 = O. X ist die bienge der freien Inputsignale des Systems ~. Zur Ermittlung der Grenzverteilung des Systems ~ muB det Eingabevorgang yon ~ nfiher spezifiziert werden. Hat man die Grenzverteilung des fteien Systems ~ mit (nl, ~2, . - . , ~zu) ermittelt, so gewinnt man die station~ren Wahr-

scheinlichkeiten p yon ~ dutch Aufl6sung yon p = p,.,~ ~z,~3,, wobei also i=1

H = { ~ , , i = 1,2, . . . ,u}.

7. Vom Subjekt kontrollierte Ereignisse (SK)

Wit beschr~nken uns in der Diskussion auf den Fall r ---- 2. (Die Behandlung [tit r > 2 wird im n~ichsten Abschnitt in einem wichtigen Spezialfall angedeutet.)

17

Das autonome stochastische System ~ = (A, A, /7) besteht aus

der Zustandsmenge A = {al, as}, der Menge der Eingabesignale, welche ebenfalls gleich A sein soll, und aus der Menge/7 = {9.I, ~3} der Yransitionsmatrizen

= I = b12~ \a21 a22/' \t'21 t,~2]

Systemablauf: Falls ~ im Zustand al ist, so vermittelt 9.[ den Obergang der Zustands- verteilung; im Zustand as geschieht dies verm6ge ~3. Tatsachlich ist der stochastische Automat ~, welcher seinen Ablauf selbst steuert, eine Markovkette. Die Obergangsmatrix besteht aus der ersten Zeile yon ~[ und der zweiten Zeile yon ~3:

[all al2~ ~3 = \b21 b22]

Die Grenzverteilung yon ~ ergibt sich durch L6sen der Gleichgewichtsgleichung

p --p~3

Ist n~mlich p = (p, q), so gilt ftir die Grenzwahrscheinlichkeit p des Zustandes at

b21

a12 -~ b21

Es seien kurz zwei Beispiele hierzu erw~hnt.

Beispiel 1 : T-K~fig mit st~ndiger Belohnung. Da die Ratte stets Futter vorfindet, so liegt kein Grund vor, dab sie ihre Aktionen wechselt.

( 1 O) ist, so reproduziert sich die Ausgangsverteilung Da ~ gleich der Einheitsmatrix O 1

P0 immer wieder, und ftir die Grenzverteilung gilt

P = P o

Beispiel 2 : Ratte findet im T-K~fig nirgends Futter;

a21 a22 1 - - ~

an = b22 = ~ aus Symmetriegrtinden. Bemerkung: Die zweite Zeile vort ~I und die erste yon ~3 bleiben undefiniert. Die Systemmatrix ist

.~hnlich wie im ersten Beispiel ist p unabh~ngig yon ~. Hiet gilt

1

P=T, wodurch das Herumirren der hungrigen Ratte beschrieben wird.

18

8. Vom Experimentator und vom Subjekt kontrollierte Ereignisse (ESK)

SchlieBlich kommen wit nun zum allgemeinen Fall, wo sowohl der Experimentator als auch das Subjekt sdbst lau~end zur Beeiniiussung des Lemprozesses beitragen.

A) Zun~chst betrachten wir den Fall mAt zwei Alternativen {al, a2} und ebenso vielen Ausg~ngen {ox, 02}. Unabh~ingig yon der Zeit scien die bedingten Wahrscheiniichkeiten ze~/~ erkl~rt als

xl~ = Prob {ol:[al}

Fiir einen Lemversuch bestehen die ~olgenden vier m6gtichen Abl~ufe

Antwort Ausgang Wahrscheinlichkeit Operator

o, o, =, = (pl1')

o, o,. 1 - = ,

o2 v ,

Dabei wurde der Eirffachheit halber x n = xl und ~z21 = a2 gesetzt. FaBt man die Oberlegungen der F~ille EK und SK zusammen, so ergibt sich als Gleich- gewichtsgleichung

{ = w n + - - = O P . =1~12 + - - Co' q) = ( ; ' q) \,~#2~) + (1 - =2) P(2~ ) =2p22(3) + (1 - - .2,,.22/~ ~(4)/ (4)

Die erste Matrixzeite ist das mat xl und 1 - - xl gewogene Mittel der ersten Zeilen yon ~1 und ~2. Die zweite Zeile hingegen geht aus den entsprechenden Zeilen yon ~a und !I)4 durch Gewichtung mAt x2 und 1 - - -~2 hervor. Durch geeignete Spezialisierung er- h~ilt man aus diesem Schema die Ffille EK (mAt nichtkontingenter Versfiirkung) und SK.

Als Anwendung erw-~ihnen wir das bereits erl~iuterte T-K~fig-Experiment nach Brunswik. Hier bedeuten:

al Linkswendung 01 Belohnung dutch Futter a2 Rechtswendung o2 kein Futter

Symmetriebetrachtungen (Betohnung links hat aug ~0 dieselbe Wirkung wie Belohnung rechts aug q; Shnliches gilt fiir die Nichtbelohnung) und Uberlegungen tiber die dauernde Anwendung von if31 bzw. ~4 legen folgende Wahl der Operatoren nahe

1 0 ~ 2 a 2 1 - - %'1 /~(3) ,~o)\ 3 2"12) ~3~ = p ~ ) p i ~ .~i~ ) ~.~ ~(~) j ~' ~3~ = 2 , ~ , = i - a , ~2/

links/Futter links/leer rechts/Futter rechts/leer

In !131 und ~3~. sind die zweiten Zeilen, in ~3a und ~34 hingegen die ersten bedeutungslos. (4) nimmt die Form an

( g l -]- ( 1 - - x l ) a2 ( 1 - - z q ) (1 - - a2)'~

(P' q) = (P' q) \ 0 - - =2) (1 - - ~ ) ~2 + 0 - - ~2) ~2 ]

Daraus ergibt sich die Gleichgewichtswahrscheinlichkeit p

(1 - - a2 ) (1 - - a2) 1 - - u2

P = (1 - - rq) (1 - - a2) + (1 - - ~z2) (1 - - a2) = 2 - - Ul - - u2

19

1 Ist speziell zq = ~r2 = zr, so [o lg tp = - - . Es sei darauf hingewiesen, dab der Parameter

2 ~z in dieser Formel nicht mehr aufscheint.

B) Es sei A = (al, a2, . . . , at}, O = (Ol, o2, . . . , o,}, ~rtk = Vrob {or l at}. Die Grenz- verteilung p = (Pl, P2, . . . , Pr) geniigt der Matrixgleichung

p = p ~ , (5) wobei

Die rs linearen Operatoren ~lj~ = (pc i~)) sollcn (gemill der CC-Bedingung die Form

haben. Dabei bedeutet ~ die r x r-Einheitsmatrix und ~/ t eine Matrix mit lauter gleichen Zeilenvektoren, ngmlich

Wir fordcrn zus~tzlich fiir alle j und h

(sogenannte equal alpha condition [1], S. 107), also

% ~ = ~,~ + (1 - - ~) ~j~ (7)

Die Matrix ~ = (]jf) sei erklart dutch

k = l

Wegen (7) gilt

p}/k) = ~ j i + ( 1 - - e ) / i ',k), wobei ~'i = {10 sonstffir j = i

(6) 1Mert somit auf Grund yon (8)

- - - e + 0 - - ~) ~. Aus (5) folgt

also p = p ~. (9)

Damit haben wir gezeigt: Die Grenzverteilung p genfigt unter der Voraussetzung (6) auch der Matrixgleichung (9).

Hinwds : Durch Spezialisierung erh~lt man den Fall SK A = {aj), ~ t "= ~ + (1 - -~) ~t (CC-Bedingung, equal alpha condition). Es gilt wieder (9), wobei 9. aus folgenden Zeilenvektoren besteht

20

(£/setzt sich ja aus lauter gleichen Zeilenvektoren lj zusammen.) Bisher haben wit nut Fiilte behandelt, wo die Verteilung der Zust~nde ok yon ~ zwar vom Inputsignal aj abMngt, nicht abet yon der vorausgehenden Zustandsverteilung. Die Formulierung des gekoppelten Systems ESK

mittels stochastischer Automaten gestattet auch die Betrachtung jener allgemeineren Fille. Die Untersuchungen fiber diese und verwandte Probleme werden fortgeffihrt.

Literatur

[1] Bush, R. R., und F. Mosteller, Stochastic Models for Learning. John Wiley & Sons, Inc., New York, London, Sydney 1955.

[2] Gheschkow, I17. M., Theorie der abstrakten Automaten. Math. Forschungsberichte (Prof. H. GreU, ed.), Berlin 1963.

[3] Starke, P. H., Theorie stochastischer Automaten I, II. Elektronische Informations- verarbeitung und Kybernetik, Bd. I (1965), Heft 1 u. 2, S. 5-32 u. 71-98.

[41 Rabin, M. 0., und D. Scott, Finite automata and their decision problems. IBM J. Res. Dev., 3 (April 1959), S. 114-125.

[5] Deussen, P., On the algebraic theory of finite automata. I.C.C. Bulletin 4 (1965), S. 231-264. [6] Feicblinger, G., Some results on the relation between automata and their automorphism

groups. Computing, 1 (1966), S. 327-340. [7] Feichtinger, G., Zur Theorie abstrakter stochastischer Automaten. Zeitschrift ftir Wahr-

scheinlichkeitstheorie und verwandte Gebiete, 9 (1968), S. 341-356. [8] Ashby, IV. R., An Introduction to Cybernetics. Chapman & Hall Ltd., London 1961. [9] Sternberg, S., Stochastic Learning Theory. Handbook of Mathematical Psychology, Vol.

II, Chapter 9, John Wiley and Sons, Inc., New York 1963. [10] Estes, W. K., undJ. H. Straughan, Analysis of a verbal conditioning situation in terms of

statistical learning theory. J. exp. Psychol., 47 (1954), S. 225-234. [11] Solomon, R. L., und L. C. lIT),nne, Traumatic avoidance learning: acquisition in normal

dogs. Psychol. Monogr., 67 (1953), No. 4 (Whole No. 354). [12] Brunmik, E.., Probability as a determiner of rat behavior. J. exp. Psychol., 25 (1939),

S. 175-197. [13] Feichtinger, G., Eine automatentheoretische Deutung sequentieller Spiele. Geplante Ver-

6ffentlichung. [141 Feichtinger, G., ~Wahrscheinlichkeitslernen<< in der statistischen Lcrnthcorie. Erscheint

1969 in ~Metrika<<.

21