2001 flul sprechen

27
Das Evaluieren fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss The final version of this manuscript was published as: Tschirner, E. (2001). Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss. Fremdsprachen Lehren und Lernen, 30, 87-115. The reliable assessment of oral proficiency is as costly an endeavor as it is important. This article looks at the various elements of oral tests that need to be kept in mind when designing oral proficiency tests. Using the notion of test usefulness developed by Bachman and Palmer (1996) with its interlocking elements of validity, reliability, authenticity, interactivity, practicality and washback as point of departure, three components of oral tests are singled out for discussion: the construct, the testing procedure, and the rating procedure. Two approaches to establishing construct validity are discussed: designing a theoretical of model of second language proficiency and completing a needs analysis for performance assessment. Task development and test structure are focused on in the section on testing, while rating criteria, the rating procedure and tester and rater training programs are looked at in the section on rating. A number of established tests are partially analyzed to provide a framework for the discussion. These tests include the oral portions of the major German language tests such as the Zertifikat Deutsch, the tests developed by the Goethe-Institute, and the 1999 version of the ACTFL Oral Proficiency Interview (OPI). 1. Einleitung Die Bewertung fremdsprachlicher mündlicher Handlungsfähigkeit ist eine genauso wichtige wie schwierige Aufgabe. Gesprochene Sprache ist eine äußerst flüchtige Angelegenheit. Rigorose Bewertungsstandards sind nur möglich, wenn mündliche Prüfungen aufgenommen werden. Das möglicherweise mehrmalige Anhören von Video- oder Audiokassetten jedoch macht eine sowieso bereits zeitaufwendige und damit teuere Prüfung nur noch zeitaufwendiger und teuerer. Damit nicht genug. Die bereits bei Prüfungen der schriftlichen Handlungsfähigkeit problematische Interrater-Reliabilität wird durch starke psychologische Faktoren, die das Aussehen, die Stimme und Interaktionsmuster der geprüften Person (und oft auch des Prüfers oder der Prüferin) betreffen, noch zusätzlich erschwert. Obwohl es fremdsprachliche mündliche Prüfungen wahrscheinlich schon seit Jahrhunderten gibt und die mündliche Prüfung vor allem seit den sechziger Jahren des 20. Jahrhunderts Eingang in die Universitäten und manchmal auch Schulen gefunden hat, hat die Forschung, die sich mit Fragen der Validität und Reliabilität im Hinblick auf mündliche Kompetenzen beschäftigt, in größerem Maße erst in den letzten 20 Jahren stattgefunden. Bewertungsskalen, Aufgabentypen und der Effekt von Prüferschulungen werden noch nicht lange empirisch untersucht. Dazu hat die Zweitsprachenerwerbsforschung mit ihren Theorien und Modellen zur kommunikativen Kompetenz wesentlich dazu beigetragen, dass die Konstrukte mündlicher Handlungsfähigkeit, die Grundlage mündlicher Tests sind, theoretisch und empirisch besser untermauert werden. Dadurch hat sich die Validität mündlicher Tests deutlich verbessert. Auch die Reliabilität hat mittlerweile auf Grund einfacher zu handhabender Bewertungsskalen und rigoroser Prüferschulungen und Prüfungsverfahren Werte erreicht, die durchaus mit denen aus dem schriftlichen Bereich mithalten können. Dieser Beitrag stellt einen Problemaufriss dar. Das Evaluieren fremdsprachlicher mündlicher Handlungsfähigkeit wird in einzelne Schritte eingeteilt. Diese Schritte werden anhand der

Upload: anarusu

Post on 10-Apr-2016

55 views

Category:

Documents


4 download

DESCRIPTION

Deutsch

TRANSCRIPT

Page 1: 2001 FLuL Sprechen

Das Evaluieren fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss The final version of this manuscript was published as: Tschirner, E. (2001). Die Evaluation fremdsprachlicher mündlicher Handlungskompetenz: Ein Problemaufriss. Fremdsprachen Lehren und Lernen, 30, 87-115. The reliable assessment of oral proficiency is as costly an endeavor as it is important. This article looks at the various elements of oral tests that need to be kept in mind when designing oral proficiency tests. Using the notion of test usefulness developed by Bachman and Palmer (1996) with its interlocking elements of validity, reliability, authenticity, interactivity, practicality and washback as point of departure, three components of oral tests are singled out for discussion: the construct, the testing procedure, and the rating procedure. Two approaches to establishing construct validity are discussed: designing a theoretical of model of second language proficiency and completing a needs analysis for performance assessment. Task development and test structure are focused on in the section on testing, while rating criteria, the rating procedure and tester and rater training programs are looked at in the section on rating. A number of established tests are partially analyzed to provide a framework for the discussion. These tests include the oral portions of the major German language tests such as the Zertifikat Deutsch, the tests developed by the Goethe-Institute, and the 1999 version of the ACTFL Oral Proficiency Interview (OPI). 1. Einleitung Die Bewertung fremdsprachlicher mündlicher Handlungsfähigkeit ist eine genauso wichtige wie schwierige Aufgabe. Gesprochene Sprache ist eine äußerst flüchtige Angelegenheit. Rigorose Bewertungsstandards sind nur möglich, wenn mündliche Prüfungen aufgenommen werden. Das möglicherweise mehrmalige Anhören von Video- oder Audiokassetten jedoch macht eine sowieso bereits zeitaufwendige und damit teuere Prüfung nur noch zeitaufwendiger und teuerer. Damit nicht genug. Die bereits bei Prüfungen der schriftlichen Handlungsfähigkeit problematische Interrater-Reliabilität wird durch starke psychologische Faktoren, die das Aussehen, die Stimme und Interaktionsmuster der geprüften Person (und oft auch des Prüfers oder der Prüferin) betreffen, noch zusätzlich erschwert. Obwohl es fremdsprachliche mündliche Prüfungen wahrscheinlich schon seit Jahrhunderten gibt und die mündliche Prüfung vor allem seit den sechziger Jahren des 20. Jahrhunderts Eingang in die Universitäten und manchmal auch Schulen gefunden hat, hat die Forschung, die sich mit Fragen der Validität und Reliabilität im Hinblick auf mündliche Kompetenzen beschäftigt, in größerem Maße erst in den letzten 20 Jahren stattgefunden. Bewertungsskalen, Aufgabentypen und der Effekt von Prüferschulungen werden noch nicht lange empirisch untersucht. Dazu hat die Zweitsprachenerwerbsforschung mit ihren Theorien und Modellen zur kommunikativen Kompetenz wesentlich dazu beigetragen, dass die Konstrukte mündlicher Handlungsfähigkeit, die Grundlage mündlicher Tests sind, theoretisch und empirisch besser untermauert werden. Dadurch hat sich die Validität mündlicher Tests deutlich verbessert. Auch die Reliabilität hat mittlerweile auf Grund einfacher zu handhabender Bewertungsskalen und rigoroser Prüferschulungen und Prüfungsverfahren Werte erreicht, die durchaus mit denen aus dem schriftlichen Bereich mithalten können. Dieser Beitrag stellt einen Problemaufriss dar. Das Evaluieren fremdsprachlicher mündlicher Handlungsfähigkeit wird in einzelne Schritte eingeteilt. Diese Schritte werden anhand der

Page 2: 2001 FLuL Sprechen

Nützlichkeitskriterien von Prüfungen (Bachman / Palmer 1996) genauer untersucht, wobei auf relevante empirische und theoretische Forschungsergebnisse eingegangen wird. Dabei kommen eine Reihe unterschiedlicher Prüfungen aus dem deutsch- und englischsprachigen Raum zur Sprache. Eine zentrale Rolle nimmt dabei das ACTFL Oral Proficiency Interview in seiner Neufassung von 1999 ein, eine Weiterentwicklung des mündlichen Prüfverfahrens des Foreign Service Instituts (FSI), das als Mutter sehr vieler zur Zeit gebräuchlicher Prüfverfahren und Bewertungsskalen auch in Europa gilt (North 1994; Spolsky 1995). Im nächsten Kapitel werden die Nützlichkeitskriterien von Bachman / Palmer kurz zusammengefasst. Im dritten Kapitel wird vor allem auf Fragen der Konstruktvalidität eingegangen. Es wird zwischen direkten, indirekten und semidirekten Prüfungen unterschieden, es wird ein theoretisches Modell mündlicher Handlungsfähigkeit vorgestellt und ein alternatives Verfahren zur Validierung durch ein theoretisches Modell. Das vierte Kapitel beleuchtet unterschiedliche Aspekte des Prüfungsgesprächs, u.a. Aufgaben und Prüfungsstruktur, und geht dabei vor allem auf die Kriterien der Interaktivität, Praktikabilität und Rückwirkung ein. Das fünfte Kapitel schließlich befasst sich mit dem Bewerten mündlicher Prüfungen. Mit Hilfe vor allem der Kriterien Validität und Reliabilität werden dabei Arten von Bewertungsskalen angesprochen, der Bewertungsprozess und die Prüfer- und Bewerterschulung. 2. Nützlichkeitskriterien Nach Bachman / Palmer (1996) unterscheidet man sechs zentrale Nützlichkeits- oder Gütekriterien fremdsprachlicher Prüfungen: Reliabilität, Validität, Authentizität, Interaktivität, Rückwirkung und Praktikabilität. Erst wenn eine Prüfung alle sechs Kriterien in akzeptablem Maße erfüllt, handelt es sich im Sinne von Bachman / Palmer um eine nützliche oder sinnvolle Prüfung, d.h. um eine Prüfung, die Aussagen darüber machen kann, wie sich die getestete Person bei sprachlichen Kommunikationsaufgaben des wirklichen Lebens verhalten würde. Reliabilität ist eine Funktion der Zuverlässigkeit der Ergebnisse. Eine Prüfung gilt als reliabel oder zuverlässig, wenn Testergebnisse reproduzierbar sind, d.h. wenn das Ergebnis nicht von anderen als den zu messenden Faktoren, z.B. der Person oder Tagesform des Prüfers, der Art und Weise, wie die Aufgaben formuliert werden u.Ä., abhängt. Validität, im Sinne von Konstruktvalidität, ist eine Funktion der Angemessenheit oder Gültigkeit der Interpretation der Ergebnisse. Das Konstrukt ist die präzise Beschreibung (Definition) der Fähigkeit, die ein bestimmter Test messen soll. Es bildet die Grundlage des Tests und die Grundlage der Interpretation der Ergebnisse. Das Testergebnis soll über sich hinaus Aussagen machen, also nicht nur darüber, wie die getestete Person im Test abgeschnitten hat, sondern auch darüber, wie sich die getestete Person in authentischen sprachlichen Situationen verhalten würde. Authentizität ist eine Funktion der Realitätsnähe der Aufgaben. Die Art, wie die Fremdsprache im Test benutzt wird, muss damit, wie sie im natürlichen Sprachgebrauch verwendet wird, übereinstimmen. Das bedeutet, dass die Merkmale einer Testaufgabe mit den Merkmalen natürlicher Sprechhandlungsaufgaben korrespondieren müssen. Ebenso muss die Art der Bewertung realitätsnah sein. Interaktivität bedeutet, dass Testergebnisse auf Grund der Kenntnisse und Fähigkeiten, über die Aussagen gemacht werden sollen, variieren und nicht auf Grund anderer Kenntnisse, Fähigkeiten oder Reaktionen, z.B. das Sach- und Fachwissen der geprüften Person, ihre Gefühle oder die

Page 3: 2001 FLuL Sprechen

verwendeten Prüfungsstrategien. Die Fähigkeit, über die in fremdsprachlichen Tests Aussagen gemacht werden soll, ist normalerweise die sprachliche Handlungsfähigkeit. Je mehr bei der Lösung einer Aufgabe das jeweilige fremdsprachliche Können involviert ist, desto größer ist die Interaktivität der Prüfung. Interaktivität hat Auswirkungen sowohl auf die Reliabilität wie auf die Validität einer Prüfung. Je weniger die Testergebnisse durch emotionale Reaktionen der Testteilnehmer oder durch Kenntnisse und Fähigkeiten, die nicht Gegenstand der Prüfung sind, beeinflusst werden, desto größer ist die Reliabilität der Prüfung. Je mehr die Prüfung genuin sprachliches Können evoziert, desto höher ist die Validität. Unter Rückwirkung versteht man den Einfluss von Prüfungen auf Lerner und Lehrer, auf Schule und Unterricht. Lerner verändern sich durch die Teilnahme an einer Prüfung, durch das Feedback, das sie zur Prüfung bekommen und durch die Entscheidungen, die auf Grund der Prüfung getroffen werden. Das Feedback zum Test kann beeinflussen, wie die Kandidaten in Zukunft lernen, vor allem, wenn dieses Feedback vollständig und inhaltlich relevant ist, dadurch, dass Prüfungsziele transparent sind und die Performanz der Kandidaten detailliert analysiert und bewertet wird. Die Entscheidungen, die auf Grund von Tests getroffen werden, haben potentiell eine sehr hohe Rückwirkung auf die Kandidaten und können Lebenswege beeinflussen. Ebenso haben Prüfungen eine Rückwirkung auf den auf sie vorbereitenden Unterricht. Unter Praktikabilität verstehen Bachman / Palmer einen vernünftigen Zusammenhang zwischen Aufwand und Ergebnissen einer Prüfung. Die Prüfung selbst muss eine vernünftige Länge haben. Der Aufwand, der für die Entwicklung der Prüfung zu betreiben ist, darf nicht unzumutbar hoch sein, ebenso wenig wie der für ihre Bewertung. 3. Konstrukt und Konstruktvalidität Dieses Kapitel stellt zwei Wege vor, ein Konstrukt zu definieren und Konstruktvalidität herzustellen, zum einen über ein theoretisches Modell mündlicher Handlungsfähigkeit und zum anderen über ein empirisches Verfahren, das der Bedarfsdiagnose und der repräsentativen Auswahl. Zuvor soll jedoch zwischen direkten, indirekten und semi-direkten Prüfungen unterschieden werden. 3.1 Direkte, indirekte und semi-direkte Prüfungen Eine direkte Prüfung testet die Fähigkeit, über die Aussagen gemacht werden soll, dadurch, dass die Fähigkeit selbst zum Gegenstand der Prüfung gemacht wird. Die Fähigkeit, an akademischen Diskussion teilzunehmen, wird z.B. dadurch geprüft, dass der Kandidat an einer akademischen Diskussion teilnimmt, oder die Fähigkeit, Verkaufsgespräche per Telefon zu führen, wird dadurch geprüft, dass Verkaufsgespräche über Telefon geführt werden. Eine indirekte Prüfung testet die Fähigkeit, über die Aussagen gemacht werden soll, dadurch, dass ein wichtiges Element der Fähigkeit, beim Sprechen zum Beispiel die Aussprache, überprüft wird, oder dass etwas Anderes geprüft wird, dass mit der Fähigkeit, die geprüft werden soll, korreliert. Es hatte sich zum Beispiel gezeigt, dass Vokabelkenntnisse sehr gut mit Leseverständnis korrelieren (Pike 1979). Dies führte dazu, dass in der zweiten Hälfte des 20. Jh. die Lesekompetenz oft durch Discrete-Point-Wortschatzaufgaben überprüft wurde. Direkte Tests werden oft auch Performanztests genannt und indirekte Tests Kompetenztests, weil bei letzteren durch das im Test beobachtete Verhalten auf unbeobachtbare Fähigkeiten geschlossen wird (Grotjahn 2000).

Page 4: 2001 FLuL Sprechen

Semidirekte Tests sind Prüfungen, bei denen zwar die Fähigkeit, über die Aussagen gemacht werden soll, integriert oder holistisch getestet wird, die Fähigkeit also nicht in einzelne Bestandteile zerlegt wird, die getrennt getestet werden, dies aber nicht auf authentische Weise geschieht, sondern diese Authentizität nur simuliert. Ein semidirekter Test mündlicher Handlungsfähigkeit ist z.B. das Simulated Oral Proficiency Interview (SOPI) des Centers for Applied Linguistics (Stansfield / Kenyon 1992), in dem Kandidaten eine Reihe unterschiedlicher kommunikativer Situationen auf Tonband vorgespielt wird, auf die sie reagieren sollen, was wiederum ebenfalls auf Tonband aufgenommen wird. Der Beitrag von Kniffka / Üstünsöz-Beurer in diesem Band beschäftigt sich am Beispiel von TestDaF mit semidirekten Tests mündlicher Handlungsfähigkeit, auf die in diesem Beitrag deshalb nicht weiter eingegangen werden soll. Das wichtigste Gütekriterium von Prüfungen ist ihre Validität. Heute wird Validität meist als Konstruktvalidität definiert, die als Grundlage aller anderen Arten von Validität gesehen wird (Cumming / Berwick 1996). Eine Prüfung besitzt Konstruktvalidität, wenn eine bestimmte Fähigkeit direkt getestet wird. Auch bei indirekten Tests kann Konstruktvalidität hergestellt werden, wenn die zu überprüfende Fähigkeit theoretisch präzise beschrieben wird. Das zugrunde liegende theoretische Modell oder Konstrukt muss alle relevanten Bestandteile oder Merkmale dieser Fähigkeit enthalten. Die wesentlichen Merkmale können dann einzeln geprüft werden, wobei ihre Summe ein Indikator der Fähigkeit selbst sein muss. Indirektes Prüfen mündlicher Handlungsfähigkeit setzt voraus, dass alle kognitionspsychologisch relevanten Faktoren, die zusammengenommen die Sprechkompetenz ausmachen, einzeln und in ihrem Zusammenspiel miteinander beschrieben werden. Dies ist mit dem heutigen Wissen noch nicht möglich. Zur Validierung des Konstrukts mündliche Handlungsfähigkeit müssen mindestens die folgenden vier Vorarbeiten geleistet werden (vgl. Cumming, 1997, für das Konstrukt schriftliche Handlungsfähigkeit): 1. Es muss eine Liste der wesentlichen Merkmale, mit deren Hilfe mündliche Texte nicht-

nativer Sprecher unterschiedlicher Kompetenzniveaus voneinander geschieden werden können, erstellt werden.

2. Es muss ein Modell zweitsprachlicher mündlicher Kompetenz entwickelt werden. 3. Es müssen die Skalen und Kriterien, mit deren Hilfe mündliche Texte bewertet werden

sollen, empirisch validiert werden. 4. Es müssen die subjektiven Kriterien der Bewerter und die Entscheidungswege, auf denen

sie zu ihren Beurteilungen kommen, empirisch untersucht werden. Die Forschung zu allen Punkten außer dem zweiten steht teilweise noch recht weit am Anfang. Fest steht, dass das Konstrukt "zweitsprachliche mündliche Kompetenz" mehr enthalten muss als die Fähigkeit grammatische Strukturen zu beherrschen und die richtigen Vokabeln zu kennen. Obwohl die Arbeit an einem solchen Konstrukt sicherlich noch länger dauern wird, können aus den vorhandenen Studien die folgenden Konsequenzen gezogen werden: • Die Qualität zweitsprachlicher mündlicher Texte kann nicht durch ein einfaches

Zusammenzählen von Fehlern bewertet werden. • Weil sowohl Skalen wie auch Beurteilungskriterien von Bewertern subjektiv interpretiert

und subjektiv gewichtet werden, ist es unbedingt notwendig, eine angemessene Bewerterschulung durchzuführen, damit so weit wie möglich Objektivität hergestellt

Page 5: 2001 FLuL Sprechen

werden kann. • Indirekte Tests mündlicher Handlungsfähigkeit sind erst dann vertretbar, wenn die

Forschung, vor allem zu Punkt 1 und 2, größere Fortschritte gemacht hat. Dies ist im Moment noch nicht der Fall.

Weil das indirekte Prüfen integrierter Fertigkeiten mit so vielen Problemen behaftet ist, hat sich bei den produktiven Fertigkeiten des Sprechens und Schreibens das direkte Testen durchgesetzt. Es gibt zwei Möglichkeiten, ein Konstrukt zu definieren, auf Grund dessen ein Test entwickelt werden kann. Es kann theoretisch definiert werden, dadurch, dass es auf einem Modell zweitsprachlicher Kompetenz und zweitsprachlichen Lernens beruht, und es kann empirisch über eine Bedarfsdiagnose definiert werden. Damit beschäftigen sich die nächsten beiden Abschnitte. 3.2 Mündliche Handlungsfähigkeit Mündliche Kompetenz wird heute in erster Linie als Sprechhandlungskompetenz verstanden, als die Fähigkeit, in authentischen kommunikativen Situationen im Zielsprachenland bzw. mit Sprechern der Zielsprache sprachlich richtig und kommunikativ angemessen zu handeln. Canale und Swain (1980) waren die ersten, die versuchten, ein umfassendes Modell kommunikativer Kompetenz zu entwickeln. Grundlage ihres Modell war das Konstrukt kommunikative Kompetenz, das von Hymes (1972) entwickelt wurde, um die reduktionistische Sprachauffassung Chomskys zu überwinden. Dieses Modell umfasst in der Version von Canale (1983) vier Kompo-nenten: grammatische Kompetenz, Diskurskompetenz, soziolinguistische Kompetenz und strategische Kompetenz. Bachman (1990) übernimmt dieses Modell, erweitert und präzisiert es, und benutzt es als Grundlage für Tests kommunikativer Kompetenz.

Organisatorische Kompetenz Pragmatische Kompetenz Strategische Kompetenz

Grammatische Kompetenz

Textkompetenz Funktionale Kompetenz

Soziolinguistische Kompetenz

Phonologie Rhetorische Organisation

Ideationale Funktion

Sprachvarianten Ziele setzen

Morphologie Kohäsion Imaginative Funktion

Register Planen

Syntax Heuristische Funktion

Idiomatik Evaluieren

Wortschatz Manipulative Funktion

Kulturelle Kom- petenz

Abbildung 1. Bachmans Modell kommunikativer Kompetenz (Bachman / Palmer 1996) In der geringfügig überarbeiteten Fassung von Bachman / Palmer (1996) unterscheidet Bachman zwischen organisatorischer Kompetenz, pragmatischer Kompetenz und strategischer Kompetenz (s. Abb. 1). Unter organisatorischer Kompetenz versteht er die Fähigkeit, Wörter zu Sätzen und Sätze zu Texten zu verbinden. Dies bedeutet die Beherrschung phonologischer, morphologischer, syntaktischer, lexikalischer und textlinguistischer Regeln. Zu letzteren gehören das Wissen darüber, wie mündliche Texte und Interaktionen aufgebaut sind (Rhetorische Organisation) und darüber, wie man Sätze mit Hilfe von Konjunktionen, Pronomen, Adverbien u.Ä. zu Texten ver-knüpft (Kohäsion).

Page 6: 2001 FLuL Sprechen

Unter pragmatischer Kompetenz versteht Bachman, die Fähigkeit Sprechhandlungen durchzufüh-ren, d.h. Sprache für einen bestimmten Zweck zu benutzen (funktionale Kompetenz), ebenso wie die Fähigkeit dies situations- und adressatengerecht zu tun und dabei Regeln soziokultureller Art zu beachten (soziolinguistische Kompetenz). Zur Sprechhandlungskompetenz gehört die Fähig-keit, Wissen und Informationen zu vermitteln (ideationale Funktion), Inhalte zu erfinden (imagi-native Funktion), Wissen zu erlangen (heuristische Funktion), und Menschen zu beeinflussen (manipulative Funktion). Zur soziolinguistischen Kompetenz gehört die Fähigkeit, unterschiedliche Dialekte und Soziolekte zu verstehen oder zu benutzen. Weiter gehört dazu die Fähigkeit, verschiedene Register zu benutzen, die Fähigkeit, idiomatisch zu sprechen, und die Fähigkeit, Verweise und idiomatische Wendungen kultureller Art zu verstehen und zu benutzen. Unter strategischer Kompetenz schließlich versteht Bachman sowohl die Fähigkeit, trotz lexika-lischer und grammatischer Beschränkungen sprachlich handlungsfähig zu bleiben, wie auch die Fähigkeit, sprachliche Kompetenz bewusst und zielgerichtet einzusetzen, zu planen und zu evalu-ieren. Obwohl die Leitlinien mündlicher Handlungsfähigkeit des American Council on the Teaching of Foreign Languages (ACTFL 1986, 1999) auf empirische Weise entwickelt wurden (vgl. 3.3) sind sie mit Bachmans Modell kompatibel. Damit stellt das ACTFL Oral Proficiency Interview (Swender 1999), das auf diesen Leitlinien aufbaut, eines der wenigen mündlichen Testverfahren dar, das sowohl theoretisch wie empirisch validiert ist (Dandonoli / Henning 1990). Die unterschiedlichen sprachlichen Kompetenzen des Modells von Bachman sind in ein Gesamtkonzept eingebaut, welches verschiedene Lernstufen unterscheidet. Die organisatorische Kompetenz entwickelt sich z.B. in vier Stufen vom Wort zum Satz und weiter zu einfachen und dann zu komplexen Texten. Die soziolinguistische Kompetenz entwickelt sich von der Benutzung nur eines Registers zur Benutzung unterschiedlicher Register. Ebenso entwickeln sich die funktionale und strategische Kompetenz. Zuerst können nur einige wenige einfache Funk-tionen und Strategien benutzt werden. Je höher die Kompetenz, desto umfangreicher und komplexer werden auch Funktionen und Strategien. 3.3 Bedarfsdiagnose und repräsentative Auswahl Das Ziel vieler Prüfungen ist es herauszufinden, ob ein Kandidat eine bestimmte Studienreife hat oder die nötigen Qualifikationen für einen bestimmten Beruf besitzt. Das erste Ziel bei der Erstellung solcher Prüfungen ist es, die sprachlichen Handlungen zusammenzustellen, die in der Regel im Studium oder im Beruf ausgeführt werden müssen und die der Kandidat erfolgreich bewältigen soll. Je präziser die Kontexte definiert werden können, in denen die Kandidaten sprachlich handeln sollen, desto einfacher ist es, eine Bedarfsdiagnose herzustellen. Es ist relativ leicht zum Beispiel, die Sprechhandlungen zu erfassen, die eine Fremdsprachensekretärin erledigen muss, die in einer bestimmten Firma Auslandsgespräche annehmen und führen muss. Schwieriger ist es zu bestimmen, welche Sprechkompetenzen zum Beispiel beim Abschluss eines fremdsprachlichen Studiums vorhanden sein müssen, das auf eine Reihe unterschiedlicher Berufe vorbereiten soll. In diesem Fall ist es oft nötig, auf ein theoretisches Modell zweitsprachlicher mündlicher Kompetenz zurückzugreifen, wie es von Zweitsprachenerwerbsforschern entwickelt wurde (vgl. 3.2). Wenn das Konstrukt empirisch über eine Bedarfsdiagnose oder theoretisch über ein Modell

Page 7: 2001 FLuL Sprechen

kommunikativer Kompetenz definiert wird und die Sprechhandlungen, die die Testkandidaten nachweisen müssen, präzise beschrieben sind, kann aus diesen Sprechhandlungen eine repräsentative Auswahl getroffen werden. Als Faustregel gilt, dass eine Prüfung um so valider ist, je mehr unterschiedliche Handlungen Gegenstand von Prüfungsaufgaben sind. Alle Inhalte und Fertigkeiten können aus ökonomischen Gründen selten geprüft werden. Je präziser ein Test auf eine genau definierte Zielgruppe hin entwickelt wird, desto überschaubarer sind meist die sprachlichen Handlungen, die geprüft werden müssen. Es gibt unterschiedliche Versuche, die Menge der Sprechhandlungen in kleine, überschaubare Gruppen einzuteilen. Dies variiert je nach dem, welche Rollen (Hotelrezeptionist, Diplomat, Lehrer usw.) ausgeübt werden. Viele Sprachtests werden entwickelt, um Studierfähigkeit in der Zielsprache nachzuweisen. Die folgenden übergreifenden Sprechhandlungen, die dafür nötig sind, werden dabei am häufigsten genannt. • Informationen und Beispiele geben bzw. erfragen • Personen und Objekte beschreiben • einen Vorgang beschreiben, z.B. um anderen Personen sagen zu können, wie man etwas

macht • einen Augenzeugenbericht geben • Sachverhalte vergleichen und kontrastieren • Erlebnisse und Erfahrungen schildern • Gelesenes oder Gehörtes berichten • Vor- und Nachteile erörtern • Ziele und Zwecke verbalisieren • einen Sachverhalt beschreiben und kommentieren • Meinungen bzw. Vorlieben ausdrücken und begründen • Möglichkeiten ausdrücken Diese zwölf Sprechhandlungen lassen sich auf fünf reduzieren: Informationen geben und erfra-gen, beschreiben und erörtern, berichten und erzählen, kommentieren und begründen, und Mög-lichkeiten ausdrücken. Neben diesen Sprechhandlungen sind eine Reihe weiterer Dimensionen wichtig, um authentische kommunikative Situationen und Prüfungsaufgaben zu beschreiben. • Thema • Register (Grad der Förmlichkeit) • Anzahl der Gesprächsteilnehmer • Alter und Geschlecht der Gesprächsteilnehmer • Status und Rolle der Gesprächsteilnehmer • Bekanntheitsgrad zwischen den Gesprächsteilnehmern Diese sechs Dimension lassen sich auf zwei Hauptdimensionen reduzieren, nämlich Thema und Förmlichkeitscharakter der Situation. Alter, Geschlecht, Status, Rolle, Bekanntheitsgrad und teilweise Anzahl der Gesprächsteilnehmer bestimmen den sozialen Kontext eines Gesprächs und damit den erforderlichen Grad der Distanziertheit und Förmlichkeit bzw. das zu verwendende Register. Ein weiterer Aspekt ist die Länge und Dichte der zu produzierenden Texte. Sowohl beim Hören

Page 8: 2001 FLuL Sprechen

als auch beim Sprechen wird die Länge und Dichte von Texten von der Verarbeitungskapazität des Arbeitsgedächtnisses beeinflusst. Die Verarbeitungskapazität hängt wiederum vom Kompetenzniveau des Fremdsprachenlerners ab. Beim Hörverstehen z.B. werden folgende Schwierigkeitsgrade unterschieden (Cook 1994): Χ Identifizieren Χ prozedurales Verstehen Χ narratives Verstehen Χ Verstehen argumentierender Texte Diese Hörhandlungen erfordern jeweils größere Gedächtnisleistungen. Das Identifizieren von Namen oder Zahlen erfordert lediglich ein Wiedererkennen von Wörtern. Beim prozeduralen Verstehen geht es darum, einzelne Schritte eines Vorgangs der Reihe nach zu verstehen. Jede einzelne Äußerung wird unabhängig von den anderen verstanden. Das narrative Verstehen erfordert ein Speichern von kohäsionsstiftenden Elementen im Arbeitsgedächtnis oder in einem speziellen grammatischen Gedächtnis (Pienemann 1999). Zeitliche, räumliche und personale Verweise müssen im Gedächtnis behalten werden. Im Vergleich zum Verstehen argumentierender Texte wird das narrative Verstehen allerdings durch die Vorhersagbarkeit vieler Einzelheiten unterstützt, also durch das Weltwissen der Zuhörer und ein Wissen über Schemata und Skripte. Beim Verstehen argumentierende Texte müssen darüber hinaus Makrostrukturen und logische Verweise im Gedächtnis behalten werden. Eine weitere Schwierigkeit dieser Texte ist es, dass sie meist wenig vorhersagbar sind. Beim Sprechen gibt es eine ähnliche Schwierigkeitshierarchie. Die einfachste Form des Sprechens ist ein Aneinanderreihen von Wörtern oder auswendig gelernten Phrasen, die unverbunden nebeneinander stehen. In vielen empirischen Studien hat sich gezeigt, dass dies die erste Stufe des Spracherwerbsprozesses darstellt (vgl. Pienemann 1999). Auf einer zweiten Stufe werden Wörter zu Sätzen verknüpft und auf einer dritten Stufe Sätze zu Texten, d.h. zuerst werden grammatische Elemente wie Subjekt-Verb-Kongruenz und die Satzstellung in Hauptsätzen erworben und zu einem späteren Stadium Kasus und Satzstellung in Nebensätzen (vgl. Diehl u.a. 2000, Pienemann 1999, Tschirner 1996). Schließlich sind Texte wie Erzählungen und Beschreibungen, die eine schon vorgegebene innere Struktur haben, leicher zu formulieren, als argumentierende Texte, bei denen größere Einheiten auf vielfältige Art und Weise (kausal, logisch) miteinander verknüpft werden müssen. Diese vier Aspekte kommunikativer Situationen, Texttyp, Sprechhandlung, Thema und Förmlichkeitscharakter der Situation, müssen in mündlichen Prüfungen systematisch variiert werden, vor allem bei umfassenden Prüfungen, die auf kein bestimmtes, präzise beschriebenes Berufsbild abzielen können. Die ACTFL Leitlinien mündlicher Handlungsfähigkeit unterscheiden auf der Basis von fünf Kriterien insgesamt zehn Haupt- und Nebenniveaus. Zu diesen Kriterien gehören Texttyp, Sprechhandlung, Themenbereich, Sozialer Kontext, also die gerade erwähnten vier Aspekte kommunikativer Situationen. Hinzu kommt als fünftes Kriterium, die sprachliche Angemessenheit. Die Kompetenzstufen reichen vom Nullanfänger bis zum Experten, einem Sprecher, der höchste sprachliche Anforderungen erfüllen kann. Die ACTFL Leitlinien gehen ähnlich wie bei Texttyp, Thema und Register von einer Entwicklungshierarchie von Sprechhandlungen aus. Die in dieser Sektion geschilderten Sprechhandlungen verteilen sich dabei wie folgt auf die vier Hauptniveaus der Leitlinien:

Page 9: 2001 FLuL Sprechen

Einstiegsniveau (Novice): noch keine funktionale Kompetenz Alltagsniveau (Intermediate): Informationen geben und erfragen Professionelles Niveau (Advanced): beschreiben und erörtern, berichten und erzählen Expertenniveau (Superior): kommentieren und begründen, Möglichkeiten ausdrücken 4. Interaktivität, Authentizität, Praktikabilität und Rückwirkung: Das Prüfungsgespräch Mündliche Prüfungen bestehen aus zwei deutlich unterscheidbaren Prozessen: das Prüfungsgespräch und das Bewertungsverfahren. In diesem Kapitel kommen unterschiedliche Elemente des Prüfungsgesprächs zur Sprache, vor allem die Aufgabenstellungen und die Prüfungsstruktur. Aufgabenstellung und Prüfungsstruktur werden dabei vor allem unter den Aspekten Interaktivität, Authentizität, Praktikabilität und Rückwirkung betrachtet. 4.1 Aufgaben Mündliche Prüfungen sollen sprachliches Verhalten über eine repräsentative Auswahl von Texttypen, Sprechhandlungen, Themen, und sozialen Kontexten dokumentieren, damit dieses Verhalten mit dem Verhalten, wie es zum Beispiel durch eine Bewertungsskala definiert wird, verglichen und eingeordnet werden kann. Damit sind zum einen die Aufgaben wichtig, die dafür sorgen, dass das Abschneiden der Testperson in der Prüfung repräsentativ für das sprachliche Können der Testperson außerhalb der Prüfung ist. Zum anderen ist es wichtig, dass die Prüfungsstrategien und Elizitierungstechniken des Prüfers dafür sorgen, dass die Äußerungen von Prüfungskandidaten umfangreich und reichhaltig genug sind, um eine sichere Grundlage für den Vergleich mit den Bewertungskriterien zu gewährleisten. Die Repräsentativität der Auswahl erhöht die Validität, das Elizitieren umfangreicher und interpretierbarer Sprachbeispiele erhöht die Reliabilität der Prüfung. Interaktivität im testwissenschaftlichen Sinne ist eine Eigenschaft sowohl von Testaufgaben wie von Aufgaben in lebensechten sprachlichen Kontaktsituationen. Unter Interaktivität versteht man die Art und Weise, wie Eigenschaften von Aufgaben mit Eigenschaften von Menschen interagieren. Das Ziel der Testforschung ist es, Aussagen über diese menschlichen Eigenschaften zu treffen. Menschen interagieren mit Aufgaben auf vier Ebenen: einer sprachlichen Ebene, einer strategischen Ebene, einer Wissensebene und einer emotionalen Ebene (Bachman / Palmer 1996). Das Ziel von Testaufgaben ist es, den Effekt der sprachlichen Ebene zu maximieren, denn nur hier können Aussagen über sprachliche Kompetenz getroffen werden. Das Ziel von Testaufgaben ist es weiterhin, den Effekt der strategischen Ebene, der Ebene des Sach- und Fachwissens und der emotionalen Ebene zu minimieren, um die Testergebnisse so weit wie möglich auf den Einfluss der sprachlichen Ebene beruhen zu lassen. Geht man von einer modularen Organisation des Gehirns aus (Fodor 1983), interagieren Aspekte der Aufgabe - soweit sie mündlich gestellt ist bzw. bearbeitet werden soll - mit dem mentalen Lexikon der Lerner und dabei mindestens mit zwei Modulen, dem phonetisch-phonologischen und dem semantisch-syntaktischen Modul (Aitchison 1994), jeweils unabhängig voneinander und auf unterschiedliche Weise. Bachman (1990) trennt das semantisch-syntaktische Modul in einen satz- und einen textgrammatischen Teil. Zu diesen Modulen treten eine Reihe von Wissensbeständen, die mit Elementen der Aufgabe in

Page 10: 2001 FLuL Sprechen

Interaktion treten, z.B. das Wissen darüber, was man mit Sprache macht und bezweckt (funktionale Kompetenz), wie man mit Gesprächspartnern interagiert, die unterschiedliche Rollen bekleiden oder aus unterschiedlichen Kulturen stammen (soziolinguistische Kompetenz), wie man sprachliche Aufgaben effizient und effektiv löst bzw. sie überhaupt löst (strategische Kompetenz) und das allgemeine Wissen, das man über die Welt hat (Sach- und Fachwissen, Schemata und Skripte). Schließlich interagieren Merkmale der Aufgabe mit emotionalen Merkmalen der Kandidaten. Dazu gehören Persönlichkeitsmerkmale, Wertesysteme, die Einschätzung der eigenen Person und der Angemessenheit des eigenen sprachlichen Niveaus zur Lösung einer Aufgabe. Abbildung 2 fasst diese Merkmale zusammen.

sprachliche Kompetenz Wissensbestände emotionale Bestände lexikalische Kompetenz funktionale Kompetenz Persönlichkeit phonetisch-phonologische K. sozio-linguistische K. Wertsysteme satzgrammatische K. strategische Kompetenz Einschätzung der eig. Person textgrammatische K. Sach- und Fachwissen Einschätzung der Kompetenz

Abbildung 2: Merkmale von Kandidaten, die mit Aufgaben interagieren Die Aufgaben, die während des Prüfungsgesprächs gestellt werden, haben eine Reihe von Funktionen zu erfüllen. Sie müssen authentisch sein, interaktiv und eine repräsentative Auswahl aus den authentischen Aufgaben darstellen, für die ein Bestehen der Prüfung qualifizieren soll. Authentisch bedeutet, dass die Prüfungsaufgaben authentischen Sprechhandlungen in authentischen Situationen ähneln. Interaktiv bedeutet, dass die Prüfungsaufgaben die Kandidaten dazu anregen, ihre sprachliche Kompetenz unter Beweis zu stellen. Dabei muss deutlich werden, welchen Anteil die rein sprachliche Kompetenz beim Lösen der Aufgabe hat und welche Anteile das Sach- und Fachwissen oder die Gefühle der betreffenden Person. Die Anteile des Sach- und Fachwissens können auf zweierlei Art und Weise kontrolliert werden. Zum einen können die Aufgaben so gewählt werden, dass kein spezielles Sach- und Fachwissen nötig ist, um sie zu lösen. Zum anderen können die Themen, über die gesprochen wird, ausgehandelt werden, d.h. dem Kandidaten überlassen werden. Den ersten Weg gehen die meisten nationalen und internationalen Prüfungen, den zweiten Weg z.B. das ACTFL OPI. Die Gefühle der Testperson können das Testergebnis auf unterschiedliche Weise beeinflussen. Zum Beispiel kann ein bestimmtes Thema einen Kandidaten gefühlsmäßig stärker belasten als einen anderen. Ebenso kann die Einstellung eines Kandidaten seinen fremdsprachlichen Kompetenzen gegenüber das Ergebnis unterschiedlich beeinflussen. Schließlich kann das Verhalten des Prüfers einen unterschiedlichen Einfluss auf unterschiedliche Testpersonen haben. Damit die Gefühle eines Testkandidaten das Prüfungsergebnis nicht verfälschen, muss auf die Inhalte des Gesprächs geachtet werden, darauf, dass der Testkandidat ein positives Gefühl von seinen Fähigkeiten bekommt, und darauf, dass die Testaufgaben den Prüfern erlauben, allen Test-kandidaten gegenüber gleichmäßig freundlich distanziert zu agieren. Kontroverse Themen wie Krieg, Abtreibung u.Ä. sollten daher, zumindest auf unteren und mittleren Niveaus, eher vermieden werden bzw. nur dann angesprochen werden, wenn man sicher ist, dass die Person damit keine unangenehmen oder emotional aufwühlenden Erinnerungen verbindet. Ein positives Gefühl von ihren Fähigkeiten kann man der Testperson dadurch vermitteln, dass ihr immer wieder und mit Absicht lösbare Aufgaben gestellt werden, die ihr und dem Prüfer zeigen, was sie

Page 11: 2001 FLuL Sprechen

kann. Die Merkmale der Aufgabe, Sprechhandlung, Thema, Situation, üben einen systematischen Effekt darauf aus, wie eine Aufgabe gelöst wird, und damit auf das Prüfungsergebnis. Allerdings weiß man noch nicht sehr viel darüber, welcher Aufgabentyp genau welchen Effekt hat. Vor al-lem weiß man nicht, wie viele Aufgaben mit unterschiedlichen Sprechhandlungen, Themen und Situationen genügen, um eine repräsentative Auswahl zu erreichen. So lange dies so ist, erscheint es sicherlich ratsam, eher mehr als weniger unterschiedliche Aufgaben zu stellen. Der SPEAK test des TOEFL Prüfungsverfahrens (Educational Testing Service 1985) z.B. dauert ca. 15 Minuten und besteht in seiner direkten Variante, d.h. von menschlichen Prüfern von Ange-sicht zu Angesicht gegeben, aus vier unterschiedlichen Teilen: • ein Bild beschreiben • eine Geschichte erzählen (anhand von Bildern) • seine Meinung zu einem aktuellen Thema darlegen • einen Plan oder ein Programm beschreiben Die zentrale Mittelstufenprüfung (ZMP) des Goethe-Instituts (Goethe-Institut 1997) dauert ebenfalls 15 Minuten, weist aber, neben einer unbewerteten Aufwärmphase, in der nach persönlichen Informationen gefragt wird, nur zwei Aufgaben auf. • seine Meinung zu einem aktuellen Thema darlegen (anhand zweier Fotos) • durch Aushandeln gemeinsam mit dem Prüfer ein Problem lösen Im Gegensatz zum SPEAK Test darf sich ein Prüfungskandidat auf die ZMP vorbereiten und sich dabei sogar Notizen machen. Die Vorbereitungszeit wird zwar kontrolliert und dauert nur 15 Minuten. Trotzdem wird dadurch Variabilität in die Prüfung hineingebracht, da Prüflinge diese Zeit unterschiedlich gut nutzen werden. Jemand, der unter Prüfungsdruck gezielt und konzentriert arbeiten kann, jemand, der sich effektiv Notizen machen und mit diesen Notizen während des Gesprächs effektiv umgehen kann, wird sicherlich ein besseres Ergebnis erzielen als jemand, der das nicht kann. Damit wird aber nicht nur mündliche Handlungsfähigkeit geprüft. Am Ergebnis ist nicht ablesbar, welchen Einfluss mündliche Handlungsfähigkeit darauf hatte und welchen Ein-fluss andere Faktoren wie effektive schulische oder universitäre Arbeitsroutinen. Gleichzeitig spiegelt das Ergebnis eine Mischung aus spontaner und vorbereiteter Handlungsfähigkeit wider, wobei es keine Rückschlüsse darauf zulässt, welche Anteile am Ergebnis die spontane Hand-lungsfähigkeit trägt und welche Anteile die Vorbereitung. Das ACTFL OPI variiert in der Aufgabenstellung je nach Niveau des Testkandidaten und dauert je nach Niveau zwischen 10 und 30 Minuten. Ein typisches Interview weist neben einer Auf-wärmphase und einer Abkühlphase mindestens 9 unterschiedliche Aufgaben auf. Je nach Gültig-keit, Umfang und Reichhaltigkeit der erzielten Antworten können es aber wesentlich mehr wer-den. Die Aufgabentypen variieren von Niveau zu Niveau. Hier sind einige der Aufgaben, die z.B. auf dem hohen Alltagsniveau (Intermediate) gestellt werden. • Informationen geben bzw. erfragen • eine Person beschreiben

Page 12: 2001 FLuL Sprechen

• einen Ort oder eine Sache beschreiben • einen Ablauf beschreiben • über Pläne sprechen • eine Geschichte erzählen • ein aktuelles Thema erörtern • eine einfache Situation aus dem Alltag bewältigen (Fragen stellen, kurze Antworten ge-

ben, Vorschläge machen, gemeinsam entscheiden) Einige dieser Sprechhandlungen werden mehrmals elizitiert, z.B. im Rahmen eines weiteren The-mas oder im Bezug auf andere Zeitformen (z.B. etwas im Präsens und etwas anderes im Perfekt beschreiben). Die einfache Situation aus dem Alltag wird durch ein Rollenspiel simuliert. Die Anzahl der Aufgaben hängt von der Struktur des Interviews ab. Prüfungsziel ist es, über ca. vier unterschiedliche Themen hinweg zu zeigen, was die Testperson kann und was sie nicht kann. Das ergibt pro Thema zwei Aufgaben. Zusammen mit dem Rollenspiel weist ein typisches Interview damit mindestens neun Aufgaben auf. Da nicht jede Aufgabe zum erwünschten Ziel führt, kommt es oft vor, dass mehr als neun Aufgaben gestellt werden müssen, damit man mindestens neunmal eindeutige sprachliche Belege dafür zu bekommt, was eine Person kann und was sie nicht mehr kann. Das OPI enthält damit deutlich mehr Aufgaben als die ZMP und auch als der SPEAK Test. Die Wahrscheinlichkeit, dass es eine repräsentative Auswahl an authentischen Sprechhandlungen enthält, ist damit wesentlich höher. Eine Reihe von Testspezialisten ist der Meinung, dass eine mündliche Prüfung nur die mündliche Handlungsfähigkeit testen sollte, nicht gleichzeitig auch Leseverständnis oder Hörverständnis oder Persönlichkeitsvariablen wie Kreativität, Wissen oder Intelligenz (Hughes 1989). Wenn andere Variablen zusammen mit der mündlichen Handlungsfähigkeit getestet werden, ist nicht klar, worauf eine bestimmte Bewertung beruht, vielleicht darauf, wie gut das Gedächtnis von Testteilnehmern ist (Beispiel mündliche Nacherzählung), darauf, wie gut ihre Vorstellungskraft ist (Beispiel Rollenspiel) oder darauf, wie umfangreich oder spezifisch ihr Wissen ist (Beispiel Diskussion eines literarischen Werkes). Es ist schwierig, wenn nicht unmöglich, die Validität von Prüfungen, die Fertigkeiten und Persönlichkeitsvariablen vermischen, zu bestimmen. Gleichzeitig verringert eine undurchsichtige Vermischung von Variablen die Reliabilität einer Prüfung. 4.2 Prüfungsstruktur Das Ziel einer mündlichen Prüfung ist es, eine repräsentative Auswahl der Sprechhandlungen, die eine Person ausführen kann, auf ökonomische Weise zu liefern. Gleichzeitig muss bedacht werden, wie die einzelnen Aufgaben mit den Merkmalen der getesteten Person interagieren, mit ihrer sprachlichen Kompetenz, mit ihrem Sach- und Fachwissen und mit ihren Gefühlen. Schließlich soll das Prüfungsgespräch eine positive Rückwirkung auf die getestete Person haben, auf die Art und Weise, wie sie ihre eigene Kompetenz wahrnimmt, wie zufrieden sie mit ihr ist, und darauf, welche Schlüsse sie im Hinblick auf ihre weitere fremdsprachliche Entwicklung zieht. Im diesem Abschnitt soll gezeigt werden, wie zwei bekannte standardisierte mündliche Prüfungformate, das ACTFL Oral Proficiency Interviews (OPI) und das Zertifikat Deutsch, versuchen, diese Kriterien zu erfüllen, bzw. nur einzelne dieser Kriterien erfüllen. 4.2.1 Das ACTFL OPI

Page 13: 2001 FLuL Sprechen

Das OPI (Swender 1999) beginnt mit einer unbewerteten Aufwärmphase. Diese Phase verfolgt mehrere Ziele. Zum einen ist sie dafür gedacht, das Gespräch auf einem Niveau zu beginnen, mit dem der Kandidat keinerlei Probleme hat, damit er sich zu Beginn des Prüfungsgesprächs kompe-tent fühlen kann. Gleichzeitig bewirkt diese Phase, dass sich die Testperson "aufwärmt", d.h. beginnt, wieder auf Deutsch zu denken. Desweiteren ist das Ziel dieser Phase, Prüferin und Prüf-ling miteinander bekannt zu machen. Dies soll dazu führen, dass das Gespräch authentischer wird. Man unterhält sich, um sich weiter kennen zu lernen. Zum anderen soll dadurch eine freundliche und angenehme Atmosphäre geschaffen werden. Die Aufwärmphase wird weiterhin dazu benutzt, zu erfahren, wofür sich die getestete Person interessiert, um Themen für die Prüfungsphase des Interviews zu gewinnen. Schließlich bekommt der Prüfer im Rahmen dieser Phase bereits erste Eindrücke darüber, auf welchem Niveau sich die getestete Person befinden könnte. Der Hauptteil der Prüfung rankt sich um 4-5 Themen, die sich auf den unteren Niveaus eher auf elementare alltägliche Erfahrungen bzw. Autobiographisches beschränken, auf den höheren Niveaus mit dem Testkandidaten ausgehandelt werden. Dieses Aushandeln der Themen hat vor allem ein interaktives Ziel, nämlich die sprachliche Kompetenz der Kandidaten in den Mittelpunkt zu stellen und zu vermeiden, dass die Testresultate durch unterschiedliches fachliches Wissen bzw. negative Gefühle unbrauchbar gemacht werden. Gleichzeitig verstärkt das Aushandeln der Themen mit den Kandidaten die Authentizität des Gesprächs. Letztendlich führt es auch zu einer größeren Testökonomie, weil vermieden wird, Themen anzuschneiden, zu denen die Kandidaten nichts wissen bzw. nichts zu sagen haben. Zu jedem Thema werden zuerst Fragen oder Aufgaben gestellt, von denen der Prüfer annimmt, dass sie der Kandidat problemlos beantworten kann, und dann Fragen oder Aufgaben, von denen angenommen wird, dass sie der Kandidat nur mit Mühe bzw. gar nicht beantworten kann. Das Ziel der Prüfung ist, zu zeigen, was die Person kann (Boden) und was sie nicht kann (Decke), um eine Profilbeschreibung zu erreichen, die die Person eindeutig zwischen zwei Niveaus platziert. Der ständige Wechsel zwischen für die Kandidaten einfachen und schwierigen Fragen führt sie immer wieder auf ein Niveau von Mühelosigkeit zurück. Dies verschafft ihnen zum einen immer wieder Erfolgserlebnisse, ein Gefühl von Kompetenz und damit eine positive emotionale Grundstimmung, und zum anderen notwendige Ruhepausen für die schwierigeren Fragen und Aufgaben. Die Proben auf das nächsthöhere Sprachniveau, das die Testperson noch nicht oder nicht gut beherrscht, haben das Ziel, die Prüfung auch noch oben hin bewertbar zu machen, denn nur im Zusammenspiel zwischen Aufgaben, die gelöst werden, und Aufgaben, die nicht gelöst werden, lassen sich Prüfungsteilnehmer präzise einordnen. Ein Vorteil des Wechselns zwischen lösbaren und komplizierten Aufgaben, ist das Feedback, das die getestete Person dadurch erhält. Sie bekommt ein relativ deutliches Bild ihrer Fähigkeiten, da-rüber, was sie kann und was sie nicht kann. Dies steigert zum einen die Validität der Prüfung für die getestete Person (Augenscheinvalidität), zum anderen vermittelt es ein persönliches Profil, das Ausgangspunkt weiterer Lernwege werden kann. Weil in einem Prüfungsgespräch nicht alle Sprechhandlungen und sozialen Kontexte auf authen-tische Weise elizitiert werden können, werden die Kandidaten, meist gegen Ende des Interviews, gebeten, mit dem Prüfer ein Rollenspiel durchzuführen, um z.B. einfache oder komplexe Trans-aktionen aus dem Alltag zu simulieren oder um die Rollen anders zu verteilen, um z.B. zu einem

Page 14: 2001 FLuL Sprechen

anderen Register zu gelangen oder um das Autoritätsgefälle in der Prüfung umzukehren, damit die Testperson mehr Eigeninitiative zeigen kann. Testökonomie (Praktikabilität) wird dadurch ins Spiel gebracht, dass ein bestimmtes Thema nur so lange behandelt wird, bis man eindeutige Belege für Boden- und Deckenniveaus bekommt, z.B. dass eine bestimmte Sprechhandlung im Rahmen eines bestimmten sozialen Kontexts auf eine sprachlich akzeptable Art und Weise durchgeführt bzw. nicht durchgeführt wurde. Während andere Prüfungen eine fest vorgegebene Zeit ansetzen, in der eine bestimmte Aufgabe gelöst werden muss, z.B. 5 Minuten für den freien Vortrag im Rahmen der ZOP, kann ein OPI-Prüfer, sobald er die Belege hat, die er braucht, zur nächsten Aufgabe übergehen. Das OPI endet mit einer Abkühlphase, in der die Kandidaten auf das Niveau zurückgebracht werden, auf dem sie sich am wohlsten fühlen. Diese Phase dient dazu, das Prüfungsgespräch für die Testperson mit einem Erfolgserlebnis zu beenden, um eine positive Rückwirkung auf das weitere Lernen zu haben. 4.2.2 Das Zertifikat Deutsch Die mündliche Prüfung des Zertifikats Deutsch (WTB 1998) kann als Paar- oder als Einzelprü-fung durchgeführt werden. Wie das eben beschriebene OPI soll es den Charakter einer Konversa-tion haben. In der Paarprüfung fungieren die Prüfer als Moderatoren und sollen selbst möglichst wenig sprechen. Sie sollen nur dann eingreifen, wenn eine der beiden Testpersonen im Gespräch zu stark dominiert oder sich nicht aktiv beteiligt bzw. wenn das Gespräch zusammen bricht. Die Prüfung dauert ohne Vorbereitungszeit 15 Minuten. Sie besteht aus drei Teilen. Im Teil 1 nehmen die Testpersonen miteinander Kontakt auf, indem sie sich gegenseitig zu Herkunft, Wohnung, Familie u.Ä. Fragen stellen und diese Fragen beantworten. Im Teil 2 beschreiben beide Gesprächspartner sich gegenseitig einen jeweils unterschiedlichen und nur ihnen vorliegenden kurzen Text (ca. 30 Wörter) mit einer Grafik zu einem alltäglichen Thema wie Ferien. Im Anschluss daran beschreiben sie, wie sie selbst ihre Ferien verbringen. Im Teil 3 lösen die Testkandidaten in einer Art Rollenspiel eine einfache Alltagsaufgabe, wie z.B. das Planen einer Feier. Wenn sie als Einzelprüfung durchgeführt wird, spielt einer der Prüfer die jeweils andere Rolle. Es gibt weder eine Aufwärmphase noch eine Abkühlphase. Bevor die Testkandi-daten die Prüfung bestreiten, haben sie 20 Minuten Zeit, sich unabhängig voneinander auf sie vorzubereiten. Insgesamt müssen die folgenden vier Aufgaben gelöst werden. • Informationen geben bzw. erfragen • eine Grafik beschreiben • einen Ablauf beschreiben • eine einfache Situation aus dem Alltag bewältigen (Fragen stellen, kurze Antworten ge-

ben, Vorschläge machen, gemeinsam entscheiden) Ziel der Prüfung ist es, ein Gespräch zwischen Gleichgestellten zu simulieren (unter der Annah-me, die Testkandidaten empfinden sich gegenseitig als gleichgestellt). Dies stärkt die Validität und die Authentizität. Geschwächt wird die Authentizität aber dadurch, dass die Themen vorge-geben sind. Ein größeres Problem scheint jedoch die Reliabilität der Prüfung zu sein. Dadurch dass die Prüfer nur eingreifen sollen, wenn eine Person dominiert bzw. wenn das Gespräch zu-

Page 15: 2001 FLuL Sprechen

sammen bricht, bestimmen im Großen und Ganzen die Testkandidaten, wie schwierig bzw. wie leicht ihre Fragen zu beantworten sind. In dem oben angegebenen Beispiel würde es einen großen Unterschied machen, wenn jemand danach fragt, wie man normalerweise seine Ferien verbringt, oder ob er fragt, wie man seine letzten Ferien verbracht hat. Da die Bewertungskriterien nur da-nach fragen, wie gut etwas beantwortet wurde, und nicht danach, wie schwierig es war, kann es hier zu großen Unterschieden in der Bewertung kommen. Es ist sicherlich auch schwierig für den Prüfer zu entscheiden, wann ein Testkandidat dominiert und wann der Prüfer einzugreifen hat. Neben eindeutigen Fällen gibt es wahrscheinlich eine Vielzahl von Fällen, in denen eher per Zu-fall eingegriffen wird. Dies alles senkt deutlich die Reliabilität. Problematisch erscheint die Validität im Hinblick auf die repräsentative Auswahl. Im Grunde genommen werden nur vier Sprechhandlungen geprüft: Fragen stellen, Antworten geben, Vorschläge machen, etwas beschreiben. Zudem wäre es für die Prüfung ausreichend, diese Sprechhandlungen im Präsens zu bewältigen. Es wird nicht deutlich, in wie weit dies eine reprä-sentative Auswahl der Sprechhandlungen darstellt, die nach ca. 400 Unterrichtsstunden be-herrscht werden. Zwar ist wahrscheinlich, dass sich eine Reihe weiterer Sprechhandlungen im Laufe einer Prüfung ergeben. Das Problematische daran ist, dass dies unkontrolliert und durch Zufall erfolgt. Dies würde wiederum deutlich die Reliabilität und damit die Brauchbarkeit der Prüfung senken. Schließlich senkt die Tatsache, dass sich die Testkandidaten auf die Prüfung vor-bereiten können, die Authentizität. (Auf wie viele einfache Alltagsgespräche bereitet man sich vor?) Die Interaktivität der Aufgaben ist zum Teil gewährleistet. Die sprachliche Kompetenz steht deutlich im Vordergrund. Unterschiedliches Sach- und Fachwissen spielt bei den vorliegenden Aufgaben kaum eine das Ergebnis beeinflussende Rolle. Emotional allerdings kann sich vieles abspielen, je nachdem wie sich die beiden Testkandidaten auf sprachlicher wie auch auf emotio-naler Ebene verstehen. So lange keine komfortable Flüssigkeit in der Fremdsprache erreicht ist, und das ist auf dem Niveau des Zertifikats noch nicht der Fall, so lange sind Fremdsprachenspre-cher darauf angewiesen, einen geduldigen und einfühlsamen Gesprächspartner zu haben, um zu zeigen, was sie wirklich können. Einen solchen Gesprächspartner in einer anderen Testperson zu finden, die vielleicht unmaßgeblich besser Deutsch spricht als man selbst, ist eher zufällig und möglicherweise selten. Auch das Fehlen einer Aufwärmphase ist auf diesem Niveau ein Nachteil, da bei nicht stabiler Kompetenz der Beginn einer Prüfung besonders emotional belastend sein kann und den weiteren Verlauf negativ vorbelasten kann. Ein weiterer Mangel im Bereich Interaktivität ist es, dass fast keine Möglichkeit besteht, das Prüfungsgespräch maßzuschneidern, d.h. sowohl vom Niveau her wie von den Themen her den Bedürfnissen, Interessen und Möglichkeiten der Testteilnehmer an-zupassen. Eine positive Rückwirkung hat die mündliche Prüfung des Zertifikats insofern, als dass die Auf-gaben authentische Sprechhandlungen erfordern. Problematisch erscheint die restriktive und nicht repräsentative Auswahl, ebenso die im Großen und Ganzen fehlende Würdigung der emotionalen Ebene der Prüfungskandidaten. Besonders problematisch erscheint die geringe Reliabilität, die den Nutzen dieses Teils der Prüfung in Frage stellt und damit diesen Teil für Testteilnehmer wie für Testbenutzer entwertet. 5. Validität und Reliabilität: Die Bewertung

Page 16: 2001 FLuL Sprechen

Wie bereits in Sektion 4 festgestellt, bestehen mündliche Prüfungen aus zwei deutlich unterscheidbaren Prozessen, dem Prüfungsgespräch und dem Bewertungsverfahren. Das Bewertungsverfahren ist dabei der einzige Prozess, der potentiell objektiv ist bzw., wie wir sehen werden intersubjektiv. Zum Verfahren gehören die Bewertungsskala, die Bewerter und die Maßnahmen, die ergriffen werden, um Bewertungen so zuverlässig wie möglich zu machen. Dazu wiederum gehört die blinde Doppelbewertung und eine solide Prüfer- und Bewerterschulung. In dieser Sektion stehen deshalb Bewertungsskalen, Bewertungsverfahren und Bewerterschulungen im Mittelpunkt und welchen Einfluss sie auf die Validität und Reliabilität einer mündlichen Prüfung haben. 5.1 Bewertungsskalen

Die Bewertungskriterien einer Prüfung werden durch ihre Ziele bestimmt. Die Ziele bestimmen das Konstrukt. Davon können Aussagen abgeleitet werden, wie sich das Verhalten erfolgreicher Testkandidaten beschreiben lässt bzw. auf Grund welcher Kriterien unterschiedliche Kompetenzniveaus unterschieden werden können. Wie in Sektion 4 beschrieben müssen Bewertungkriterien bei breit angelegten mündlichen Tests Aussagen dazu machen, welche Texttypen, Sprechhandlungen, Register und Themen auf welchen Niveaus wie gut beherrscht werden und wie genau sich dieses Beherrschen zeigt. Eine Bewertungsskala, die auf einem expliziten theoretischen Modell fremdsprachlicher Kompetenz aufbaut, hat den Vorteil, dass nach Ende der Prüfung Aussagen darüber gemacht werden können, wozu Testkandidaten fähig sind und wozu sie nicht fähig sind. Damit lässt sich eine Profilbeschreibung erstellen, die sowohl potentiellen Arbeitgebern nützliche Informationen zu den sprachlichen Kompetenzen des Kandidaten liefert, wie auch den Kandidaten selbst, die auf der Basis der Beschreibung ihrer Stärken und Schwächen selbst bestimmen können, was sie zur Vervollkommnung ihrer sprachlichen Fähigkeiten benötigen. Ein weiterer Vorteil ist der, dass sie die Konstruktvalidität der Prüfung erhöht. Neben der Möglichkeit, die Konstruktdefinition in die Bewertungsskalen einfließen zu lassen, gibt es die Möglichkeit das Konstrukt in erster Linie über die Aufgabenstellungen zu erfassen. So kann z.B. ein bestimmtes Leistungsniveau festgelegt werden (z.B. Abschluss eines bestimmten Kurses) und das Konstrukt mündliche Leistungsfähigkeit durch Aufgabenstellungen, die diesem Niveau entsprechen, definiert werden. Dabei wird z.B. bestimmt, welche Sprechhandlungen ausgeführt werden sollen, welche Textsorten beherrscht werden sollen, über welche Themen man sprechen können soll und mit welchen Adressatengruppen man umgehen können soll. Aus diesen Handlungen, Textsorten, Themen und Adressatengruppen wird eine repräsentative Auswahl getroffen und über die Aufgaben erfasst. Die Bewertungsskala bestimmt dann in erster Linie, wie gut die Aufgabe inhaltlich und sprachlich gelöst wurde. Beispiele für diese Art von traditionellen Bewertungsskalen finden sich in sehr vielen nationalen und internationalen Prüfungen (z.B. die Prüfungen des Goethe-Instituts, die DSH und TestDaF). Bewertungsskalen, die bewerten, wie verständlich, korrekt, fließend u.Ä. bestimmte Aufgaben gelöst werden, sind relativ einfach zu erstellen. Allerdings sind sie für die Testteilnehmer und oft auch für die Bewerter nicht sehr transparent. Die Testkandidaten erfahren zwar, ob sie bestanden haben oder nicht bzw. wie gut sie bestanden haben. Sie

Page 17: 2001 FLuL Sprechen

erfahren aber meist nichts darüber, was das für die Welt außerhalb des Prüfungszentrums bedeutet. Dadurch verringert sich auch die Validität der Prüfung, weil Testbenutzer nicht wissen, in wie weit ihre Performanz im Test mit ihrer Performanz im wirklichen Leben korrespondiert, d.h. welche Aussagen über das zukünftige sprachliche Verhalten der Testkandidaten auf Grund ihres Verhaltens im Test gemacht werden können. Diese Bewertungsskalen verwenden Kriterien wie "löst die Aufgabe gut", "macht wenig grammatische Fehler" usw. Solche Kriterien sind relativ vage und Bewerter können Probleme haben, diese Kriterien konsequent auf unterschiedliche Kandidaten auf die gleiche Weise anzuwenden bzw. es können Probleme zwischen Bewertern auftauchen, weil sie die Kriterien jeweils unterschiedlich interpretieren. Bei solchen traditionellen Bewertungsskalen definieren die Aufgaben, was sich die Testhersteller unter mündlicher Handlungsfähigkeit auf einem bestimmten Niveau vorstellen. Die mündliche Komponente des neuen Zertifikats Deutsch (WTB 1998) z.B. besteht aus drei Teilen: einem Teil 1, in dem die getestete Person mit dem Prüfer oder einer anderen Person Kontakt aufnehmen soll, dabei zu Herkunft, Wohnung, Familie u.Ä. Fragen stellen und Fragen beantworten soll; einem Teil 2, in dem eine Graphik zu einem alltäglichen Thema wie Ferien beschrieben werden soll und dann darüber berichtet werden soll, wie man selbst seine Ferien verbringt; und einem Teil 3, in dem in einer Art Rollenspiel mit dem Prüfer oder einem Partner eine einfache Alltagsaufgabe gelöst werden soll, z.B. das Planen einer Feier. Bewertet werden Ausdrucksfähigkeit, Aufgabenbewältigung, formale Richtigkeit und Aussprache und Intonation. Ausdrucksfähigkeit wird verstanden als inhalts- und rollenbezogene Ausdrucksweise, Wortschatz und die Verwirklichung der Sprechabsicht, Aufgabenbewältigung als Gesprächsbeteiligung, die Verwendung von Strategien und die Flüssigkeit der Rede. Formale Richtigkeit bezieht sich auf Syntax und Morphologie und Aussprache und Intonation auf Aussprache und Intonation. Das Kriterienraster für Ausdrucksfähigkeit und Aufgabenbewältigung reicht von voll angemessen über im großen und ganzen angemessen zu kaum noch akzeptabel und durchgehend nicht ausreichend. Bei formaler Richtigkeit reicht das Raster von keine oder nur vereinzelte Fehler über Fehler beeinträchtigen das Verständnis nicht zu Fehler an zentralen Stellen, die das Verständnis erheblich beeinträchtigen und schließlich so viele Fehler, dass die Kommunikation zu scheitern droht bzw. scheitert. Das Raster der Kategorie Aussprache und Intonation ist ähnlich wie das der formalen Richtigkeit. Über die Aufgaben und vor allem über das Kriterienraster lässt sich erkennen, dass die Testhersteller eine moderne Vorstellung von sprachlicher Kompetenz als Handlungskompetenz haben. Neben traditionellen Kriterien wie Aussprache und Grammatik treten Sprechabsicht hinzu, also pragmatische Kompetenz, inhalts- und rollenbezogene Ausdrucksweise, also soziokulturelle Kompetenz, und strategische Kompetenz. Allerdings wird nicht klar, in wie weit die drei Testaufgaben eine repräsentative Auswahl aus der Menge der Aufgaben treffen, die ein Kandidat nach ca. 400 Unterrichtsstunden bewältigen können sollte. Problematisch erscheint bei den Bewertungskriterien vor allem das Kriterium Aufgabenbewältigung mit den Teilkriterien Gesprächsbeteiligung, Verwendung von Strategien und Flüssigkeit. Gesprächsbeteiligung scheint eher ein Persönlichkeitsmerkmal zu sein. Wenn es dem

Page 18: 2001 FLuL Sprechen

Prüfer nicht gelingt, die geprüfte Person am Gespräch zu beteiligen, kann er auch keine Aussagen über die sprachliche Kompetenz dieser Person machen, also auch keine ne-gativen. Problematisch erscheint auch das Kriterium Verwendung von Strategien. Die Verwendung von Strategien wird meist kompensatorisch verstanden. Wenn z.B. jemand ein bestimmtes Wort benutzen möchte, es aber nicht kennt, kann er oder sie versuchen das Wort zu umschreiben, es in der Muttersprache zu sagen, in der Hoffnung, es handelt sich vielleicht um ein Kognat, oder versuchen, es durch Mimik oder Gestik zu vermitteln. Die Bereitschaft, Strategien zu verwenden, hängt, wie die Gesprächsbeteiligung von der Persönlichkeit der Testkandidaten ab. Dazu kann man meistens nicht feststellen, ob Strategien verwendet werden oder nicht. Cohen und Olshtain (1993) z.B. sind der Meinung, dass Bewerter das Kriterium Strategische Kompetenz nicht konsequent anwenden können. Sie untersuchten den Grad der Übereinstimmung von fünf Bewertern, die jeweils 15 Testkandidaten bewerteten, und fanden, dass die Übereinstimmung bei diesem Kriterium am geringsten war. Ähnlich sieht es mit dem Teilkriterium Flüssigkeit aus, das ein beliebtes Kriterium auch anderer traditioneller Skalen ist. Flüssigkeit wird meist als Sprechgeschwindigkeit oder als Leichtigkeit des Ausdrucks definiert. Da Menschen in ihrer Muttersprache oft große Unterschiede in Bezug auf Sprechgeschwindigkeit und Leichtigkeit des Formulierens aufweisen, ist es schwierig zu beurteilen, ob eine bestimmte Sprechgeschwindigkeit die normale Geschwindigkeit der betreffenden Person ist. Dazu kommt, dass eine höhere Sprechgeschwindigkeit durchaus eine höhere Anzahl von Fehlern mit sich führen kann. Genau das hat z.B. Kato (1977) herausgefunden, als er die Transkripte von Testkandi-daten analysierte, die als besonders fließend sprechende Lerner eingestuft worden waren. Er stellte fest, dass gerade diese Sprecher weniger genau in ihrer Wortwahl waren und mehr grammatische Fehler aufwiesen, als Sprecher, die weniger schnell sprachen und weniger Punkte im Bereich Flüssigkeit erzielt hatten. Einfache Skalen, wie die des neuen Zertifikats Deutsch, die beim Teilkriterium Flüssigkeit von voll angemessen über im großen und ganzen angemessen und kaum noch akzeptabel zu durchgehend nicht ausreichend gehen, sind deshalb von zweifelhaftem Wert. Das Kriterium Aufgabenbewältigung des Zertifikats, definiert als Gesprächsbeteiligung, Verwendung von Strategien und Flüssigkeit der Rede, ist also fragwürdig. Unklar ist aber auch, wie zuverlässig mit Hilfe der anderen Kriterien bewertet werden kann, z.B. mit Hilfe des Kriteriums Ausdrucksfähigkeit. Wenn ein Bewerter feststellt, dass die inhalts- und rollenbezogene Ausdrucksweise, der Wortschatz und die Verwirklichung der Sprechabsicht eines Kandidaten kaum noch akzeptabel ist, kann ein anderer Bewerter dies durchaus als durchgehend nicht ausreichend sehen. Wenn ein Bewerter, der viel Erfahrung im Umgang mit Sprechern einer bestimmten Muttersprache hat, die Grenzen zwischen Aussprache- und Intonationsfehlern, die das Verständnis nicht beeinträchtigen, gelegentlich beeinträchtigen oder erheblich erschweren, ganz anders zieht, als jemand der wenig Erfahrung im Umgang mit Sprechern dieser Muttersprache hat, so ist dies sicherlich verständlich und nachvollziehbar. Es verringert jedoch die Reliabilität der Bewertung und damit die Nützlichkeit der Prüfung. Hier hilft nur eine rigorose Bewerterschulung und eine blinde Doppelbewertung wie in den nächsten Sektionen dargelegt werden wird.

5.2 Analytische und holistische Bewertungsskalen

Page 19: 2001 FLuL Sprechen

Eine weitere Entscheidung, die bei der Anwendung von Bewertungskriterien getroffen werden muss, ist die, ob sie getrennt angewendet werden sollen (analytische Skala) oder ob man sie zu ganzheitlichen Niveaubeschreibungen zusammenfassen möchte (holistische Skala). Eine analytische Skala besteht aus einer Reihe von Unterskalen, die getrennt bewertet und beurteilt werden. Dabei kann für jedes Kriterium eine unterschiedliche Beurteilung erreicht werden. Die Gesamtbeurteilung setzt sich aus der Summe der Einzelbeurteilungen zusammen. Eine holistische Skala dagegen ist eine Skala, mit der mündliche Interaktionen in ihrer Gesamtheit bewertet werden. Die einzelnen Niveaus werden ganzheitlich beschrieben und es wird danach gefragt, wie ähnlich ein mündlicher Text einer bestimmten Niveaubeschreibung kommt. Holistische Bewertungsverfahren beruhen auf der Annahme, dass die Qualität eines mündlichen Textes nur in seiner Gesamtheit bewertet werden kann und nicht durch ein Addieren einzelner Merkmale. Der Blick auf das Ganze stärkt die Validität, da ja auch die Zuhörer mündliche Texte als Ganzes wahrnehmen. Analytische Bewertungsverfahren gehen davon aus, dass sich die Sprechfertigkeit in Teilfertigkeiten gliedern lässt, die getrennt evaluiert werden können und deren Summe die Sprechfertigkeit insgesamt ergibt. Da sich unterschiedliche Teilfertigkeiten unterschiedlich schnell entwickeln, sei es sogar von Vorteil, sie getrennt zu evaluieren. Durch unterschiedliche Gewichtung einzelner Merkmale können die für einen Zuhörer wesentlichen Elemente in den Vordergrund gestellt werden. Allerdings scheint es sehr schwierig zu sein, das Besondere an einem bestimmten Text, das, was ein Zuhörer ganzheitlich wahrnimmt, aus der Summe von Einzelmerkmalen heraus zu bewerten. Beide Beurteilungsverfahren haben also Vor- und Nachteile. Die Entscheidung für ein holis-tisches oder analytisches Verfahren richtet sich deshalb oft nach den Zielen und den ökono-mischen Rahmenbedingungen einer bestimmten Prüfung. Dazu zählen u.a.: • die Zeit, die für die Bewertung zur Verfügung steht • die Anzahl der Bewertungen pro Prüfung • der Zweck der Prüfung • die Größe der Bewertergruppe • die Schulungsmöglichkeiten der Bewertergruppe Holistische Bewertungsverfahren sind meist weniger zeitaufwendig. Dies führt dazu, dass bei gleichen Kosten die gleiche Prüfung von mehreren Personen evaluiert werden kann. Multiple Bewertungen sind ein wichtiger Faktor für die Reliabilität des Bewertungsverfahrens. Besonders bei der Bewertung produktiver Kompetenzen spielt die Anzahl der Bewerter eine große Rolle. Die Reliabilität der Bewertung erhöht sich drastisch, je mehr Bewerter die gleiche Prüfung beurteilen (Kenyon / Tschirner 2000). Damit sind holistische Verfahren immer dann vorzuziehen - unter der Voraussetzung, dass die Prüfung von mehreren Bewertern beurteilt werden kann - wenn es sich um Prüfungen handelt, von denen sehr viel abhängt, z.B. die Entscheidung, ob jemand zu einem Universitätsstudium zugelassen wird oder ob bestimmte berufsqualifizierende Kenntnisse und Fertigkeiten vorhanden sind. Analytische Bewertungsverfahren andererseits lassen sich besser für diagnostische Zwecke einsetzen. Da sich einzelne sprachliche Bereiche (z.B. Aussprache, Wortschatz, Grammatik,

Page 20: 2001 FLuL Sprechen

rhetorische Organisation, Register) nicht gleich schnell entwickeln, hat eine Konzentration auf Teilbereiche zum einen den Vorteil, dass den Kandidaten präzises Feedback zu diesen Teilbereichen gegeben werden kann, zum anderen kann honoriert werden, dass einzelne Teilbereiche weiter entwickelt sind, auch wenn dies aus einer ganzheitlichen Sicht heraus die Qualität eines mündlichen Beitrags nicht wesentlich erhöht. Während holistische Verfahren oft dann angebracht sind, wenn es sich um eine relative kleine und homogene Bewertergruppe handelt, die sich aus hoch qualifizierten und gut ausgebildeten Fachleuten zusammensetzt, sind analytische Bewertungsverfahren bei einer großen Anzahl von Bewertern vorzuziehen, vor allem, wenn es schwer ist, einen gleich hohen Ausbildungsstandard zu gewährleisten oder wenn die Bewerter eher unerfahren in der Bewertung von mündlichen Prüfungen sind. Analytische Skalen lenken nämlich die Aufmerksamkeit auf Teilbereiche, die sonst vielleicht nicht beachtet werden würden. Untrainierte Bewerter achten vor allem auf phonologische, morphologische und syntaktische Kriterien und reagieren besonders negativ auf Grammatikfehler. Holistische Verfahren leiden dabei mehr darunter, weil sie nicht wie analytische Verfahren den Blick auf andere Kriterien lenken und es dadurch ermöglichen, diese Kriterien in die Beurteilung einfließen zu lassen. Als Nachteil analytischer Bewertungsverfahren hat sich bei weniger erfahrenen Bewertern der sogenannte Haloeffekt herausgestellt. Bewerter neigen dazu, im Bewertungsprozess aufeinanderfolgenden Teilbereichen die gleiche Punktzahl zu geben. Teilbereiche werden also nicht getrennt von den anderen bewertet, sondern von ihnen beeinflusst. Damit kann eine bestimmter Teilbereich, z. B. der erste, der bewertet wird, oder derjenige, der am leichtesten zu bewerten ist, eine unverhältnismäßig große Rolle spielen, und damit den Vorteil analytischer Bewertungsverfahren, unterschiedliche Aspekte unterschiedlich zu gewichten, zunichte machen. 5.3 Bewertungsverfahren Aufgaben, Prüfungsstruktur und Elizitierungstechniken tragen in hohem Maße zur Reliabilität und Validität einer mündlichen Prüfung bei. Weitere maßgebliche Anteile an der Reliabilität einer Prüfung haben das Bewertungsverfahren und die Prüferschulung. Wichtige Fragen beim Bewertungsverfahren sind u.a., • wie viele Bewerter den gleichen Test bewerten müssen, um eine angemessene Reliabilität

zu erreichen • ob sich Bewerter absprechen können oder ob alle Bewerter für sich bewerten müssen

(eine blinde Doppelbewertung) • ob mündliche Prüfungen auf Band aufgenommen werden müssen. Mündliche Prüfungen, vor allem wenn sie den Kriterien Authentizität und Interaktivität genügen wollen, weisen ein hohes Maß an Variabilität auf. Diese Variabilität kann nur teilweise durch Prüfungsstruktur und Aufgabenstellungen aufgefangen werden. Keine zwei mündlichen Prüfun-gen sind miteinander vergleichbar. Testteilnehmer handeln mit den Prüfern aus, worüber gespro-chen wird und wie darüber gesprochen wird. Deshalb lassen sich mündliche Prüfungen nicht im strengen Sinne objektiv bewerten. Ähnlich wie in der literaturwissenschaftlichen Interpretation muss deshalb Intersubjektivität hergestellt werden. Neben der Schulung, mit der sich der nächste Abschnitt beschäftigt, spielt dabei vor allem die Nachvollziehbarkeit der Bewertung eine große

Page 21: 2001 FLuL Sprechen

Rolle. Gesprochene Sprache ist flüchtig. Dazu ist es schwer, sich im Gespräch gleichzeitig auf in-haltliche und sprachliche Aspekte des Gesagten zu konzentrieren, vor allem, wenn der Prüfer auf den Inhalt achten muss, um sinnvolle weitere Fragen oder Aufgaben stellen zu können. Selbst wenn zwei Prüfer die Prüfung durchführen und einer der Prüfer sich vor allem auf die Sprache konzentrieren kann, weil er oder sie nicht in die Prüfung eingreift, erfordert die Nachvollziehbar-keit der Bewertung, dass die Prüfung auf Band aufgenommen wird. Die menschliche Erinnerung, die sich aus wahrnehmungspsychologischen Gründen vor allem aufs Inhaltliche richtet, trügt, wenn es um das Wortwörtliche geht. Das Wortwörtliche allerdings gibt Auskunft über die sprachliche Kompetenz der Testteilnehmer. Bewerter müssen sich Prüfungen mehrmals anhören können, müssen bestimmte sprachliche Details einander vorführen und miteinander diskutieren können. Erst dann kann Intersubjektivität auf eine Weise hergestellt werden, die zu nachvollzieh-baren und damit potentiell zuverlässigen Beurteilungen führt. Zum zuverlässigen intersubjektiven Bewerten genügt es nicht, dass sich zwei oder mehr Bewerter vor Ort einig werden. Zuverlässigkeit verlangt, dass alle Bewerter, die diese Prüfung potentiell bewerten könnten, zum gleichen Ergebnis kommen können. Dies erreicht man nur durch eine intensive Prüfer- und Bewerterschulung, wie sie im nächsten Kapitel beschrieben wird. Um zu gewährleisten, dass die Schulung den gewünschten Effekt hatte, nämlich dass unterschiedliche Bewerter in ihren Urteilen so nah wie möglich beieinander liegen, dürfen Ergebnisse nicht abgesprochen werden, sondern müssen unabhängig voneinander, in einem sogenannten blinden Verfahren, abgegeben werden. Blindes Bewerten bedeutet, dass beide Prüfer ohne die Bewertung des anderen zu kennen, ihre Bewertungen abgeben. Damit kann kein Bewerter den anderen beeinflussen. Aber selbst das Aufnehmen von mündlichen Prüfungen und das blinde Bewerten allein genügen nicht, um hohe Zuverlässigkeitsraten zu erreichen. Intersubjektivität ist nicht Objektivität. Wenn Prüfungen allerdings Lebenswege beeinflussen, müssen sie so zuverlässig wie möglich sein. Bei Prüfungen der mündlichen Ausdrucksfähigkeit erreicht man eine höhere Objektivität und Reliabilität vor allem dadurch, dass man die Zahl der Bewerter erhöht. Kenyon / Tschirner (2000) zeigten, dass sich die Zuverlässigkeit der Bewertung deutlich erhöht, je mehr Bewerter dieselbe Prüfung beurteilen. Ihrer Meinung nach ist eine einzige Bewertung durch einen einzigen Bewer-ter nicht zuverlässig genug für eine wichtige Prüfung. Erst bei zwei Bewertern wird eine wichtige Zuverlässigkeitsschwelle überschritten, wobei die Zuverlässigkeit durch drei Bewerter noch ein-mal deutlich erhöht wird. Kenyon und Tschirner ziehen daraus den Schluss, dass bei mündlichen Prüfungen mindestens zwei Bewerter unabhängig voneinander ihre Bewertungen abgeben müs-sen. Wenn es dabei zu einer Divergenz kommt, sollte ein dritter Bewerter eingeschaltet werden, der ebenfalls blind bewertet. Auf Grundlage der in diesem Abschnitt angesprochenen Merkmale zuverlässiger Tests - Aufnahme auf Band, blindes Bewerten, mindestens zwei Bewerter - sollen nun einige bekannte Prüfungen untersucht werden. Das Zertifikat Deutsch (WBT 1998) wird von zwei Prüfern abgenommen, die während der Prüfung unabhängig voneinander einen Bewertungsbogen ausfüllen. Am Ende der Prüfung vergleichen die Bewerter ihre Ergebnisse miteinander und einigen sich auf eine gemeinsame Bewertung. Die Prüfung wird nicht aufgenommen. Die erste, auf dem ersten Eindruck basierende

Page 22: 2001 FLuL Sprechen

Bewertung verläuft zwar blind, da jedoch die Prüfung nicht anderweitig dokumentiert wird, kann das entscheidende Gespräch zwischen den Prüfern nur auf der Basis ihrer Erinnerung ablaufen. Zu den unkontrollierten Variablen, die auf diese Weise eingeführt werden, zählen die Güte des Gedächtnisses der Bewerter, die Überzeugungskraft bzw. Dominanz der einzelnen Bewerter u.Ä. Die ZMP und ZOP des Goethe-Instituts (Goethe-Institut 1997, Perlmann-Balme 1998) werden ebenfalls von zwei Prüfern abgenommen, die entweder während oder nach der Prüfung unabhängig voneinander ihre Bewertungen festhalten. Die Prüfung wird nicht aufgenommen. Die Prüfer machen sich abwechselnd Notizen zur sprachlichen Leistung. Im Gegensatz zum Zertifikat Deutsch wird das Endergebnis nicht ausgehandelt, sondern es wird der Mittelwert der Ergebnisse beider Prüfer gebildet. Dies erhöht die Zuverlässigkeit der Bewertung, da das Endresultat nicht von der Persönlichkeit der Prüfer abhängt. Auch die Tatsache, dass sich jeweils einer der beiden Prüfer Notizen zur sprachlichen Leistung macht, erhöht die Reliabilität der Bewertung, da das Ergebnis dieses Prüfers nicht nur von der Güte seines Gedächtnisses abhängt und einzelne Aspekte zumindest partiell nachvollziehbar werden. Da der andere Prüfer jedoch keine Notizen von den Teilen der Prüfung besitzt, in denen er oder sie die Fragen oder Aufgaben gestellt hat, verringert dies die Zuverlässigkeit der Beurteilung dieser Teile. Auch das Fehlen eines dritten Bewerters auch bei großen Bewertungsunterschieden lässt eine hohe Bewertungszuverlässigkeit dieser Prüfungen fraglich erscheinen, auch wenn sie im Detail besser dastehen als das Zertifikat. Das ACTFL OPI (Swender 1999) wird von einem einzigen Prüfer abgenommen. Während der Prüfung macht sich der Prüfer keine Notizen, sondern konzentriert sich auf das Prüfungsgespräch. Die Prüfung wird auf Band aufgenommen. Der Prüfer hört sich die aufge-zeichnete Prüfung mindestens einmal komplett an, bevor er eine Bewertung abgibt. Das Band mit der aufgenommenen Prüfung wird dann an einen zweiten Bewerter weitergeleitet, der seine Bewertung abgibt, ohne die Bewertung des ersten Bewerters zu kennen. Wenn die Bewertungen nicht übereinstimmen, wird das Band an einen dritten Bewerter geschickt, der seine Bewertung ebenfalls blind abgibt. Die Zuverlässigkeit des ACTFL OPI wurde in vielen Studien untersucht. Der Reliabilitätskoeffizient nach Pearson erreichte in allen Studien einen Wert von mindestens 0,8 und oft einen deutlich höheren (Kenyon / Tschirner 2000). Dieser Wert wird international bei wichtigen Prüfungen als die untere Grenze der Zuverlässigkeit angesehen (vgl. für schriftliche Prüfungen Hamp-Lyons 1990). Reliabilitätskoeffizienten für die Prüfungen des Goethe-Instituts, des Zertifikats Deutsch oder der DSH gibt es nicht oder sie werden nicht veröffentlicht. Es ist daher unklar, ob diese Prüfungen Reliabilitätswerte haben, die internationalen Ansprüchen genügen. 5.4 Prüfer- und Bewerterschulung Aufgabe eines Prüfers ist es, bewertbare Sprachbeispiele zu elizitieren, d.h. Fragen und Aufgaben so zu formulieren, dass sie die Testperson zu den gewünschten Sprechhandlungen in den gewünschten sozialen Kontexten bringen. Das Geschick des Prüfers ist um so mehr gefragt, je adaptiver und interaktiver das Prüfungsgespräch auf die Interessen, Möglichkeiten und Bedürfnisse der Testkandidaten eingehen soll. Dieses Geschick wird oft erst im Rahmen einer intensiven Prüferschulung erworben. Nach Fulcher (1997) ist die Prüfer- und Bewerterschulung der Ausschlag gebende Faktor für das

Page 23: 2001 FLuL Sprechen

Erreichen hoher Reliabilitätswerte bei der Bewertung mündlicher Leistungen. Wer mündlich prüfen möchte, muss zwei unterschiedliche Fähigkeiten aufweisen. Zum einen muss er oder sie prüfen können, d.h. das Prüfungsgespräch auf eine Weise führen, die zu einem repräsentativen Ausschnitt der mündlichen Handlungsfähigkeit der Testteilnehmer führt. Zum anderen muss er oder sie bewerten können. Beides muss in einer Prüferschulung gelernt werden. Mündliche Prüfungen variieren in der Offenheit der Aufgaben und Aufgabenstellungen. Manche Prüfungen schreiben den Verlauf der Prüfung detailliert vor (Zertifikat Deutsch), andere Prüfungen sind relativ offen (ACTFL OPI). Offene Prüfungen sind meist authentischer und interaktiver, jedoch auch komplexer in der Durchführung und benötigen meist eine intensivere Prüferschulung. In den Prüferblättern zum Zertifikat Deutsch wird detailliert beschrieben, welche Aufgaben gestellt werden, wie die Aufgaben eingeführt werden sollen, und wieviel Zeit für eine Aufgabe zur Verfügung gestellt wird. Dazu gibt es zu jedem Thema eine Reihe von Stichpunkten bzw. vorformulierten Fragen, mit deren Hilfe das Prüfungsgespräch geführt werden kann. Ähnlich ist es in der ZMP (Goethe-Institut 1997). Auch hier gibt es genau vorgeschriebene Aufgaben und Zeitvorgaben. Allerdings gibt es keine vorformulierten Fragen. Dies sollte zu einem offeneren und damit authentischeren Gespräch führen, weil Prüfer eher aus dem Gespräch heraus Fragen stellen werden als auf der Basis vorformulierter Fragestellungen. Im ACTFL OPI gibt es keine vorformulierten Aufgaben oder Fragestellungen. Es ist in zwei Richtungen adaptiv: in der Themenwahl und im Schwierigkeitsgrad der Aufgaben. Das Prüfungsgespräch passt sich sowohl inhaltlich wie auch im Schwierigkeitsgrad an die Testkandidaten an. Prüfer entscheiden auf der Basis von Informationen, die sie vom Kandidaten bekommen, über welche Themen gesprochen wird und überlegen sich Aufgaben oder Fragen dazu. Diese Fragen werden auf natürliche Art und Weise gestellt, sollen aber trotzdem zum gewünschten Resultat führen, nämlich dazu, bewertbare Sprachbeispiele zu elizitieren. Ebenso passen Prüfer die Schwierigkeit der Aufgaben bzw. Fragen an. Die Art und Weise, wie eine bestimmte Frage beantwortet wurde, mit Leichtigkeit, mit Schwierigkeiten oder gar nicht, wird registriert und beeinflusst den Schwierigkeitsgrad der nächstfolgenden Frage. Im Gegensatz zum OPI scheint das Prüfungsgespräch des Zertifikats und der ZMP unproblema-tisch und einfach und wenig Schulung zu verlangen. Dies ist allerdings nur auf den ersten Blick so. Auch wenn die Aufgaben exakt vorgegeben sind, kann ein Prüfer dennoch relativ viel richtig bzw. falsch machen, vor allem im Hinblick auf emotionale Faktoren. Prüfer müssen wissen, wie man mit Nervosität umgeht, mit Sprechangst, Prüfungsangst und anderen Gefühlen. Dazu müssen Prüfer wissen, wie Kommunikationsprobleme umgangen werden können und wie sie Kandidaten helfen können, aus sprachlichen Sackgassen herauszukommen. Es genügt nicht, wenn die meisten Prüfer, die eine bestimmte Prüfung abnehmen, diese Fähigkeiten haben, weil sie vielleicht auch erfahrene Lehrer sind. Erst wenn alle Prüfer diese Fähigkeiten in gleichem Maße haben, führt dies zu einer reliablen Prüfung. Im Folgenden werden zwei etablierte Prüferausbildungsprogramme beschrieben: das Trainingsseminar der ZMP und das Schulungsprogramm des ACTFL OPI. Das Trainingsprogramm der ZMP ist dabei eher als Minimalprogramm anzusehen. Das Schulungsprogramm des ACTFL OPI ist ungleich zeitaufwendiger, erreicht dadurch aber sehr hohe Reliabilitätswerte. Unter dem Prinzip der Praktikabilität liegt es aber möglicherweise an der Grenze des Machbaren.

Page 24: 2001 FLuL Sprechen

Das Prüfertrainingsseminar der ZMP mit Teilnehmern ohne ZMP-Erfahrung dauert ca. 4-5 Stunden. Ein vom Goethe-Institut vorgeschlagenes Szenario besteht aus zwei jeweils zweistündigen Bausteinen mit Videounterstützung. Baustein 1 fokussiert das Prüferverhalten und Baustein 2 die Bewertung. Pro Baustein wird eine vollständige Prüfung besprochen. Es gibt keine Prüfung darüber, ob die Teilnehmer nach Abschluss des Seminars ZMP-Prüfungen zuverlässig durchführen und bewerten können. Die Prüferschulung des ACTFL OPI beginnt mit einem viertägigen Seminar, das insgesamt 30 Stunden umfasst. In diesem Seminar werden von den nicht mehr als zehn Teilnehmern pro Seminar insgesamt 22 Prüfungen durchgeführt, bewertet und analysiert. An dieses Seminar schließen sich drei weitere Runden an. In der ersten Runde, der Bewertungsrunde, bekommen Teilnehmer sechs Kassetten mit vollständigen Prüfungsgesprächen, um das Bewerten trainieren zu können. In der zweiten Runde, der Praxisrunde, führen die Teilnehmer mindestens zwölf Prüfungsgespräche durch. Zwölf dieser Interviews werden eingesandt. Fünf davon werden von einem Testertrainer bewertet und mit ausführlichen Kommentaren versehen zurückgeschickt. In der dritten und letzten Runde, der Zertifizierungsrunde, führen die Teilnehmer noch einmal mindestens 12 Interviews durch und senden wiederum 12 davon ein. Vier dieser Interviews werden von zwei Testertrainern unabhängig voneinander analysiert und bewertet. Wer die Zertifizierungsrunde besteht, bekommt ein Zertifikat. Der gesamte Prozess dauert bis zu einem Jahr. Der OPI-Zertifizierungsprozess ist ohne Frage aufwendig, zeitintensiv und teuer. Gerade dadurch werden aber zusammen mit der Art des Bewertungsverfahrens hohe Reliabilitätswerte erreicht, die über den international akzeptierten Minimalanforderungen für wichtige Prüfungen liegen. Wenn man das Diktum nur zuverlässige Prüfungen sind sinnvolle Prüfungen ernst nimmt, ist das vielleicht der Preis, der dafür bezahlt werden muss, auch bei Prüfungen des mündlichen Ausdrucks zuverlässige, d.h. brauchbare Ergebnisse zu bekommen. 6. Ausblick In diesem Beitrag wurde versucht, die relevanten Elemente fremdsprachlicher mündlicher Prüfungen einzeln zu beschreiben und auf Probleme und Herausforderungen einzugehen, die sich Entwicklern mündlicher Prüfungen stellen. Den theoretischen Rahmen bildeten dabei die Nützlichkeitskriterien von Bachman / Palmer (1996), Validität, Reliabilität, Authentizität, Interaktivität, Praktikabilität und Rückwirdung. Es wurde auf Fragen der Konstruktvalidität eingegangen, wobei zwischen direkten, indirekten und semidirekten Prüfungen unterschieden wurde. Zwei Arten der Validierung wurden vorgestellt, zum einen über ein theoretisches Modell mündlicher Handlungsfähigkeit und zum anderen über eine Bedarfsanalyse als Grundlage für einen Performanztest. Dann wurden die zwei Prozesse, aus denen sich eine mündliche Prüfung zusammensetzt beschrieben, das Prüfungsgespräch und die Bewertung. Beim Prüfungsgespräch ging es vor allem um die Aufgabenstellungen und die Struktur einer mündlichen Prüfung, wobei hier auf die Kriterien Authentizität, Interaktivität, Praktikabilität und Rückwirkung eingegangen wurde. Die Bewertung schließlich befasste sich vor allem im Hinblick auf die Validität und Reliabilität mündlicher Prüfungen mit unterschiedlichen Arten von Bewertungsskalen, analytischen und holistischen, mit dem Bewertungsprozess selbst und mit der Prüfer- und Bewerterschulung.Dabei wurden eine Reihe von unterschiedlichen Prüfungen aus dem deutsch- und englischsprachigen Raum angesprochen, vor allem die Prüfungen des Goethe-Instituts, das Zertifikat Deutsch und das ACTFL Oral Proficiency Interview in seiner Neufassung von 1999.

Page 25: 2001 FLuL Sprechen

Der Aufwand einer mündlichen Prüfung, vor allem wenn sie wie das OPI hohe Reliabilitätswerte erreichen möchte, ohne zu große Abstriche bei der Validität, Authentizität und Interaktivität der Prüfung zu machen, ist sehr hoch, vor allem im Hinblick auf die Prüfer- und Bewerterschulung und auf das Bewertungsverfahren (blinde Doppelbewertung mit Arbitratierung bei Diskrepanzen). Während dieser Aufwand bei wichtigen Prüfungen, durch die Lebenswege beeinflusst werden, sicherlich angebracht ist, stösst man bei Lernfortschrittsprüfungen im schulischen und universitäten Bereich doch recht bald an die Grenzen der Praktikabilität. Deshalb bemüht man sich schon seit einigen Jahren, Prüfungsverfahren zu entwickeln, die ebenso gültig und zuverlässig, jedoch wesentlich ökonomischer und praktikabler sind. Kassettengestützte simulierte Prüfungsgespräche, wie das SOPI (Kenyon / Stansfield 1992) oder TestDaF (Kniffka / Üstünsöz-Beurer in diesem Band) scheinen dabei ein Schritt in die richtige Richtung zu sein. Studien zur Übereinstimmungsvalidität zwischen ACTFL OPI und SOPI haben z.B. gezeigt, dass beide Prüfungsformen sehr hoch miteinander korrelieren, mit einem Korrelationskoeffizienten von mindestens 0,8, der sogar oft noch deutlich höher lag, bis zu einem Koeffizienten von 0,99 (Kenyon / Tschirner 2000). Weitere Fortschritte in Richtung Praktikabilität und Testökonomie werden vielleicht im Rahmen computeradaptiver Prüfungsformen gemacht werden, obwohl auch diese Prüfungsformen nicht unproblematisch sind (vgl. dazu Grotjahn in diesem Band). Bibliographie AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1986): Proficiency guidelines. Hastings_on_Hudson, NY: ACTFL. AMERICAN COUNCIL ON THE TEACHING OF FOREIGN LANGUAGES (1999): ACTFL proficiency guidelines—speaking: Revised 1999. Hastings_on_Hudson, NY: ACTFL. AITCHISON, Jean (1994): Words in the mind: An introduction to the mental lexicon, 2. Aufl. Oxford: Blackwell. BACHMAN, Lyle (1990): Fundamental considerations in language testing. Oxford: Oxford University Press. BACHMAN, Lyle / PALMER, Adrian (1996): Language testing in practice. Oxford: Oxford University Press. BROWN, Gillian / MALMKJÆR, Kirsten / POLLITT, Alastair / WILLIAMS, John (Hrsg.) (1994): Language and understanding. Oxford: Oxford University Press. CANALE, Michael (1983): "From communicative competence to communicative language pedagogy." In: RICHARDS, Jack / SCHMIDT, Richard (Hrsg.): Language and communication. London: Longman, 3-27. CANALE, Michael / SWAIN, Merrill (1980): "Theoretical bases of communicative approaches to second language teaching and testing." In: Applied Linguistics 1, 3-47. COHEN, Andrew / OLSHTAIN, Elana. (1993): "The production of speech acts by EFL learners." In: TESOL Quarterly 27, 33-56.

Page 26: 2001 FLuL Sprechen

COOK, Vivian (1994): Second language learning and language teaching. London: Arnold. CUMMING, Alister (1997): "The testing of writing in a second language." In: CLAPHAM, Caroline / CORSON, David (Hrsg.): Encyclopedia of language and education, vol. 7: Language testing and assessment. Dordrecht: Kluwer, 51-64. CUMMING, Alister / BERWICK, Richard (1996): Validation in language testing. Philadelphia: Multilingual Matters. DANDONOLI, P. / HENNING, G. (1990): "An investigation of the construct validity of the ACTFL proficiency guidelines and oral interview procedure." In: Foreign Language Annals 23, 11_22. DIEHL, Erika / CHRISTEN, Helen / LEUENBERGER, Sandra / PELVAT, Isabelle / STUDER, Thérèse (2000): Grammatikunterricht: Alles für der Katz? Untersuchungen zum Zweitsprachenerwerb Deutsch. Tübingen: Niemeyer. EDUCATIONAL TESTING SERVICE (1985): SPEAK examinee handbook and sample questions. Princeton: Educational Testing Service. FODOR, Jerry (1983): The Modularity of Mind. Cambridge, MA: MIT Press. FULCHER, Glenn (1997): "The testing of L2 speaking." In: CLAPHAM, Caroline / CORSON, David (Hrsg.): Encyclopedia of language and education, vol. 7: Language testing and assessment. Dordrecht: Kluwer, 75-85 GOETHE-INSTITUT (1997): Zentrale Mittelstufenprüfung: Trainingsmaterial für Prüfer zum Mündlichen Ausdruck. München: Goethe-Institut. GROTJAHN, Rüdiger (2000): Leistungsmessung und Leistungsbeurteilung. Band A: Einführung, Glossar und Grundlagen. Patras: Hellenic Open University. HAMP-LYONS, Liz (1990): "Second language writing: Assessment issues." In: KROLL, Barbara (Hrsg.): Second language writing: Research insights for the classroom. Cambridge: Cambridge University Press, 69-87. HUGHES, Arthur (1989): Testing for language teachers. Cambridge: Cambridge University

Press. HYMES, Dell (1972): "On Communicative Competence." In: PRIDE, J. B. / HOLMES, J. (Hrsg.): Sociolinguistics. Harmondsworth: Penguin, 269-293 KATO, H. (1977): "Some thoughts on oral examinations for advanced students in Japanese." In: System 5, 181-186. KENYON, Dorry / TSCHIRNER, Erwin (2000). "The rating of direct and semi-direct oral profi-ciency interviews: Comparing performance at lower proficiency levels." In: Modern Language

Page 27: 2001 FLuL Sprechen

Journal 84, 85-101.

NORTH, B. (1994): Scales of language proficiency: A survey of some existing systems. Strasbourg: Council of Europe. PERLMANN-BALME, Michaela (1998): Zentrale Oberstufenprüfung: Trainingsmaterial für Prüfer zur Mündlichen Prüfung. München: Goethe-Institut. PIENEMANN, Manfred (1999): Language processing and second language development: Processability theory. Amsterdam: John Benjamins. PIKE, L.W. (1979): An evaluation of alternative item formats for Testing English as a Foreign Language. TOEFL Research Reports. No. 2. Princeton, NJ: Educational Testing Service.

SPOLSKY, Bernard (1995): Measured words: The development of objective language testing. Oxford: Oxford University Press. STANSFIELD, Charles / KENYON, Dorry (1992): "Research on the comparability of the Oral Proficiency Interview and the Simulated Oral Proficiency Interview." In: System 20, 347_64. SWENDER, Elvira (Hrsg.) (1999): ACTFL Oral Proficiency Interview: Tester training manual. Yonkers, NY: ACTFL.

TSCHIRNER, Erwin (1996): "Scope and sequence: Rethinking beginning foreign language instruction." In: Modern Language Journal 80, 1-14. WEITERBILDUNGS-TESTSYSTEME (1998): Die Europäischen Sprachenzertifikate. Zertifikat Deutsch. Modelltest 1. Frankfurt: WTB.