Die Evaluation universitärer Lehrveranstaltungen
Werner Stangl

Diskussion, Ausblick und Abgesang

Im internet gibt es eine deutschsprachige mailinglist zum Thema Evaluation.

Generell gilt für alle umfangreicheren Verfahren die Beantwortung der Frage als zentral, ob der personelle, technische und finanzielle Aufwand noch in einem vernünftigen Verhältnis zum Ergebnis steht. Das muß aufgrund eigener Erfahrungen bei einigen Methoden sehr in Frage gestellt werden (vgl. Stangl 1995, Kromrey 1999). Vor allem bei Lehrveranstaltungen, in denen eine permanente Evaluation nicht genuin zu einem zentralen Thema gemacht werden kann, wie z.B. in psychologischen oder pädagogischen, scheinen unfassend reliable und valide - und das heißt: aufwendige - Verfahren nicht praktikabel. Kurzverfahren, wie sie oben beschrieben wurden, können hingegen kein zuverlässiges Bild der Lehre liefern. Ähnlich skeptisch hinsichtlich der Qualität der Evaluation beim Einsatz von Kurzverfahren äußert sich auch Hänni (1994) im Bericht über einen großangelegten Einsatz von Fragebögen in Zürich. Evaluation wäre demnach nur geeignet, wirkliche "Problemfälle" sichtbar zu machen. Nach der persönlichen Beobachtung des Autors sind diese "Fälle" in der Regel ohnehin bekannt, sodaß hier der Evaluation nur affirmative Funktionen zugeschrieben werden können.

Mit diesem Dilemma muß vermutlich die Evaluation universitärer Lehre leben, sofern sie sich auf empirische Methoden verläßt. Nur wenige der heute in der BRD diskutierten Verfahren zur Lehrevaluation sind von einem sozialwissenschaftlichen Standpunkt aus betrachtet qualitätsvoll - allen besseren Verfahren aber ist eine gewisse Umfänglichkeit zu eigen, die eine wichtige Komponente zuverlässiger Sozialforschung ausmacht. Hinzu kommt noch, daß zuverlässige Urteile über Lehrende nur dann möglich sind, wenn man Ergebnisse verschiedener Lehrveranstaltungen heranzieht, um auch dem Validitätsaspekt einigermaßen gerecht zu werden (vgl. Rindermann 1996, S. 138, Rindermann 1997a und 1997b, Gold 1996, S. 147f).

An einigen Universitäten, an denen schon seit vielen Jahren systematisch evaluiert wird, macht sich inzwischen ohnehin Resignation breit. Das kann eine (hier anonymisiert) wiedergegebene Wortmeldung eines erfahrenen Evaluators in einer mailinglist wohl am deutlichsten illustrieren, wobei hier das zentrale Dilemma angesprochen wird, aus dem vor der Evaluation ein Ausweg gesucht werden muß: 

Nun evaluieren wir die *** und andere Universitäten seit Jahr und Tag (genau: seit 19**). Wir haben mittlerweile ca. 100.000 Studenten befragt, dabei 12 Fachbereiche genauer unter die Lupe genommen, einen Fragebogen zur individuellen Rückmeldung erfolgreich in unserer Universität eingeführt und anderen Universitäten die Kärnerarbeit der Evaluation gegen Zahlung von Gebühren abgenommen. Auf den ersten Blick ist unsere Bilanz erfolgreich.
Im Moment läuft gerade zum dritten mal unser allseits beliebtes Studienbarometer: in 35 Fachbereichen und Instituten werden Stichproben von jeweils 100 Studenten nach ihrer Einschätzung der Studienbedingungen befragt. Die Befragung ist trotz des Streiks abgeschlossen, die ersten Ergebnisse liegen vor. Und wieder werden wir Betroffenheit produzieren, wenn wir nachweisen, daß sich 20% bis 40% der Studenten in den Geisteswissenschaften intellektuell unterfordert fühlen, daß das klassische Referate-Seminar eigentlich ein Skandal ist und daß die Studenten den Praxisbezug in den meisten Fächern - mit Ausnahme der Zahnmedizin - hundsmiserabel finden.
Ja und dann?
Nix dann!
Die Ergebnisse versickern im Morast der Gremien und Kommissionen. Der eine oder der andere Fachbereich verändert vielleicht mal die eine oder die andere Kleinigkeit, vergattert auch mal die Prüfungssekretärin, weil die Studenten die Hilfsbereitschaft der Verwaltung beklagenswert fanden. Das war's dann aber auch.
Auch nach einer Evaluation, egal ob mit Fragebögen oder mit peers, mit Gruppendiskussionen oder exotischen Verfahren: anschließend gibt es in den Fachbereichen im wesentlichen nur business as usual. Nicht daß es nicht allerorten eine große Bereitschaft zum Besseren gibt - wer wollte nicht das Gute und das Schöne? - nein, die meisten wissen einfach nicht, wie sie es machen sollen. Schlimmer noch, die meisten wissen nicht einmal, daß es etwas zu wissen gibt, daß es Alternativen gibt. Da helfen Evaluationen, Rückmeldungen und Gutachten überhaupt nichts. Verfahren dieser Art bleiben beschreibend, rückwärtsgewandt und setzen Kreativität bei den Betroffenen nur beim Finden von Argumenten gegen die Evaluationen frei. Ein deutscher Professor wird auch auf dem Sterbebett dem Tod noch methodische Unzulänglichkeit vorwerfen.
Solange Evaluationen nicht mit Strategien zur Veränderung gekoppelt werden, sind sie weitgehend Zeit-, Geld- und Energievergeudung.
Meine Frage also: gibt es irgendwo in unserer braven universitären Welt plausible Ansätze einer vernünftigen Organisationsentwicklung? Hat irgend jemand etwas wirksames aus der Wirtschaft übernommen? Gibt es erfolgreiche Quality Circle oder kaizen-Gruppen in denen auch Innovatives eine Chance hat? Wird irgendwo mit policy papers gearbeitet? Gibt es irgendwo Ansätze, in denen auch Inhalte berücksichtigt werden und nicht nur Kreuze bei der Frage gemacht werden, ob der Dozent stottert und die Folien blendfrei auflegt?
Evaluation hat die Universität bisher nur beschrieben - es kommt darauf an, sie zu verändern.

Bei vorsichtiger Schätzung kann davon ausgegangen werden, daß etwa 10 Prozent der Lehr- und Studiertätigkeit für die Lehrevaluation veranschlagt werden muß. Berücksichtigt man den materialen und administrativen Aufwand, dann müßte etwa ein Zehntel des bisherigen Budgets dafür aufgewendet werden.

Hinzu kommt, daß bei einer flächendeckenden Einführung der Evaluation der universitären Lehre der Umstand berücksichtigt werden muß, daß sowohl Lehrende als auch Studierende in der Regel mehrere Lehrveranstaltungen abhalten bzw. besuchen, d.h., ein qualitätsfördernder Umfang der Erhebungen auf die Dauer vermutlich auf Akzeptanzprobleme bei allen Beteiligten stoßen wird. Selbst an einer Abteilung, an der Evaluation der Lehre in der verschiedensten Form als Unterrichtsinhalt gilt, d.h., ein größerer Aufwand bis zu einem gewissen Grad rechtfertigbar ist, zeigen sich häufig Abstumpfung und Desinteresse an Evaluation, besonders wenn diese nicht unmittelbar persönlich betrifft (z.B. das eigenen Referat, die eigene Gruppenpräsentation). Gerade solche psychologischen Aspekte sollten in der Diskussion nicht vernachlässigt werden. Hierzu schreibt Kromrey (1999): "Eine geringe Akzeptanz ist immer auch dann zu erwarten, wenn Evaluation als Kontrollinstrument verwendet werden soll, um - seien die zu Bewertenden nun Lehrpersonen oder ganze Fächer - die "Guten" von den "Schlechten" zu sondern und daran Sanktionen zu knüpfen. Sofern eine solche Evaluation nicht zu umgehen ist, haben die Evaluierten unendlich viele Möglichkeiten, kritische Informationen zu verschleiern und positive Informationen überdimensioniert in den Vordergrund zu rücken. Als Argument für die Verpflichtung zu regelmäßigen Kontrollen wird u.a. vorgetragen, Evaluation sei der Preis, den die Hochschule und ihre Angehörigen für größere Autonomie (etwa in Form von Globalhaushalten) zu zahlen habe. An die Stelle abnehmender staatlicher Kontrolle müsse zunehmende interne Kontrolle und öffentliche Berichterstattung über die effiziente Verwendung der zufließenden Steuermittel treten."

An der Sowi-Fakultät der Universität Innsbruck wird seit 1994 von Studenten mit großem persönlichem Einsatz einiger StudentInnen ein flächendeckender Evaluationsversuch vorgenommen, wobei nur auf ganz wenige Fragen der Qualität der Lehre eingegangen wird. Letztlich läuft diese Evaluation auf die Präsentation der Statistik einer einzigen Frage hinaus: " Bitte beurteilen Sie die Leistung der Lehrveranstaltungsleitung mit einer Note von 1 (sehr gut) bis 5 (ungenügend)". Eine solche Evaluation universitärer Lehre m.E. hat wenig bis gar nichts mit einer ziel- und ergebnisorientierten Evaluation zu tun, sondern hat höchstens die Funktion einer Rute im Fenster, die aufgrund systemimmanenter Faktoren mit Sicherheit nur Uneingeweihte schrecken kann.

Aus methodischer Sicht muß noch hinzugefügt werden, daß eine sozialwissenschaftlich einwandfreie empirische Arbeit selbst auf dem eng begrenzbaren Gebiet der Lehrveranstaltungsevaluation kaum möglich erscheint, denn im Zusammenhang mit den meist eingesetzten Fragebögen müßte seriöserweise in jedem Fall eine begleitende Kontrollevaluation mit einer anderen Methode (z.B. Interviews) erfolgen. Bei der Lehrveranstaltungsevaluation gelten in gleichem Maß die Vorbehalte, wie sie bei den wesentlich umfangreicheren psychologischen Testverfahren angebracht sind. Wenn man Zuverlässigkeit und Aussagekraft von den Methoden erwartet, dann kommt man um einen angemessenen methodischen Apparat nicht herum. Wenn empirische Sozialforschung nicht zur Beliebigkeit einer bestellbaren und manipulierbaren Meinungsumfrage verkommen will, muß Sie wohl deutlicher als bisher ihre Grenzen aufzeigen.

Eine der wenigen neueren sozialwissenschaftlich fundierten und methodisch sauberen Arbeiten zur Evaluation mithilfe von Fragebögen sind die von Rindermann (1996b, 1997a, 1997b). Hier wird deutlich gemacht, welch eingeschränkten Aussagemöglichkeiten auch testmethodisch gut abgesicherte Verfahren haben. Zumindest sollte auch Laien in der Evaluation - und die haben in der letzten Zeit die Diskussionen bestimmt - nach sorgfältigem Studium klar werden, daß die derzeit häufig verwendeten Verfahren keine Aussagekraft im Hinblick auf Lehrqualität haben.

Ohne die Notwendigkeit von Maßnahmen zur Verbesserung der Lehre leugnen zu wollen, muß darauf hingewiesen werden, daß es schon einigermaßen seltsam anmutet, daß im wesentlichen die Ansatzpunkte bisheriger Bemühungen nicht in der Ausarbeitung von Trainingsmaßnahmen für die Lehrenden bestanden, sondern in der Evaluation derzeit stattfindender Lehrveranstaltungen. Und das mit weitgehend untauglichen Mitteln.

Das ist insofern verwunderlich, als in zahlreichen Untersuchungen nachgewiesen wurde, daß Lehrevaluation mittelfristig keinen Veränderungseffekt in Richtung Verbesserung der Lehre hat (vgl. Rindermann 1996, S. 139). Evaluation allein ist sicherlich zuwenig, denn Rückmeldungen über qualitätvolle Lehre haben überhaupt nur eine Auswirkung, wenn diese durch freiwillige Beratungsprozesse ergänzt werden (Gold 1996, S. 150).

Noch verwunderlicher sind die großen Erwartungen, die man gerade in die studentische Evaluation setzt, denn wie man aus organisationspsychologischen Forschungen weiß, ist die wahrgenommene Güte einer Lehrveranstaltung keine hinreichende Bedingung für den individuellen Leistungszuwachs. "Entgegen der häufig vertretenen Meinung, daß "glückliche Kühe auch bessere Milch geben", wird die Arbeitsleistung nämlich von einem komplexen Bedingungsgefüge determiniert, zu dem u.a. das individuelle Leistungsvermögen, die Art der zu bearbeitenden Aufgabe und berufliche Vorerfahrungen der Person gehören (Rosemann & Schweer 1996, S. 179). Helmke (1996) weist zurecht darauf hin, daß man sich endlich von dem verhängnisvollen Prozeß-Produkt-Paradigma lösen sollte, das zu Recht an unseren Schulen langsam einem Mediationsmodell weicht und auch im Zusammenhang mit Lehren und Lernen an den Hochschulen verschwinden sollte.

Nach wie vor fehlen Diskussionen, Modelle und Analysen zur Frage, was Hochschulausbildung leisten soll - erst auf diesem Hintergrund wäre eine Bewertung didaktischer Effektivität überhaupt erst denkbar -, in welcher Beziehung bereits praktizierte oder noch einzuführende Lehrmethoden mit dem Erreichen bestimmter Lehr- bzw. Lernziele in Beziehung stehen und nicht zuletzt, welcher Stellenwert dem selbstgesteuerten, eigenständigen Studium beim Wissenswerb eingeräumt werden soll.

Noch am ehesten akzeptabel scheint ein Modell zu sein, in dem im Zusammenhang mit einem gesamtuniversitären Qualitätsmanagement nicht nur Erfolge oder Mängel in der Lehre festgestellt werden, also bloß quantitative, statistische Beschreibungen des Lehrerfolges durch Absolventenzahlen, Studienzeiten bis zum Examen usw. gesammelt werden, sondern daß eine handlungsorientierte Evaluation stattfindet, an deren Ende konkrete, beschreibare und im Einzelfall auch in Zahlen ausdrückbare Verbesserungen der Lehr- und Studiensituation stehen. "Das Ziel der Evaluationsprozesse ist also systematisch nicht nur, der berechtigten Forderung der Gesellschaft nach Rechenschaft über die meßbaren Erfolge der teuren Institution Universität zu genügen, sondern immer zugleich auch, handlungsorientierte Kommunikationsprozesse in den Studiengängen, zwischen den Lehrenden und zwischen den Lehrenden und den Studierenden auszulösen, mit dem Ziel, Verbesserungen zu erreichen" (Abraham 1997).

Die Maßnahmen des Verbundes Norddeutscher Universitäten können als eine der wenigen umfassenden und koordinierten Evaluationsansätze von Studium und Lehre an einer Hochschule gelten:

1. Interne Evaluation:

Während eines Semesters überprüft das Fach seine Situation in Lehre und Studium. Anstoß und Rahmen bietet ein Frageleitfaden, der nach den Zielen, der Praxis und ihren Bedingungen in Lehre und Studium fragt. Befragungen, Gruppendiskussionen, Feed-Back-Verfahren in Lehrveranstaltungen, Auswertungen und Statistiken werden eingesetzt, um die Stärken und Schwächen zu analysieren. Im ersten Drittel des Semesters gibt es einen Erfahrungsaustausch zwischen den Universitäten über die Vorgehensweisen in der Selbstevaluation. Studierende sind an der Bestandsaufnahme beteiligt, mindestens aber hat der Fachschaftsrat Gelegenheit eine Stellungnahme zur Selbstbeschreibung abzugeben, ebenso - soweit das Amt vorhanden ist - die Frauenbeauftragte. Das Ergebnis wird in einem Bericht zusammengefaßt. Diese Selbstbeschreibung dient auch zur Information der Gutachter im darauffolgenden Semester.

2. Externe Evaluation:

Die Gutachtenden sind Experten des Faches (z.T. der entsprechenden Berufswelt) aus nicht im Verbund vertretenen Universitäten. Sie werden für den Verbund auf der Grundlage der Selbstorganisation der Wissenschaften tätig. Angestrebt wird, daß mindestens ein Mitglied der Gutachterkommission aus dem Ausland kommt und mindestens ein Mitglied weiblich ist. Studierende können eine Vertreterin bzw. einen Vertreter in die Kommission entsenden (ebenfalls von außerhalb der Verbundsuniversitäten). Die Gutachtenden erhalten die Selbstbeschreibungen und besuchen jedes zu evaluierende Fach ein bis zwei Tage. Sie diskutieren ihre Eindrücke, Schlußfolgerungen und Empfehlungen mit den evaluierten Fächern auf einer Auswertenden Konferenz. Danach wird das Gutachten endgültig verfaßt und den Universitätsleitungen und Fächern zur Verfügung gestellt.

3. Umsetzung der Ergebnisse:

Jedes evaluierte Fach beschließt, welche Maßnahmen zur Verbesserung der Qualität als Ergebnis der Evaluation umgesetzt werden sollen. Zwischen Fach und Universitätsleitung wird über die zu ergreifenden Maßnahmen eine Zielvereinbarung getroffen. Die Vereinbarungen werden überprüft, indem in regelmäßigen, vorher vereinbarten Zeitabstäden nachgefragt wird, ob die Maßnahmen realisiert werden konnten bzw. ob neue Verabredungen getroffen werden müssen.

Einen ähnlichen Ansatz verfolgt die Zentrale Evaluationsagentur (ZEvA) der niedersächsischen Hochschulen. Sie hat die Aufgabe, die Qualitätssicherung und -verbesserung von Lehre und Studium an den Hochschulen Niedersachsens zu unterstützen. Zu diesem Zweck implementiert sie einen flächendeckenden, systematischen und periodischen Evaluationszyklus. Die Agentur organisiert und koordiniert die verschiedenen Prozesse der Evaluationsverfahren. Sie informiert und unterstützt alle Akteure und Beteiligten an den Hochschulen in der internen und externen Analyse und Bewertung der wissenschaftlichen Ausbildung in Niedersachsen. Darüber hinaus hat die ZEvA den Auftrag, die Evaluationsverfahren durch Kooperationen im nationalen und internationalen Kontext weiterzuentwickeln.

Wenn man sich derzeit umsieht, was an den österreichischen Universitäten so an Lehrevaluation läuft bzw. geplant ist, dann fragt man sich eher skeptisch mit Bergmann (1996): "Was soll eigentlich evaluiert werden? Evaluiert werden soll nicht eine einzelne Bildungmaßnahme, weder in Hinblick auf die Zufriedenheit der Teilnehmer (sog. "happy sheets") noch in Hinblick auf individuelle Lerneffekte. Auch die vermeintlich betriebswirtschaftlich klare Kosten-Nutzen-Kalkulation geht meist fehl, wenn nur Einzelmaßnahmen betrachtet werden. Evaluiert werden soll vielmehr der Veränderungsprozeß selbst: Welcher Effekt läßt sich in der Organisation oder in einem betroffenen Unternehmensbereich feststellen? Nur wenn der erwünschte Veränderungsprozeß problembezogen beschrieben wird, können "soft-" und "hard facts" des Erfolgs eines Maßnahmenpakets überzeugend definiert und untersucht werden".

Für die neueste "Entwicklung" (Beginn 1998) in .at zur Evaluation der universitären Lehre fehlen mir die Worte, daher nur exemplarisch zwei Kommentare aus Tageszeitungen (Bruckmoser 1998 und Standard 1998), denn eine fachkundige wissenschaftliche Auseinandersetzung mit diesem ministeriellen Vorschlag erübrigt sich wohl. Ich erspare mir auch eine Zusammenstellung von Kommentaren der Evaluationsspezialisten in der mailinglist ...
Vermutlich können durch diese Entgleisung alle derzeit keimenden ernsthaften Bemühungen um Verbesserung der Lehre durch Evaluation zu Grabe getragen werden.

E.R.I.P.

Margrit Stamm (2000), Bildungsforscherin aus Aarau beschreibt in einem Artikel der NZZ (23.03.2000) unter dem Titel "Lehrerschaft zum Rapport! Wenn Schüler Noten erteilen" die aktuelle Situation der Evaluation an Schweizerischen Bildungsinstitutionen (hauptsächlich in Bezug auf das Regelschulwesen) und meint einleitend:

Überblickt man die gegenwärtige Situation an den schweizerischen Bildungsinstitutionen, kann man unschwer feststellen, dass Unterrichtsbeurteilungen als Evaluationsinstrument zwar relativ häufig, meist jedoch unsystematisch eingesetzt werden, auf die eigentliche Durchführung beschränkt bleiben und deshalb in vollkommener Konsequenzlosigkeit enden. So bleibt auch die vielleicht wesentlichste Frage unüberprüft und deshalb unbeantwortet, nämlich ob sich die Qualität von Lehre und Unterricht durch Unterrichtsbeurteilung tatsächlich verbessert und mit welchen Mitteln dies erreicht werden könnte. Gesamthaft sieht die Bilanz also düster aus: Aufwand enorm - Ertrag praktisch nicht vorhanden - Wirkungslosigkeit gross.

Sie stellt abschließend Chancen und Risiken einander gegenüber:

Insgesamt birgt studentische und schülerbezogene Unterrichtsevaluation Chancen und Gefahren. Die Chancen liegen in erster Linie darin, dass die Diskussion über Lehr- und Unterrichtsqualität eröffnet und die Arbeit von Lehrerinnen und Lehrern an bestimmten Standards gemessen wird. Durch die stärkere Gewichtung des eigenen Unterrichts kann das Qualitätsbewusstsein gefördert, die Sensibilität der Lehrkräfte gegenüber methodischen Stärken und Mängeln erhöht und die Fähigkeit zur kritischen Selbstreflexion gefestigt werden. Akzeptieren Lehrkräfte die Forschungsergebnisse, so müssen sie lernen, mit positiven und negativen Resultaten zu leben, ohne diese einfach mit Argumenten wie mangelnde methodische Qualität des Verfahrens oder unzureichende Beurteilungsfähigkeit der Schüler oder Studierenden abzutun. Die Gefahren finden sich indes dort, wo Unterrichtsbeurteilung allein eine von oben verordnete Massnahme bleibt, ad hoc eingeführt, nicht bezüglich der Konsequenzen kommuniziert und zu den Rahmenbedingungen der Schule oder des Fachbereichs in Bezug gesetzt wird. So gehandhabte Unterrichtsbeurteilung bewirkt dann entweder gar nichts und bleibt Etikettenschwindel, oder sie unterwirft die Lehrerschaft einem erniedrigenden Rapport, was einer reinen Dozentenbewertung gleichkommt. Sie führt zu Missbrauch und Polemik gegenüber den Lehrkräften und entspricht nicht den ethischen Standards der Evaluationsforschung.

Inhalt

Theoretische Vorbemerkungen

Methoden und Materialien

Diskussion und Ausblick

Thesen

Praktikable Vorschläge

Literatur


©opyright p@psych Linz 1998-2000.
This pages belong to "p@psych e-zine". Permission is hereby granted to use these documents for personal use and in courses of instruction at educational institutions provided that the articles are used in full and this copyright statement is reproduced. Permission is also given to mirror these documents on WorldWideWeb servers. Any other usage is prohibited without the written permission of the author. Please mail: werner.stangl@jku.at.