Die Evaluation universitärer Leistungen ist gerade in letzter Zeit in Diskussion gekommen, wobei fundierte Ansätze weitgehend fehlen. Vor allem das so beliebte Universitäts- oder Institutsranking (in .at z.B. in den Zeitschriften "Der Standard" und "profil", in .de "Stern" und "Focus") muß aufgrund der verwendeten Methoden und den überzogenen Interpretationen als fragwürdig bezeichnet werden. Auf diesen aus methodischer und empirisch-wissenschaftlicher Sicht eher kuriosen Aspekt der hochschulpolitischen Diskussion soll hier nicht näher eingegangen werden. Ganz abgesehen davon, daß der in Öffentlichkeit aufgrund von Studentenbefragungen oft hergestellte Zusammenhang zu Studien in anderen Ländern, insbesondere zu amerikanischen Ranking-Verfahren, nur von der geringen Informiertheit der Diskutanten zeugt. Vgl. hierzu etwa die Arbeiten in Altrichter & Schratz (1992), Mohler (1994) und Altrichter, Schratz & Pechar (1998). Außerdem sollte in der Evaluationsdebatte nicht vergessen werden, "daß Messungen weder automatisch noch zwingend zu Verbesserungen führen; eine Einsicht, die vielen (Raub?)Rittern des Evaluationskreuzzuges, der unsere Universitäten zur Zeit das Fürchten lehren will, offenbar fehlt" (März 1996).
Müller-Böling (1996) faßt daher die Entwicklung in der BRD eher skeptisch zusammen:
Einen sehr großen Einfluß auf die Evaluationsdebatte in Deutschland hatte zweifellos das erste Spiegelranking (vgl. Spiegel 1989) zur Attraktivität der deutschen Hochschulen aus der Sicht der Studierenden. Allerdings wurde dadurch nicht der Wettbewerb unter den Hochschulen angeregt, wie vielfach erhofft wurde. Vielmehr setzte ein Wettbewerb der Magazine ein. Stern (1993), Focus (1993) und Bild der Wissenschaften (1993) folgten mit weiteren Rankings, basierend auf Professorenbefragungen (Stern) oder bibliometrischen Messungen (Bild der Wissenschaften), an dem sich der Spiegel (1993) mit einem weiteren Ranking beteiligte.
Die Publikationen brachten den Hochschulen zweierlei:
1.eine heftige Methodendiskussion unter ihren Wissenschaftlern über die Machbarkeit von Rankings und 2.die erstaunte Erkenntnis, daß die Öffentlichkeit ihre Leistungen kritisch zu hinterfragen begann.
Die Wirkung der Rankings blieb begrenzt. Obwohl ein Einfluß auf die Studienortentscheidung argumentiert wurde, konnten sich die Verantwortlichen in den Hochschulen von den Ergebnissen weitestgehend distanzieren, zumal jede Zeitschrift aufgrund der unterschiedlichen Methodik zu anderen Ergebnissen kam, im übrigen auch der Spiegel bereits vier Jahre später völlig andere Rangreihen ermittelte, die durch objektive Veränderungen nicht zu rechtfertigen waren. Letztlich führten der Imagegewinn oder -verlust auch nicht wie in den USA zu konkreten Folgewirkungen wie Einnahmegewinnen oder -verlusten, da die deutschen Hochschulen nicht nach der Zahl der Studierenden oder durch Spenden finanziert werden.
Die vorliegende kleine Arbeit stellt keine grundlegende Auseinandersetzung mit dem Konzept der Evaluation im Allgemeinen dar - das als solches vermutlich in ähnlicher Weise zu hinterfragen wäre -, sondern bezieht sich allein auf den im Titel genannten eng abgegrenzten Bereich. Eine allgemeine Definition von Evaluation findet sich auf der homepage der Arbeitsstelle für Evaluation der Universität Köln: "Evaluation bezeichnet die systematische, datenbasierte Beschreibung und Bewertung von Programmen (z.B. Hilfe- oder Beratungskonzeptionen), zeitlich beschränkten Projekten (z.B. Modellvorhaben) oder Institutionen (z.B. Zulassung von Trägern) in Bildung, Sozialer Arbeit, Gesundheitswesen u.a.. Evaluation beschafft nützliche und abgesicherte Informationen für Auftraggeber, Beteiligte & Betroffene (engl. stakeholders). Sie unterstützt diese, entweder den bewerteten Gegenstand schrittweise zu stabilisieren / zu verbessern (formative / Gestaltungs-Evaluation) oder zu bewerten (summative / Bilanz-Evaluation)".
Die im amerikanischen Raum weitgehend akzeptierten Standards des "Standards Joint Committee on Standards for Educational Evaluation" weist den Evaluationen von Programmen, Projekten und Materialien vier grundlegende Eigenschaften Merkmale zu:
Diese Standards sind von 16 amerikanischen Organisationen des Erziehungs- und Bildungsbereichs entwickelt worden und umfassen Prinzipien, deren Beachtung zu verbesserten Programmevaluationen hinsichtlich der vier genannten Eigenschaften beiträgt. Diese "Standards" sollen die Qualität und Fairneß der Evaluation als Dienstleistung erhöhen, indem sie Anleitung geben für zielgerichtete, professionelle Evaluationen. Sie richten sich ausdrücklich nicht nur an Evaluatoren und Evaluatorinnen selbst, sondern auch an deren Auftraggeber und die interessierte, Evaluationen nutzende Öffentlichkeit. Sie wollen eine Beurteilungsbasis für die Überprüfung abgeschlossener und laufender Evaluationen bieten, für die Ausbildung und Sozialisation der professionellen Gemeinschaft Hinweise geben und schließlich auch - eine Voraussetzung für beides - eine gemeinsame Bezugssprache entwickeln.
Die "Standards" richten sich auf Evaluationen als systematisch durchgeführten Untersuchungsprozesse. Sie sollen deren Planung, Durchführung und Kritik anleiten. Die letzte dieser drei Teilfunktionen wird durch den in die 94er Fassung neu aufgenommenen Standard G12 "Metaevaluation" unterstrichen, der Hinweise gibt für eine "Evaluation der Evaluation".
Kromrey (1999) diskutiert in seiner Arbeit "Studierendenbefragungen als Evaluation der Lehre?" die unterschiedlichsten Verständnisweisen (vom Alltagsgebrauch bis zur Verwendung in der hochschulpolitischen Debatte) des Begriffes Evaluation und kommt zum Schluß, daß es sich angesichts der Vieldeutigkeit des Evaluationsbegriffs verbietet, "ohne weitere Präzisierung von der Evaluation zu sprechen. Vor jeder inhaltlichen Argumentation ist zunächst klarzustellen, auf welchen Typ von Evaluation (als wertende Aussage wie auch als Verfahren) sich das Argument beziehen soll."
Nicht verschwiegen werden soll auch das Paradox einer möglichen bzw. wahrscheinlichen Qualitätseinbuße durch Evaluation und Qualitätsmanagement, das sich in einer Differenz der Akteursinteressen verorten lässt.. Während etwa in der Perspektive von engagierten Lehrenden Qualität in einem adäquaten Umgang mit wissenschaftlichen Erkenntnissen und der Verbreitung dieser in autentischer Form gesehen wird, wird auf der Seite der Organisation - letztendlich des Staates - als Qualitätsziel die Eingrenzung der Kosten vermutet. Hier geht es also eher um das Phänomen des „Kampfes um die Definition des Problems“ (Crozier & Friedberg 1993, S. 227), dass Fragen der anzuwendenden Rationalität Fragen von Ziel und Weg verdrängen. Bereits an dieser Stelle lässt sich das Bild von Evaluation und Qualitätsmanagement als neutralem, objektive Ziele ansteuerndem Instrument nicht halten. Zu deutlich zeigt sich der unvermeidliche Aspekt von Macht, begrenzter Rationalität und Interessenskonflikten im Zuge seiner Implementation bzw. "Anordnung".
Was unter Evaluation" zu verstehen ist, ist im Bereich der Sozialwissenschaften nach wie vor umstritten. Baumgartner (1999) unterscheidet sechs (ideal)typische Positionen:
Auch zum Ablauf von Evaluationen wird nach wie vor ein heftiger wissenschaftlicher Disput geführt und es sind nicht zuletzt diese zitierten unterschiedlichen Positionen zur Evaluation die Ursache für die wenig übereinstimmenden Ansichten, wie denn nun Evaluation im konkreten Fall durchgeführt werden soll. Baumgartner (1999) skizziert im Anschluß an Scriven (1980, 1991) folgende Hauptphasen:
Wie sich bisher gezeigt hat, wird in den meisten Fällen der Evaluation universitärer Lehre bei der dritten oder gar vierten Phase eingestiegen und es werden all jene heftig kritisiert, die auf die ersten beiden Phasen hinweisen, ohne die Evaluation bloß zu einer bürokratischen Übung verkommt. Bei solchen unüberlegten Schnellschüssen wird vermutlich in einigen Jahren von Evaluationsmüdigkeit© die Rede sein ;-)
Die Evaluation der universitären Leistungen - wobei aufgrund ihrer Öffentlichkeit vor allem die universitäre Lehre im Zentrum steht - kann daher auf unterschiedlichsten Ebenen betrachtet werden (vgl. Bohmann & Pellert 1995):
Für jede dieser Ebenen sind jeweils unterschiedliche Ansätze und damit verbundene Evaluationsinstrumente zu entwickeln; es lassen sich die Evaluationsergebnisse auf der einen Ebene auch schlecht für die Ziele auf einer der jeweils anderen Ebenen nutzen. Für manche dieser Ebenen scheinen empirische Instrumentarien kaum möglich, denn solche wären nur bei klar definierten Zielsetzungen zu realisieren. Bei der Festlegung von solchen Zielen aber geht es im wesentlichen um Interessenskonflikte, die nicht objektivierbar und somit operationalisierbar scheinen.
Hierzu beispielsweise einige Streiflichter auf die Diskussion in Österreich und anderswo:
An Österreichs Fachhochschulen - die im Zuge neuerer Regelungen in Bezug auf Studienorganisation den Universitäten immer mehr angepaßt werden - wird im Rahmen der Programmevaluation (Studiengangs-Evaluation) durch das Fachhochschulgesetz in seiner Fassung vom 5. Mai 1998 geregelt: Eine Verlängerung der auf maximal fünf Jahre befristeten Anerkennung eines Fachhochschul-Studiengangs setzt voraus, daß ein "Evaluationsbericht" vorzulegen ist. Dieser hat u.a. auch Aufschluß zu geben über die didaktische Qualität der Lehre und die Adäquanz des Studienplans hinsichtlich der beruflichen Verwertbarkeit der Ausbildung und muß als Voraussetzung für die Verlängerung von der zuständigen Fachhochschul-Kommission abgenommen werden.
Auch an deutschen Hochschulen wurden breit angelegte Forschungsprojekte durchgeführt, die allerdings angesichts ihrer geringen theoretischen Einbettung in Modelle und Konzepte der Lehr- und Lernforschung für die wissenschaftliche Diskussion kaum mehr als eine Wiederholung bekannter amerikanischer Befunde lieferten. Gerade für die BRD scheint zu gelten, daß die schon seit etwa 20 Jahren betriebene Evaluation in den letzten Zügen liegt und manche meinen, daß sie sich in der bisherigen Form nicht etablieren wird (Stary 1993). Das liegt nicht zuletzt an der isolierten Betrachtung der universitären Lehre, ohne die Rahmenbedingungen mit zu überprüfen, unter denen diese stattfindet. Eine der wenigen Versuche, die Lehrevaluation in einen gesamtinstitutionellen Kontext einzubetten, ist der Kooperationsverbund der Unis Bremen, Kiel, Rostock, Hamburg und Oldenburg, das wie kein anderes Modell der Lehr-Überprüfung so konsequent die Handlungsorientierung in den Vordergrund stellt (vgl. Abraham 1997). In einer Fragenliste der Universität Hannover "Studium und Lehre in der Praxis" kommt deutlich zum Ausdruck, wie komplex letztlich das zu evaluierende Gebiet ist. Es wird auch deutlich, wie kurzsichtig bisher die Debatte geführt wurde.
Wie im Themenheft "Lehr-Evaluation" der "Zeitschrift für Pädagogische Psychologie" (Heft 3/4 1996) nachzulesen ist, deponieren einige prominente Protagonisten ihre kontroversiellen Standpunkte erneut (z.B. Rindermann, Kromrey). Allerdings kommen nur wenige neue Argumente in die Diskussion, vielmehr kann man darin auch einen Nachruf auf die eher blauäugig angelegten ersten Ansätze sehen, die universitäre Lehre zu evaluieren.
Allerdings ergeben sich nach einigen Jahren intensiven Datensammeln viele neue (alte?) Probleme, die hier exemplarisch anhand eines gekürzten postings vom September 1999 in der mailinglist forum-evaluation@uni-koeln.de aufgezeigt werden:
Nach meinem Verständnis ist das Sammeln von Daten noch nicht Evaluation - wenn auch eindrucksvoll. Wer Daten sammelt und bereitstellt nach dem Motto: Nun macht Euch mal selbst einen Reim drauf!, der evaluiert nicht. "to evaluate" beißt Bewerten. "Measuring" ist nur ein Teilschritt.(...) WEM nutzt das WAS, wenn der Ausdruck der Internetbewertung von 1500 Lehrveranstaltungen von 1000 Vortragenden dem Rektor, dem Minister, der Bildzeitung, mir als betroffenem Professor, meinen Studenten und dem Landesrechnungshof vorgelegt wird? WAS folgt daraus, wozu ist das dann gut? Kann der "Evaluator" sagen: Ich habe nur Daten gesammelt - für das Gefragte und nicht Gefragte, die Interpretation und die Folgerungen bin ich nicht verantwortlich!? Ich wünschte mir, daß zur Professionalität von EvaluatorInnen auch die Überlegung gehört, wozu sie mit Ihrer Evaluation die Hand reichen. Und dort NEIN sagen, wo nicht Gutes herauskommen kann. (Oder glaubt jemand, daß auf Grund einer solchen Evaluation eine Universität auch nur einen zusätzliche Professorenstelle genehmigt bekommt, Mittel für didaktische Schulung des Personals bereitgestelt werden, auch nur ein zusätzliches Buch für die Bibliothek gekauft wird? - Das Geld hat doch bereits die Evaluation aufgefressen!)
Bei der Evaluation universitärer Lehre ergeben sich sowohl meßtechnische als auch methodische Probleme. Wie nämlich bei Untersuchungen in Deutschland nachgewiesen wurde, ist die übliche allgemeine Evaluation durch Stichproben von Hörern eher ungeeignet, die Qualität universitärer Lehre zu überprüfen. Dies gilt vor allem für die meist verwendeten globalen und allgemeinen Zufriedenheits- und Qualitätsurteile, die dann noch über eine Vielzahl von Studierenden mit unzureichenden statistischen Methoden "gemittelt" ("Mittelmittelwert", vgl. Tarnai et al. 1994, S. 59) und in der Folge in unzulässiger Weise interpretiert werden.
Ein Ranking von Vorlesungen per Teilnehmerbefragung ist ein völlig untaugliches Mittel, die Qualität von Lehre nachzuweisen und ist letztlich "methodischer Unsinn" (Kromrey 1994, S. 111). Es läßt sich nämlich zeigen, daß das studentische Urteil über Lehrveranstaltungen beinahe unabhängig von den Merkmalen bzw. der Qualität der Lehre ist, vielmehr hängen die Ergebnisse der Beurteilungen von Lehrveranstaltungen ab von
Pointiert formuliert: Der didaktisch hochqualifizierte und hochmotivierte Leiter einer Pflichtlehrveranstaltung mit Prüfungszwang, der seine Lehrveranstaltung nach allen Regeln der Unterrichtskunst gestaltet, wird immer deutlich schlechtere Bewertungen erhalten als der didaktisch und methodisch vollkommen ungeeignete Lehrende in einem Wahlfach, der deshalb beste Zensuren von seinen Hörer erhält, da er praktisch nichts falsch machen kann.
Die oft von den US-Hochschulen hergeleitete "bewährte Praxis", Lehrveranstaltungen durch kurze Fragebögen und mit globalen Beurteilungsitems zu evaluieren, die dann noch häufig zur Grundlage von "incentives" für erfolgreiche Lehre werden, muß aus diesen Gründen abgelehnt werden. Denn diese Methode belohnt geradezu jene Lehrenden, die es vergleichsweise leicht haben, und bestraft die, die schwere Aufgaben übernehmen (vgl. Kromrey 1994, S. 111). Ein Beispiel für ein solches globales methodisch völlig unzureichendes Verfahren ist etwa der "Fragebogen zur Veranstaltungsevaluation an der E.A.P." (abgedruckt bei Weitkamp 1995).
Feuerstein (1997) zählt in einer kritischen Analyse die Mängel zahlreicher im Einsatz befindlichen Instrumentarien auf: "Bei vielen Evaluationsbögen fehlen Daten über die einfachsten teststatistischen Parameter wie Validität (Gültigkeit) und Reliabilität (Verläßlichkeit) oder faktorenanalytische/multidimensionale Analysen. Dadurch bleibt unklar, was der Fragebogen wirklich erfaßt. Beispiel: Statt eine einzelne Lehrveranstaltung zu beurteilen, könnte tatsächlich eher allgemeine Studien(un)Zufriedenheit oder Studienmotivation erfaßt werden. (...) Standards der Beurteilung: Viele Instrumente lassen kaum erkennen, an welchen Standards eine gute fachhochschulische Lehre gemessen werden soll. Die Diskussion um Standards wird ersetzt durch persönliche Präferenzen und Zufriedenheitsindikatoren. Expliziert man, auf der Basis der vorangegangenen Untersuchungen an der Fachhochschule Kehl, die impliziten Kriterien vieler Studierender, so wäre eine gute Lehrveranstaltung gekennzeichnet durch: Vollständige Absicherung der Prüfung; eindeutige, musterlösungsartige Stoffdarbietung ohne "akademische" Problematisierung oder Relativierung; mitschreibgerechtes Diktat des Stoffes; keine Fremdwörter; keine prüfungsirrelevanten Inhalte..." (Hervorhebungen von mir, WS).
Auf diesem Hintergrund muß die an unserer Abteilung ständig erfolgende Evaluation der Lehre betrachtet werden. Ziel der Evaluation ist nicht der Vergleich verschiedener Lehrveranstaltungen oder Vortragende(r), vielmehr hat eine ernstzunehmende Evaluation das Ziel, den Beteiligten Rückmeldung im Sinne von Überprüfung der angestrebten Ziele zu geben. Wie Gold (1996) ausführt, sind für Vergleichszwecke weit aufwendigere Verfahren und Konzepte notwendig, die vermutlich den eigentlichen Lehraufwand übersteigen. So wären gemäß den Regeln verantwortungsvoller Sozialforschung etwa Variation bzw. Konstanthaltung von Urteilern und Beurteilten sowie von Themen und Typen von Veranstaltungen notwendig. Erst komplexe Versuchspläne ließen dann Aussagen zu, wie: "Dozent A ist ein besserer Lehrer als Dozent B".
Evaluation wird daher im folgenden stets auf der operativen Ebene im Zusammenhang mit Feedback und Reflexion für die Lehrenden und Lernenden gesehen. Ziel der Evaluation ist nicht der/die Lehrende und/oder die Lernenden, sondern die Lehre in ihrer Gesamtheit als interaktiver Prozeß.
Nicht eingegangen wird hier auf die durchaus wichtige Frage, was denn Qualität universitärer Lehre denn eigentlich sei. Dazu schreibt Kromrey (1999): "Was ist eigentlich Qualität von Lehre und Studium? Zunächst: Eine Qualität "alles in allem" existiert nicht. Ein Sachverhalt kann zugleich in einer Hinsicht von ausgezeichneter Qualität, in anderer Hinsicht dagegen fehlerbehaftet sein. Es sind also verschiedene Aspekte oder "Dimensionen" von Qualität - in der Fachdiskussion des Qualitätsmanagements "Kriterien" genannt - zu unterscheiden. Zum anderen: Qualitätsaussagen sind Werturteile. Sollen sie intersubjektiv gefällt werden, sind Vergleichsmaßstäbe - Fachausdruck: "Standards" - notwendig. Mit der Festlegung, aus wessen Perspektive Kriterien und Standards ausgewählt und formuliert werden, ist dann bereits eine wesentliche Vorentscheidung getroffen. (...) Nun ist aber die Lehre kein Sachverhalt, dessen Merkmale als Eigenschaften des "Objekts" direkt ablesbar und in diesem Sinne "objektiv" messbar wären. Im Unterschied zu gegenständlichen Produkten - wie dem o.g. Autoreifen - ist Lehre eine Dienstleistung, deren Produkt (Lernservice für Studierende) sich erst in der Interaktion von Lehrenden und Lernenden herstellt. Bemühungen, die Qualität von Lehre kontextunabhängig verbindlich zu definieren, sind somit von vornherein zum Scheitern verurteilt. Qualität ist hier keine "objektive", dem Gegenstand (dem "Objekt") zurechenbare, sondern eine relationale Eigenschaft. Wo dennoch der Versuch unternommen wird, Merkmale "guter Lehre" aufzulisten, setzt dieser - unabhängig vom Lehr-Inhalt - an der didaktischen Oberfläche an (Webler 1991, S. 246); und selbst da fällt es schwer, Einigkeit über einen Kriterienkatalog für "gute Didaktik" zu erzielen. Für Einführungsveranstaltungen mit Pflichtcharakter, in denen ein bei Studierenden eher unbeliebter Stoff vermittelt werden soll, wird eine andere Didaktik angemessen sein als in Hauptstudienseminaren zu Spezialthemen mit ausschließlich freiwillig teilnehmenden und interessierten Studierenden oder als in Trainings zur Vermittlung fachübergreifender Schlüsselqualifikationen - um nur wenige unterschiedliche Lehr-Lern-Situationen zu benennen. Und welche Didaktik in diesen Situationen jeweils als angemessen gelten kann, dürfte von verschiedenen Lehrenden ebenso unterschiedlich eingeschätzt werden wie von Studierenden ohne oder mit Vorkenntnissen, ohne oder mit Leistungsmotivation, mit passiv-konsumierendem oder mit aktiv-entdeckendem Lernstil. Eine rein formale Definition - als Qualität der Darbietung - geht jedoch auch prinzipiell am Ziel der "Dienstleistung Lehre" vorbei. Lehre soll ja nicht stromlinienförmig nach Rezeptbuch abgespult werden, ihr Ziel ist auch nicht lediglich das Sich-Wohlfühlen oder die gute oder gar spannende Unterhaltung der Teilnehmer von Lehrveranstaltungen. Sie soll vielmehr Anregungen, Orientierung und - wo nötig - auch Anstöße zum aktiven Studieren geben. Ihr Ergebnis kann nicht in "Einschaltquoten" oder Zufriedenheits-Kennziffern gemessen werden."