Diskussionsgrundlage für den Fragebogen

Arbeitsgruppe "Evaluation von Lehrveranstaltungen"

der Universität Salzburg

Berichtzur Beurteilung
der Lehrveranstaltungen
durch die Studierenden
an der Universität Salzburg
Salzburg, 29. November 1999

Für den Inhalt verantwortlich:

Urs Baumann, Institut für Psychologie

Anton Bucher, Institut für Religionspädagogik

Josef Ehmer, Institut für Geschichte

Günter Haider, Institut für Erziehungswissenschaft

Andreas Paschon, Institut für Erziehungswissenschaft

Jean-Luc Patry, Institut für Erziehungswissenschaft (Vorsitz der Arbeitsgruppe; Redaktion)

Im vorliegenden ausführlichen Bericht werden neben einem Instrumentfür die Beurteilung der Lehrveranstaltungen durch die Studierenden wesentliche Grundlagen für die Evaluation der Lehre im Allgemeinen und für die Evaluation der Lehre und die Beurteilung der Lehrveranstaltungen durch die Studierenden in Salzburg im Speziellen mitgeteilt. Dieser Text dient als Diskussionsgrundlage im Hinblick auf die weiteren Schritte; er enthält auch einen ersten Entwurf zu einem Evaluationsinstrument für Vorlesungen (Fragebogen). Kommentare, Reaktionen, Hinweise etc. sind erbeten per e-mail an Gabriele.Kanzi@sbg.ac.at.

Wir verzichten auf die jeweiligen Verweise auf die Literatur, sondern geben am Schluss die wichtigsten verwendeten Unterlagen an; es gibt auch eine zusammenfassende Einführung in die Evaluation der Lehre der "Österreichischen Gesellschaft für Psychologie". Im Vordergrund des folgenden Berichtes steht die Evaluation von Lehrveranstaltungen; die Evaluation der Lehre geht weit darüber hinaus, die damit verbundenen Probleme können jedoch hier nicht im Detail behandelt werden.

Inhaltsverzeichnis

1. Auftrag
2. Ablauf der Arbeitsgruppe
3. Grundlagen
4. Weiteres Vorgehen

1. Auftrag

1.1 Allgemeiner Auftrag und Selbstverständnis

Aufgrund der gesetzlichen Rahmenbedingungen ist die Evaluierung von Lehrveranstaltungen (LV) vorgeschrieben. Die Sitzung der Studiendekane bzw. Vize-Studiendekane unter Leitung des Vize-Rektors Lehre (http://www.sbg.ac.at/rektor/vizerektoren/index.htm) hat sich mit dieser Thematik befaßt und beschlossen, dass ein kleines Expertengremium (nachfolgend Arbeitsgruppe bzw. AG genannt) die Thematik bis hin zur konkreten Realisierung aufbereiten sollte. Diese Aufbereitung hat bis Ende November 1999 zu erfolgen. In einer Sitzung des Vizerektors Lehre mit den Studiendekanen bzw. Vize-Studiendekanen wurde das Papier der AG im Dezember 1999 beraten und wird an die Studiendekane gegeben mit der Bitte, dieses in Zusammenarbeit mit den Studienkommissions-Vorsitzenden umzusetzen (Details zum Vorgehen vgl. unten, 4.1).

Als Mitglieder dieser AG wurden Prof. Urs Baumann, Prof. Josef Ehmer, DDr. Günter Haider und Prof. Jean-Luc Patry ernannt. Die AG hat sich die Möglichkeit vorbehalten, sich nach Bedarf zu erweitern, und im Verlaufe der Arbeit beschlossen, Mag. Andreas Paschon und Prof. Anton Bucher aufzunehmen (vgl. dazu unten Abschnitt 2).

Die AG hat den Auftrag weiters dahingehend interpretiert, dass es ihr obliegt, eine Grundlage zu schaffen, die als Basis für weitere Diskussionen dienen soll. Sie kommt diesem Auftrag mit dem vorliegenden Papier nach. Damit soll in keiner Weise irgendwelchen Entscheidungen vorgegriffen werden, sondern es geht nur darum, Möglichkeiten aufzuzeigen, über die noch zu diskutieren sein wird. Es wird mit allem Nachdruck betont, dass es notwendig ist, alle Personen an der Universität Salzburg, die in der Lehre involviert sind, also sowohl ñ und insbesondere ñ die Studierenden als auch die Lehrenden und die Administratoren der Lehre auf der Ebene der Studienkommissionen, auf der Ebene der Studiendekanate und auf der Ebene des Vizerektorates und Rektorates in den Diskussionsprozess einzubeziehen. Eine Evaluation macht nur dann Sinn, so die Überzeugung der AG, wenn sie von der überwältigenden Mehrheit der dadurch Betroffenen getragen wird, und die Verwendung des vorliegenden Papiers wie auch die weitere Vorgehensweise sollten von diesem Geist geprägt sein.

Da alle Betroffenen in den Diskussionsprozess einzubeziehen sein werden und sich die AG keine Entscheidungsbefugnis anmaßt, wurde nicht für nötig befunden, alle Gruppen von Betroffenen schon an dieser Entwurfsphase zu beteiligen, sondern es wurde vielmehr im Interesse der Arbeitseffektivität und der Aufwandsminimierung danach getrachtet, die AG vorerst möglichst klein zu halten. Der vorliegende Bericht ist dementsprechend eine Diskussionsgrundlage, mehr nicht.

1.2 Rahmenbedingungen

1.2.1 Gesetzliche Rahmenbedingungen

Die gesetzlichen Rahmenbedingungen bezüglich der Kompetenzen sind unklar, als im UOG 1993 die Verantwortung für die Evaluierung primär bei den Studienkommissions-Vorsitzenden liegt. Gemäß Evaluierungsverordnung (EvalVO) und auch Universitätssatzung der Universität Salzburg liegt die Verantwortung primär beim Studiendekan. Die Rolle des Vizerektors für Lehre ist nirgends festgelegt (im Aufgabenbereich Lehre für Vizerektoren, § 8 [1] bzw. [3], wird nichts über Evaluierungen ausgesagt). Eine rechtliche Klärung dieses Widerspruchs ist bislang nicht erfolgt und ist auch nicht in Aussicht.

Weitgehend klar ist demgegenüber, welche LV mit welcher Frequenz zu evaluieren sind. Das Gesetz spricht von Pflicht-LV, doch ist dieser Begriff nicht eindeutig. In den Erläuterungen zu § 6 der EvalVOwird dazu gesagt: "Unter Pflicht-LV werden alle jene LV zu verstehen sein, die in wenigstens einem Studienplan dem LV-Programm eines Pflichtfaches zugeordnet sind." Es ist dabei darauf hinzuweisen, dass angesichts der derzeitigen Sparmaßnahmen die meisten Institute aus finanziellen Gründen nicht in der Lage sind, mehr als das absolut Notwendige an Lehre anzubieten, d.h. sich auf im obigen Sinne definierte Pflicht-LV beschränken müssen. Dies bedeutet de facto, dass nur der kleinere Teil der Veranstaltungen nicht unter das Evaluierungsgebot fallen. Dies stimmt überein mit den Erläuterungen zu § 6 der EvalVO, wo empfohlen wird, von vornherein alle LV in die Bewertung durch die Studierenden einzubeziehen.

Für die Arbeit der AG von grosser Bedeutung sind die in den gesetzlichen Grundlagen angegebenen Funktionen und Ziele der Evaluierung. Dabei wird vor allem auf die allgemeinen Erläuterungen der EvalVO sowie die Erläuterungen zu § 1 Bezug genommen. Es wird deutlich, dass die Evaluierungen eine starke Steuerungsfunktion haben sollen. Konkret wurden die folgenden allgemeinen Ziele formuliert:

"Gewinnung von Entscheidungsgrundlagen für Planungen und für eine leistungsbezogene Mittelvergabe;
Schaffung eines Klimas erhöhter Verantwortlichkeit und Auslösen von Reflexionsprozessen der Universitätsangehörigen in Richtung qualitätsverbessernder Maßnahmen;
Erhöhung der Transparenz über die Tätigkeiten der Universitäten und die Verwendung der entsprechenden öffentlichen Mittel sowohl im Universitätsbereich selbst als auch für die Gesellschaft."

Dem stimmen wir zu und pochen darauf, dass dies auch ernst genommen wird. Das bedeutet in jedem Fall, dass die Evaluation Konsequenzen haben soll. Im Hinblick auf diese Konsequenzen besteht jedoch von den gesetzlichen Rahmenbedingungen her ein großer Spielraum, es ist wenig festgelegt. Jedenfalls wird die Evaluierung in einem "Kreislaufmodell der Führung (Management-Kreislauf)" gesehen, die eine Vorgabe oder Vereinbarung von Zielen voraussetzt. Solche Zielvorgaben oder ñvereinbarungen scheinen uns derzeit nur sehr beschränkt gegeben zu sein.

1.2.2 Ressourcen

Die Ressourcen sind zumindest teilweise ebenfalls unklar, und zwar in folgender Hinsicht: Es ist nicht klar, welche EDV-Infrastruktur für Evaluationsbelange eingesetzt werden können bzw. in welcher Hinsicht Evaluationsvorhaben durch die verantwortlichen Stellen (Universitätsdirektion, Vizerektorat Lehre, Zentraler Informatikdienst [ZID]) unterstützt werden und gegebenenfalls welche Bedingungen an diese Unterstützung gestellt werden. Ebenso ist unbekannt, welche finanziellen Ressourcen für das Evaluationsvorhaben verfügbar sind. Es betrifft dies ebenfalls Hardware, die angeschafft werden müsste (Belegleser), ferner den spezifischen Programmieraufwand entsprechend den noch zu präzisierenden Bedürfnissen, die zumindest in allgemeiner Form im Abschnitt 3.3.1 (Vertraulichkeitsstufen) angegeben wurden.

Demgegenüber ist grundsätzlich bekannt, welche Personalressourcen in den einzelnen Fakultäten bzw. Studiendekanaten verfügbar sind und über welche Voraussetzung (B- oder C-Stelle) die betreffenden Personen verfügen. Eine Umfrage dazu hat folgendes ergeben:

Theologische Fakultät: 40% B
Rechtswissenschaftliche Fakultät: 50% B
Geisteswissenschaftliche Fakultät: 50% B, 35% C
Naturwissenschaftliche Fakultät: 50% B, 25% C.

Dies bedeutet insgesamt 190% B und 60% C. Dabei ist allerdings zu betonen, dass diese Stellen mit Personen besetzt sind, die nicht spezifisch für Evaluationsfragen ausgebildet worden sind; sie können daher für allgemeine mit der Evaluation zusammenhängende Aufgaben eingesetzt werden, jedoch nicht für die vielen Aufgaben, die entsprechende Kenntnisse voraussetzen, also beispielsweise nicht für die Formulierung von Rahmenbedingungen, für die Entwicklung von Instrumenten oder bei der Konzeption und Programmierung der Auswertung. Dafür müssen zweifellos im Hinblick auf eine angemessene Evaluation zusätzliche Personal-Ressourcen verfügbar gemacht werden.

1.2.3 Voraussetzungen in den Instituten

In vielen Instituten erfolgte bereits bisher eine Beurteilung der Lehre durch die Studierenden, wobei eine Vielzahl unterschiedlicher Instrumente zum Einsatz kamen. Zu nennen sind beispielsweise die Theologische Fakultät, das Institut für Politikwissenschaft und das Institut für Erziehungswissenschaft, aber auch in vielen anderen Instituten wird die Lehre bereits evaluiert. Es war in der verfügbaren Zeit (zumal während der Semesterferien) nicht möglich, eine entsprechende an sich notwendige Erhebung durchzuführen. Das Faktum, dass Evaluationen schon bisher erfolgten, hat mindestens zwei Konsequenzen:

Zum einen scheint die Motivation, sich einer Evaluation zu unterziehen, vielerorts bereits hoch zu sein.
Zum anderen kann auch auf Erfahrungen mit Evaluationen zurückgegriffen werden. Dies wurde insofern getan, als mehrere Mitglieder der AG ausgiebige Evaluationserfahrungen einbrachten bzw. mit Personen mit solchen Erfahrungen in Kontakt standen und stehen. Eine differenziertere Berücksichtigung solcher Erfahrungen scheiterte hingegen daran, dass der generelle Auftrag in relativ kurzer Zeit zu erfüllen war. Wir hoffen jedoch, dass im Verlaufe des nun beginnenden Diskussionsprozesses diese Erfahrungen mit eingebracht werden.

Es ist an dieser Stelle auch auf § 6, Absatz 1, der EvalVO zu verweisen, wonach die Erhebungen "mittels gänzlich oder teilweise fakultäts- oder universitätseinheitlicher Fragestellung" zu erfolgen hat ñ eine völlige Unabhängigkeit der institutsinternen Evaluationen ist deshalb damit nicht konform. Nachdem die Studiendekanate letztlich auch für die Auswertung zuständig sind und über die notwendigen Ressourcen verfügen, sind für die grossen Fakultäten individuelle oder institutsspezifische Instrumente auch nicht praktikabel. Im u.a. Vorschlag wird aber die Möglichkeit einer eigenen Fragestellung ergänzend zur einheitlichen Fragestellung ausdrücklich in Betracht gezogen.

1.2.4 Koordination

Das UOG 93 sieht Evaluierungen sowohl der Lehre wie auch der Forschung vor. Es erscheint sinnvoll, dass die entsprechenden Evaluationsvorhaben koordiniert werden. Es hat sich jedoch gezeigt, dass eine solche Koordination bisher nicht vorhanden ist. Im Einklang mit § 10 (1) der Anlage 3 F der Satzung der Universität Salzburg (Richtlinien für die Durchführung von Evaluierungsmaßnahmen in Forschung und Lehre) hat der Senat "zur Koordinierung aller Evaluierungsmaßnahmen" am 9.11.1999 eine ständige Evaluierungskommission eingesetzt; diese hat aber bislang noch keine Koordinationsaufgaben wahrnehmen können.

2. Ablauf der Arbeitsgruppe

Folgende Sitzungen fanden statt:

15.7.1999, 9.15-11.15

Konstituierende Sitzung; Aufgabe, Arbeitsplan, allgemeine Grundlagen
31.8.1999, 14.15-18.00

Arbeitsplan, allgemeine Grundlagen, Struktur des Fragebogens, formelle Durchführung, Auswertung, Verwendung der Informationen nach Vertraulichkeitsstufen, Inhalte des Fragebogens
20.9.1999, 9.15-12.30

Selbstverständnis der Gruppe, Rahmenbedingungen, Testlauf, Manuale, Ressourcen
24.9.1999, 14.00-17.00

Inhalte des Fragebogens
8.10.1999, 14.00-16.45

Ressourcen, Feedback-Modus, Kontaktgespräche mit Universitäten
18.10.1999, 9.15-12.00

Ergebnisse der Umfrage, Ressourcen, Feedback-Modus, Inhalte des Fragebogens, Struktur des Fragebogens
5.11.1999, 9.30-12.30

Inhalt des Fragebogens, Testlauf
22.11.1999, 9.00-11.00

Endredaktion
29.11.1999, 9.15-11.00

Endredaktion und Abschluß

Zwischen den Sitzungen wurde ebenfalls sehr intensiv gearbeitet. An zwei Sitzungen und einem Teil einer dritten war auch Frau Mag. Herta Windberger (Sekretariat Vizerektor Lehre) an einem Teil einer Sitzung Mag. Stefan Bohuny (Controller) anwesend. Anton Bucher wurde erst spät in das Gremium aufgenommen und konnte aus Termingründen erst an den letzten Sitzungen teilnehmen.

3. Grundlagen

3.1 Evaluationskriterien

Im Hinblick auf die Evaluationsthematik wird auf das Paper der "Österreichischen Gesellschaft für Psychologie (ÖGP)" verwiesen: "Kommentare und Informationen zur Evaluierung an österreichischen Universitäten (1999)". Dieses Papier enthält die wichtigsten Grundbegriffe und Probleme und ist im Anlage B wiedergegeben, damit das Basiswissen bezüglich der Thematik bei den Universitätsangehörigen verbessert werden kann. Folgende Grundprinzipien aus diesem Text seien speziell betont:

Evaluation ist ziel- und zweckorientiert, hat dem aktuellen Stand wissenschaftlicher Forschung zu entsprechen und dient als Planungs- und Entscheidungshilfe. Dies impliziert Verantwortung und Kompetenz.
Inhaltlich bedingt dies die Festlegung der Ziele, Kenntnisse über angemessene Vorgehensweisen zu deren Erreichung, Kriterien zur Bewertung der Zielerreichung, Vorhandensein von Ressourcen, Akzeptanz der Evaluation durch die zu evaluierenden Personen und Bereitschaft zur Akzeptanz der Evaluationsergebnisse durch Entscheidungsträger.
Vor der konkreten Durchführung von Evaluationen sind die Fragen zu klären, warum evaluiert wird, wer evaluiert, wer / was wird evaluiert, wie wird evaluiert und wo wird evaluiert?
Im Hinblick auf die Evaluation der Lehre ist u.a. zu fragen, was gute Lehre ist und welche Indikatoren es für die Bewertung der Lehre gibt. Dabei ist insbesondere zu betonen, dass die im UOG 1993 , § 18, Absatz 4 genannte Beurteilung der Lehrveranstaltungen durch die Studierenden nur einen Aspekt der Evaluation der Lehre ausmacht (vgl. dazu auch unten, 3.2, Punkt f).
Im Kapitel 3 des genannten Papiers werden Empfehlungen für die Durchführung der gesetzlich vorgeschriebenen Bewertung von LV durch Studierende gegeben, denen wir nach Möglichkeit nachgekommen sind. Insbesondere ist zu nennen:

e1 Auch offene Fragen für die differenzierte Rückmeldung an die Lehrenden sind vorzusehen.

e2 Erhebungsinstrumente sollten den Testgütekriterien (u.a. Reliabilität, Validität) entsprechend den wissenschaftlichen Standards genügen.

e3 Auch standardisierte Fragen sind vorzusehen. Erhebung und Datenaufbereitung müssen auch bei großer Zahl von Veranstaltungen und Studierenden leicht möglich sein (Einsatz von Beleglesern).

e4 Zu häufige Vorgaben von Fragebögen an Studierende führt zu Beurteilungsmüdigkeit.

e5 Nicht berücksichtigt wurde die Forderung, die Datenerhebung in der Mitte des Semesters vorzunehmen, und zwar weil eine Datenerhebung am Ende ohnehin notwendig ist (sonst kann die Zielerreichung nicht erfasst werden), aber eine wiederholte Datenerhebung nicht förderlich ist (vgl. e4).
Eine Verbesserung der Lehre kann nur erreicht werden durch ein ausführliches, individuelles Beratungsgespräch oder, noch besser, durch Fortbildungsangebote (Einbindung der Evaluation an Universitäten in Personalentwicklungsmaßnahmen: fehlt bisher leider gänzlich).
Evaluation kann nur zu Qualitätssteigerung führen, wenn (u.a.) die Bewertung der Lehre im Kontext des gesamten Aufgabenprofils unter Berücksichtigung von Rahmenbedingungen und Ressourcen erfolgt, eine Integration von Evaluationsmaßnahmen in ein Gesamtkonzept der Entwicklung der jeweiligen Einrichtung erfolgt und die Evaluation in Personalentwicklungsmaßnahmen eingebunden ist.

Gemäß den Erläuterungen zu § 1 (Ziele) der EvalVO scheint Evaluierung vor allem ein Instrument der Rechenschaftslegung ex post zu sein (ähnlich auch § 1 der Anlage 3 F ñ Evaluierung ñ der Satzung der Universität Salzburg). Dies mag gerechtfertigt sein, vor allem wenn von einem Top-Down-Konzept ausgegangen wird, wie es für die verschiedenen gesetzlichen Grundlagen prägend zu sein scheint. Auf der anderen Seite kann eine solche ex post Rechenschaftslegung nur dann als fair bezeichnet werden, wenn die Kriterien der Beurteilung und der Entscheidung zum Vorn herein bekannt sind und sich die Betroffenen danach richten können. Dies bedeutet, dass die Evaluation auch eine steuernde Funktion a priori haben sollte, d.h. nicht bloß nachträglich geprüft wird, ob die Kriterien erreicht worden sind, sondern möglichst früh deutlich gemacht wird, was man tun kann, um den Kriterien zu entsprechen, d.h. um die Entscheidungen zu beeinflussen ñ und nur so kann Qualitätsverbesserung realisiert werden. Wir verstehen unseren Auftrag auch in diesem Sinne, der sich indirekt aus der Gesetzeslage unter Berücksichtigung des Fairness-Argumentes ergibt. Qualitätsmanagement kann nur ernsthaft betrieben werden, wenn nicht nur ex post, sondern auch a priori Kriterien zum Tragen kommen.

Verfügbare Instrumente. Es gibt eine Fülle von Instrumenten zur Evaluation von Lehre, aber nur wenige erfüllen die Bedingungen der Zuverlässigkeit und Gültigkeit (teststatistische Kriterien, vgl. oben, e2). Ferner besteht das Problem, dass diese Instrumente nicht notwendigerweise die thematischen Bereiche zu erfassen erlauben, um die es nach Ansicht der AG bei der Evaluation der Lehre gehen sollte ñ deshalb wurde beschlossen, bei Bedarf auch ein eigenes Instrument zu schaffen und zu überprüfen.

3.2 Evaluationsrahmen

Der Auftrag wurde von der AG so wahrgenommen, dass primär ein spezifisches Instrument ñ d.h. ein praktikabler Fragebogen - zu entwickeln und vorzuschlagen sei, das im Einklang mit den gesetzlichen Bestimmungen für die Beurteilung der Lehre durch die Studierenden eingesetzt werden könne. Bevor aber auf die spezifischen Instrumente eingegangen wird, sollten die Rahmenbedingungen festgelegt sein, denn das Instrument wird von den letzteren abhängen.

Die vorgegebenen Rahmenbedingungen sind relativ offen (vgl. oben, Abschnitt 1.2). Sie sind noch wenig konkret, so dass insbesondere unbekannt ist, ob, wie weit und in welcher Form die oben in 3.1 genannten Voraussetzungen für Evaluationen (Integration in ein Gesamtsystem, insbesondere Qualitätssicherung, Personalmanagement, Zielorientierung und Verwendung der Ergebnisse) gegeben sind oder sein werden. Deshalb hat sich die AG zunächst die Aufgabe gestellt, die Rahmenbedingungen in einer geeigneten Weise zu konzipieren, ohne aber diesbezügliche Beschlüsse, die nicht in ihre Kompetenz fallen, vorwegnehmen zu wollen.

Folgende Rahmenbedingungen werden als wesentlich erachtet:

Heterogenität der Evaluationsziele. Es wird deutlich, dass in universitären Kreisen mit Evaluation sehr Unterschiedliches verbunden wird. So möchte man (i) die Güte eines Studiums beurteilen, (ii) die Qualität einzelner Lehrender beurteilen, (iii) Defizite in der Infrastruktur eruieren, (iv) die Einhaltung der LV-Termine überprüfen etc. Es ist genau zu überlegen, welche Bereiche durch welche Methoden zu erheben sind. So sind z.B. Defizite der Raumausstattung bzw. in der apparativen Ausstattung primär durch Expertenwissen zu erheben und bedürfen keiner Evaluation durch Studierende. Es besteht Konsens, dass das Ziel der Evaluation eine Verbesserung der LV sein sollte.
Gesamtrahmen der Evaluation. Es besteht Konsens, dass Evaluation ein Gesamtkonzept beinhalten muß, wobei die unterschiedlichen Bereiche (Forschung, Lehre, Administration etc.) einzubeziehen sind.
Konsequenzen der Evaluation. Es besteht Konsens darüber, dass Evaluation nur dann sinnvoll ist, wenn aus der Evaluation Konsequenzen folgen. Evaluationen als reine Datensammlung durchzuführen, etwa nur um den Gesetzesvorschriften gerecht zu werden, ohne dass sie als Entscheidungsgrundlagen für weitere Handlungen im Sinne der Qualitätssicherung dienen, sind ein Mißbrauch.
Positive und negative Konsequenzen: Konsequenzen können positiver Art sein (z.B. aufgrund besonders guter Leistungen Erhöhung der persönlichen oder der dienstlichen Ressourcen) oder negativer Art (z.B. Ermahnungen etc.). Im folgenden werden die beiden Begriffe "Belohnung" und "Bestrafung" als prototypische Begriffe der klassischen Lernpsychologie verwendet, um Konsequenzen anzusprechen. Es besteht Konsens, dass primär positive Konsequenzen (Belohnungen) wünschenswert sind, um Verhaltensänderungen herbeizuführen. Mit Bestrafungen (negativen Konsequenzen) kann man zwar unerwünschtes Verhalten unterdrücken, erreicht aber nur begrenzt positive Verhaltensänderungen. Belohnung (positive Konsequenzen) sind dann sinnvoll, wenn die Chance zur Erreichung dieser Konsequenzen realistisch sind. Es ist daher anzustreben, Belohnungen für gute Leistungen einem relativ großen Teil der LV-L zukommen zu lassen. Zu überlegen sind ca. ein Drittel der LV-L. Davon unberührt sind andere, auf geringere Personenzahlen zugeschnittene Formen positiver Konsequenzen (etwa lobende Erwähnung von Einzelpersonen); diese Formen haben aber nur begrenzte Wirkung, so dass sie die breitere Belohnung nicht ersetzen kann. Allfällige budgetäre Konsequenzen sollten als Belohnung ("zusätzliche Mittel") und nicht als Bestrafung ("Vorenthaltung von Mitteln") konzipiert werden.
Rangreihe der LV. Eine Rangreihung der Lehrenden der Universität im Hinblick auf "Belohnung" bringt verschiedene Probleme mit sich:

e1 Die einzelnen Fächer sind nur begrenzt vergleichbar.

e2. Auch innerhalb der einzelnen Fächer bestehen Vergleichsprobleme.

e3. Die Güte der Lehre ist auch von Rahmenbedingungen abhängig, die der einzelne z.T. nicht beeinflussen kann. Insbesondere sind hier die verfügbaren Ressourcen, Raumbedingungen, Zahl der Studierenden, etc., zu berücksichtigen.

e4. Problematisch ist evtl. eine Reihung der Lehrenden aufgrund der Studentenurteile, weil dabei nicht vermieden werden kann, dass "populistische" Lehre hoch bewertet wird, d.h. die z.B. wenig von der Forschung getragen wird und wo die Lehrenden wenig Anforderungen stellen und bei der Benotung besonders mild sind.

Es besteht Konsens, dass differenzierte Rangreihen zu vermeiden sind.
Prüfungsmodalitäten und Prüfungsergebnisse. Die Evaluation von LV kann sich nicht nur auf die Begutachtung von LV beziehen. Der Lernerfolg ñ das Ziel von LV ñ zeigt sich primär im Ergebnis, das in den LV erzielt wird. Voraussetzung für eine umfassende LV-Bewertung, die auch die Prüfungsleistungen berücksichtigt, ist eine Verbesserung der Prüfungsmodalitäten. Es besteht Konsens, dass Überlegungen anzustellen sind, wie das Prüfungswesen der einzelnen LV verbessert werden kann. Diese ist eine zentrale Aufgabe für die Universität.
Rückmeldemodalität der LV-Evaluation. Vom Gesetz her laufen die Ergebnisse der LV-Evaluationen bei den Studiendekanen zusammen. Diese holen Stellungnahmen der einzelnen Lehrenden ein. Die Ergebnisse werden dann zusammenfassend der jeweiligen Studienkommission mitgeteilt. Die Frage, in welcher Form die Ergebnisse einer breiteren Öffentlichkeit mitzuteilen sind, bedarf noch weiterer Diskussionen. Aufgrund der Schwierigkeit der Vergleichbarkeit der LV untereinander ist eine allgemeine Veröffentlichung innerhalb der gesamten Universität problematisch. Es besteht Konsens, dass nicht die Frage der Veröffentlichung im Vordergrund stehen soll, sondern die Frage, wie aufgrund der Rückmeldungen die Lehre verbessert werden kann. Die Rückmeldung bezüglich der Lehre muß an Professoren, Assistenten, aber auch externe Lehrbeauftragten gehen. Es ist primär Aufgabe von Institutsvorstand und Studienkommissions-Vorsitzendem, diese Rückmeldung zu geben. Die Rückmeldung ist so vorzunehmen, dass daraus auch Änderungen resultieren. Die Rückmeldung betrifft drei Personenkreise:
g1. Personen mit besonders guten Ergebnissen: Hier wären entsprechende Belobigungen auszusprechen bzw. Auszeichnungen vorzunehmen (Einschränkung s. aber oben); dies ist wenig arbeitsintensiv.
g2. Personen mit Ergebnissen im mittleren Bereich: Hier wären die Personen vielleicht schriftlich auf das Ergebnis hinzuweisen mit der Bitte, Verbesserungslösungen zu suchen; auch diese Variante erfordert keinen hohen Zeitaufwand.

g3. Personen mit Ergebnissen im untersten Bereich (ca. unterste 25%): Hier wären in Einzelgesprächen mit den Betroffenen Verbesserungsmöglichkeiten zu suchen, wobei bei dieser Suche konkrete Umsetzungen einzuplanen wären, die nach ein bis zwei Jahren zu überprüfen wären. U.a. wäre auch das Mitarbeitergespräch ein sinnvolles Medium, um dieses Anliegen zu realisieren. Negative Sanktionen sind nur in Extremfällen in Erwägung zu ziehen.

Ein Vergleich der einzelnen LV oder der einzelnen Lehrenden ist demgemäß nur im Hinblick auf eine grobe Gliederung (g1, g2, g3) notwendig, weitere Differenzierungen sind nicht erforderlich und von einem Evaluationssystem auch nicht zu leisten. Wichtiger sind dann die spezifischen Informationen, die für individueller Feedbacks zu verwenden sind. Für dieses Ziel sind Fragen mit offener Beantwortung denkbar, wobei die Lehrenden direkt diesen Teil der Befragung erhalten würden.

Solange die Rahmenbedingungen für eine sinnvolle und umfassende Evaluation fehlen, ist eine zu komplexe universitäre Evaluation der LV wenig sinnvoll. Dennoch sollte man einen einheitlichen Rahmen anstreben, ohne stark zu differenzieren, um gewisse vergleichbare Aussagen treffen zu können.

3.3 Bedingungen der Beurteilung der Lehre durch die Studierenden

Es soll ein Fragebogen entwickelt werden, welcher den genannten Rahmenbedingungen entspricht und praktikabel ist. Beim augenblicklichen Stand der Dinge kann nur ein erster Entwurf zu einem solchen Instrument vorgelegt werden; an diesem wird weiter gearbeitet werden müssen. Es ist zu trennen zwischen der Struktur des Fragebogens, dem Vorgehen bei der Datenerhebung, dem vorgeschlagenen Umgang mit den Ergebnissen und dem Vorgehen bei der Weiterentwicklung des Fragebogens.

3.3.1 Wer bekommt welche Information?

Entsprechend der Ziele der LV-Evaluation mit dem Primat der Rückmeldung (3.2, Punkt g; vgl. auch 3.1, e1) und der Betonung, dass es nicht notwendig ñ und auch nicht sinnvoll ñ ist, alle Ergebnisse der allgemeinen Öffentlichkeit zugänglich zu machen, schlägt die AG die Unterscheidung von drei sog. Vertraulichkeitsstufen vor. Je nach Vertraulichkeitsstufe wird die gewonnene Information unterschiedlich verwendet. Für den LV-Leiter werden wir dabei die Abkürzung "LV-L" verwenden.

a) Erste Vertraulichkeitsstufe (Daten nur dem LV-L zugänglich)

Die Informationen der ersten Vertraulichkeitsstufe sind ausschließlich dem/der LV-L selbst zugänglich. Es ist ihm überlassen, ob er diese Information nur individuell auswertet, sie gemeinsam mit ausgewählten Kollegen analysiert oder sie von sich aus - etwa bei Karriereentscheidungen - den zuständigen Gremien vorlegt. Im Fragebogen wird deshalb ein Teil vorgesehen, der vom übrigen Fragebogen abgetrennt werden kann und nicht weitergegeben wird, sondern (je nach Erfassungsmodalität, vgl. unten, 3.3.4a) beim der LV-L verbleibt oder nur dem LV-L zugänglich gemacht wird. Im Sinne des differenzierten Feedbacks empfiehlt es sich dabei, offene Fragen mit freien Antwortmöglichkeiten zu verwenden; diese bieten dem/der LV-L auch eine gewisse Kontrolle gegenüber den Ergebnissen der standardisierten Bewertung der LV.

b) Zweite Vertraulichkeitsstufe (Daten dem LV-L und ausgewählten Funktionsträgern, nicht aber der gesamten Öffentlichkeit zugänglich)

Standardisierte Daten über einzelne LV unterliegen der zweiten Vertraulichkeitsstufe. Sie sind nur dem LV-L selbst, dem Studiendekan, dem Studienkommissions-Vorsitzenden und der Studienkommission sowie dem Institutsvorstand zugänglich ñ es wird darauf verzichtet, ein spezielles Anforderungsverfahren zu regeln, weil dies den Ablauf erschweren würde und auch nicht im Interesse der Sache liegt, die Daten nur auf Anforderung weiterzugeben. Diese Daten können z.B. in Mitarbeiterbesprechungen zwischen Institutsvorstand und LV-L besprochen werden (im Sinne der unmittelbaren Rückmeldung, vgl. 3.2, Punkt g), wobei Interpretationshilfen und Anregungen für die Verwendung dieser Daten in Form eines Manuals zur Verfügung zu stellen sind (siehe dazu weiter unten). Eine Weitergabe an weitere Gremien (etwa Habilitations- oder Berufungs-Kommissionen oder im Rahmen weiterer Verfahren gemäß § 8, Abs. 1 der EvalVO) darf nur dann erfolgen, wenn der betroffene LV-L sich damit einverstanden erklärt hat ñ dies ist jedoch auch noch aus rechtlicher Sicht abzuklären.

Es kann sich dabei nur um Daten handeln, die EDV-mäßig erfasst und ausgewertet werden. Das Vorgehen ist wie folgt:

Die ausgewerteten LV-spezifischen Daten werden an den Studiendekan weitergegeben,
dieser übermittelt die Ergebnisse an den LV-L.
Der LV-L übermitteln - bei Bedarf ñ seine Stellungnahme gemäß § 18, Abs. 4 UOG 93 (bzw. § 6, Abs. 3 EvalVO) an den Studiendekan; die Stellungnahme kann bei Diskrepanzen z.B. auch auf Ergebnisse der offenen Bewertung verweisen.
Der Studiendekan gibt die Ergebnisse und die Stellungnahme an den Studienkommissions-Vorsitzenden und dem Institutsvorstand weiter.
Wenn Gremien im Rahmen von Verfahren gemäß § 8, Abs. 1 der EvalVO Daten zur Evaluation der Lehre braucht, richtet es eine diesbezügliche Anfrage an den Studiendekan, dieser holt beim LV-L das Einverständnis und stellt dann gegebenenfalls die Ergebnisse und die Stellungnahme dem Gremium zur Verfügung. Der LV-L kann sein Einverständnis ohne Angabe von Gründen verweigern, er kann jedoch nicht verlangen, dass die Daten nur für ausgesuchte LV weitergegeben werden. Es ist dem LV-L jedoch selbstverständlich unbenommen, die Daten selber etwa bei der Beantragung eines entsprechenden Verfahrens, bei einer Bewerbung etc. beizulegen.
Jede weitere Weitergabe durch wen auch immer bedarf der Einverständniserklärung durch den LV-L.
Die Weitergabe durch Funktionsträger (z.B. Institutsvorstand, Mitglieder der Studienkommission) an weitere Personen sind nicht zulässig.
Der Studiendekan legt eine Aktennotiz über besonders negative Bewertungen an. Spätestens bei zweimaliger Wiederholung wird ein Gespräch mit dem Betroffenen geführt (gemäß § 7, Abs. 3 EvalVO); der Studiendekan klärt mit dem Studienkommissions-Vorsitzenden und dem Institutsvorstand ab, wer von ihnen dieses Gespräch führt.
c) Dritte Vertraulichkeitsstufe (Daten der Öffentlichkeit zugänglich)

Der Öffentlichkeit (universitäre Öffentlichkeit, Ministerium, außeruniversitäre Öffentlichkeit) werden nur aggregierte Daten (z.B. für LV-Typen, Studienrichtungen, Fakultäten, Universität) und dies nur zusammen mit einer Interpretation zur Verfügung gestellt. Die Interpretation hat u.a. die Rahmenbedingungen der Lehre in den jeweiligen Studienrichtungen bzw. Instituten zu berücksichtigen. Die Veröffentlichung von Daten über einzelne LV oder LV-L oder von aggregierten Daten ohne Interpretation und Vergleichbarkeit erscheint nicht als sinnvoll und wird deshalb abgelehnt.

3.3.2 Struktur des Fragebogens

Das Evaluationsinstrument zur Beurteilung von LV durch die Studierenden soll aus fünf Teilen bestehen:

Der Kopf enthält die notwendige Angaben zur Identifikation der LV und des Leiters bzw. der Leiterin sowie Angaben zu Geschlecht, Alter, Studienrichtung und Studiendauer in diesem Fach; ferner soll gefragt werden, warum die befragte Person die LV besucht hat, wie oft sie in dieser Veranstaltung war und wie oft die Veranstaltung ausgefallen ist. Eine Erfassung von Name oder Matrikelnummer oder anderer Angaben, welche die Identifikation des Studierenden ermöglicht, ist nicht gestattet.
Ein formalisierter Teil wird für die gesamte Universität konzipiert und stellt den Teil dar, der auch vom Gesetz gefordert wird. Dieser Teil wird auf Fakultätsebene oder gegebenenfalls fakultätsübergreifend mittels Belegleser oder ähnlichem Verfahren EDV-mäßig erfasst und ausgewertet.
Ein ebenfalls für die gesamte Universität konzipierter Teil enthält Fragen, die offen beantwortet werden können (vgl. 3.1, e1); dieser Teil geht direkt an die einzelnen LV-L und ist nicht Gegenstand der fakultären Auswertung (erste Vertraulichkeitsstufe).
Ein formalisierter Teil, deren Inhalt von den Fakultäten oder gegebenenfalls Instituten individuell gestaltet wird, kann zur Beantwortung von spezifischen Fragestellungen eingesetzt werden; für den Inhalt (im Rahmen der vorgegebenen Struktur), die Auswertung und die Interpretation dieses Teils ist das jeweils verantwortliche Gremium auf Fakultäts- oder Institutsebene zuständig. Grundsätzlich ist die Verwendung von Beleglesern oder ähnlichen Verfahren möglich.
Ein ebenfalls für die Fakultäten oder Institute konzipierter Teil enthält Fragen, die offen beantwortet werden können; dieser Teil (wie Teil 3) geht direkt an die einzelnen LV-L und ist nicht Gegenstand der fakultären Auswertung (erste Vertraulichkeitsstufe).

Die Teile 3 und 5 sind auf separaten Blättern zu erfassen, die problemlos vom restlichen Fragebogen abgetrennt werden kann.

Die AG konzentriert sich auf die ersten drei Teile und sieht es nicht als ihre Aufgabe an, den vierten und fünften zu präzisieren, obwohl diesbezügliche Hilfestellung zu einem späteren Zeitpunkt nicht ausgeschlossen werden.

Die LV-L werden beauftragt, in der Zeit, während der die Studierenden ihren Fragebogen ausfüllen, ihrerseits einen Bogen ausfüllen, welche allgemeine Informationen erfassen. Dieser LV-L-Bogen muss noch konzipiert werden.

3.3.3 Fragebogen-Versionen für verschiedene LV-Typen

Es sollen drei unterschiedliche Versionen von Fragebögen entwickelt werden, die sich an unterschiedliche LV-Typen richten. Die Studienkommissions-Vorsitzenden haben (gegebenenfalls im Kontakt mit den LV-L) zu entscheiden, welche Version für welche LV zutrifft und den entsprechenden Fragebogen zuzuweisen.

LV die durch Wissensvermittlung (Frontalunterricht, Monolog des Lehrenden) charakterisiert sind (z.B. Vorlesungen);
LV die durch Wissenserarbeitung (dialogische Struktur) charakterisiert sind (z.B. Seminare, Proseminare);
LV die von der Praxis der Studierenden dominiert sind (z.B. praktische Übungen).

Der vorliegende Entwurf (Anlage A) ist noch nicht auf einen bestimmten Veranstaltungstyp zugeschnitten; es wird noch festzulegen sein, ob und inwiefern für die verschiedenen Veranstaltungstypen Ergänzungen notwendig sind oder sich einzelne Bereiche als überflüssig erweisen. Die entsprechenden Entscheidungen sollten insbesondere in Zusammenarbeit mit den Studienkommissions-Vorsitzenden erfolgen, damit auch die fach- oder disziplinspezifischen Anliegen und Bedürfnisse bei den verschiedenen Versionen berücksichtigt werden können.

Dabei sind zusätzliche Parameter als Moderatorvariablen zu erheben (z.B. Studentenzahlen, Betreuungsdichte etc.), damit es bei der Interpretation nicht zu Fehlschlüssen kommt. Dies kann im oben genannten LV-L-Fragebogen erfasst werden.

3.3.4 Vorgehen bei der Datenerhebung

a) Online oder mit Belegleser

Es wird betont, dass ein Instrument verfügbar sein muss, das maschinenlesbar ist (vgl. auch die EvalVO, § 6, Abs. 1); dies wird mit den ersten beiden Strukturelementen des Fragebogens (vgl. oben, 3.3.1) erfüllt. Allenfalls kann man zusätzlich zu einem allgemeinen Teil fakultäts- oder institutsspezifische Teile verwenden, von denen einzelne (Teil 4) maschinenlesbar sein können, andere (Teil 5) nicht. Bevor aber auf die spezifischen Instrumente eingegangen wird, sollten die Rahmenbedingungen für die Informationsverarbeitung festgelegt sein, von denen das Instrument dann auch abhängen wird.

Grundsätzlich sind zwei Optionen denkbar:

In der LV erhalten die Studierenden Informationen und einen Code sowie den Auftrag, innerhalb einer bestimmten Zeit an einem Computer ihrer Wahl im Inter- oder Intranet ein entsprechendes Formular aufzurufen und die Fragen online zu beantworten.
In der LV verteilt der/die LV-L den Fragebogen, dieser wird sofort von den Anwesenden ausgefüllt und dann mittels einer spezifischen Prozedur ohne Einbindung des/der LV-L an die Studiendekanate geleitet, die ihrerseits dafür sorgen, dass die Daten mittels Belegleser (Scanner) EDV-mäßig erfasst werden.

Sind die Daten einmal erfasst, erfolgt die weitere Verarbeitung mit Ausnahme der Verfahrensweise bezüglich der ersten Vertraulichkeitsstufe gleich.

Die AG hat sich sehr intensiv damit befasst, welcher der genannten Optionen der Vorzug zu geben ist, zumal von Seiten des Vizerektorates und der Administration eine Bevorzugung der Option A signalisiert wurde. Trotzdem ist sie zum Schluss gekommen, dass das Verfahren B in vielen Aspekten dem Verfahren A überlegen und in einigen zumindest ebenbürtig ist. Eine vergleichende Auflistung der wichtigsten Argumente findet sich in Tabelle 1; die einzelnen Punkte werden zusätzlich nachfolgend erläutert, wobei angesichts der gegensätzlichen Standpunkte zwischen Vizerektorat/Administration und AG die Darstellungen relativ ausführlich erfolgen.

Anonymität: Es ist zu betonen, dass Anonymität im vorliegenden Zusammenhang relevant ist einerseits im Hinblick auf die tatsächlichen Möglichkeiten, herauszufinden, wer welche Fragen wie beantwortet hat (objektive Anonymität); das Verfahren kann ñ allenfalls mit Aufwand ñ so konzipiert werden, dass dies nicht möglich ist. Wichtiger aber ist, ob die Studierenden Vertrauen in die Anonymität haben, d.h. glauben, dass ihre Angaben nicht in die falschen Hände gelangt (subjektive Anonymität).

Beim Verfahren B (Belegleser) ist die Anonymität grundsätzlich gegeben, es sei denn der LV-L schaue während des Ausfüllens, was die einzelnen Studierenden schreiben, was explizit ausgeschlossen werden muss. Die Fragebogen selber sind ja anonym. Bei den offenen Fragen (Teile 3 und 5 des Fragebogens, vgl. 3.3.2) werden die entsprechenden Seiten des Fragebogens getrennt eingesammelt, und der LV-L behält diese Seiten bei sich. Bei LV mit kleinen Hörerzahlen weiß der LV-Leiter, wer anwesend war, und kann seine Schlüsse über das Antwortverhalten ziehen, ferner kann er allenfalls durch einen Schriftenvergleich feststellen, wer was geschrieben hat.
Beim Verfahren A (online) muss sichergestellt werden, dass nur Studierende den Fragebogen beantworten, die dazu auch berechtigt sind. Dies kann so geschehen, dass jedem Studierenden der LV eine Code-Nummer gegeben wird, die dieser einmal verwenden kann und die so gestaltet ist, dass eine Wiedererkennung des Studierenden ausgeschlossen ist (Randomisierung). Es erscheint sinnvoll, dass dieser Code an einer der letzten Veranstaltungen des Semesters an die Anwesenden vergeben wird; falls eine Anwesenheitsliste geführt wird, kann ein Code auch nachträglich an Abwesende gegeben werden ñ für diese ist aber jedenfalls zumindest die subjektive Anonymität nicht mehr gegeben. Bei kleinen Hörerzahlen gilt das gleiche wie für die Option B, außer dass kein Schriftvergleich erfolgen kann. Auf der anderen Seite ist zu betonen, dass von den Studierenden zu verlangen ist, dass sie nicht mit ihrem normalen Account einsteigen (dann könnte man die Herkunft der Daten einfach zurückverfolgen) ñ ein zusätzlicher Aufwand, dem sich möglicherweise nicht alle Studierenden aussetzen wollen, sondern lieber eine verringerte subjektive Anonymität in Kauf nehmen.
Insgesamt scheinen uns sowohl subjektive als auch objektive Anonymität für beide Verfahren bei entsprechenden Vorkehrungen realisierbar, wobei kein Verfahren einen Vorteil aufweist.

Repräsentativität: Eine Beurteilung der LV durch die Studierenden ist nur dann aussagekräftig, wenn sie zumindest auf einer repräsentativen Stichprobe derjenigen Studierenden beruht, welche die LV besucht haben (wobei allenfalls Teilstichproben nach bestimmten Kriterien, etwa der Studienrichtung ñ welche im Teil 1 erfasst werden ñ, berücksichtigt werden können). Da es nicht sinnvoll erscheint, randomisiert Studierende auszuwählen, welche

Tabelle 1: Übersicht über die wichtigsten Argumente für bzw. gegen die beiden Optionen (A: Online; B: Belegleser)

1.
Anonymität,

aber Verhinderung

der "Stimmabgabe"

von Nicht-Berechtigten

Studentencode in jeder LV anders. Technisch machbar, wenn Studierende nicht mit dem normalen Account einsteigen. "Codekontrolllisten" ohne Namensnennungen notwendig.
=
Anonymität gegeben. Bogen können alle Studierenden abgeben, die am Tag des Austeilens die LV besuchen ñ Bögen werden eingesammelt. Bei offenen Fragen wäre theoretisch ein "Schriftvergleich" möglich.

2.
Repräsentativität

Reduzierte Responderrate. Selektive (nicht-repräsentative) Stichprobe, da nur ein Teil der Studierenden sich den Zugang/Kompetenz-/Zeitbudget zum Ausfüllen am PC verschafft; Verfälschungen durch Verzerrungen sind vorprogrammiert. Einige Studienrichtungen oder Studierendengruppen klar benachteiligt. Manipulation der Stichprobe möglich
<<
Anwesenheitsstichprobe zum Zeitpunkt X. Verzerrungen theoretisch möglich, wenn nur ein "selektiver Teil des üblichen Auditoriums" da ist.

Grundsätzlich findet aber die Rückmeldung von allen Studierenden zu einem (gemeinsamen) Zeitpunkt statt (Vollerhebung).

3.
Kosten

EDV-Ausstattung: zusätzliche Kosten, weil ev. Zusätzliche PCs angekauft werden müssen. Flächendeckendes Netz über alle Fakultäten gegeben? Gesamtkosten: derzeit nicht abschätzbar (Intranet/Programmierungsaufwand/ PCs); Zeitaufwand bei der Abgleichung von Codes (Zufallszahlen) und Berechtigung.
<
EDV-Ausstattung: zusätzliche Kosten: Belegscanner um ca. 70ë000 plus Software (100'000). Eine Woche im Dauerbetrieb + Personal, um die Fragebögen "nachzufüttern".

Fragebogen-Druckkosten bei Vollerhebung und Routinebetrieb: ca. 7ë000-14ë000 Responder pro Semester -> 7'000 bis 14ë000; Gesamtkosten kalkulierbar.

Studierende: Aufwand steigt, weil S. Zusatztermine außerhalb der LV brauchen, um in den Zeiten, in denen die EDV-Poolräume nicht genutzt werden, ihre Feedbacks einzutippen. Ev. Administrativer und koordinierender Mehraufwand, wenn lange "Staus" vermieden werden sollten. (Bei LV in Computerräumen KEIN Mehraufwand)
<
Studierende: 15 Minuten in jeder LV, die im Semester besucht wird.

Lehrende: verlieren etwas Zeit bei der Vergabe der Codes, müssen aber keine Zeit für den Fragebogen in der LV abzwacken. Müssen Zeit investieren, um sich die Informationen zur ersten Vertraulichkeitsstufe zu organisieren.
=
Lehrende: verlieren ca. 15 Minuten in einer der letzten Sitzungen, haben aber keinen zusätzlichen administrativen Aufwand.

* A=B: kein Unterschied; A schlechter < B besser; A viel schlechter << B viel besser

Aspekt
Version-A: Online-Version (EDV) * Version-B: Belegleser (Papierversion)

4.
Bias

Trennung von offenen und geschlossenen Fragen führt zu Verlusten an Vergleichbarkeit.

Gegenseitige soziale Beeinflussung der Studierenden.

Zeitliche Abstand zwischen LV und Bewertung kann groß sein

Verfälschung durch Diskriminationsprobleme, wenn in eine Online-Sitzung gleich 3-5 LV beurteilt werden. (teilweise schlägt der HALO-Effekt durch, Globalurteil über Person X "verwäscht" dessen unterschiedlichen LV, etc.)

Stimmung anders als in LV

Freiwilligkeitsreduktion führt zu Reaktanz.
<
Soziale Effekte im Hörsaal durch Umgebung grundsätzlich möglich

LV-Bias

5.
Datensicherheit

Alles läuft über das ZID, Mißbrauch auf Vertraulichkeitsstufe 1 möglich.
=
Daten der Stufe 1 werden nicht gespeichert; Daten der Stufe 2 können von Mitarbeitern eingesehen werden.

6.
Akzeptanz

Überzeugungsarbeit extrem aufwendig
<
Überzeugungsarbeit

* A=B: kein Unterschied; A schlechter < B besser; A viel schlechter << B viel besser

den Fragebogen beantworten sollen (vgl. aber unten, 3.3.6: Varianten), eine andere als randomisierte Auswahl aber zu Verzerrungen führen würde, ist eine Vollerhebung anzustreben, d.h. alle teilnehmenden Studierenden sollten erfasst werden. Es ist jene Methode vorzuziehen, welche eine solche eher ermöglicht.
Bei der Option A (online) sind Verzerrungen sehr wahrscheinlich. Die Erfahrungen an der Universität Linz, die dieses Verfahren teilweise praktiziert, zeigen eine Antwortquote von ca. 30% bei Pflicht-LV (bei Freifächern bis zu 80%, doch sind diese für uns nicht relevant). Da Anlass zur Annahme besteht, die Responder würden sich systematisch von den Non-Respondern unterscheiden ñ es gibt eine Fülle von plausiblen Hypothesen über solche Unterschiede -, muss von einer stark verzerrten Stichprobe ausgegangen werden, wobei allerdings die Verzerrungsrichtung im einzelnen nicht angegeben werden kann. Ein Verzerrungsaspekt betrifft dabei die Vertrautheit mit dem Umgang mit Computern; hier kann man z.B. Unterschiede zwischen Studierenden verschiedener Studiengängen vermuten: zu erwarten ist ein deutlich höherer Responder-Anteil in Fächern, in denen intensiv mit dem Computer gearbeitet wird, als in Fächern, in denen sich der Computer noch nicht als Werkzeug etabliert hat; die Repräsentativität der Antworten für die letzteren wäre also deutlich vermindert. Berufstätige und Auswärtige, die nicht ohne weiteres Zugang zu Computern haben, sind ebenfalls benachteiligt. Stichproben-Verzerrungen können ferner auftreten, wenn verärgerte Studierende häufiger ("Dem LV-L gebë ichís jetzt mal!") oder seltener ("Ich will nichts mehr mit der LV zu tun haben") antworten als zufriedene oder wenn einzelne (z.B. verärgerte) Studierende Kommilitonen, von denen sie wissen, dass sie der selben Meinung sind, zur Beantwortung auffordern ñ hier kann die Initiative einzelner Studierender zu systematischen Verfälschungen führen.
Bei der Option B (Belegleser) werden diejenigen Personen erfasst, welche zum Erhebungszeitpunkt anwesend sind. Falls nur ein selektiver Teil des Auditoriums anwesend ist, kann eine Verzerrung vorkommen; im Normalfall aber handelt es sich in der Tat um eine Vollerhebung, reduziert um diejenigen Personen, die aus welchem Grund auch immer nicht anwesend sind ñ der Grund wird in den seltensten Fällen direkt mit Aspekten zusammenhängen, die für die Evaluation relevant sind. Die Responder-Zahl wird der durchschnittlichen Teilnehmerzahl nahe kommen ñ und man kann sicher sein, dass diese Teilnehmer zumindest einmal an der LV teilgenommen haben. Systematische Aktivitäten von Studierenden zur Verzerrung der Stichprobe sind zwar nicht auszuschließen, sie wären jedoch sehr aufwendig (einzelne Personen ansprechen, in die LV zu kommen, wenn die Evaluation ansteht) und deshalb ausgesprochen unwahrscheinlich.
Insgesamt kommen wir deshalb zum Schluss, dass im Hinblick auf die Repräsentativität die Option B der Option A deutlich überlegen ist: Verfälschungen sind bei B sehr unwahrscheinlich, bei A sehr wahrscheinlich.

Kosten: Bei den Kosten unterscheiden wir den notwendigen finanziellen Aufwand sowie den Aufwand der Studierenden und jenen der Lehrenden.
- Finanzieller Aufwand: Es wird von einer Responder-Zahl (bei Vollerhebung) von zwischen 7000 und 14000 pro Semester ausgegangen. Für die Option A wird angenommen, dass die Antworten innerhalb von maximal zwei Wochen erfolgen sollten. Rechnet man mit einem Minimum von 15 oder 20 Minuten pro Responder, ergibt sich eine Computer-Besetzung von zwischen 1700 Stunden (10 Teilnehmer pro LV, 15 Minuten Besetzung) und knapp 4600 Stunden (20 Teilnehme pro LV à 20 Minuten) innerhalb von zwei Wochen zusätzlich zum normalen Betrieb mit deutlichen Peak-Zeiten (etwa unmittelbar nach der Veranstaltung) und Unterrepräsentation der Rand-Zeiten, wobei die Geräte vor Ort (in den einzelnen Instituts- oder Hörsaalgebäuden) sein müssen, da sonst eine starke Reduktion der Responder-Rate zu befürchten ist. Eine Überschlagsrechnung für unsere Institute zeigt, dass dies ohne zusätzliche Geräte nicht zu leisten ist. Die Universität Linz mit ihrer Campus-Universität und Infopoints-Online ist für ein solches Vorgehen hardware-mässig sehr viel besser ausgerüstet, als es für eine Stadtuniversität mit verstreuten Instituten möglich ist. Die Hardware-Kosten der Option A sind für die AG nicht abschätzbar, es wird jedoch dringend davor gewarnt, sie zu unterschätzen, da eine allfällige ungenügende Hardware-Ausrüstung zu einer sehr starken Stichproben-Verfälschung und damit zu einer Invalidierung der Evaluation führen würde. Es ist ferner auf den Programmier- und Datenmanagement-Aufwand hinzuweisen, der sicher grösser als bei der Option B ist (Umwandlung in SPSS-Datenfiles; Management der Input-files, etc.). Dafür entfallen die Personalkosten für das Einlesen der Daten ñ letzteres kann allerdings durch wenig geschultes Personal (Personal der Studiendekanate, vgl. oben, 1.2.2) geleistet werden, was für die Management-Arbeiten der Option A nicht möglich ist. Zusätzlich zur normalen Auswertung, die für beide Optionen gleich ist, muss noch das Datenmanagement für die offenen Fragen erfolgen (Einsammeln und den LV-L wieder zur Verfügung stellen), was mit zwischen 3500 und 7000 Texten (nicht jeder Responder investiert auch Zeit für die offenen Fragen), die sehr schnell weiterzuleiten sind, recht aufwendig sein dürfte. Hinzu kommt das Management der Code-Zahlen für die Zugangsberechtigung, was ebenfalls einen nicht unerheblichen Aufwand bedeutend dürfte.
  Für die Option B wird es wahrscheinlich notwendig sein, einen Belegscanner (zweiseitig, mit automatischem Blatteinzug) um ca. 70'000 Schilling plus Software (zur Herstellung von SPSS-Datenfiles) um ca. 100'000 anzuschaffen, der während etwa einer oder zwei Wochen voll ausgebucht ist. Programmierkosten zur Herstellung von SPSS-Files entfallen weitgehend, die weitere Verarbeitung unterscheidet sich von Option A nicht, ausser dass das Management der offenen Antworten ñ erste Vertraulichkeitsstufe ñ entfällt. Für das "Füttern" der Belegleser ist das entsprechende Personal vorzusehen, wobei dieses von den Studiendekanaten zur Verfügung gestellt werden kann. Hinzu kommen Druckkosten; wir rechnen für die Pilotphase mit maximal Druckkosten von ca. 2 Schilling pro Responder, was einen Aufwand von zwischen 14ë000 und 28ë000 Schilling pro Semester ergibt; später reduziert sich der Betrag auf schätzungsweise 1 Schilling pro Responder. Insgesamt scheint Option B mit niedrigeren Kosten verbunden zu sein als Option A.
- Studierende: Der durch die Studierenden zu leistende Aufwand ist bei Option A bedeutend höher als bei Option B. Bei Option A müssen die Studierenden Zusatztermine ausserhalb der LV investieren, um in den Zeiten, in denen die EDV-Poolräume nicht benutzt werden, ihre Feedbacks einzutippen ñ möglicherweise wird es notwendig sein, nur zum Zwecke der Abgabe des Feedbacks an die Universität zu kommen. Es wird sicherlich auch eines organisatorischen Aufwandes bedürfen, um lange "Staus" zu vermeiden. In jedem Fall muss sich der Studierende zum Gerät begeben (das möglicherweise recht weit weg ist), seinen Code finden ("Wo hab ich den jetzt wieder hingetan?"), sich auf spezielle Weise einchecken (nicht vom eigenen account her), etc. Es ergeben sich Problem der Freiwilligkeit (vgl. unten, Bias), wenn in den ersten beiden Ferienwochen Studierende ihre Daten eingeben "müßten" aufgrund des Gerätemangels. Findet die LV in den Computerräumlichkeiten eines Instituts statt, ergibt sich kein Mehraufwand.
  
  Bei Option B wird demgegenüber nur ein Aufwand von ca. 15 Minuten innerhalb jeder Lehrveranstaltung, die jemand besucht, verlangt, kein zusätzlicher Aufwand, kein zusätzliches Daran-Denken etc.
- Lehrende: Der LV-L verliert in beiden Optionen etwas Zeit. Bei Option A mit der Vergabe der Codes und der Erklärung des Vorgehens, ferner beim (zusätzlichen) Ausfüllen des LV-L-Bogens (vgl. 3.3.2), für das keine Zeit reserviert worden ist. Das Feedback (erste Vertrauensstufe) ist verzögert und erfordert eine zusätzliche Investition. Bei Option B verliert der LV-L etwa 15 Minuten in seiner letzten LV, hat aber keinen zusätzlichen administrativen Aufwand; auch für das Abrufen der Informationen der ersten Vertrauensstufe ist kein Aufwand erforderlich: Diese Information steht ihm sofort schriftlich zur Verfügung. Auch den LV-L-Bogen kann er ohne zusätzlichen zeitlichen Aufwand dann ausfüllen, wenn die Studierenden den Evaluationsbogen beantworten. Eine konservative Schätzung besagt, dass der Zeitaufwand für die LV-L in Version B jedenfalls nicht grösser ist als in Version A.
Differentielle Validität und Bias: Unter einem Bias versteht man einen systematischen Fehler, der durch Störeffekte zustandekommt und nicht kontrolliert worden ist. Es geht hauptsächlich um soziale Effekte, die einen Einfluss auf die Validität haben könnten. Man muss sich bewusst sein, dass das Geben von Feedback grundsätzlich eine soziale Handlung ist, wobei mehrere Personen beteiligt sind: der Studierende, der LV-Leiter und allenfalls Kommilitonen des Studierenden. Darauf zurückzuführende Verfälschungen sind nie auszuschliessen. Allerdings erscheint das Risiko zu solchen Verfälschungen bei Option A bedeutend stärker als bei Option B. Betrachten wir einige solcher Effekte (man könnte noch mehr nennen!):
- Bei Option A wäre grundsätzlich eine Teilung der Informationsaufnahme der ersten und der anderen Vertraulichkeitsstufen denkbar, um einige der oben genannten Probleme zu vermeiden: Die offenen Fragen werden schriftlich in der LV beantwortet, die geschlossenen online. Dem ist entgegenzuhalten, dass damit die Vergleichbarkeit der Datenbasis verloren ginge: Die verschiedenen Verfälschungstendenzen (Stichprobe, Bias, etc.) wirken unterschiedlich auf die beiden Instrumente, so dass die Vergleichbarkeit verloren geht.
- Gegenseitige soziale Beeinflussung durch Kommilitonen ist in Option A nicht unwahrscheinlich: Mehrere Studierende gehen gemeinsam an den Computer und sehen (und kommentieren!) jeweils, was die anderen eintippen. Die Antworten sind dann nicht mehr unabhängig und reflektieren nicht die individuelle Meinung, sondern eine Vorstellung, die auch durch Gruppendruck beeinflusst wird. In Option B ist ein solcher Einfluss zwar nicht auszuschließen; wenn jedoch die Studierenden angewiesen werden, jeder für sich allein zu antworten, kann dieser Einfluss minimiert werden.
- Zeitlicher Abstand: Wenn Studierende die Lehrveranstaltung erst mit einigem zeitlichen Abstand beurteilen ñ dies ist in Option A der Fall ñ, ist es wahrscheinlich, dass sich der Gesamteindruck der Veranstaltung verwischt. Man erinnert sich nicht so genau, die Aspekte dieser Veranstaltung werden verwechselt mit Aspekten anderer Veranstaltungen, etc. Anders wenn die Beurteilung in der Veranstaltungssituation selber erfolgen: Hier gibt es eine Fülle von Cues, welche einen an die einzelnen Phasen der Veranstaltung erinnern (können), angefangen mit den eigenen Notizen über den Raum, die Arbeitsbedingungen, den LV-L bis hin zu den Kommilitonen etc. Dies bedeutet eine deutliche Überlegenheit der Option B.
- Vermischung: Die Erinnerung wird durch einen weiteren Effekt getrübt. Es ist wahrscheinlich, dass in Option A die gleiche Person, wenn sie schon einmal am Computer sitzt, gleich mehrere Veranstaltungen eintippt. Die Diskrimination wird dabei zweifelsohne erschwert, d.h. es besteht die Tendenz, alle Veranstaltungen ñ oder zumindest alle Veranstaltungen des gleichen LV-L ñ ähnlich zu beurteilen, d.h. es kann ein sog. Halo-Effekt auftreten (Schluss vom Gesamteindruck der Person auf die einzelnen Items). Das Risiko eines Halo-Effektes ist bei Option B im klassischen Sinne ebenfalls vorhanden, jedoch deutlich vermindert.
- Stimmung: Bei der Erhebung geht es auch um gefühlsmässige Einschätzungen. Wenn man unmittelbar in der betreffenden Situation ist (Option B), ist diese Stimmung sehr viel leichter einzuschätzen und anzugeben als wenn man rekonstruieren muss, wie es wohl gewesen sei (Option A): Überlegenheit der Option B.
- Freiwilligkeit: Die Evaluation muss grundsätzlich freiwillig erfolgen; erzwungene Beurteilung ergibt in jedem Fall Verfälschungen, nämlich zu Reaktanz i.S. von Brehm, d.h. die Studierenden versuchen, die Freiräume zurückzugewinnen, die ihnen durch den Zwang eingeschränkt wurden. Dieser Zwang ist in Option A bemerkbar, wenn beispielsweise (wie vorgeschlagen wurde) die Abgabe des Zeugnisses an die Evaluation geknüpft wird. Jedes Mittel dieser Art zur Erhöhung der Responder-rate führt zu einem Bias. In Option B ist die Beantwortung nicht ganz freiwillig, d.h. es besteht ein gewisser sozialer Druck zur Beantwortung. Allerdings handelt es sich nicht um eine Einschränkung des Freiraums, weil in der Veranstaltung die Situation ohnehin durch den VL-L definiert wird und damit der Freiraum ohnehin eingeschränkt ist, sich die Studierenden aber freiwillig in eine solche Situation eingeschränkter Kontrolle begeben. Reaktanz ist deshalb nicht zu erwarten.
Diese Überlegungen zeigen in jedem Punkt eine nicht zu unterschätzende Überlegenheit der Option B.
Datensicherheit: Es stellt sich die Frage, wie gut die Daten aufgehoben sind (Datenschutz). Hier gibt es zum einen betreffend Vertraulichkeitsstufe 1 einen Unterschied: In Option A sind diese Daten elektronisch gespeichert, mit den damit verbundenen Unsicherheitsfaktoren, welche insbesondere dadurch gegeben sind, dass die Daten nicht vercodet sind, sondern in Textform abgespeichert sind; es sind Vorkehrungen zu treffen, damit diese Daten nicht in falsche Hände geraten können. Die Daten dieser Art gelangen bei Option B direkt an den Adressaten und nur an diesen: Eine Überlegenheit der Option B. Anders bei den codierten Daten: Diese werden in Option B durch Mitarbeiter der Studiendekanate eingelesen ñ diese können die Daten dann auch lesen. Doch handelt es sich um individuelle Daten in nicht-aggregierter Form, mit denen man nicht viel anfangen kann. Immerhin kann ein Missbrauch nicht grundsätzlich ausgeschlossen werden: Ein Nachteil von Option B, da dies in Option A wegfällt, abgesehen von diesem Umstand jedoch keine Unterschiede festzustellen sind. Insgesamt kann man diesbezüglich die beiden Optionen als gleichwertig betrachten.
Akzeptanz: Evaluation nach dem Paper-Pencil-Verfahren wird schon von vielen Instituten und LV-L praktiziert; die Studierenden in diesen Instituten sind solche Verfahren auch gewöhnt. Es besteht also für die Option B schon eine gewisse Akzeptanz. Zweifellos wird noch mehr in die Akzeptanz der Evaluation als solcher und in das Vorgehen investiert werden müssen ñ Evaluation ist noch bei weitem nicht überall eine Selbstverständlichkeit. Bei Option A hingegen muss noch bedeutend mehr Überzeugungsarbeit geleistet werden, und zwar im Hinblick auf die Verwendung des neuen Mediums zusätzlich zu den üblichen Vorbehalten gegenüber der Evaluation. Insbesondere muss auch Skeptikern glaubwürdig gemacht werden, dass der Datenschutz gewährleistet ist, und ob sich alle LV-L einfach überzeugen lassen, darf bezweifelt werden. Also erneut eine Überlegenheit der Option B.

Diese Auflistung zeigt, dass die Option A (online) in keinem Punkt der Option B (Belegleser) überlegen ist. Für uns sind es vor allem die Punkte, die eine Verfälschung der Resultate bewirken können (Repräsentativität, 2; Differentielle Validität und Biases, 4), welche gegen die Option A sprechen. Dabei muss betont werden, dass es sich bei den angegebenen Effekten keineswegs um Erfindungen unsererseits handelt, sondern dass alle diese Effekte durch viele Forschungen abgesichert sind (u.a. durch theoretische Analysen der Autoren dieses Berichtes). Ferner wurde von den Protagonisten der Option A kein einziges Argument beigebracht, das zugunsten der Option A sprechen würde; als einziges Argument wurde die "Zukunftsorientierung" genannt, doch greift dieses Argument zu kurz, da das Hauptziel der Evaluation ein Feeback mit validen Daten sein soll, um die Lehre zu verbessern ñ darauf nimmt dieses Argument nicht Bezug.

Zwecks Absicherung dieser Überlegungen wurde eine Umfrage bei verschiedenen österreichischen Universitäten durchgeführt; ferner wurde auch die ETH Zürich einbezogen, weil sie als Beispiel für gute Evaluation genannt wurde und auch in den Erläuterungen zur § 6, Absatz 3, der EvalVO ñ wenn auch in anderem Zusammenhang ñ explizit als Beispiel angegeben wird. Wir verzichten an dieser Stelle auf eine ausführliche Zusammenstellung der Ergebnisse (vgl. die Protokolle der Sitzungen den AG), sondern verweisen nur darauf, dass (a) diejenigen Universitäten, welche die Option A verwenden, dies nur in kleinem Rahmen und mit teilweise geringer Responder-Rate getan haben (und außerdem die Voraussetzungen im Hinblick auf die Hardware deutlich günstiger sind: Linz), (b) dass die Verantwortlichen für die Evaluation an diesen Universitäten bezüglich unserer Validitäts-Einwände ñ die akzeptiert wurden - keine Möglichkeiten angaben, um die Probleme zu überwinden, und (c) die anderen Universitäten die Option B gewählt haben und damit zufrieden sind; letzteres gilt auch für die ETH-Zürich. Auch die Universität arbeitet mit Beleglesern. Insgesamt ergibt sich also eine eindeutige Priorität der Option B; angesichts der Sachlage würde die Realisation der Option A in jedem Fall zu Invalidität der Ergebnisse führen und damit die Evaluation wertlos machen.

Für die Arbeit mit dem Belegleser sind grundsätzlich mehrere Vorgehensweisen möglich; folgende wurden erwogen:

Nutzung eines Beleglesers am ZID;
Einlesen am ÖSTZA;
kleine Testversion mit vorhandenen Beleglesern (Erziehungswissenschaft).

Offen bleibt bis auf weiteres, wer die Kosten dafür trägt: Studiendekane, Fakultäten, Vizerektor. Auch für das Programmieren der Auswertung müssen finanzielle Mittel vorgesehen werden. Dies kann beispielsweise auf Werkvertragsbasis erfolgen, muss aber durch jemanden realisiert werden, der (a) sich im Programmieren (SPSS) auskennt und (b) etwas von Evaluation versteht.

b) Durchführung der Datenerhebung im Veranstaltungsraum

Nachdem die Entscheidung zugunsten der Option B (Belegleser) zumindest innerhalb der AG gefällt worden ist, muss nun entschieden werden, wie die Datenerhebung konkret abzulaufen hat. Grundsätzlich gelten folgende Prinzipien:

Die Evaluation erfolgt in einer der letzten Veranstaltungen im Semester.
Der LV-L gibt eine kurze Erklärung zur Durchführung ab (dazu wird eine Folie verwendet; Erklärung und Folie müssen noch erarbeitet werden). Insbesondere wird auch die Freiwilligkeit betont.
Die Studierenden beantworten den Fragebogen.
Die Studierenden nehmen den Teil mit den offenen Fragen (Teile 3 und 5) heraus; dieser Teil wird von einem Studierenden eingesammelt und dem LV-L abgegeben (in der Regel vorne auf einen Tisch gelegt).
Der Teil mit den geschlossenen Fragen wird von einem Studierenden eingesammelt, in einen vorbereiteten adressierten Briefumschlag (A4) gesteckt und an die Fakultät (Studiendekanat) abgeschickt.
Die Studiendekanate übernehmen das Einlesen in die Belegleser nach einem noch schriftlich festzulegenden Vorgehen. Daraus resultiert ein oder mehrere SPSS-files.
Die Auswertung erfolgt standardisiert durch noch festzulegende Personen.
Die ausgewerteten Daten werden wie in 3.3.1b bzw. c dargestellt weitergegeben.

3.3.5 Umgang mit den Ergebnissen

Es sollten Manuals erarbeiten werden, die den betroffenen LV-L und den zuständigen universitären Funktionsträgern bzw. Gremien Anregungen für die Interpretation und Benützung der Evaluierungsergebnisse bieten sollen. Diese Manuals müssen kurz und prägnant sein und die "Übersetzung" der im Output angegebenen Daten in brauchbare Informationen ermöglichen. Die Manuals sind noch zu erstellen.

3.3.6 Evaluation des Instrumentes

Das vorgesehene Instrument muss erst noch einer eigenen Evaluation unterzogen werden. Zu diesem Zweck wird im Sommersemester 2000 bei einer reduzierten Zahl von LV eine Evaluation durchgeführt ("Pilotphase"), in der verschiedene Varianten des Fragebogens eingesetzt werden, wobei die Fragebogen-Varianten zufällig auf die jeweils anwesenden Studierenden verteilt werden (randomisierte Gruppenzuteilung).

Es werden zwei unterschiedlich lange Fragebögen verwendet werden: Eine Kurzfassung und eine Langfassung. Ferner werden zwei Antwortmuster erprobt: fünfstufig und siebenstufig.

Für diese Pilotphase ist es nicht erforderlich, dass alle Pflicht-LV erfasst werden. Es geht ja zunächst darum, das Instrument zu erproben, nicht aber Angaben zu den einzelnen LV zu erheben.

Für die Durchführung der Pilotphase sind Personalmittel erforderlich; die anstehenden Arbeiten können nicht durch die AG realisiert werden.

3.3.7 Entwicklung eines Beurteilungsinstrumentes

Als zentraler Auftrag der AG wurde die Formulierung eines Beurteilungsinstrumentes angenommen. Das Instrumente sollte nach allen Regeln der Kunst formuliert werden, wobei das Instrument nicht zu lange sein darf. Wir stellen zunächst ein paar methodologische Überlegungen an, stellen dann die relevanten Dimensionen dar und beschreiben dann das Instrument.

Methodologische Überlegungen

Bei der Itemformulierung müssen mehrere Prinzipien unterschieden werden:

Eine erste Unterscheidung bezieht sich auf das, was hochschuldidaktisch angemessen ist. Es gibt Items (oder Skalen), für die gilt das Prinzip "je mehr, desto besser" (etwa: "Je interessanter eine LV ist, desto besser"). Andererseits gibt es Items oder Skalen, bei denen das Prinzip "Nicht zuviel und nicht zuwenig" gilt, etwa "In dieser Veranstaltung war der Unterrichtsstoff leicht / war der Unterrichtsstoff schwierig" oder "Ich fühlte mich überfordert / unterfordert". Hier sind die beiden Pole hochschuldidaktisch unangemessen, vielmehr wird es darum gehen, ein Optimum im Zwischenbereich zu erreichen. Auswertungstechnisch bedeutet dies, dass Skalenwerte nicht dahingehend aussagekräftig sind, dass möglichst hohe Ergebnisse erstrebt werden sollen, sondern dass die Werte im mittleren Bereich zu finden sind. Hinzu kommt, dass das Optimum von LV zu LV unterschiedlich sein kann. Das Item "Die Veranstaltung war zu wenig praxisbezogen / war zu praxisbezogen" beispielsweise hat für unterschiedliche LV unterschiedliche Optima: In LV der Lehrerbildung etwa, die auf die Praxis vorbereiten soll, ist Theorielastigkeit (auf Kosten des Praxisbezugs) unangemessen, wenn auch ausschliesslicher Praxisbezug unangemessen ist ("Es gibt nichts praktischeres als eine gute Theorie"!). In anderen LV spielt der Praxisbezug keine Rolle, und das Optimum wird eher auf der Seite "wenig praxisbezogen" sein. Die Erfahrung zeigt, dass (1) ein Halo-Effekt verringert werden kann, wenn bei Skalen vom Typ "Je mehr, desto besser" das Maximum nicht immer auf der gleichen Seite liegt (z.B. rechts), sondern zufällig abwechselt, ferner dass (2) sich die Beantwortenden zunächst auf Skalen vom Typ "Nicht zuviel und nicht zuwenig" gewöhnen müssen, weswegen diese Items zumindest dann, wenn sie selten sind, gruppiert werden müssen.
Es gibt Items oder Skalen, bei denen geht es um eine reine Beschreibung (etwa "Die Inhalte der Leistungsbeurteilung waren mir von Anfang an bekannt / sind mir bis jetzt nicht bekannt"), bei anderen geht es um eine Einschätzung der Angemessenheit (etwa "Es gab zu viele Unterlagen [Handapparat, Kopien, Lernbehelfe, etc.] / Es gab zu wenig Unterlagen"). Die AG verwendet bewusst Angemessenheitsitems, weil dadurch ein normierender Effekt eingeführt wird: Bezogen auf die Normen, die die Studierenden haben, erweist sich die LV als in einer bestimmten Art und Weise gestaltet.

Es sei an dieser Stelle betont, dass die oben genannten Überlegungen in der Evaluationsdiskussion kaum je angestellt werden. Nichtsdestoweniger erscheinen sie ausgesprochen wichtig. Dies sind ebenfalls Gründe, warum nicht ein bestehendes Instrument übernommen werden kann, sondern ein eigenes Instrument entwickelt und in einer Pilotphase getestet wird.

Dimensionen

In der Literatur zur Evaluation der Lehre durch die Studierenden werden sehr viele Dimensionen erfasst. Im Prinzip müsste bei der Bestimmung der zu erfassenden Variablen von einer hochschuldidaktischen Konzeption ausgegangen werden. Dies konnte von der AG in der kurzen verfügbaren Zeit nicht geleistet werden, zumal diesbezüglich ein Konsens auf breiter Ebene notwendig wäre. Die AG ist sich jedoch einig, dass die sozialen Beziehungen zwischen LV-L und Studierende eine wesentliche Rolle spielen; deshalb wurden einige soziale Variablen eingeführt. Folgende Dimensionen wurden als wesentlich erachtet (die Dimensionen sind numeriert, damit die Items jeweils zugeordnet werden können):

D Didaktik (einschließlich Didaktik; Lernbehelfe; Ziele gem. § 6. Abs. 1 EvalVO)
DB Leistungsbeurteilung
DL Lernbehelfe (gem. § 6. Abs. 1 EvalVO)
DM Motivierung
DZ Ziele (gem. § 6. Abs. 1 EvalVO)
F Studierende(r): Gefühl
G Gesamturteil (zusammenfassende Bewertung gem. § 6. Abs. 1 EvalVO)
I Interaktion (Betreuung)
IB Beteiligung
IK Klima
IS Situationsspezifität
L Lehrveranstaltungsleiter(in)
LI Stoffbeherrschung
LL Sprache
LR Organisation der Rahmenbedingungen
LS Sozial
S Stoff (Inhalt)
SL Leistungsanforderung
SR Relevanz/Substanz
SS Stoffverarbeitung
SV Verständlichkeit

Die einzelnen Items finden sich im Fragebogen, der in der Anlage A wiedergegeben ist.

Die Länge

Bei Instrumenten mit beschränkter Länge, die aber eine Reihe von Aspekten abdecken sollen, besteht ein Bandbreite-Reliabilitäts-Dilemma. Bei diesem Dilemma geht es darum, dass ein Instrument bei einer gegebenen Länge entweder wenig Aspekte, diese aber zuverlässig erfassen kann, oder aber viele Aspekte, diese aber wenig zuverlässig. Dies hängt damit zusammen, dass die Reliabilität eines Instrumentes mit der Länge steigt (Spearman-Brown-Ansatz), d.h. je mehr Items vergleichbaren Inhalts eine Skala hat, desto zuverlässiger sind die Ergebnisse. Die AG hat sich entschlossen, jeweils drei Items pro Skala zu verwenden; dies scheint das Minimum zu sein, damit eine ansprechende Reliabilität erreicht werden kann. Da es bei diesem Instrument nicht darauf ankommt, Informationen über den einzelnen Beantwortenden zu gewinnen (dafür wäre eine sehr hohe Reliabilität notwendig), sondern Mittelwerte über im Idealfall relativ große Stichproben zu ermitteln, kann eine geringere Reliabilität als in der Testliteratur üblich akzeptiert werden, auch wenn sie nicht wünschbar ist.

In der Pilotphase wird es notwendig sein, ein längeres Instrument zu verwenden. Die Ergebnisse werden zeigen, welche Items eliminiert werden können bzw. welche Dimensionen oder Skalen eine hohe gemeinsame Varianz aufweisen und deshalb zusammengelegt werden können. Das endgültige Instrument wird also kürzer sein als dasjenige, das unten vorgestellt wird.
Das Instrument

Die erste Version des vorgeschlagenen Instrumentes ist in der Anlage A wiedergegeben. Erste Feedbacks, die eingeholt wurden, betreffen folgende Punkte:

Es wird moniert, dass es sinnvoll ist, alle "guten" Eigenschaften auf der gleichen Seite zu haben (z.B. immer rechts). Dem ist zu entgegnen, dass die Studierenden gezwungen werden müssen, jeweils zu überlegen, ob das Item zutrifft oder nicht; deswegen ist es sinnvoll, die "guten" Eigenschaften zufällig nach links oder rechts zu geben. Auf diese Weise kann ein Halo-Effekt (vgl. 3.3.a, Punkt 4) zwar nicht vermieden, aber doch reduziert werden.
Es wird moniert, dass immer wieder das Gleiche gefragt wird. Dies ist teilweise richtig und bedingt durch den Umstand, dass zu den einzelnen in Abschnitt 3.3.7b genannten Dimensionen jeweils drei Items berücksichtigt wurden, die in etwa das gleiche abdecken sollen.
Es wird moniert, dass das Soziale überwiegt. Dies ist richtig und hat auch seinen Sinn, wie in 3.3.7b betont wurde.
Es wird moniert, dass die räumlichen Bedingungen nicht hinreichend berücksichtigt wurden. Dieser Einwand ist zweifelsohne berechtigt, und es wird notwendig sein, diese Dimension zu berücksichtigen.
Schließlich wird auf den kleinen Druck verwiesen. Über die endgültige Gestaltung des Fragebogens wird noch zu entscheiden sein, auch unter Berücksichtigung des Aspektes der Lesbarkeit durch den Belegleser.

Insgesamt sind die ersten informellen Rückmeldungen recht positiv. Das Instrument sollte nun von den verschiedensten Gremien gründlich hinterfragt werden, wobei wir uns bewusst sein müssen, dass es unmöglich ist, alle Ansprüche zu berücksichtigen.

3.3.8 Kostenschätzung

Eine genaue Kostenschätzung kann nicht vorgenommen werden. Diese kann erst nach der Pilotstudie SS 2000 erfolgen. Folgende beiden Kostenbereiche sind vorhersehbar:

a) Einmalige Kosten bei der Implementierung (SS 2000)

Belegleser ca. ATS 70ë000 (Hardware); ca. 100'000 (Software). Da der Belegleser auch anderweitig genutzt werden kann, sind letztlich die effektiven Kosten deutlich niedriger anzusetzen.
Administration der Bögen bis zum Zeitpunkt "Bögen ausfüllen": erfolgt durch Personal Studiendekanate (Koordination durch ??).
Dateneingabe beim Belegleser: erfolgt durch Personal Studiendekanate (Koordination durch ??).
Datenaufbereitung und Datenauswertung: ca. 1 wissenschaftlicher Mitarbeiter mit sehr guten empirischen Methodenkenntnissen Sozialwissenschaften (Psychologe oder Pädagoge; insbesondere Testkonstruktion, Statistik) für 1/2 Jahr. Kosten: ATS 240ë000 (incl. Arbeitgeberseite). Diese Kosten können reduziert werden, wenn vorhandene Personalressourcen aus den Studiendekanaten bereit gestellt werden können.
Erstellen eines automatisierten Auswertungssystems, das künftig vom Personal der Studiendekanate bedient werden kann. Daher ist hoher Bedienungskomfort notwendig. Kosten ca. ATS 100ë000; diese Kosten können reduziert werden, wenn vorhandene EDV-Ressourcen der Universität bereit gestellt werden können.
Druckkosten Bögen für Pilotphase: ATS 14ë000 bis 28ë000 Schilling.
b) Regelmäßig anfallende Kosten (pro Semester, ab WS 2000/2001)
Druckkosten Bögen: ATS 7'000 bis 14'000 (Richtwert: 1 Schilling pro Responder).
Administration der Bögen bis zum Zeitpunkt "Bögen ausfüllen": erfolgt durch Personal Studiendekanate (Koordination durch ??).
Dateneingabe beim Belegleser: erfolgt durch Personal Studiendekanate (Koordination durch ??).
Routineauswertung: erfolgt durch Personal Studiendekanate (Koordination durch ??).
Evtl. sind Kosten für Spezialprogrammierungen und unvorhergesehene Probleme und Mithilfe beim Studiendekanatspersonal vorzusehen: ca. ATS 20ë000.- . Diese Kosten können reduziert werden, wenn vorhandene EDV-Ressourcen der Universität bereit gestellt werden können.

4. Weiteres Vorgehen

Für das weitere Vorgehen muss zwischen dem Entscheidungsprozess (Entscheidungen über die Rahmenbedingungen, das Instrument, die weiteren Schritte zur Entwicklung des Instrumentariums) und der Entwicklung des Instrumentariums (Detailformulierung des Instrumentes; begleitende Materialien wie Manuals etc.; ferner Programmierung und Konkretisierung) unterschieden werden.

4.1 Entscheidungsprozess

Das weitere Vorgehen gestaltet sich wie folgt:

Unterlagen der Evaluationskommission werden für die Sitzung der Studiendekane bzw. Vize-Studiendekane am 7. Dezember 1999 zur Verfügung gestellt.
Orientierung Studiendekane/Vizestudiendekane durch die AG in der Sitzung.
Orientierung Studienkommissions-Vorsitzende und ÖH schriftlich. Die Unterlagen werden als Diskussionsgrundlage (nicht als Beschluss!) an sämtliche Studienkommissions-Vorsitzende aller Fakultäten geschickt werden. Ebenso werden die Unterlagen an die ÖH geschickt, der interessierten Öffentlichkeit zur Verfügung gestellt und ins Internet gestellt. Der Versand erfolgt über die einzelnen Studiendekane, da diese den Adressverteiler haben. Die Unterlagen werden in computerisierter Version an die Studiendekane geschickt, damit diese weitergeleitet werden können. An die Studienkommissions-Vorsitzenden ist ein Begleitbrief zu verfassen, in dem das Anliegen der Evaluationskommission an die Studienkommissionen erklärt wird.
Orientierung Studienkommissions-Vorsitzende mündlich. Es ist zu überlegen, ob eine Sitzung für die Studienkommissions-Vorsitzenden von der Evaluationskommission vorgenommen wird, wo die Unterlagen erklärt werden. Für diese Sitzung wird der 10. Jänner 2000, 10.15 vorgeschlagen (Ort wird später festgelegt); die Einladung sollte über die Studiendekane erfolgen.
Orientierung Studierende. Es wird vorgeschlagen, die ÖH zu bitten, eine öffentliche Orientierungsversammlung zu veranstalten, wo über die Thematik berichtet wird; die Veranstaltung würde sich an die Studierenden richten, eingeladen wären aber alle Universitätsangehörigen (auch im Veranstaltungskalender und mit breiter Publikmachung). Vorgeschlagen wird der 12. Jänner, 18.00 Uhr, in einem großen Hörsaal.
Rückmeldungstermin Studienkommissionen. Die Rückmeldungen der Studienkommissionen sind bis spätestens Ende Jänner an die EvaluationskommissionGabriele.Kanzi@sbg.ac.at zu schicken. Im Idealfall sollten die Studienkommissions-Vorsitzenden mit diesem Schreiben auch die LV nennen, die im SS als Pflicht-LV in Frage kommen. Zum einen sind die LV zu nennen, zum anderen ist eine Schätzung abzugeben über die Teilnehmerzahl.
Weiteres Vorgehen. Aufgrund der Rückmeldungen werden die Unterlagen von der AG überarbeitet. Die revidierte Fassung sollte spätestens Ende März den Studiendekanen bereitgestellt werden. Diese entscheiden letztlich in Zusammenarbeit mit den Studienkommissionen über die Art der Evaluation.

4.2 Entwicklung des Instrumentariums

Nachdem die in 4.1 genannten Entscheidungen getroffen worden sind, kann das Instrument in die Pilotphase gehen. Über die einzelnen Schritte wird im SS 2000 von der AG entschieden.

Zurück zur Übersicht


1.	Anonymität, aber Verhinderung der "Stimmabgabe" von Nicht-Berechtigten	Studentencode in jeder LV anders. Technisch machbar, wenn Studierende nicht mit dem normalen Account einsteigen. "Codekontrolllisten" ohne Namensnennungen notwendig.	=	Anonymität gegeben. Bogen können alle Studierenden abgeben, die am Tag des Austeilens die LV besuchen ñ Bögen werden eingesammelt. Bei offenen Fragen wäre theoretisch ein "Schriftvergleich" möglich.
2.	Repräsentativität	Reduzierte Responderrate. Selektive (nicht-repräsentative) Stichprobe, da nur ein Teil der Studierenden sich den Zugang/Kompetenz-/Zeitbudget zum Ausfüllen am PC verschafft; Verfälschungen durch Verzerrungen sind vorprogrammiert. Einige Studienrichtungen oder Studierendengruppen klar benachteiligt. Manipulation der Stichprobe möglich	<<	Anwesenheitsstichprobe zum Zeitpunkt X. Verzerrungen theoretisch möglich, wenn nur ein "selektiver Teil des üblichen Auditoriums" da ist. Grundsätzlich findet aber die Rückmeldung von allen Studierenden zu einem (gemeinsamen) Zeitpunkt statt (Vollerhebung).
3.	Kosten	EDV-Ausstattung: zusätzliche Kosten, weil ev. Zusätzliche PCs angekauft werden müssen. Flächendeckendes Netz über alle Fakultäten gegeben? Gesamtkosten: derzeit nicht abschätzbar (Intranet/Programmierungsaufwand/ PCs); Zeitaufwand bei der Abgleichung von Codes (Zufallszahlen) und Berechtigung.	<	EDV-Ausstattung: zusätzliche Kosten: Belegscanner um ca. 70ë000 plus Software (100'000). Eine Woche im Dauerbetrieb + Personal, um die Fragebögen "nachzufüttern". Fragebogen-Druckkosten bei Vollerhebung und Routinebetrieb: ca. 7ë000-14ë000 Responder pro Semester -> 7'000 bis 14ë000; Gesamtkosten kalkulierbar.
		Studierende: Aufwand steigt, weil S. Zusatztermine außerhalb der LV brauchen, um in den Zeiten, in denen die EDV-Poolräume nicht genutzt werden, ihre Feedbacks einzutippen. Ev. Administrativer und koordinierender Mehraufwand, wenn lange "Staus" vermieden werden sollten. (Bei LV in Computerräumen KEIN Mehraufwand)	<	Studierende: 15 Minuten in jeder LV, die im Semester besucht wird.
		Lehrende: verlieren etwas Zeit bei der Vergabe der Codes, müssen aber keine Zeit für den Fragebogen in der LV abzwacken. Müssen Zeit investieren, um sich die Informationen zur ersten Vertraulichkeitsstufe zu organisieren.	=	Lehrende: verlieren ca. 15 Minuten in einer der letzten Sitzungen, haben aber keinen zusätzlichen administrativen Aufwand.

	Aspekt	Version-A: Online-Version (EDV)	*	Version-B: Belegleser (Papierversion)
4.	Bias	Trennung von offenen und geschlossenen Fragen führt zu Verlusten an Vergleichbarkeit. Gegenseitige soziale Beeinflussung der Studierenden. Zeitliche Abstand zwischen LV und Bewertung kann groß sein Verfälschung durch Diskriminationsprobleme, wenn in eine Online-Sitzung gleich 3-5 LV beurteilt werden. (teilweise schlägt der HALO-Effekt durch, Globalurteil über Person X "verwäscht" dessen unterschiedlichen LV, etc.) Stimmung anders als in LV Freiwilligkeitsreduktion führt zu Reaktanz.	<	Soziale Effekte im Hörsaal durch Umgebung grundsätzlich möglich LV-Bias
5.	Datensicherheit	Alles läuft über das ZID, Mißbrauch auf Vertraulichkeitsstufe 1 möglich.	=	Daten der Stufe 1 werden nicht gespeichert; Daten der Stufe 2 können von Mitarbeitern eingesehen werden.
6.	Akzeptanz	Überzeugungsarbeit extrem aufwendig	<	Überzeugungsarbeit