Arbeitsgruppe "Evaluation von Lehrveranstaltungen"
der Universität Salzburg
Für den Inhalt verantwortlich:
Urs Baumann, Institut für Psychologie
Anton Bucher, Institut für Religionspädagogik
Josef Ehmer, Institut für Geschichte
Günter Haider, Institut für Erziehungswissenschaft
Andreas Paschon, Institut für Erziehungswissenschaft
Jean-Luc Patry, Institut für
Erziehungswissenschaft (Vorsitz der
Arbeitsgruppe; Redaktion)
Im vorliegenden ausführlichen Bericht werden neben einem Instrumentfür die Beurteilung der Lehrveranstaltungen durch die Studierenden wesentliche Grundlagen für die Evaluation der Lehre im Allgemeinen und für die Evaluation der Lehre und die Beurteilung der Lehrveranstaltungen durch die Studierenden in Salzburg im Speziellen mitgeteilt. Dieser Text dient als Diskussionsgrundlage im Hinblick auf die weiteren Schritte; er enthält auch einen ersten Entwurf zu einem Evaluationsinstrument für Vorlesungen (Fragebogen). Kommentare, Reaktionen, Hinweise etc. sind erbeten per e-mail an Gabriele.Kanzi@sbg.ac.at.
Wir verzichten auf die jeweiligen Verweise
auf die Literatur, sondern geben am Schluss die wichtigsten
verwendeten Unterlagen
an; es gibt auch eine
zusammenfassende Einführung in die
Evaluation der Lehre der "Österreichischen Gesellschaft für
Psychologie". Im Vordergrund des
folgenden Berichtes steht die Evaluation von Lehrveranstaltungen; die
Evaluation der Lehre geht weit darüber hinaus, die damit
verbundenen Probleme können jedoch hier nicht im Detail
behandelt werden.
1.1 Allgemeiner Auftrag und Selbstverständnis
Aufgrund der gesetzlichen Rahmenbedingungen ist die Evaluierung von Lehrveranstaltungen (LV) vorgeschrieben. Die Sitzung der Studiendekane bzw. Vize-Studiendekane unter Leitung des Vize-Rektors Lehre (http://www.sbg.ac.at/rektor/vizerektoren/index.htm) hat sich mit dieser Thematik befaßt und beschlossen, dass ein kleines Expertengremium (nachfolgend Arbeitsgruppe bzw. AG genannt) die Thematik bis hin zur konkreten Realisierung aufbereiten sollte. Diese Aufbereitung hat bis Ende November 1999 zu erfolgen. In einer Sitzung des Vizerektors Lehre mit den Studiendekanen bzw. Vize-Studiendekanen wurde das Papier der AG im Dezember 1999 beraten und wird an die Studiendekane gegeben mit der Bitte, dieses in Zusammenarbeit mit den Studienkommissions-Vorsitzenden umzusetzen (Details zum Vorgehen vgl. unten, 4.1).
Als Mitglieder dieser AG wurden Prof. Urs Baumann, Prof. Josef Ehmer, DDr. Günter Haider und Prof. Jean-Luc Patry ernannt. Die AG hat sich die Möglichkeit vorbehalten, sich nach Bedarf zu erweitern, und im Verlaufe der Arbeit beschlossen, Mag. Andreas Paschon und Prof. Anton Bucher aufzunehmen (vgl. dazu unten Abschnitt 2).
Die AG hat den Auftrag weiters dahingehend interpretiert, dass es ihr obliegt, eine Grundlage zu schaffen, die als Basis für weitere Diskussionen dienen soll. Sie kommt diesem Auftrag mit dem vorliegenden Papier nach. Damit soll in keiner Weise irgendwelchen Entscheidungen vorgegriffen werden, sondern es geht nur darum, Möglichkeiten aufzuzeigen, über die noch zu diskutieren sein wird. Es wird mit allem Nachdruck betont, dass es notwendig ist, alle Personen an der Universität Salzburg, die in der Lehre involviert sind, also sowohl ñ und insbesondere ñ die Studierenden als auch die Lehrenden und die Administratoren der Lehre auf der Ebene der Studienkommissionen, auf der Ebene der Studiendekanate und auf der Ebene des Vizerektorates und Rektorates in den Diskussionsprozess einzubeziehen. Eine Evaluation macht nur dann Sinn, so die Überzeugung der AG, wenn sie von der überwältigenden Mehrheit der dadurch Betroffenen getragen wird, und die Verwendung des vorliegenden Papiers wie auch die weitere Vorgehensweise sollten von diesem Geist geprägt sein.
Da alle Betroffenen in den Diskussionsprozess einzubeziehen sein werden und sich die AG keine Entscheidungsbefugnis anmaßt, wurde nicht für nötig befunden, alle Gruppen von Betroffenen schon an dieser Entwurfsphase zu beteiligen, sondern es wurde vielmehr im Interesse der Arbeitseffektivität und der Aufwandsminimierung danach getrachtet, die AG vorerst möglichst klein zu halten. Der vorliegende Bericht ist dementsprechend eine Diskussionsgrundlage, mehr nicht.
1.2.1 Gesetzliche Rahmenbedingungen
Die gesetzlichen Rahmenbedingungen bezüglich der Kompetenzen sind unklar, als im UOG 1993 die Verantwortung für die Evaluierung primär bei den Studienkommissions-Vorsitzenden liegt. Gemäß Evaluierungsverordnung (EvalVO) und auch Universitätssatzung der Universität Salzburg liegt die Verantwortung primär beim Studiendekan. Die Rolle des Vizerektors für Lehre ist nirgends festgelegt (im Aufgabenbereich Lehre für Vizerektoren, § 8 [1] bzw. [3], wird nichts über Evaluierungen ausgesagt). Eine rechtliche Klärung dieses Widerspruchs ist bislang nicht erfolgt und ist auch nicht in Aussicht.
Weitgehend klar ist demgegenüber, welche LV mit welcher Frequenz zu evaluieren sind. Das Gesetz spricht von Pflicht-LV, doch ist dieser Begriff nicht eindeutig. In den Erläuterungen zu § 6 der EvalVOwird dazu gesagt: "Unter Pflicht-LV werden alle jene LV zu verstehen sein, die in wenigstens einem Studienplan dem LV-Programm eines Pflichtfaches zugeordnet sind." Es ist dabei darauf hinzuweisen, dass angesichts der derzeitigen Sparmaßnahmen die meisten Institute aus finanziellen Gründen nicht in der Lage sind, mehr als das absolut Notwendige an Lehre anzubieten, d.h. sich auf im obigen Sinne definierte Pflicht-LV beschränken müssen. Dies bedeutet de facto, dass nur der kleinere Teil der Veranstaltungen nicht unter das Evaluierungsgebot fallen. Dies stimmt überein mit den Erläuterungen zu § 6 der EvalVO, wo empfohlen wird, von vornherein alle LV in die Bewertung durch die Studierenden einzubeziehen.
Für die Arbeit der AG von grosser Bedeutung sind die in den gesetzlichen Grundlagen angegebenen Funktionen und Ziele der Evaluierung. Dabei wird vor allem auf die allgemeinen Erläuterungen der EvalVO sowie die Erläuterungen zu § 1 Bezug genommen. Es wird deutlich, dass die Evaluierungen eine starke Steuerungsfunktion haben sollen. Konkret wurden die folgenden allgemeinen Ziele formuliert:
Dem stimmen wir zu und pochen darauf, dass
dies auch ernst genommen wird. Das bedeutet in jedem Fall, dass die
Evaluation Konsequenzen haben soll. Im Hinblick auf diese
Konsequenzen besteht jedoch von den gesetzlichen Rahmenbedingungen
her ein großer Spielraum, es ist wenig festgelegt. Jedenfalls
wird die Evaluierung in einem "Kreislaufmodell der Führung
(Management-Kreislauf)" gesehen, die eine Vorgabe oder Vereinbarung
von Zielen voraussetzt. Solche Zielvorgaben oder
ñvereinbarungen scheinen uns derzeit nur sehr beschränkt
gegeben zu sein.
Die Ressourcen sind zumindest teilweise ebenfalls unklar, und zwar in folgender Hinsicht: Es ist nicht klar, welche EDV-Infrastruktur für Evaluationsbelange eingesetzt werden können bzw. in welcher Hinsicht Evaluationsvorhaben durch die verantwortlichen Stellen (Universitätsdirektion, Vizerektorat Lehre, Zentraler Informatikdienst [ZID]) unterstützt werden und gegebenenfalls welche Bedingungen an diese Unterstützung gestellt werden. Ebenso ist unbekannt, welche finanziellen Ressourcen für das Evaluationsvorhaben verfügbar sind. Es betrifft dies ebenfalls Hardware, die angeschafft werden müsste (Belegleser), ferner den spezifischen Programmieraufwand entsprechend den noch zu präzisierenden Bedürfnissen, die zumindest in allgemeiner Form im Abschnitt 3.3.1 (Vertraulichkeitsstufen) angegeben wurden.
Demgegenüber ist grundsätzlich bekannt, welche Personalressourcen in den einzelnen Fakultäten bzw. Studiendekanaten verfügbar sind und über welche Voraussetzung (B- oder C-Stelle) die betreffenden Personen verfügen. Eine Umfrage dazu hat folgendes ergeben:
Dies bedeutet insgesamt 190% B und 60% C. Dabei ist allerdings zu betonen, dass diese Stellen mit Personen besetzt sind, die nicht spezifisch für Evaluationsfragen ausgebildet worden sind; sie können daher für allgemeine mit der Evaluation zusammenhängende Aufgaben eingesetzt werden, jedoch nicht für die vielen Aufgaben, die entsprechende Kenntnisse voraussetzen, also beispielsweise nicht für die Formulierung von Rahmenbedingungen, für die Entwicklung von Instrumenten oder bei der Konzeption und Programmierung der Auswertung. Dafür müssen zweifellos im Hinblick auf eine angemessene Evaluation zusätzliche Personal-Ressourcen verfügbar gemacht werden.
1.2.3 Voraussetzungen in den Instituten
In vielen Instituten erfolgte bereits bisher eine Beurteilung der Lehre durch die Studierenden, wobei eine Vielzahl unterschiedlicher Instrumente zum Einsatz kamen. Zu nennen sind beispielsweise die Theologische Fakultät, das Institut für Politikwissenschaft und das Institut für Erziehungswissenschaft, aber auch in vielen anderen Instituten wird die Lehre bereits evaluiert. Es war in der verfügbaren Zeit (zumal während der Semesterferien) nicht möglich, eine entsprechende an sich notwendige Erhebung durchzuführen. Das Faktum, dass Evaluationen schon bisher erfolgten, hat mindestens zwei Konsequenzen:
Es ist an dieser Stelle auch auf § 6, Absatz 1, der EvalVO zu verweisen, wonach die Erhebungen "mittels gänzlich oder teilweise fakultäts- oder universitätseinheitlicher Fragestellung" zu erfolgen hat ñ eine völlige Unabhängigkeit der institutsinternen Evaluationen ist deshalb damit nicht konform. Nachdem die Studiendekanate letztlich auch für die Auswertung zuständig sind und über die notwendigen Ressourcen verfügen, sind für die grossen Fakultäten individuelle oder institutsspezifische Instrumente auch nicht praktikabel. Im u.a. Vorschlag wird aber die Möglichkeit einer eigenen Fragestellung ergänzend zur einheitlichen Fragestellung ausdrücklich in Betracht gezogen.
1.2.4 Koordination
Das UOG 93 sieht Evaluierungen sowohl der Lehre wie auch der Forschung vor. Es erscheint sinnvoll, dass die entsprechenden Evaluationsvorhaben koordiniert werden. Es hat sich jedoch gezeigt, dass eine solche Koordination bisher nicht vorhanden ist. Im Einklang mit § 10 (1) der Anlage 3 F der Satzung der Universität Salzburg (Richtlinien für die Durchführung von Evaluierungsmaßnahmen in Forschung und Lehre) hat der Senat "zur Koordinierung aller Evaluierungsmaßnahmen" am 9.11.1999 eine ständige Evaluierungskommission eingesetzt; diese hat aber bislang noch keine Koordinationsaufgaben wahrnehmen können.
Folgende Sitzungen fanden statt:
Konstituierende Sitzung; Aufgabe,
Arbeitsplan, allgemeine Grundlagen
Arbeitsplan, allgemeine Grundlagen, Struktur
des Fragebogens, formelle Durchführung, Auswertung,
Verwendung der Informationen nach Vertraulichkeitsstufen, Inhalte
des Fragebogens
Selbstverständnis der Gruppe,
Rahmenbedingungen, Testlauf, Manuale, Ressourcen
Inhalte des Fragebogens
Ressourcen, Feedback-Modus,
Kontaktgespräche mit Universitäten
Ergebnisse der Umfrage, Ressourcen,
Feedback-Modus, Inhalte des Fragebogens, Struktur des
Fragebogens
Inhalt des Fragebogens,
Testlauf
Endredaktion
Endredaktion und
Abschluß
Zwischen den Sitzungen wurde ebenfalls sehr intensiv gearbeitet. An zwei Sitzungen und einem Teil einer dritten war auch Frau Mag. Herta Windberger (Sekretariat Vizerektor Lehre) an einem Teil einer Sitzung Mag. Stefan Bohuny (Controller) anwesend. Anton Bucher wurde erst spät in das Gremium aufgenommen und konnte aus Termingründen erst an den letzten Sitzungen teilnehmen.
Im Hinblick auf die Evaluationsthematik wird auf das Paper der "Österreichischen Gesellschaft für Psychologie (ÖGP)" verwiesen: "Kommentare und Informationen zur Evaluierung an österreichischen Universitäten (1999)". Dieses Papier enthält die wichtigsten Grundbegriffe und Probleme und ist im Anlage B wiedergegeben, damit das Basiswissen bezüglich der Thematik bei den Universitätsangehörigen verbessert werden kann. Folgende Grundprinzipien aus diesem Text seien speziell betont:
e1 Auch offene Fragen für die differenzierte Rückmeldung an die Lehrenden sind vorzusehen.
e2 Erhebungsinstrumente sollten den Testgütekriterien (u.a. Reliabilität, Validität) entsprechend den wissenschaftlichen Standards genügen.
e3 Auch standardisierte Fragen sind vorzusehen. Erhebung und Datenaufbereitung müssen auch bei großer Zahl von Veranstaltungen und Studierenden leicht möglich sein (Einsatz von Beleglesern).
e4 Zu häufige Vorgaben von Fragebögen an Studierende führt zu Beurteilungsmüdigkeit.
e5 Nicht berücksichtigt wurde die Forderung, die Datenerhebung in der Mitte des Semesters vorzunehmen, und zwar weil eine Datenerhebung am Ende ohnehin notwendig ist (sonst kann die Zielerreichung nicht erfasst werden), aber eine wiederholte Datenerhebung nicht förderlich ist (vgl. e4).
Gemäß den Erläuterungen zu § 1 (Ziele) der EvalVO scheint Evaluierung vor allem ein Instrument der Rechenschaftslegung ex post zu sein (ähnlich auch § 1 der Anlage 3 F ñ Evaluierung ñ der Satzung der Universität Salzburg). Dies mag gerechtfertigt sein, vor allem wenn von einem Top-Down-Konzept ausgegangen wird, wie es für die verschiedenen gesetzlichen Grundlagen prägend zu sein scheint. Auf der anderen Seite kann eine solche ex post Rechenschaftslegung nur dann als fair bezeichnet werden, wenn die Kriterien der Beurteilung und der Entscheidung zum Vorn herein bekannt sind und sich die Betroffenen danach richten können. Dies bedeutet, dass die Evaluation auch eine steuernde Funktion a priori haben sollte, d.h. nicht bloß nachträglich geprüft wird, ob die Kriterien erreicht worden sind, sondern möglichst früh deutlich gemacht wird, was man tun kann, um den Kriterien zu entsprechen, d.h. um die Entscheidungen zu beeinflussen ñ und nur so kann Qualitätsverbesserung realisiert werden. Wir verstehen unseren Auftrag auch in diesem Sinne, der sich indirekt aus der Gesetzeslage unter Berücksichtigung des Fairness-Argumentes ergibt. Qualitätsmanagement kann nur ernsthaft betrieben werden, wenn nicht nur ex post, sondern auch a priori Kriterien zum Tragen kommen.
Verfügbare Instrumente. Es gibt eine Fülle von Instrumenten zur Evaluation von Lehre, aber nur wenige erfüllen die Bedingungen der Zuverlässigkeit und Gültigkeit (teststatistische Kriterien, vgl. oben, e2). Ferner besteht das Problem, dass diese Instrumente nicht notwendigerweise die thematischen Bereiche zu erfassen erlauben, um die es nach Ansicht der AG bei der Evaluation der Lehre gehen sollte ñ deshalb wurde beschlossen, bei Bedarf auch ein eigenes Instrument zu schaffen und zu überprüfen.
Der Auftrag wurde von der AG so wahrgenommen, dass primär ein spezifisches Instrument ñ d.h. ein praktikabler Fragebogen - zu entwickeln und vorzuschlagen sei, das im Einklang mit den gesetzlichen Bestimmungen für die Beurteilung der Lehre durch die Studierenden eingesetzt werden könne. Bevor aber auf die spezifischen Instrumente eingegangen wird, sollten die Rahmenbedingungen festgelegt sein, denn das Instrument wird von den letzteren abhängen.
Die vorgegebenen Rahmenbedingungen sind relativ offen (vgl. oben, Abschnitt 1.2). Sie sind noch wenig konkret, so dass insbesondere unbekannt ist, ob, wie weit und in welcher Form die oben in 3.1 genannten Voraussetzungen für Evaluationen (Integration in ein Gesamtsystem, insbesondere Qualitätssicherung, Personalmanagement, Zielorientierung und Verwendung der Ergebnisse) gegeben sind oder sein werden. Deshalb hat sich die AG zunächst die Aufgabe gestellt, die Rahmenbedingungen in einer geeigneten Weise zu konzipieren, ohne aber diesbezügliche Beschlüsse, die nicht in ihre Kompetenz fallen, vorwegnehmen zu wollen.
Folgende Rahmenbedingungen werden als wesentlich erachtet:
e1 Die einzelnen Fächer sind nur begrenzt vergleichbar.
e2. Auch innerhalb der einzelnen Fächer bestehen Vergleichsprobleme.
e3. Die Güte der Lehre ist auch von Rahmenbedingungen abhängig, die der einzelne z.T. nicht beeinflussen kann. Insbesondere sind hier die verfügbaren Ressourcen, Raumbedingungen, Zahl der Studierenden, etc., zu berücksichtigen.
e4. Problematisch ist evtl. eine Reihung der Lehrenden aufgrund der Studentenurteile, weil dabei nicht vermieden werden kann, dass "populistische" Lehre hoch bewertet wird, d.h. die z.B. wenig von der Forschung getragen wird und wo die Lehrenden wenig Anforderungen stellen und bei der Benotung besonders mild sind.
Es besteht Konsens, dass differenzierte Rangreihen zu vermeiden sind.
g2. Personen mit Ergebnissen im mittleren Bereich: Hier wären die Personen vielleicht schriftlich auf das Ergebnis hinzuweisen mit der Bitte, Verbesserungslösungen zu suchen; auch diese Variante erfordert keinen hohen Zeitaufwand.
g3. Personen mit Ergebnissen im untersten Bereich (ca. unterste 25%): Hier wären in Einzelgesprächen mit den Betroffenen Verbesserungsmöglichkeiten zu suchen, wobei bei dieser Suche konkrete Umsetzungen einzuplanen wären, die nach ein bis zwei Jahren zu überprüfen wären. U.a. wäre auch das Mitarbeitergespräch ein sinnvolles Medium, um dieses Anliegen zu realisieren. Negative Sanktionen sind nur in Extremfällen in Erwägung zu ziehen.
Solange die Rahmenbedingungen für eine sinnvolle und umfassende Evaluation fehlen, ist eine zu komplexe universitäre Evaluation der LV wenig sinnvoll. Dennoch sollte man einen einheitlichen Rahmen anstreben, ohne stark zu differenzieren, um gewisse vergleichbare Aussagen treffen zu können.
3.3 Bedingungen der Beurteilung der Lehre durch die Studierenden
Es soll ein Fragebogen entwickelt werden, welcher den genannten Rahmenbedingungen entspricht und praktikabel ist. Beim augenblicklichen Stand der Dinge kann nur ein erster Entwurf zu einem solchen Instrument vorgelegt werden; an diesem wird weiter gearbeitet werden müssen. Es ist zu trennen zwischen der Struktur des Fragebogens, dem Vorgehen bei der Datenerhebung, dem vorgeschlagenen Umgang mit den Ergebnissen und dem Vorgehen bei der Weiterentwicklung des Fragebogens.
3.3.1 Wer bekommt welche Information?
Entsprechend der Ziele der LV-Evaluation mit dem Primat der Rückmeldung (3.2, Punkt g; vgl. auch 3.1, e1) und der Betonung, dass es nicht notwendig ñ und auch nicht sinnvoll ñ ist, alle Ergebnisse der allgemeinen Öffentlichkeit zugänglich zu machen, schlägt die AG die Unterscheidung von drei sog. Vertraulichkeitsstufen vor. Je nach Vertraulichkeitsstufe wird die gewonnene Information unterschiedlich verwendet. Für den LV-Leiter werden wir dabei die Abkürzung "LV-L" verwenden.
a) Erste Vertraulichkeitsstufe (Daten nur dem LV-L zugänglich)
Die Informationen der ersten Vertraulichkeitsstufe sind ausschließlich dem/der LV-L selbst zugänglich. Es ist ihm überlassen, ob er diese Information nur individuell auswertet, sie gemeinsam mit ausgewählten Kollegen analysiert oder sie von sich aus - etwa bei Karriereentscheidungen - den zuständigen Gremien vorlegt. Im Fragebogen wird deshalb ein Teil vorgesehen, der vom übrigen Fragebogen abgetrennt werden kann und nicht weitergegeben wird, sondern (je nach Erfassungsmodalität, vgl. unten, 3.3.4a) beim der LV-L verbleibt oder nur dem LV-L zugänglich gemacht wird. Im Sinne des differenzierten Feedbacks empfiehlt es sich dabei, offene Fragen mit freien Antwortmöglichkeiten zu verwenden; diese bieten dem/der LV-L auch eine gewisse Kontrolle gegenüber den Ergebnissen der standardisierten Bewertung der LV.
Standardisierte Daten über einzelne LV unterliegen der zweiten Vertraulichkeitsstufe. Sie sind nur dem LV-L selbst, dem Studiendekan, dem Studienkommissions-Vorsitzenden und der Studienkommission sowie dem Institutsvorstand zugänglich ñ es wird darauf verzichtet, ein spezielles Anforderungsverfahren zu regeln, weil dies den Ablauf erschweren würde und auch nicht im Interesse der Sache liegt, die Daten nur auf Anforderung weiterzugeben. Diese Daten können z.B. in Mitarbeiterbesprechungen zwischen Institutsvorstand und LV-L besprochen werden (im Sinne der unmittelbaren Rückmeldung, vgl. 3.2, Punkt g), wobei Interpretationshilfen und Anregungen für die Verwendung dieser Daten in Form eines Manuals zur Verfügung zu stellen sind (siehe dazu weiter unten). Eine Weitergabe an weitere Gremien (etwa Habilitations- oder Berufungs-Kommissionen oder im Rahmen weiterer Verfahren gemäß § 8, Abs. 1 der EvalVO) darf nur dann erfolgen, wenn der betroffene LV-L sich damit einverstanden erklärt hat ñ dies ist jedoch auch noch aus rechtlicher Sicht abzuklären.
Es kann sich dabei nur um Daten handeln, die EDV-mäßig erfasst und ausgewertet werden. Das Vorgehen ist wie folgt:
Der Öffentlichkeit (universitäre Öffentlichkeit, Ministerium, außeruniversitäre Öffentlichkeit) werden nur aggregierte Daten (z.B. für LV-Typen, Studienrichtungen, Fakultäten, Universität) und dies nur zusammen mit einer Interpretation zur Verfügung gestellt. Die Interpretation hat u.a. die Rahmenbedingungen der Lehre in den jeweiligen Studienrichtungen bzw. Instituten zu berücksichtigen. Die Veröffentlichung von Daten über einzelne LV oder LV-L oder von aggregierten Daten ohne Interpretation und Vergleichbarkeit erscheint nicht als sinnvoll und wird deshalb abgelehnt.
3.3.2 Struktur des Fragebogens
Das Evaluationsinstrument zur Beurteilung von LV durch die Studierenden soll aus fünf Teilen bestehen:
Die Teile 3 und 5 sind auf separaten Blättern zu erfassen, die problemlos vom restlichen Fragebogen abgetrennt werden kann.
Die AG konzentriert sich auf die ersten drei Teile und sieht es nicht als ihre Aufgabe an, den vierten und fünften zu präzisieren, obwohl diesbezügliche Hilfestellung zu einem späteren Zeitpunkt nicht ausgeschlossen werden.
Die LV-L werden beauftragt, in der Zeit, während der die Studierenden ihren Fragebogen ausfüllen, ihrerseits einen Bogen ausfüllen, welche allgemeine Informationen erfassen. Dieser LV-L-Bogen muss noch konzipiert werden.
3.3.3 Fragebogen-Versionen für verschiedene LV-Typen
Es sollen drei unterschiedliche Versionen von Fragebögen entwickelt werden, die sich an unterschiedliche LV-Typen richten. Die Studienkommissions-Vorsitzenden haben (gegebenenfalls im Kontakt mit den LV-L) zu entscheiden, welche Version für welche LV zutrifft und den entsprechenden Fragebogen zuzuweisen.
Der vorliegende Entwurf (Anlage A) ist noch nicht auf einen bestimmten Veranstaltungstyp zugeschnitten; es wird noch festzulegen sein, ob und inwiefern für die verschiedenen Veranstaltungstypen Ergänzungen notwendig sind oder sich einzelne Bereiche als überflüssig erweisen. Die entsprechenden Entscheidungen sollten insbesondere in Zusammenarbeit mit den Studienkommissions-Vorsitzenden erfolgen, damit auch die fach- oder disziplinspezifischen Anliegen und Bedürfnisse bei den verschiedenen Versionen berücksichtigt werden können.
Dabei sind zusätzliche Parameter als Moderatorvariablen zu erheben (z.B. Studentenzahlen, Betreuungsdichte etc.), damit es bei der Interpretation nicht zu Fehlschlüssen kommt. Dies kann im oben genannten LV-L-Fragebogen erfasst werden.
3.3.4 Vorgehen bei der Datenerhebung
a) Online oder mit Belegleser
Es wird betont, dass ein Instrument verfügbar sein muss, das maschinenlesbar ist (vgl. auch die EvalVO, § 6, Abs. 1); dies wird mit den ersten beiden Strukturelementen des Fragebogens (vgl. oben, 3.3.1) erfüllt. Allenfalls kann man zusätzlich zu einem allgemeinen Teil fakultäts- oder institutsspezifische Teile verwenden, von denen einzelne (Teil 4) maschinenlesbar sein können, andere (Teil 5) nicht. Bevor aber auf die spezifischen Instrumente eingegangen wird, sollten die Rahmenbedingungen für die Informationsverarbeitung festgelegt sein, von denen das Instrument dann auch abhängen wird.
Grundsätzlich sind zwei Optionen denkbar:
Sind die Daten einmal erfasst, erfolgt die weitere Verarbeitung mit Ausnahme der Verfahrensweise bezüglich der ersten Vertraulichkeitsstufe gleich.
Die AG hat sich sehr intensiv damit befasst, welcher der genannten Optionen der Vorzug zu geben ist, zumal von Seiten des Vizerektorates und der Administration eine Bevorzugung der Option A signalisiert wurde. Trotzdem ist sie zum Schluss gekommen, dass das Verfahren B in vielen Aspekten dem Verfahren A überlegen und in einigen zumindest ebenbürtig ist. Eine vergleichende Auflistung der wichtigsten Argumente findet sich in Tabelle 1; die einzelnen Punkte werden zusätzlich nachfolgend erläutert, wobei angesichts der gegensätzlichen Standpunkte zwischen Vizerektorat/Administration und AG die Darstellungen relativ ausführlich erfolgen.
Beim Verfahren B (Belegleser) ist die
Anonymität grundsätzlich gegeben, es sei denn der LV-L
schaue während des Ausfüllens, was die einzelnen
Studierenden schreiben, was explizit ausgeschlossen werden muss.
Die Fragebogen selber sind ja anonym. Bei den offenen Fragen
(Teile 3 und 5 des Fragebogens, vgl. 3.3.2) werden die
entsprechenden Seiten des Fragebogens getrennt eingesammelt, und
der LV-L behält diese Seiten bei sich. Bei LV mit kleinen
Hörerzahlen weiß der LV-Leiter, wer anwesend war, und
kann seine Schlüsse über das Antwortverhalten ziehen,
ferner kann er allenfalls durch einen Schriftenvergleich
feststellen, wer was geschrieben hat.
Beim Verfahren A (online) muss
sichergestellt werden, dass nur Studierende den Fragebogen
beantworten, die dazu auch berechtigt sind. Dies kann so
geschehen, dass jedem Studierenden der LV eine Code-Nummer gegeben
wird, die dieser einmal verwenden kann und die so gestaltet ist,
dass eine Wiedererkennung des Studierenden ausgeschlossen ist
(Randomisierung). Es erscheint sinnvoll, dass dieser Code an einer
der letzten Veranstaltungen des Semesters an die Anwesenden
vergeben wird; falls eine Anwesenheitsliste geführt wird,
kann ein Code auch nachträglich an Abwesende gegeben werden
ñ für diese ist aber jedenfalls zumindest die
subjektive Anonymität nicht mehr gegeben. Bei kleinen
Hörerzahlen gilt das gleiche wie für die Option B,
außer dass kein Schriftvergleich erfolgen kann. Auf der
anderen Seite ist zu betonen, dass von den Studierenden zu
verlangen ist, dass sie nicht mit ihrem normalen Account
einsteigen (dann könnte man die Herkunft der Daten einfach
zurückverfolgen) ñ ein zusätzlicher Aufwand, dem
sich möglicherweise nicht alle Studierenden aussetzen wollen,
sondern lieber eine verringerte subjektive Anonymität in Kauf
nehmen.
Insgesamt scheinen uns sowohl subjektive als
auch objektive Anonymität für beide Verfahren bei
entsprechenden Vorkehrungen realisierbar, wobei kein Verfahren
einen Vorteil aufweist.
Tabelle 1: Übersicht über die wichtigsten Argumente für bzw. gegen die beiden Optionen (A: Online; B: Belegleser)
|
Anonymität, aber Verhinderung der "Stimmabgabe" von Nicht-Berechtigten |
Studentencode in jeder LV anders. Technisch machbar, wenn Studierende nicht mit dem normalen Account einsteigen. "Codekontrolllisten" ohne Namensnennungen notwendig. |
|
Anonymität gegeben. Bogen können alle Studierenden abgeben, die am Tag des Austeilens die LV besuchen ñ Bögen werden eingesammelt. Bei offenen Fragen wäre theoretisch ein "Schriftvergleich" möglich. |
||||
|
Repräsentativität |
Reduzierte Responderrate. Selektive (nicht-repräsentative) Stichprobe, da nur ein Teil der Studierenden sich den Zugang/Kompetenz-/Zeitbudget zum Ausfüllen am PC verschafft; Verfälschungen durch Verzerrungen sind vorprogrammiert. Einige Studienrichtungen oder Studierendengruppen klar benachteiligt. Manipulation der Stichprobe möglich |
|
Anwesenheitsstichprobe zum Zeitpunkt X. Verzerrungen theoretisch möglich, wenn nur ein "selektiver Teil des üblichen Auditoriums" da ist. Grundsätzlich findet aber die Rückmeldung von allen Studierenden zu einem (gemeinsamen) Zeitpunkt statt (Vollerhebung). |
||||
|
Kosten |
EDV-Ausstattung: zusätzliche Kosten, weil ev. Zusätzliche PCs angekauft werden müssen. Flächendeckendes Netz über alle Fakultäten gegeben? Gesamtkosten: derzeit nicht abschätzbar (Intranet/Programmierungsaufwand/ PCs); Zeitaufwand bei der Abgleichung von Codes (Zufallszahlen) und Berechtigung. |
|
EDV-Ausstattung: zusätzliche Kosten: Belegscanner um ca. 70ë000 plus Software (100'000). Eine Woche im Dauerbetrieb + Personal, um die Fragebögen "nachzufüttern". Fragebogen-Druckkosten bei Vollerhebung und Routinebetrieb: ca. 7ë000-14ë000 Responder pro Semester -> 7'000 bis 14ë000; Gesamtkosten kalkulierbar. |
||||
Studierende: Aufwand steigt, weil S. Zusatztermine außerhalb der LV brauchen, um in den Zeiten, in denen die EDV-Poolräume nicht genutzt werden, ihre Feedbacks einzutippen. Ev. Administrativer und koordinierender Mehraufwand, wenn lange "Staus" vermieden werden sollten. (Bei LV in Computerräumen KEIN Mehraufwand) |
|
Studierende: 15 Minuten in jeder LV, die im Semester besucht wird. |
||||||
Lehrende: verlieren etwas Zeit bei der Vergabe der Codes, müssen aber keine Zeit für den Fragebogen in der LV abzwacken. Müssen Zeit investieren, um sich die Informationen zur ersten Vertraulichkeitsstufe zu organisieren. |
|
Lehrende: verlieren ca. 15 Minuten in einer der letzten Sitzungen, haben aber keinen zusätzlichen administrativen Aufwand. |
|
Aspekt |
|
|
|
|
Bias |
Trennung von offenen und geschlossenen Fragen führt zu Verlusten an Vergleichbarkeit. Gegenseitige soziale Beeinflussung der Studierenden. Zeitliche Abstand zwischen LV und Bewertung kann groß sein Verfälschung durch Diskriminationsprobleme, wenn in eine Online-Sitzung gleich 3-5 LV beurteilt werden. (teilweise schlägt der HALO-Effekt durch, Globalurteil über Person X "verwäscht" dessen unterschiedlichen LV, etc.) Stimmung anders als in LV Freiwilligkeitsreduktion führt zu Reaktanz. |
|
Soziale Effekte im Hörsaal durch Umgebung grundsätzlich möglich LV-Bias |
|
Datensicherheit |
Alles läuft über das ZID, Mißbrauch auf Vertraulichkeitsstufe 1 möglich. |
|
Daten der Stufe 1 werden nicht gespeichert; Daten der Stufe 2 können von Mitarbeitern eingesehen werden. |
|
Akzeptanz |
Überzeugungsarbeit extrem aufwendig |
|
Überzeugungsarbeit |
den Fragebogen beantworten sollen (vgl.
aber unten, 3.3.6: Varianten), eine andere als randomisierte
Auswahl aber zu Verzerrungen führen würde, ist eine
Vollerhebung anzustreben, d.h. alle teilnehmenden Studierenden
sollten erfasst werden. Es ist jene Methode vorzuziehen, welche
eine solche eher ermöglicht.
Bei der Option A (online) sind
Verzerrungen sehr wahrscheinlich. Die Erfahrungen an der
Universität
Linz, die dieses Verfahren
teilweise praktiziert, zeigen eine Antwortquote von ca. 30% bei
Pflicht-LV (bei Freifächern bis zu 80%, doch sind diese
für uns nicht relevant). Da Anlass zur Annahme besteht, die
Responder würden sich systematisch von den Non-Respondern
unterscheiden ñ es gibt eine Fülle von plausiblen
Hypothesen über solche Unterschiede -, muss von einer stark
verzerrten Stichprobe ausgegangen werden, wobei allerdings die
Verzerrungsrichtung im einzelnen nicht angegeben werden kann. Ein
Verzerrungsaspekt betrifft dabei die Vertrautheit mit dem Umgang
mit Computern; hier kann man z.B. Unterschiede zwischen
Studierenden verschiedener Studiengängen vermuten: zu
erwarten ist ein deutlich höherer Responder-Anteil in
Fächern, in denen intensiv mit dem Computer gearbeitet wird,
als in Fächern, in denen sich der Computer noch nicht als
Werkzeug etabliert hat; die Repräsentativität der
Antworten für die letzteren wäre also deutlich
vermindert. Berufstätige und Auswärtige, die nicht ohne
weiteres Zugang zu Computern haben, sind ebenfalls benachteiligt.
Stichproben-Verzerrungen können ferner auftreten, wenn
verärgerte Studierende häufiger ("Dem LV-L gebë
ichís jetzt mal!") oder seltener ("Ich will nichts mehr mit
der LV zu tun haben") antworten als zufriedene oder wenn einzelne
(z.B. verärgerte) Studierende Kommilitonen, von denen sie
wissen, dass sie der selben Meinung sind, zur Beantwortung
auffordern ñ hier kann die Initiative einzelner
Studierender zu systematischen Verfälschungen
führen.
Bei der Option B (Belegleser) werden
diejenigen Personen erfasst, welche zum Erhebungszeitpunkt
anwesend sind. Falls nur ein selektiver Teil des Auditoriums
anwesend ist, kann eine Verzerrung vorkommen; im Normalfall aber
handelt es sich in der Tat um eine Vollerhebung, reduziert um
diejenigen Personen, die aus welchem Grund auch immer nicht
anwesend sind ñ der Grund wird in den seltensten
Fällen direkt mit Aspekten zusammenhängen, die für
die Evaluation relevant sind. Die Responder-Zahl wird der
durchschnittlichen Teilnehmerzahl nahe kommen ñ und man
kann sicher sein, dass diese Teilnehmer zumindest einmal an der LV
teilgenommen haben. Systematische Aktivitäten von
Studierenden zur Verzerrung der Stichprobe sind zwar nicht
auszuschließen, sie wären jedoch sehr aufwendig
(einzelne Personen ansprechen, in die LV zu kommen, wenn die
Evaluation ansteht) und deshalb ausgesprochen
unwahrscheinlich.
Insgesamt kommen wir deshalb zum Schluss,
dass im Hinblick auf die Repräsentativität die Option B
der Option A deutlich überlegen ist: Verfälschungen sind
bei B sehr unwahrscheinlich, bei A sehr
wahrscheinlich.
Bei Option B wird demgegenüber nur
ein Aufwand von ca. 15 Minuten innerhalb jeder
Lehrveranstaltung, die jemand besucht, verlangt, kein
zusätzlicher Aufwand, kein zusätzliches Daran-Denken
etc.
Diese Auflistung zeigt, dass die Option A (online) in keinem Punkt der Option B (Belegleser) überlegen ist. Für uns sind es vor allem die Punkte, die eine Verfälschung der Resultate bewirken können (Repräsentativität, 2; Differentielle Validität und Biases, 4), welche gegen die Option A sprechen. Dabei muss betont werden, dass es sich bei den angegebenen Effekten keineswegs um Erfindungen unsererseits handelt, sondern dass alle diese Effekte durch viele Forschungen abgesichert sind (u.a. durch theoretische Analysen der Autoren dieses Berichtes). Ferner wurde von den Protagonisten der Option A kein einziges Argument beigebracht, das zugunsten der Option A sprechen würde; als einziges Argument wurde die "Zukunftsorientierung" genannt, doch greift dieses Argument zu kurz, da das Hauptziel der Evaluation ein Feeback mit validen Daten sein soll, um die Lehre zu verbessern ñ darauf nimmt dieses Argument nicht Bezug.
Zwecks Absicherung dieser Überlegungen wurde eine Umfrage bei verschiedenen österreichischen Universitäten durchgeführt; ferner wurde auch die ETH Zürich einbezogen, weil sie als Beispiel für gute Evaluation genannt wurde und auch in den Erläuterungen zur § 6, Absatz 3, der EvalVO ñ wenn auch in anderem Zusammenhang ñ explizit als Beispiel angegeben wird. Wir verzichten an dieser Stelle auf eine ausführliche Zusammenstellung der Ergebnisse (vgl. die Protokolle der Sitzungen den AG), sondern verweisen nur darauf, dass (a) diejenigen Universitäten, welche die Option A verwenden, dies nur in kleinem Rahmen und mit teilweise geringer Responder-Rate getan haben (und außerdem die Voraussetzungen im Hinblick auf die Hardware deutlich günstiger sind: Linz), (b) dass die Verantwortlichen für die Evaluation an diesen Universitäten bezüglich unserer Validitäts-Einwände ñ die akzeptiert wurden - keine Möglichkeiten angaben, um die Probleme zu überwinden, und (c) die anderen Universitäten die Option B gewählt haben und damit zufrieden sind; letzteres gilt auch für die ETH-Zürich. Auch die Universität arbeitet mit Beleglesern. Insgesamt ergibt sich also eine eindeutige Priorität der Option B; angesichts der Sachlage würde die Realisation der Option A in jedem Fall zu Invalidität der Ergebnisse führen und damit die Evaluation wertlos machen.
Für die Arbeit mit dem Belegleser sind grundsätzlich mehrere Vorgehensweisen möglich; folgende wurden erwogen:
Offen bleibt bis auf weiteres, wer die Kosten dafür trägt: Studiendekane, Fakultäten, Vizerektor. Auch für das Programmieren der Auswertung müssen finanzielle Mittel vorgesehen werden. Dies kann beispielsweise auf Werkvertragsbasis erfolgen, muss aber durch jemanden realisiert werden, der (a) sich im Programmieren (SPSS) auskennt und (b) etwas von Evaluation versteht.
b) Durchführung der Datenerhebung im Veranstaltungsraum
Nachdem die Entscheidung zugunsten der Option B (Belegleser) zumindest innerhalb der AG gefällt worden ist, muss nun entschieden werden, wie die Datenerhebung konkret abzulaufen hat. Grundsätzlich gelten folgende Prinzipien:
3.3.5 Umgang mit den Ergebnissen
Es sollten Manuals erarbeiten werden, die
den betroffenen LV-L und den zuständigen universitären
Funktionsträgern bzw. Gremien Anregungen für die
Interpretation und Benützung der Evaluierungsergebnisse bieten
sollen. Diese Manuals müssen kurz und prägnant sein und die
"Übersetzung" der im Output angegebenen Daten in brauchbare
Informationen ermöglichen. Die Manuals sind noch zu
erstellen.
3.3.6 Evaluation des Instrumentes
Das vorgesehene Instrument muss erst noch einer eigenen Evaluation unterzogen werden. Zu diesem Zweck wird im Sommersemester 2000 bei einer reduzierten Zahl von LV eine Evaluation durchgeführt ("Pilotphase"), in der verschiedene Varianten des Fragebogens eingesetzt werden, wobei die Fragebogen-Varianten zufällig auf die jeweils anwesenden Studierenden verteilt werden (randomisierte Gruppenzuteilung).
Es werden zwei unterschiedlich lange Fragebögen verwendet werden: Eine Kurzfassung und eine Langfassung. Ferner werden zwei Antwortmuster erprobt: fünfstufig und siebenstufig.
Für diese Pilotphase ist es nicht erforderlich, dass alle Pflicht-LV erfasst werden. Es geht ja zunächst darum, das Instrument zu erproben, nicht aber Angaben zu den einzelnen LV zu erheben.
Für die Durchführung der
Pilotphase sind Personalmittel erforderlich; die anstehenden Arbeiten
können nicht durch die AG realisiert werden.
3.3.7 Entwicklung eines Beurteilungsinstrumentes
Als zentraler Auftrag der AG wurde die Formulierung eines Beurteilungsinstrumentes angenommen. Das Instrumente sollte nach allen Regeln der Kunst formuliert werden, wobei das Instrument nicht zu lange sein darf. Wir stellen zunächst ein paar methodologische Überlegungen an, stellen dann die relevanten Dimensionen dar und beschreiben dann das Instrument.
Bei der Itemformulierung müssen mehrere Prinzipien unterschieden werden:
Es sei an dieser Stelle betont, dass die oben genannten Überlegungen in der Evaluationsdiskussion kaum je angestellt werden. Nichtsdestoweniger erscheinen sie ausgesprochen wichtig. Dies sind ebenfalls Gründe, warum nicht ein bestehendes Instrument übernommen werden kann, sondern ein eigenes Instrument entwickelt und in einer Pilotphase getestet wird.
In der Literatur zur Evaluation der Lehre durch die Studierenden werden sehr viele Dimensionen erfasst. Im Prinzip müsste bei der Bestimmung der zu erfassenden Variablen von einer hochschuldidaktischen Konzeption ausgegangen werden. Dies konnte von der AG in der kurzen verfügbaren Zeit nicht geleistet werden, zumal diesbezüglich ein Konsens auf breiter Ebene notwendig wäre. Die AG ist sich jedoch einig, dass die sozialen Beziehungen zwischen LV-L und Studierende eine wesentliche Rolle spielen; deshalb wurden einige soziale Variablen eingeführt. Folgende Dimensionen wurden als wesentlich erachtet (die Dimensionen sind numeriert, damit die Items jeweils zugeordnet werden können):
Die einzelnen Items finden sich im Fragebogen, der in der Anlage A wiedergegeben ist.
Bei Instrumenten mit beschränkter Länge, die aber eine Reihe von Aspekten abdecken sollen, besteht ein Bandbreite-Reliabilitäts-Dilemma. Bei diesem Dilemma geht es darum, dass ein Instrument bei einer gegebenen Länge entweder wenig Aspekte, diese aber zuverlässig erfassen kann, oder aber viele Aspekte, diese aber wenig zuverlässig. Dies hängt damit zusammen, dass die Reliabilität eines Instrumentes mit der Länge steigt (Spearman-Brown-Ansatz), d.h. je mehr Items vergleichbaren Inhalts eine Skala hat, desto zuverlässiger sind die Ergebnisse. Die AG hat sich entschlossen, jeweils drei Items pro Skala zu verwenden; dies scheint das Minimum zu sein, damit eine ansprechende Reliabilität erreicht werden kann. Da es bei diesem Instrument nicht darauf ankommt, Informationen über den einzelnen Beantwortenden zu gewinnen (dafür wäre eine sehr hohe Reliabilität notwendig), sondern Mittelwerte über im Idealfall relativ große Stichproben zu ermitteln, kann eine geringere Reliabilität als in der Testliteratur üblich akzeptiert werden, auch wenn sie nicht wünschbar ist.
In der Pilotphase wird es notwendig sein, ein längeres Instrument zu verwenden. Die Ergebnisse werden zeigen, welche Items eliminiert werden können bzw. welche Dimensionen oder Skalen eine hohe gemeinsame Varianz aufweisen und deshalb zusammengelegt werden können. Das endgültige Instrument wird also kürzer sein als dasjenige, das unten vorgestellt wird.
Die erste Version des vorgeschlagenen Instrumentes ist in der Anlage A wiedergegeben. Erste Feedbacks, die eingeholt wurden, betreffen folgende Punkte:
Insgesamt sind die ersten informellen
Rückmeldungen recht positiv. Das Instrument sollte nun von den
verschiedensten Gremien gründlich hinterfragt werden, wobei wir
uns bewusst sein müssen, dass es unmöglich ist, alle
Ansprüche zu berücksichtigen.
Eine genaue Kostenschätzung kann nicht
vorgenommen werden. Diese kann erst nach der Pilotstudie SS 2000
erfolgen. Folgende beiden Kostenbereiche sind
vorhersehbar:
a) Einmalige Kosten bei der Implementierung (SS 2000)
Für das weitere Vorgehen muss zwischen dem Entscheidungsprozess (Entscheidungen über die Rahmenbedingungen, das Instrument, die weiteren Schritte zur Entwicklung des Instrumentariums) und der Entwicklung des Instrumentariums (Detailformulierung des Instrumentes; begleitende Materialien wie Manuals etc.; ferner Programmierung und Konkretisierung) unterschieden werden.
Das weitere Vorgehen gestaltet sich wie folgt:
4.2 Entwicklung des Instrumentariums
Nachdem die in 4.1 genannten Entscheidungen
getroffen worden sind, kann das Instrument in die Pilotphase gehen.
Über die einzelnen Schritte wird im SS 2000 von der AG
entschieden.
Zurück zur Übersicht