Selbst- und Mitkandidatenurteile im Entwicklungs-Assessment Center. Eine Untersuchung zu Validität und Urteilstendenzen


Diplomarbeit, 1997

173 Seiten, Note: 2


Leseprobe


Inhaltsangabe

Verzeichnis der Tabellen

Verzeichnis der Abbildungen

Verzeichnis der verwendeten Abkürzungen

1 Einleitung
Theoretischer Teil

2 Beobachtung und Beurteilung von Verhalten im Unternehmen
2.1 Beurteilungsverfahren
2.2 Prozeß der Urteilsbildung
2.2.1 Beobachtungs-Bewertungs-Gewichtungs-Modell von Borman (1978)
2.2.2 Die Theorie von Wherry und Bartlett (1982)
2.2.3 Ansatz von Schuler (1982): Beurteilen als Messen und Interpretieren
2.2.4 Verhaltens-Eindrucks-Aussage-Modell von Brandstätter (1969, 1983)
2.2.5 Modell von Ilgen und Feldman (1983)
2.2.6 Das kognitive Modell von DeNisi, Cafferty und Meglino (1984)
2.2.7 Das Modell der Leistungsbewertung von Campbell und Lee (1988)
2.2.8 Zusammenfassung

3 Assessment Center-Verfahren
3.1 Geschichte der Assessment Center-Verfahren
3.2 Das Assessment Center im Rahmen der Personalentwicklung
3.3 Das Entwicklungs - Assessment Center
3.3.1 Elemente des Assessment Centers
3.3.2 Teilnehmer und Beobachter
3.3.3 Urteilsdimensionen
3.4 Testtheoretische Qualität des Assessment Center
3.4.1 Objektivität
3.4.2 Reliabilität
3.4.3 Validität
3.4.3.1 Konstruktvalidität
3.4.3.1.1 Konstruktvalidierung nach Campbell und Fiske
3.4.3.1.2 Faktorenanalytische Auswertung
3.4.3.1.3 Moderatoren der Konstruktvalidität
3.4.3.2 Kriteriumsbezogene Validität
3.4.3.2.1 Moderatoren der Kriteriumsvalidität
3.5 Urteilstendenzen
3.5.1 Korrelationstendenzen: Der Halo-Effekt
3.5.2 Mittelwertstendenzen: Der Milde- bzw. Strenge-Effekt
3.5.3 Streuungstendenzen: Zentrale Tendenz
3.5.4 Ähnlichkeits-, Kontrast- Eindrucks- und Erwartungseffekte
3.5.5 Vermeidung von Urteilstendenzen
3.6 Soziale Validität
3.7 Zusammenfassung zur Qualität von Beobachterurteilen im AC

4 Nutzung von Selbst- und Kollegenurteilen in Organisationen
4.1 Selbst- und Mitkandidatenurteile im Assessment Center
4.1.1 Das planspielgestützte AC
4.1.2 Das Lernpotential - AC
4.1.3 Das Orientierungs-Center
4.1.4 Zusammenfassung
4.2 Selbstbeurteilung
4.2.1 Theoretische Begründung des Selbstbeurteilungsprozesses
4.2.2 Einsatz und Verfahren zur Erhebung von Selbsturteilen
4.2.3 Testtheoretische Qualität
4.2.3.1 Reliabilität
4.2.3.2 Validität
4.2.3.2.1 Konstruktvalidität
4.2.3.2.2 Kriteriumsbezogene Validität
4.2.3.2.3 Moderatoren der Validität
4.2.4 Urteilstendenzen
4.2.5 Selbstbeurteilung im Assessment Center
4.2.6 Potentieller Nutzen von Selbsturteilen für Unternehmen
4.2.7 Zusammenfassung
4.3 Kollegen- und Mitkandidatenbeurteilung
4.3.1 Verfahren der Kollegenbeurteilung
4.3.2 Testtheoretische Qualität
4.3.2.1 Reliabilität und Validität
4.3.2.2 Moderatoren der Validität
4.3.3 Urteilstendenzen
4.3.4 Mitkandidatenbeurteilung im Assessment Center
4.3.5 Zusammenfassung

5 Der soziale Urteilsprozeß im Assessment Center
5.1 Ebene des Verhaltens
5.2 Ebene des Eindrucks
5.3 Ebene der Aussage
5.4 Zusammenfassung
5.5 Untersuchung von Selbst- und Mitkandidatenurteilen
5.6 Hypothesen

6 Untersuchungsablauf
6.1 Ablauf des Assessment Center
6.2 Im Assessment Center eingesetzte Verfahren
6.2.1 Präsentation
6.2.2 Gruppendiskussion
6.2.3 Rollenspiel
6.3 Datenerhebung
6.4 Kritische Betrachtung des Untersuchungsdesigns
6.5 Auswertungsmethoden

7 Ergebnisdarstellung
7.1 Multi-Trait-Multi-Method-Matrizen der Beobachtergruppen
7.1.1 Konstruktvalidität bei Selbsturteilen
7.1.2 Konstruktvalidität bei Mitkandidatenurteilen
7.1.3 Konstruktvalidität bei Beobachterurteilen
7.2 Kriteriumsbezogene Validität
7. 3 Korrelationstendenzen: Der Halo-Effekt
7.4 Mittelwertstendenzen: Der Milde- bzw. Strenge-Effekt
7.5 Streuungstendenzen: Zentrale Tendenz
7.6 Soziale Validität
7.6.1 Itemanalyse
7.6.2 Auswertung der Ergebnisse
7.6.3 Zusammenfassung

8 Diskussion
8.1 Selbsturteile
8.2 Mitkandidatenurteile
8.3 Zur Fragestellung der Studie
8.4 Ausblick

Literaturverzeichnis

Anhang A: Urteilsdimensionen und ihre Operationalisierung für die Selbstbeurteilung:

Anhang B: Urteilsdimensionen und ihre Operationalisierung für die Mitkandidaten- bzw. Beobachterbeurteilung:

Anhang C: Fragebogen zur Sozialen Validität

Anhang D: Hauptkomponentenanalyse der Kollegen-, Selbst- und Beobachterurteile

Vorwort

Ich möchte mich an dieser Stelle herzlich bedanken!

Mein besonderer Dank gilt Dipl.-Psych. Dietmar Freund und Dipl.-Psych. Astrid Kuhlemann, die es mir ermöglicht haben, die umfangreiche Datenerhebung zur vorliegenden Studie aufzunehmen. Auch die fachliche Unterstützung, Tips und Anregungen waren sehr wertvoll für mich.

Ich bedanke mich bei Josef Bauer, der sich aufopferungsvoll an der Datenerhebung beteiligt hat.

Meinen Betreuern im Fachbereich Wirtschafts- und Organisationspsychologie der Universität Bonn, Dr. Stefan Poppelreuter und Prof. Dr. Walter Neubauer danke ich für vielfältige Anregungen und die kritische Durchsicht dieser Arbeit.

Verzeichnis der Tabellen

Tab. 1 Entwicklungstendenzen im Zusammenhang mit Selbst-/Fremdbeurteilung

Tab. 2 MTMM-Matrix der Beobachterurteile eines Assessment-Center Verfahrens

Tab. 3 Faktorladungen der Beobachterurteile eines dynamischen Assessment Center

Tab. 4 Kriteriumsvalidität der Assessment Center-Endbeurteilung in verschiedenen Studien

Tab. 5 Validität der Selbstbeurteilung in verschiedenen Untersuchungen

Tab. 6 Die wichtigsten Urteilstendenzen bei Selbsturteilen in verschiedenen Studien

Tab. 7 Validität und Verzerrungstendenzen bei Selbsturteilen im Assessment Center

Tab. 8 Validität von Peerurteilen in verschiedenen Studien

Tab. 9 Validität von Mitkandidatenurteilen im Assessment Center

Tab. 10 Zuordnung der Dimensionen zu den Gruppenübungen

Tab. 11 Statistische Erfassung der Konstrukte und Entscheidungskriterien

Tab. 12 Multi-Trait-Multi-Method-Matrix der Selbsturteile

Tab. 13 Hauptkomponentenanalyse mit Varimax-Rotation der Selbsturteile

Tab. 14 Multi-Trait-Multi-Method-Matrix der Mitkanditatenurteile

Tab. 15 Hauptkomponentenanalyse mit Varimax-Rotation der Mitkandidatenurteile

Tab. 16 Multi-Trait-Multi-Method-Matrix der Beobachterurteile

Tab. 17 Hauptkomponentenanalyse mit Varimax-Rotation der Beobachterurteile

Tab. 18 Multi-Trait-Multi-Rater-Matrix zur Übung Gruppendiskussion I

Tab. 19 Multi-Trait-Multi-Rater-Matrix zur Übung Konfliktgespräch

Tab. 20 Multi-Trait-Multi-Rater-Matrix zur Übung Gruppendiskussion II

Tab. 21 Multi-Trait-Multi-Rater-Matrix zur Übung Führungsgespräch

Tab. 22 Anzahl der signifikanten Korrelationen zwischen der Urteilen der Beobachtergruppen im Verhältnis zur Anzahl der erhobenen Korrelationen

Tab. 23 Anzahl der Faktoren und durch den ersten Faktor von Hauptkomponenten-analysen aufgeklärter Varianzurteil für die drei Urteilsquellen

Tab. 24 Mittelwerte der durchschnittlichen Urteile der Beobachtergruppen in den Übungen

Tab. 25 Vergleich der Mittelwerte der Urteile der Beobachtergruppen im Verlauf des Verfahrens

Tab. 26 Mittelwerte der Urteile der Beobachtergruppen in den Urteilsdimensionen

Tab. 27 Standardabweichungen der Urteile

Verzeichnis der Abbildungen

Abb. 1 Beobachtungs-Bewertungs-Gewichtungsmodell von Borman

Abb. 2 Die wichtigsten Quellen des Einflusses auf die soziale Urteilsbildung im Verhaltens- Eindrucks-Aussage-Modell

Abb. 3 Modell des Beurteilungsprozesses nach DeNisi et al

Abb. 4 Modell von Campbell & Lee zu den verzerrenden Einflüssen zwischen Selbst- und Fremdbewertungsprozeß

Abb. 5 Beispiel für eine Multitrait-Multimethod-Matrix mit drei Traits und drei Methoden

Abb. 6 Ein Modell des psychologischen Vorgangs der Selbstbeurteilung

Abb. 7 Urteilsskala zur Selbst- und Mitkandidatenbeurteilung

Abb. 8 Korrelationsmatrix der durchschnittlichen Beobachterurteile in der Übung Gruppendiskussion I

Abb. 9 Korrelationsmatrix der durchschnittlichen Beobachterurteile in der Übung Konfliktgespräch

Abb. 10 Korrelationsmatrix der durchschnittlichen Beobachterurteile in der Übung Gruppendiskussion II

Abb. 11 Korrelationsmatrix der durchschnittlichen Beobachterurteile in der Übung Führungsgespräch

Abb. 12 Korelationsmuster des errechneten Overall Rating

Abb. 13 Scatterplot-Darstellung zur Korrelation zwischen Beobachter- und Mitkandidatenurteil

Abb. 14 Scatterplot-Darstellung zur Korrelation zwischen Beobachter- und Selbsturteil

Abb. 15 Mittelwerte der durchschnittlichen Urteile der Beobachtergruppen in den Übungen

Abb. 16 Mittelwerte der Urteile der Beobachtergruppen in den Urteilsdimensionen

Abb. 17 Standardabweichungen der Urteile der Beobachtergruppen in den Urteilsdimensionen

Verzeichnis der verwendeten Abkürzungen

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Neben anderen Verfahren hat sich das Assessment Center (AC) als systematisches Potential- und Leistungsbeurteilungsinstrument einen festen Platz in der betrieblichen Eignungsdiagnostik erworben, und man kann sagen, daß es sich hier um einen „Kassenschlager“ der Organisationssychologie handelt, der mittlerweile in unterschiedlichen „Ausführungen“ verfügbar ist.

Flexibilität kennzeichnet das Verfahren nicht nur im Hinblick auf individuell entwickelte Übungen und Beobachtungsdimensionen. Derzeit existiert mit Einzel-Assessments, On-the-job-Verfahren, dynamischen und computerunterstützten AC`s eine solche Fülle an Verfahren, daß sich in Einzelfällen die Frage stellt, ob es sich definitionsgemäß noch um ein Assessment Center handelt.

Weniger flexibel wurde bisher die Aggregation der Urteile gehandhabt: Genau wie bei den ersten Durchführungen in den 20er Jahren in der deutschen Wehrmacht oder in der US-Army im zweiten Weltkrieg, wo der Begriff „Assessment Center“ geprägt wurde, besteht die Beobachterriege zumeist aus hochrangigen Führungskräften und Psychologen, die sich in der Beobachterkonferenz in stundenlangen Beratungen auf Urteile einigen, die dem Durchschnitt der Einzelbeobachtungen weitgehend entsprechen (Kleinmann, 1997).

Die Berücksichtigung von Selbsturteilen, bei der betrieblichen Leistungsbeurteilung bereits auf breiter Basis durchgeführt, findet im Assessment Center derzeit noch wenig Resonanz. Selbsturteile werden im AC zwar erhoben, dienen aber in erster Linie der Einschätzung der Fähigkeit zur Selbstbewertung und gehen nicht in das Gesamturteil ein.

Ähnliches kann über Mitkandidaten- oder Peerurteile berichtet werden. Ungeachtet der Tatsache, daß mit den beim Entwicklungs-Assessment Center anwesenden Kollegen und Kolleginnen[1] und ein Pool von potentiellen Beobachtern zur Verfügung steht, deren Aussagen kaum weniger valide sind als die der meist nur wenig geschulten anwesenden Führungskräfte, werden Peerurteile nur in wenigen Fällen beim Erstellen des Gutachtens berücksichtigt und oft im Hinblick auf möglicherweise auftretende Widerstände (Jeserich, 1995) gar nicht erhoben.

Die tagelange nicht-teilnehmende Beobachtung von AC-Kandidaten und Mitarbeitern durch ranghohe Vorgesetzte, die anschließend ein umfassendes „Urteil“ abgeben, paßt zu hierarchisch geordneten und streng top-down geführten, konservativen Unternehmen. Sie erscheint weniger zielführend bei Organisationen, die Hierarchien abbauen, die Selbstverantwortung ihrer Mitarbeiter stärken und einen kooperativen Führungsstil nicht nur in ihren auf Glanzpapier gedruckten Unternehmensleitbildern propagieren, sondern im Unternehmensalltag leben wollen.

Die Bedeutung und der Einsatz von Selbstbeurteilung im Rahmen von Personalentwicklungsmaßnahmen wird weiter zunehmen. Dies erwartet Pullig (1992) aufgrund von Entwicklungen, die sich sowohl in der soziologischen (1) und ethischen (2) als auch an der organisationstheoretischen (3) Betrachtungsweise ablesen lassen. Diese Entwicklungs-tendenzen werden im folgenden kurz geschildert.

Tab. 1: Entwicklungstendenzen im Zusammenhang mit Selbst-/ Fremdbeurteilung (aus:

Abbildung in dieser Leseprobe nicht enthalten

Bezüglich des soziologischen Betrachtungsausschnitts ist anzumerken, daß im Zuge des Wertewandels (Inglehart, 1979) eine Verschiebung der gesellschaftlich-soziologischen Werte in Richtung Selbstverantwortung, individuelle Freiheit und Gestaltung des eigenen Lebensraums eingesetzt hat. Insbesondere bei jüngeren Menschen mit gehobener Bildung haben die sogenannten „Selbstentfaltungswerte“ (Kreativität, Eigenständigkeit, Ungebunden-heit) die „Pflicht- und Akzeptanzwerte“ (Klages, 1987) ersetzt. Diese Veränderung spiegelt sich auch im Arbeitsleben wieder. Strümpel (1989) konnte die Bedeutungszunahme von Kommunikation, Kreativität und interessanter Arbeit gegenüber der Bedeutung schnellen Aufstiegs und hohen Einkommens im Zeitraum von 1973 bis 1983 in einer empirischen Studie nachweisen. Es wird betont, daß ein Wandel der Werte auch einen Wandel der Führung im Unternehmen nach sich ziehen muß (Lück & Miller, 1990).

Zur ethischen Betrachtungsweise kann das Entwicklungsmodell nach Kohlberg herangezogen werden, demzufolge die moralische Urteilsfähigkeit in sechs aufeinander aufbauenden Stufen abgebildet wird (Kohlberg, 1981). Kohlberg fand, daß die meisten Menschen an der geltenden Gesellschafts- und Rechtsordnung (Stufe 4) bzw. an ihren Bezugsgruppen (Stufe 3) orientiert sind. Die Möglichkeit, auch Stufen mit „höherem“ moralischen Anspruch zu erreichen, die mit der Orientierung des einzelnen Handelns an universellen ethischen Prinzipien einher gehen, kann nur in einem organisationalen Kontext gewährleistet sein, der Handlungsspielräume und Selbstbestimmung zuläßt. Hierarchisch geordnete und rigide Organisationsstrukturen sind hingegen der moralischen Entwicklung des Mitarbeiters nicht förderlich.

In der Organisationstheorie werden zunehmend konstruktivistisch-systemtheoretische Ansätze vertreten, die die Organisation als selbstorganisierendes System komplexer Prozesse betrachten (vgl. Wagner, 1995). Eine umfassende Steuerung und Planung organisationaler Abläufe ist angesichts der Systemkomplexität nicht möglich. Dies zwingt zur Vorgabe von Unternehmenszielen, die von den Organisationseinheiten im Rahmen ihrer jeweiligen Situation und Realität verfolgt werden. Das Mitdenken und -gestalten des Einzelnen hat in einer derartigen Unternehmensstruktur höhere Bedeutung als in klassisch-betriebswirtschaftlich oder bürokratisch organisierten Unternehmen (Kieser & Kubicek, 1983).

Personalentwicklung ist immer auch Selbst-Entwicklung der Mitarbeiter und fördert ihre Selbst-Ständigkeit (Neuberger, 1991, S. 55). Die betriebliche Qualifizierung von fachlichen und außerfachlichen Fähigkeiten kann gelenkt und unterstützt werden, die Initiative dazu muß aber vom Einzelnen kommen. Die realistische Selbsteinschätzung des Mitarbeiters bildet die Grundlage zielgerichteter Personalentwicklung, für die er selbst, nicht das Unternehmen, verantwortlich ist.

In Unternehmen, deren Kultur ein solches Vorgehen ermöglicht, werden Selbsteinschätzungen und Aussagen der Kollegen zunehmend bei der Personalentwicklung berücksichtigt. Auch im Bereich der Assessment Center sind in den letzten Jahren Ansätze verfolgt werden, Selbst- und Mitkandidatenurteile stärker einzubinden und so die Mitverantwortung der Teilnehmer zu betonen. Beispiele sind das Lernpotential-AC von Sarges (1996), das planspielgestützte AC von Seegers (1996) und das Orientierungs-Center von Freund (1997).

Diese Verfahren, bei denen latente Nebenziele verfolgt werden, die sich von denen des regulären AC teilweise unterscheiden (vgl. Schuler & Stehler, 1987; Kompa, 1989) sollten aber nicht der bloßen Demonstration von Verantwortungsdelegation dienen.

Auch wenn Selbst- und Mitkandidatenurteile in stärkerem Maße berücksichtigt werden, muß der Aussagegehalt von Entwicklungs-Assessment Centern als systematisches Instrument der Potentialanalyse erhalten bleiben. Das Assessment Center ist unter anderem deshalb erfolgreich, weil es eine valide Erfassung von Fähigkeiten, Eigenschaften und Potentialen der Mitarbeiter erlaubt. Die Einbindung von Selbst- und Peerurteilen darf die Gültigkeit dieser Aussagen nicht mindern.

Derzeit scheint in den meisten Unternehmen (noch) eine starke Reserviertheit gegenüber der Berücksichtigung von Selbst- und Mitkandidatenurteilen im AC zu herrschen. Abweichungen vom Beobachterurteil und die augenscheinliche Anfälligkeit für Urteilstendenzen sind aus Untersuchungen von on-the-job erhobenen Selbst- und Peerurteilen bekannt. Sind aus den gleichen Gründen im Assessment Center erhobene Selbst- und Mitkandidatenurteile zur Verwendung ungeeignet? Oder ist es gerechtfertigt, Selbst- und Mitkandidatenurteile stärker in das AC-Gesamturteil einzubinden?

Eine Voraussetzung für die Beantwortung dieser Frage ist die Untersuchung von Selbst- und Mitkandidatenurteilen im AC. Nur wenn Selbst-, Mitkandidaten- und Beobachterurteile gleichsam detailliert und auf Anforderungsdimensionen bezogen nach jeder AC-Übung erhoben werden, kann ein Vergleich durchgeführt werden.

Daß Diskrepanzen zwischen Selbst- und Beobachterurteilen bestehen, konnte aus der bisherigen Forschung (Mabe & West, 1982; Harris & Schaubroek, 1988; Moser, Donat, Schuler, Funke &b Roloff, 1994) entnommen werden. Korrelationen zwischen beiden Urteilsklassen erreichten niedriges bis mittleres Niveau. Bessere Übereinstimmung konnte zwischen Peer- und Beobachterurteilen gefunden werden (Kane & Lawler, 1978; Maukisch, Schmidt & Strunz, 1991).

Der Vergleich mit Beobachterurteilen ermöglicht eine Aussage über die Qualität der Urteile, wenn angenommen werden kann, daß Beobachter in der Lage sind, valide Urteile abzugeben. Trotz ermutigender Aussagen hinsichtlich prädiktiver Validität (Thornton et al., 1987) fällt die Konstruktvalidität der Beobachterurteile im Assessment Center erschreckend gering aus (Sackett & Dreher, 1982; Russell, 1987; Scholz, 1992; Kleinmann, 1994).

Die Konstruktvalidität stellt ein wichtiges testtheoretisches Gütekriterium des Entwicklungs-Assessment-Centers dar (Schröder, 1997), geht es doch in erster Linie darum, Defizite und Potentiale in unternehmensrelevanten Fähigkeits- bzw. Eigenschaftsdimensionen zu diagnostizieren, um gezielt Personalentwicklungsmaßnahmen ergreifen zu können. Werden die Konstrukte nicht hinreichend valide erfaßt, so kann nicht davon ausgegangen werden, daß eine aufgrund des AC-Gutachtens angesetzte Trainingsmaßnahme ihren Zweck erfüllt. Eine umfangreiche Untersuchung der Konstruktvalidität von Selbst- und Peerurteilen im Assessment Center ist erst in Ansätzen erfolgt (vgl. Shore, Shore & Thornton, 1992). Diese Arbeit soll klären, ob Teilnehmer und Mitkandidaten bei der konstruktvaliden Beobachtung der Anforderungsdimensionen erfolgreicher als AC-Beobachter sind.

AC-Teilnehmer und Mitkandidaten erfassen möglicherweise nicht die gleichen Aspekte des Verhaltens wie Beobachter. Ihre individuellen Perspektiven bieten andere, vielleicht sogar mehr Informationen als die des nicht-teilnehmenden Beobachters. Dem Selbstbeurteiler stehen neben seinem aktuellen Verhalten Informationen aus früheren, ähnlichen Situationen zur Verfügung, die sein Selbstbild geprägt haben. Der Mitkandidat ist als teilnehmender Beobachter in das Geschehen eingebunden. Er erlebt, wie das Verhalten auf ihn selbst wirkt, und kann diese Eindrücke in seine Urteile mit einfliessen lassen.

Es ist bekannt, daß Beobachterurteile, genau wie Selbst- und Peerurteile, Urteilstendenzen unterliegen (Jeserich, 1990; Kleinmann, 1995). Deshalb können Beobachterurteile nicht als Qualitätsmaßstab für Urteile weiterer Beobachtergruppen dienen.

Es soll deshalb nicht heißen: „Sind Selbst- und Peerurteile verzerrungsfrei?“ sondern „Entspricht die Qualität von Selbst- und Peerurteilen der Qualität von Beobachterurteilen? Wenn dem so ist, könnte dann auf Beobachterurteile zumindest teilweise verzichtet werden?“

Sind AC-Teilnehmer in der Lage, zu validen Urteilen über eigenes Verhalten und das Verhalten ihrer Mitkandidaten zu gelangen? Diese Frage soll im Mittelpunkt der Arbeit stehen. Darüber hinaus sollen Urteilstendenzen bei Selbst- und Peerurteilern untersucht sowie die Übereinstimmung mit Beobachterurteilen betrachtet werden.

Dabei muß offen bleiben, aus welcher Beobachterperspektive die „wahrsten“ Urteile gefällt werden. Murphy und Balzer (1989, p. 619) definieren wahre Urteile als „mittlere Urteile von mehreren Experten, unter optimalen Urteilsbedingungen“. Solche Bedingungen herrschen am ehesten im Labor, nicht aber im Assessment Center. „It cannot be stated that any one type of rater is more valid than any other“ bestätigen Landy und Farr (1980, p.78).

Die gängige Praxis zeigt, daß Unternehmen in die Fähigkeit ihrer Manager, Verhalten valide zu beobachten, größeres Vertrauen als in jede andere Urteilsquelle setzen (Campbell & Lee, 1988). Insofern könnten Beobachterurteile als wahre Urteile definiert werden, an denen Urteile anderer Beobachtergruppen validiert werden können.

Vom wissenschaftlichen Standpunkt aus gesehen ist diese Annahme jedoch nicht zutreffend. Es hieße, die Augen vor der Realität zu verschließen, wollte man die erhobenen Beobachterurteile als Maßstab für die Qualität von Urteilen betrachten.

Vielmehr soll es zu einer Gegenüberstellung der testtheoretischen Gütekriterien von Selbst-, Mitkandidaten- und Beobachterurteilen im Assessment Center kommen, die als Heuristik für den Einsatz dieser Beurteilungsmethoden gelten kann. Prinzipiell ist es sogar denkbar, daß Selbst- und Mitkandidatenurteile das Beobachterurteil im Entwicklungs-Assessment Center ersetzen. Ob und inwiefern dies möglich ist, darauf soll diese Arbeit eine erste Antwort geben.

Weiterhin soll die Auswirkung der Berücksichtigung von Selbst- und Mitkandidatenurteilen im AC ermittelt werden. Dazu wird auf das Konzept der sozialen Validität (Schuler & Stehle, 1983) zurückgegriffen. Da die „Verliererproblematik“ (vgl. Sarges, 1996) als eines der Hauptprobleme des Entwicklungs-Assessment Center gilt, lautet hier die Frage: „Wird das Assessment Center bei Einbindung von Selbst- und Mitkandidatenurteilen von Teilnehmern, unabhängig vom eigenen Erfolg, positiv beurteilt?“

Theoretischer Teil

2 Beobachtung und Beurteilung von Verhalten im Unternehmen

2.1 Beurteilungsverfahren

Die Beurteilung und Beschreibung von Führungspersonen und Leistungsträgern ist keine Erfindung der Neuzeit: Bereits vor 3000 Jahren wurden in China öffentlich Bedienstete mit Hilfe einer Testbatterie, die u.a. aus Bogenschießen, Reiten und Arithmetik bestand, auf ihre Tauglichkeit für Aufgaben im Staatsdienst hin geprüft und beurteilt (Schuler & Moser, 1995). In der Neuzeit beginnt die Geschichte der Eignungsdiagnostik mit Lavaters im Jahre 1775 erschienenen Buch „Physiognomische Fragmente zur Beförderung der Menschenkenntnis und Menschenliebe“ (Schuler & Moser, 1995). Lavaters Beurteilungsdimensionen beschränkten sich auf Aussehen, Körperform, Haar, Stimme, Sprache etc. und gelten als kulturgeschichtlicher Hintergrund für heute noch gültige implizite Persönlichkeitstheorien.

Wissenschaftlich-psychologische Eignungsdiagnostik setzt allerdings erst mit Beginn dieses Jahrhunderts an: Der Psychologe William Stern, der 1903 den Begriff der „Psychotechnik“ einführte (Greif, 1993), gehörte zu den ersten, die Testverfahren zur Berufseignungsdiagnostik entwickelten. Dabei handelte es sich zumeist um Apparaturen und experimentelle Anordnungen, z.B. zur Diagnose von Reaktionszeiten und Gedächtnisleistungen. Intelligenz- und Leistungstests hatten im deutschsprachigen Raum zunächst nur geringe Bedeutung, wurden aber in den USA stark eingesetzt, z.B. zur Selektion von Rekruten ab 1917.

Neben biographischen Fragebögen, Interviews und Simulationen wurden zwei Arten von Verfahren entwickelt, bei der Verhaltensbeobachtung zur Datenerhebung zum Einsatz gelangt. Es handelt sich dabei um das Assessment Center (AC), eine Zusammenstellung von eignungsdiagnostischen Instrumenten und/oder leistungsrelevanten Aufgaben, sowie um Verfahren zur Einschätzung der beruflichen Leistung und des Erfolgs. Während das AC in der Regel off-the-job im Seminarkontext durchgeführt wird, zielt die Leistungseinschätzung auf die Beurteilung des am Arbeitsplatz gezeigten Leistungsverhaltens.

Die geringe Reliablität von Beobachtungsdaten verlangt nach der Nutzung mehrerer Beobachterquellen, damit möglichst viele Aspekte relevanten Verhaltens erkannt und unsystematische Urteilstendenzen minimiert werden. Bei Assessment Centern werden aus diesem Grund mehrere Beobachter zur Beurteilung eingesetzt. Bei der betrieblichen Leistungsbeurteilung steht dagegen in der Regel nur der direkte Vorgesetzte als Beobachter zur Verfügung. Eine Vielfalt von Beobachtungsperspektiven kann erschlossen werden, wenn zusätzlich Selbst-, Kollegen-, Kunden-, Mitarbeiterurteile und/oder die Aussagen von weiteren Organisationsmitgliedern berücksichtigt werden (Pfaller, 1993). Bei der Vielzahl von Perspektiven gibt es sicherlich auch Beobachtergruppen, die nur einen begrenzten Einblick in Tätigkeit und Leistung des Beurteilten haben (z.B. Kunden), so daß manche Urteile nur auf wenigen Beobachtungen beruhen und mit Vorsicht interpretiert werden müssen.

2.2 Prozeß der Urteilsbildung

Die Beurteilung von individueller beruflicher Leistung stellt einen komplexen psychologischen Vorgang dar, der erst in Ansätzen theoretisch geklärt werden konnte. Unstrittig ist, daß die Validität eines Urteils eine Funktion nicht nur des beobachteten Verhaltens, sondern auch des Umfelds, des Beobachters, der Meßinstrumente usw. darstellt. Nicht verwunderlich ist darum die immer wieder festgestellte geringe Übereinstimmung zwischen Beobachterurteilen unterschiedlicher Beobachter. Bedenkt man, welche Konsequenzen Urteile über die berufliche Leistung haben können (z.B. Beförderung, Versetzung, Kündigung), sollte viel dafür getan werden, die Validität von Leistungs- und Verhaltensbeobachtungen zu erhöhen.

Es sind Modelle und Heuristiken entwickelt worden, die den Prozeß der Urteilsbildung, insbesondere im Kontext der Leistungsbeurteilung in Organisationen, zu beschreiben suchen.

Zunächst wird ein Überblick über Modelle der Urteilsbildung gegeben. Bei der Diskussion wird es auch um die Frage gehen, welches Modell eine Abbildung des Urteilsbildungsprozesses im Assessment Center erlaubt.

2.2.1 Beobachtungs-Bewertungs-Gewichtungs-Modell von Borman (1978)

Das Modell von Borman (1978) ist als Prozeß konzipiert, in dem die Urteilsbildung des Beobachters drei Stufen durchläuft:

Beobachten relevanten Verhaltens

Bewerten des beobachteten Verhaltens

Gewichten der Bewertungen, um zu einem einzelnen Urteil über eine Verhaltensdimension zu gelangen.

Auf der ersten Stufe des Urteilsprozesses, der Beobachtung des relevanten Verhaltens, kann es laut Borman zu Differenzen zwischen Beobachtern kommen, da die persönlichen Konstrukte, auf deren Hintergrund die Beobachtungen registriert werden, unterschiedlichen Bedeutungsgehalt besitzen (vgl. Kelly, 1955). Auch, wenn nach den gleichen Urteilsdimensionen beobachtet wird, wird unterschiedliches Verhalten als relevant erkannt.

Auf der zweiten Stufe des Urteilsprozesses wird eine Bewertung der Effektivität des beobachteten Verhaltens vorgenommen. Diese Urteilsbildung verläuft meist unsystematisch und undifferenziert. Sie kann auf einem Globalurteil basieren oder den ersten Eindruck in starker Gewichtung berücksichtigen. Idiosynkratisches Vorgehen kann auf dieser Stufe zur Varianz zwischen Beobachterurteilen beitragen.

Auf der dritten Stufe kommt es zur Urteilsaggregation. Da hier eine Kombination mehrerer Bewertungen vorgenommen wird, entstehen Differenzen zwischen den Urteilen verschiedener Beurteiler zwangsläufig aus den unterschiedlichen Gewichtungen, mit denen die Einzelurteile in das klinisch aggregierte Gesamturteil eingehen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1 Beobachtungs-Bewertungs-Gewichtungs-Modell von Borman (1978)

Aufgrund der zahlreichen Fehlerquellen im Beobachtungsprozeß nimmt Borman (1978, S. 142) eine Höchstgrenze („ceiling“) für mögliche Interrater-Übereinstimmung sowie konvergente und diskriminante Validität von Beobachterurteilen an, die er aber nicht beziffert.

Das Modell von Borman stellt also verschiedene Quellen von Varianz zwischen den Urteilen verschiedener Beobachter heraus. Die Trennung von Beobachtung und Bewertung, die in diesem Modell nahegelegt wird, gilt allgemein als methodisches Prinzip von Assessment Centern: „Die Beobachter trennen scharf zwischen Beobachtung und Urteil“ (Fisseni & Fennekels, 1995, S. 97). Es ist zweifelhaft, daß diese Trennung wirklich gelingt (Kleinmann, 1995, S. 691). Das Modell stellt einen Heurismus zur Erklärung von Differenzen in der Urteilsbildung dar, ohne den Prozeß der Verhaltensbeobachtung und -bewertung in seiner Komplexität differenziert zu beschreiben.

2.2.2 Die Theorie von Wherry und Bartlett (1982)

Die Urteilstheorie von Wherry und Bartlett (1982) fusst auf der Annahme, daß ein genaues Urteil eine Funktion von drei Hauptkomponenten darstellt:

Die Leistung des Beurteilten,

Beobachtung der Leistung durch den Beurteiler,

Erinnerung an die Beobachtungen.

Wherry und Bartlett lehnen ihre Theorie an die klassische Testtheorie an, indem sie davon ausgehen, daß jede der Komponenten aus einem systematischen und einem zufälligen Fehleranteil besteht. Sie formulieren einen Satz von 46 Theoremen und zusätzlichen Korrelarien. Dabei wird vor allem versucht, Hinweise für die Vermeidung von unbewußten Verzerrungen zu formulieren. Die Theoreme und Korrelarien stellen testbare Forschungshypothesen dar.

Die Autoren formulieren ihre Theorie angesichts des Mangels an einer umfassenden Theorie, die Urteilen im sozialen Kontext erklärt. Ihre Literaturrecherche „showed an abundance of platitudes and rules-of-thumb, a smattering of empirical findings, and a complete absence of any rational system or theory“ (Wherry & Bartlett, 1982, S. 523). Sie versuchen mit ihrem Ansatz, diesem Mangel Abhilfe zu schaffen. Dabei legen sie bestenfalls ein klassifiziertes und sortiertes System von Annahmen vor, die als mehr oder weniger empirisch belegt gelten können und die teilweise aus Ratschlägen für den Praktiker bestehen.

Beispiel: Korrelarium 13a: „A rating should be secured immediately, whenever the ratee`s supervisor is changed in the same job or when the ratee moves to a new position.“ (Wherry & Bartlett, 1982, S. 535).

2.2.3 Ansatz von Schuler (1982): Beurteilen als Messen und Interpretieren

Schuler (1982, S. 85) beschreibt den Beurteilungsvorgang als Ergebnis zweier Haupt-komponenten; eines Meß- und eines Interpretationsvorgangs.

1. Beurteilung als Meßvorgang

Der Meßvorgang innerhalb von Verhaltensbeurteilung umfaßt drei Vorgänge:

Festlegung der Kriterien bzw. Urteilsdimensionen,

Definition einer geeigneten Skala,

Feststellung des Skalenwerts, der dem beobachteten Verhalten zugeordnet werden soll.

Die beiden erstgenannten Aspekte betreffen zwar eher die Entwicklung des Verfahrens als die eigentliche Verhaltensbeurteilung, haben aber keinen geringen Einfluß auf die Urteile (vgl. Kane & Lawler, 1978). Skala und Urteilsdimensionen geben den Raum vor, innerhalb dessen die Zuordnung von Verhalten zu Urteilen vorgenommen werden kann.

Bei der Feststellung des Skalenwerts wird meist ein Vergleich mit den Leistungen anderer Personen vorgenommen. Beurteilerspezifische Urteilstendenzen treten dabei auf und sind auch durch vorbereitendes Beobachtertraining nicht vollkommen zu vermeiden.

Die Qualität des Meßvorgangs innerhalb der Leistungsbeurteilung läßt sich anhand der testtheoretischen Gütekriterien bestimmen (s.Kapitel 3.5).

2. Beurteilung als Interpretation

Als zweiten Aspekt des Beurteilungsvorgangs nennt Schuler (1982) die Interpretation von Verhalten und Leistung. Er greift dabei auf Erkenntnisse der Attributionstheorie zurück (Jones & Nisbett, 1971; Weiner, 1976). Demnach können Daten aus Beobachtungen erklärt werden als verursacht durch

stabile Personmerkmale,

stabile Umwelt- bzw. Aufgabeneinheiten,

variable Merkmale der Person,

variable Merkmale der Umwelt.

Nach Schuler (1982, S. 92) kann jede Interpretation von Leistungsdaten als Attributionsvorgang aufgefaßt werden. Dieser Ansatz erscheint angemessen bei der Interpretation von betrieblichem Leistungsverhalten, in geringerem Maße aber bei Beobachtungssituationen im Assessment Center. Hier wird jedes Verhalten als Ausdruck einer relativ stabilen Fähigkeit oder Eigenschaft (Trait) betrachtet.

Der attibutionstheoretische Ansatz ist sinnvoller bei der Erklärung von Alltagsbeobachtungen und Leistungsbeurteilung am Arbeitsplatz. Von Relevanz für die Beobachtung im AC erscheint hingegen die Aufteilung in die Hauptkomponenten „Meß- und Interpretationsvorgang.“

Eine umfassendere Bestandsaufnahme der Aspekte, die die Urteilsbildung beeinflussen, nimmt Brandstätter (1969, 1983) vor.

2.2.4 Verhaltens-Eindrucks-Aussage-Modell von Brandstätter (1969, 1983)

Das Modell von Brandstätter (1969, 1983) stellt einen Versuch dar, soziale Urteilsbildung als Resultat des Zusammenspiels verschiedener Ebenen zu erfassen. Es handelt sich um ein komplexes Modell, das die Integration vieler Forschungsergebnisse erlaubt. Brandstätter gliedert den Prozeß der sozialen Urteilsbildung in drei Ebenen. Das Zusammenspiel dieser Ebenen führt zur Urteilsbildung (Abb.2). Die wichtigsten Quellen des Einflusses auf die soziale Urteilsbildung sind in der Darstellung abgebildet (nach Schuler, 1996, S. 44) und werden nachfolgend beschrieben.

1. Ebene: Verhalten

Die Ebene des Verhaltens bezeichnet neben dem eigentlichen Verhalten, seiner Repräsentativität für das Gesamtverhalten des Individuums und der Beobachtungshäufigkeit jene Einflußgrößen, die direkt auf das Verhalten der zu beurteilenden Person wirken. Gemeint sind Verhaltensursachen, die in der Person liegen oder Elemente der Situation, die das Verhalten bewirkt haben. Hierzu können andere Personen, aber auch der Beobachter gehören; auch Wechselwirkungen zwischen Person und Situation werden dieser Ebene zugeordnet. Zusätzlich spielen Verhaltensaspekte, die nicht beobachtet werden können, aber dem Beurteiler bekannt sind, eine Rolle, wie etwa Ausbildung und Familienstand des Beobachteten.

2. Ebene: Eindruck

Der Ebene des Eindrucks werden Prozesse zugeordnet, die beim Beurteiler ablaufen und z.B. zur selektiven Aufnahme und Verarbeitung relevanter Informationen führen. Die Person des Beobachters stellt eine wesentliche Quelle der Urteilsvarianz dar, da seine Wahrnehmung durch Erwartungen, Interessen, Erfahrungen, Bedürfnisse, Selbstbild etc. geprägt ist. Ebenso werden emotionale und motivationale Urteilsbedingungen wirksam. Urteilstendenzen, die bei bestimmten Beobachtern oder Beobachtergruppen auftreten und durch Training und Übung teilweise zu vermeiden sind, konnten mehrfach nachgewiesen werden (Cranach & Frenz, 1969; Faßnacht, 1979; Murphy & Balzer, 1989). Implizite Persönlichkeitstheorien (Neubauer, 1989) systematisieren die Eindrucksbildung und steuern die Informationssuche, bei der self-fulfilling prophecies die Erfüllung der eigenen Erwartungen begünstigen. Beobachter beschränken sich in der Informationssuche i.d.R. auf wenige Schlüsselreize, um dann vorschnell zu einem Urteil zu gelangen und gegen weitere mögliche Beobachtungen zu verteidigen (Bergler, 1976). Diese Ebene ist in unstandardisierten Beurteilungssituationen als Ursache für den größten Teil der Varianz zwischen den Beobachterurteilen anzusehen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Die wichtigsten Quellen des Einflusses auf die soziale Urteilsbildung im Verhaltens- Eindrucks-Aussage-Modell (nach Brandstätter, 1983; erweitert durch Schuler, 1996)

3. Aussage

Die Umformung des vorhandenen Eindrucks in ein Urteil verläuft genausowenig unbeeinflußt wie die Eindrucksbildung. Die Sprachkompetenz wird vor allem bei qualitativen Urteilen relevant. Semantik und Ausdrucksweise bestimmen mit, wie Aussagen verstanden werden. Bei vorgegebenen Urteilskategorien entfällt dieses Problem weitgehend, aber nicht vollständig, denn die Zuordnung von beobachtetem Verhalten zu Urteilsdimensionen basiert auf dem Sprachverständnis. Was wird unter Initiative, was unter Kooperationsfähigkeit verstanden?

Die Strategien des Beurteilers umfassen die beabsichtigten Urteilsverzerrungen, die auf erwünschte Konsequenzen der Aussage abzielen. Urteilsstrategien können je nach Urteilsperspektive, Beurteilungszweck, Anonymität bzw. Öffentlichkeit der Aussage und Beziehung zwischen Beurteiler und Beurteiltem stark variieren. Es ist fraglich, ob die Auswirkungen von Urteilsstrategien, auch durch Beobachtertraining oder andere Maßnahmen, zuverlässig ausgeschaltet werden können.

Nach dem Modell von Brandstätter stellt die Person des Beurteilers die Hauptquelle der Urteilsvarianz dar, wenn es sich um ungebundene Diagnosesysteme handelt. In kontrollierten diagnostischen Situation wird der Einfluß des Beobachters für wichtig, aber nicht überragend gehalten (Schuler, 199, S. 44).

Brandstätters Ansatz liefert eine umfassende Heuristik, die sich auch gut auf Beobachtungs- und Beurteilungssituationen im Assessment Center übertragen läßt. Dieses Modell soll unter dem Gesichtspunkt, daß Selbst-, Mitkandidaten- und Beobachterurteile durch Aspekte des Modells in unterschiedlichem Maße betroffen sind, betrachtet werden (Kap.6).

2.2.5 Modell von Ilgen und Feldman (1983)

Im Modell von Ilgen und Feldman (1983) wird der Prozess der Leistungsbewertung als Funktion dreier interagierender Systeme betrachtet:

Der organisationale Kontext, in dem die Beurteilung stattfindet,

Das Informationsverarbeitungssystem des Beurteilers,

Das Verhaltenssystem des Beurteilten.

Es sind Aspekte jedes Teilbereichs des Urteilsprozesses, die dazu führen, daß Urteile nicht so genau, unverzerrt und reliabel ausfallen, wie es wünschenswert wäre. Die Teilbereiche werden als miteinander interagierend begriffen, so daß wechselseitig Einflüsse zu erwarten sind.

Der entscheidende Unterschied des Modells zu früheren Ansätzen ist die umfassende Betrachtung, die den Aspekt „Organisation“ mit einbezieht. Es ist in der Tat plausibel, daß in jeder Organisation idiosynkratische Normen und Regeln herrschen, die die Beurteilung mit beeinflussen und steuern. Das Modell gewinnt dadurch allerdings derart an Komplexität, daß es kaum mehr überprüf- und handhabbar ist.

2.2.6 Das kognitive Modell von DeNisi, Cafferty und Meglino (1984)

Das Modell von DeNisi, Cafferty und Meglino (1984) beschreibt, wie Beurteiler Informationen sammeln, enkodieren, speichern und später aus dem Gedächtnis abrufen. Ferner geht es darum, wie Informationen gewichtet und enkodiert werden, um von einer Bewertung zum Urteil zu gelangen.

Abbildung in dieser Leseprobe nicht enthalten

Abb.3 Modell des Beurteilungsprozesses nach DeNisi et al. (1984, Übersetzung durch Verfasser)

Das Modell basiert darauf, daß Leistungsbeurteilung von sozialer Wahrnehmung und Kognition bestimmt wird und sowohl formale als auch implizite Beurteilung umfaßt. Im Gegensatz zu anderen Modellen wird hier der Urteiler als aktiver Beschaffer relevanter Informationen betrachtet. Zudem wird dem Beurteilungszweck eine entscheidende Stellung im Urteilsprozeß eingeräumt: Er determiniert die Art der gesuchten Informationen und die Kategorien, die zur Informationsverschlüsselung und -speicherung verwendet werden. Der Urteilsprozeß durchläuft sechs Stufen, die nicht distinkt voneinander zu trennen sind:

Beobachtung des Verhaltens,

Erstellung einer kognitiven Repräsentation des Verhaltens durch den Beurteiler,

Speicherung dieser Repräsentation im Gedächtnis,

Abruf der gespeicherten Information für eine formale Bewertung,

Integration der abgerufenen Information mit weiterer verfügbarer Information,

Zuordnung eines formalen Urteilswerts mittels eines passenden Urteilsinstruments.

Die Autoren präsentieren ferner 28 Aussagen, die als testbare Forschungshypothesen zu verstehen sind.

Auf dieses Modell soll im folgenden nicht weiter eingegangen werden, da kognitive Prozesse des Beurteilers im Mittelpunkt stehen, die mit seinen Gedächtnisfunktionen verknüpft sind. Dies sind Aspekte, die bei der Bewertung im Assessment Center, wo eine Bewertung unmittelbar nach der Beobachtung stattfindet, und zudem Aufzeichnungen des Verhaltens vorgesehen sind, weniger ins Gewicht fallen. Der Ansatz besitzt dagegen eher Relevanz für die Bewertung von Leistungsverhalten am Arbeitsplatz, wo Beurteilungen häufig nach größeren Zeiträumen (jährlich bzw. halbjährlich) durchgeführt werden.

Das Modell ist komplex und erlaubt die Integration einer Vielfalt von Forschungsergebnissen. Vernachlässigt werden hingegen einige soziale Aspekte des Urteilsprozesses, die bei anderen Modellen (vgl. Brandstätter, 1983) stärker berücksichtigt sind. DeNisi et al. berücksichtigen vor allem Attributionsprozesse. Einen wichtigen Aspekt stellt allerdings der Hinweis auf die Bedeutung des Beurteilungszwecks im Urteilsprozeß dar.

2.2.7 Das Modell der Leistungsbewertung von Campbell und Lee (1988)

Ein weiteres Modell der Urteilsbildung wird von Campbell und Lee (1988) vorgestellt. Hier ist der Bewertungsvorgang in einen vierstufigen Prozeß gegliedert, der als Kreislauf konzipiert ist. Bemerkenswert ist, daß für den Prozeß der Selbst- und Vorgesetztenbewertung ausdrücklich von gleichen Vorgängen ausgegangen wird. Campbell und Lee (1988) nutzen das Modell, um verzerrende Einflüsse zwischen Selbst- und Fremdbewertung zu erklären.

Der Prozeß setzt bei den Kognitionen über die erwartete Leistung (1) an, da Erwartungen regulierend auf das Verhalten wirken. Der zweite Schritt betrifft die Sammlung oder Zusammenfassung relevanten Verhaltens (2) und mündet in die Bewertung (3) der erreichten Leistung. Diese Bewertung kann wieder Rückwirkungen (4) auf die erlebten Erfordernisse des Arbeitsplatzes haben, und zwar sowohl beim Mitarbeiter als auch bei seinem Vorgesetzten.

Campbell und Lee (1988, S. 303) gehen davon aus, daß das Urteil des Vorgesetzten weniger Verzerrungen obliegt als das des Mitarbeiters. Sie sehen es zwar als plausibel an, daß es auch umgekehrt sein könnte, beugen sich aber der Konvention, die in den meisten Organisationen herrscht. Die Abweichungen zwischen Urteilen werden also in erster Linie als Verzerrung auf seiten des Selbstbewerters interpretiert.

Abbildung in dieser Leseprobe nicht enthalten

Abb.4 Modell von Campbell & Lee (1988, Übersetzung durch Verfasser) zu den verzerrenden

Einflüssen zwischen Selbst- und Fremdbewertungsprozeß

Abweichungen können aufgrund von Einflüsse an drei der vier Stufen des Urteilsprozesses auftreten. Sie sollten nach Cambell und Lees (1988) Ansicht minimiert werden, damit Selbstbewertungen der eigenen Leistung sinnvoll eingesetzt werden können.

Auf der ersten Stufe des Urteilsprozesses sind es unterschiedliche Wahrnehmungen über gestellte Anforderungen, die zu einer Varianz der Urteile führen können. Ist die Aufgabe eindeutig definiert? Hat der Vorgesetzte ein zutreffendes Bild vom Tätigkeitsbereich seines Mitarbeiters? Ist sich der Mitarbeiter darüber im klaren, welches die relevanten Kriterien seiner Tätigkeit sind? Es ist einleuchtend, daß eine Übereinstimmung der Erwartungen des Vorgesetzten und vermuteten Erwartungen des Mitarbeiters bei einfachen, klar definier- und beobachtbaren Tätigkeiten höher ausfallen kann als bei komplexen Tätigkeiten. Entsprechend ergeben sich bei handwerklichen Tätigkeiten höhere Übereinstimmungen zwischen Selbst- und Fremdeinschätzungen der Leistung als bei Tätigkeiten in Forschung und Entwicklung oder im Management (vgl. Harris & Schaubroek, 1988; Levine, Flory & Ash, 1977).

Auf der zweiten Stufe geht es um kognitive Aspekte, die den Urteilsprozeß prägen: Da sich Individuen unterschiedlicher Heuristiken, Algorithmen und Schemata zur Bewertung von Vorgängen bedienen, kommen sie auch zu unterschiedlichen Ergebnissen. Ist das Individuum erst einmal einer Urteilskategorie zugeordnet, wird die Bewertung zu gleichen Teilen eine Funktion der Annahmen des Beurteilers über ein typisches „Exemplar“ aus dieser Kategorie und der tatsächlichen Verhaltensweisen des Beurteilten. Die Hypothesentheorie der Wahrnehmung (Lilli, 1978) erklärt Prozesse, die in diesem Bereich der Urteilsbildung ablaufen: Beobachter unterbewerten schemainkonsistente Information, sie suchen aktiv nach konformer Information und bewerten Information höher, die die Hypothesen bestätigt. Differenzen zwischen Selbst- und Fremdwahrnehmung sollten bei Vorliegen ähnlicher kognitiver Schemata minimiert sein; manche Unterschiede erklären sich aber auch aus der unterschiedlichen Beurteilungsperspektive. So fanden Jones und Nisbett (1971), daß Beobachter eher person-orientiert attribuierten, während die Handelnden die Komponente „Situation“ stärker berücksichtigten, besonders im Fall von Mißerfolg.

Bei der dritten Klasse von Aspekten, die die Übereinstimmung zwischen Beurteilern begrenzen, handelt es sich um affektive Aspekte. Campbell und Lee (1988) nennen vor allem Abwehrmechanismen (Projektion, Verleugnung), die in der bedrohlichen Bewertungssituation seitens der Bewerteten aktualisiert werden. Dies kann zu einer Höherstufung der Selbstbewertung führen, wie sie verschiedentlich empirisch gefunden werden konnte (Maukisch et al., 1991; Shore, Shore & Thornton, 1992). Aus selbstwerttheoretischer Sicht kann dieses Phänomen mit dem Bestreben des Individuums, ein positives Selbstbild aufrecht zu erhalten (Stahlberg, Osnabrügge & Frey, 1985), begründet werden.

Aber auch auf der Seite des Beurteilers können affektive Aspekte wirksam werden, etwa eine unbewußte Abneigung gegen Geschlecht, Alter, Persönlichkeit des Bewerteten. Darüber hinaus besteht unabhängig von sozialen Gegebenheiten zwischen Vorgesetztem und Mitarbeiter eine Beziehung, die den Beurteilungsprozeß überschatten kann. Der vertical-dyade-linkage-Ansatz der Führung postuliert, daß in-group-members vom Vorgesetzten positiver bewertet werden als out-group-members.

Nicht nur unbewußte, auch bewußt ablaufende Verzerrungen sollten betrachtet werden. So können Urteile des Vorgesetzten positiv verzerrt sein, weil er ungünstige Konsequenzen von negativer Beurteilung wie sinkende Motivation oder innere Kündigung fürchtet. Ein Mitarbeiter kann versucht sein, sich bewußt schlechter zu bewerten, um Bescheidenheit zu demonstrieren. Er kann sich auch positiver darstellen in Bereichen, in denen er einen Informationsvorsprung vor dem Beurteiler hat und sein Urteil argumentativ untermauern kann.

Die affektive Komponente wirkt gleichermaßen auf Informationssammlung und Bewertung der Leistung. Sie trägt, genau wie Begrenzungen im kognitiven und informationalen Bereich, zur Höhe der Diskrepanz zwischen Selbst- und Fremdurteil bei.

2.2.8 Zusammenfassung

Es wurden sieben Modelle vorgestellt, die den Prozeß der Urteilsbildung im sozialen Kontext zu erklären versuchen. Sie unterscheiden sich stark hinsichtlich der Komplexität sowie der Art und Anzahl der berücksichtigten Variablen. Gemeinsam ist ihnen, daß sie einen großen Teil der Urteilsvarianz dem Beurteiler sowie den Umständen, unter denen das Urteil zustande kommt, zurechnen.

Auf das Modell von Brandstätter (Kap. 2.2.4) soll vertieft eingegangen werden. Es bietet eine Grundlage, um die wichtigsten Einflußfaktoren auf das soziale Urteil in ihrer Bedeutung für die drei möglichen Urteilsquellen im Assessment Center (Teilnehmer, Mitkandidaten und Beobachter) zu diskutieren.

3 Assessment Center-Verfahren

Das Assessment Center (AC) als Verfahren der Leistungsbeurteilung beruht darauf, daß Leistungsverhalten im Kontext strukturierter Situationen beobachtet und bewertet wird. Neben der Beurteilung durch Linienvorgesetzte im Unternehmen dürfte es das wichtigste Instrument zur systematischen Mitarbeiterbeurteilung, vor allem in mittleren und großen Unternehmen, darstellen.

3.1 Geschichte der Assessment Center-Verfahren

Die Geschichte des Assessment Center beginnt mit den Eignungsprüfungen bei der Deutschen Reichswehr im ersten Weltkrieg. Eine Vorschrift zur Anwendung der Verfahren bei der Offiziersauswahl, insbesondere der führerlosen Gruppendiskussion, trat 1927 in Kraft (Jeserich, 1990). Bereits hier wurde das Prinzip der Methodenvielfalt berücksichtigt, eines der wichtigsten Definitionsmerkmale des Assessment Center. Zudem wurde ein hoher Ausbildungsstand der Beobachter realisiert, der später „nie wieder ... erreicht“ wurde (Jeserich, 1981, S. 96). Nur bestens qualifizierte Psychologen nahmen die Datenerhebung vor.

Von Deutschland aus wurde das Verfahren über Großbritannien und die USA verbreitet. Bei den Streitkräften der USA wurde 1942 zum ersten Mal ein Verfahren angewendet, an dessen Konzeptualisierung der Psychologe Murray beteiligt war. Er gab einer dreitägigen Kombination von Testverfahren, Gruppendiskussionen und Präsentationen den Namen „Assessment Center“. Auch hier spielten Psychologen und Sozialwissenschaftler die entscheidende Rolle im Beobachterstab.

Erste Validierungsbemühungen in Großbritannien mit positiven Ergebnissen(Vernon und Parry, 1949, zit. nach Jeserich,1990) sowie Veröffentlichungen über Einzelheiten des Verfahrens in den USA (OSS Assessment Staff, 1948, zit. nach Jeserich,1990) trugen zur Bekanntheit und zur Verbreitung des AC bei.

Von der militärischen Verwendung fand das Assessment Center schnell den Weg in Wirtschaftsunternehmen, zumal Wissenschaftler aus dem militärischen Bereich bei Industrieunternehmen Anstellung fanden. Bekannt geworden ist die Anwendung bei der American Telephone and Telegraph Company, wo zwischen 1956 und 1960 422 Nachwuchs-Führungskräfte dem Verfahren unterzogen wurden. Die begleitende wissenschaftliche Untersuchung zeigte hohe Vorhersageleistungen des Verfahrens auf, die vor allem auf die Arbeitsproben und kognitive Leistungstests zurückging (Schuler & Stehle, 1987). Es dauerte jedoch bis in die 70er Jahre, bis das Assessment Center auf breiter Basis Verwendung fand.

In Deutschland waren es zunächst internationale Konzerne wie IBM und Johnson, die das Verfahren einsetzten. Derzeit nutzen hierzulande etwa 150 Unternehmen das Assessment-Center (Fisseni & Fennekels, 1995). Von den von Jeserich und Grube (1989) befragten Unternehmen wurden sie etwa je zur Hälfte zur Auswahl externer Bewerber (n=32) und zur Potentialerkennung (n=34) genutzt. Wiederum etwa die Hälfte der Unternehmen, die das AC zur Potentialerkennung einsetzt, gab an, auch das Ziel der Selektion interner Bewerber (n=16) zu verfolgen.

3.2 Das Assessment Center im Rahmen der Personalentwicklung

Der Gegenstand der Personalentwicklung (PE) besteht in der „systematischen Förderung der beruflichen Qualifikation“ (Holling & Liepmann, 1993, S. 285), wobei nicht nur fachliche Kenntnisse, sondern darüber hinaus Lernfähigkeit, soziale Kompetenz, Motivation und Bewältigung kognitiver und emotionaler Belastungen betrachtet werden. Sie beinhaltet alle planmäßigen person-, stellen- und arbeitsplatzbezogenen Maßnahmen zur Ausbildung, Erhaltung oder Wiedererlangung der beruflichen Qualifikation. Personalentwicklung ist nicht auf die individuelle Ebene begrenzt: Es besteht eine enge Verflechtung zu Maßnahmen auf Team-, Bereichs- und Organisationsebene.

Holling und Liepmann (1993) unterscheiden vier Klassen von Personalentwicklungs-maßnahmen:

Verfahren zur Veränderung der beruflichen Kompetenz.

Hierunter sind vor allem Maßnahmen der Aus- und Weiterbildung, z.B.

Führungskräfte- und Projektleitertrainings zu verstehen.

Verfahren zur Veränderung der beruflichen Anforderungen.

Es geht bei diesen Verfahren um die Änderung von organisatorischen Bedingungen, z.B. durch Umstrukturierungen, Schaffen neuer Organisationseinheiten oder Verflachung von Hierarchien.

Verfahren zur Steuerung der Personalentwicklung durch Information, Planung, Beratung, Feedback.

Zu diesen Maßnahmen zählen Beurteilungsgespräche mit dem Vorgesetzten genauso wie tägliches informelles Feedback und standardisierte Potentialanalyseverfahren wie das Entwicklungs-Assessment Center.

Multiple Verfahren der Personalentwicklung.

Hier geht es um die systematische Koordination mehrerer Maßnahmen aus den vorab genannten Bereichen, z.B. Trainee-Programme.

Die Bedeutung von Personalentwicklung als zentrales Gebiet der Organisationspsychologie wird nach Holling und Liepmann (1993) weiterhin zunehmen, da die technologische Entwicklung und damit einhergehende Veränderungen der beruflichen Anforderungen weiterhin forschreiten. Als komplexe Aufgabe, die die exakte Diagnose des Personalbestandes, die Prognose der zukünftig notwendigen Fähigkeiten der Mitarbeiter und die angemessene Anwendung von Entwicklungsmaßnahmen umfaßt, stellt sie hohe Anforderungen an Personalverantwortliche und Linienvorgesetzte und birgt in den meisten Unternehmen ein hohes Optimierungspotential. Personalentwicklung, richtig angewandt, hat strategische Bedeutung für Organisationen und kann entscheidende Vorteile im Wettbewerb bringen. Dies wird im Zusammenhang mit der steigenden Bedeutung, die den Human Ressources im Unternehmen beigemessen wird, deutlich.

Der Nutzen von PE-Maßnahmen kann sich jedoch nur dann maximal entfalten, wenn die richtigen Mitarbeiter auf richtige Weise gefördert werden. Das Entwicklungs-AC trägt dazu bei, daß Potentiale der Mitarbeiter erkannt und Optimierungspunkte diagnostiziert werden können, so daß man zielgerichtete PE-Maßnahmen ergreifen kann. Entwicklungs- und Förderpläne, die nach dem AC vereinbart werden, beinhalten stellenbezogene sowie stellenübergreifende Maßnahmen (Fisseni & Fennekels, 1995, S. 159). Sie berücksichtigen gleichermaßen individuelle Lernziele des AC-Teilnehmers und strategische Ziele des Unternehmens. Das Entwicklungs-Assessment Center kann bei richtiger Einsetzung das Kernstück der Personalentwicklungsarbeit einer Organisation darstellen.

3.3 Das Entwicklungs - Assessment Center

Zunächst soll das Entwicklungs-Assessment Center ausführlich dargestellt und hinsichtlich seiner testtheoretischen Fundierung diskutiert werden. Die Diskussion von Reliabilitäts- und Validitätsdaten sowie Urteilstendenzen gibt gleichzeitig einen Überblick über die Qualität von Beobachterurteilen, d.h. von Urteilen, die auf der Beobachtung durch trainierte Linienvorgesetzte und/oder Psychologen beruhen.

Das Assessment Center (AC) ist nach Fennekels (1987, S. 10) ein systematisches und flexibles Verfahren zur kontrollierten und qualifizierten Feststellung von Verhaltensleistungen und –defiziten, das von mehreren Beobachtern gleichzeitig für mehrere Teilnehmer in bezug auf vorher festgelegte Übungen und bestimmte Anforderungen vornehmlich zur Mitarbeiterauswahl und –weiterentwicklung von vielen Personalentwicklungsabteilungen in Großunternehmen mit Erfolg und steigender Tendenz eingesetzt wird.

Assessment Center werden je nach Zielsetzung und Zielgruppe unterschiedlich konzipiert und durchgeführt. Als potentielle Zielsetzungen nennt Kleinmann (1997) die Auswahl interner und externer Bewerber, Weiterbildungsbedarfsanalyse, Potentialsuche und –beratung, Teamentwicklung, Sensibilisierung der Beobachter und Teilnehmer, Erfolgskontrolle und Arbeitsplatzgestaltung. Thornton und Byham (1982) zufolge werden jedoch 95 % aller AC für Personalauswahl und –entwicklung eingesetzt.

Nebenziele oder sogenannte „latente“ Funktionen der Durchführung von Assessment Centern nennen Schuler und Stehle (1987, S. 4). Sie liegen im „Gewinn eines Überblicks über den Nachwuchs, über Leistungsstand und Defizite im Unternehmen ..., in der Gelegenheit zu verhaltensbezogenen Formulierungen von Anforderungen und Leistungsniveaus, in der Betonung der Bedeutung von Personalplanung und Personalentwicklung, der Möglichkeit, Aspekte der „Unternehmenskultur“ zu diskutieren und zu inszenieren, die Teilnehmer mit den Anforderungen – auch sozialpsychologischer Art – einer Führungskraft vertraut zu machen, ihre Selbsteinschätzung zu verbessern und ihnen die Gelegenheit zum sozialen Vergleich zu bieten“. Diese Nebenziele werden selten konkret formuliert und gemessen, dürfen aber bei der Diskussion des Verfahrens nicht vergessen werden. Wer Assessment Center einsetzt, muß berücksichtigen, daß nicht nur Nebenziele, sondern auch Neben-Wirkungen existieren.

Alle weiteren Ausführungen beziehen sich auf das Entwicklungs-Assessment Center, d.h. auf ein AC-Verfahren, bei dem der Aspekt der Personalentwicklung gegenüber der Personalselektion im Vordergrund steht. .

3.3.1 Elemente des Assessment Centers

Ein Assessment Center besteht aus einer Vielzahl von Einzelaufgaben oder Arbeitsproben, die im Hinblick auf das jeweilige Unternehmen und den Zweck des Verfahrens entwickelt und zusammengestellt werden. Schuler und Stehle (1987) nennen folgende Einzelverfahren:

Individuell auszuführende Arbeitsproben und Aufgabensimulationen, Gruppendiskussion mit und ohne Rollenvorgabe, Gruppenaufgaben mit Wettbewerbs- und/oder Kooperationscharakteristik, Vorträge und Präsentationen - Dyadische Rollenspiele Einzel-, Gruppen- und Panelinterviews - Selbstvorstellung Wirtschaftsspiele - Fähigkeits- und Leistungstests Persönlichkeits- und Interessentests - Biographische Fragebogen Lockerungsübungen.

In jeder AC-Anwendung werden diejenigen Übungen ausgewählt, die im Hinblick auf die Zielgruppe und den Zweck des Verfahrens am geeignetsten erscheinen. Klassische und häufig verwendete AC-Übungen sind neben der Gruppendiskussion Präsentationen und Rollenspiele sowie der Postkorb. Sie werden an anderer Stelle ausführlich beschrieben (Jeserich, 1990; Sarges, 1995).

3.3.2 Teilnehmer und Beobachter

Dem Entwicklungs-Assessment Center unterziehen sich etwa 6 - 12 interne Teilnehmer. Meist handelt es sich um Leistungsträger des Unternehmens und/oder Führungsnachwuchskräfte. Beurteilt und bewertet werden diese in der Regel von Führungskräften des Unternehmens und/oder Mitarbeitern der Personalabteilung. Hier gilt die Empfehlung, daß die Assessoren Funktionen innehaben sollten, die mindestens zwei Hierarchiestufen über der möglichen Zielfunktion der Assessees angesiedelt sind (Schircks, 1994).

Die Beobachtung und Bewertung von AC-Kandidaten ist für Linienvorgesetzte mehr als eine lästige Pflicht. Diese Aufgabe qualifiziert sie für ihre tägliche Arbeit, da die sorgfältige Beobachtung von Mitarbeiterverhalten sowie die angemessene Rückmeldung eine wichtige Führungsaufgabe darstellt. Schircks (1994, S. 103) weist darauf hin, daß „die guten Spitzenmanager der Linie, die das Unternehmen und dessen Werte repräsentieren und mitgestalten, als Assessoren eingesetzt werden“ sollten.

3.3.3 Urteilsdimensionen

Im Entwicklungs-Assessment Center werden aufgrund von systematischen Verhaltensbeobachtungen Aussagen über die Ausprägungen der relevanten Beurteilungsdimensionen bei den Teilnehmern getroffen. Diese Aussagen dienen als Grundlage für das End-Gutachten, in dem Stärken/Schwächenprofil sowie Potentialeinschätzung behandelt werden.

Die Urteilsdimensionen werden individuell im Unternehmen festgelegt. Sie stellen die im Kontext der Organisation relevanten Erfolgskriterien dar und sollten mit dem Kompetenzmodell des Unternehmens und dem Unternehmensleitbild übereinstimmen. Dabei sind es nicht Fachkenntnisse, sondern Fähigkeiten aus dem Bereich der Sozial- und Methodenkompetenz, die im AC betrachtet werden.

Die Festlegung der Urteilsdimensionen stellt ein besonderes Problem dar, gilt es doch, diejenigen Kriterien zu erfassen, die ein erfolgreiches Agieren in der Zukunft, bei einer sich ständig wandelnden Umgebung, ermöglichen. Es hat sich die Überzeugung durchgesetzt, daß nicht konkrete Fertigkeiten, sondern ein Set von Fähigkeiten, sogenannter Schlüsselqualifikationen (Mertens, 1974) die Grundlage für erfolgreiches Handeln darstellen. Hierbei handelt es sich um Konstrukte wie Lern- und Kommunikationsfähigkeit, Konzentration und Belastbarkeit, die in unterschiedlichen Kategorien zusammengefaßt wurden.

Exemplarisch seien Beobachtungskriterien genannt, die Fisseni & Fennekels (1995, S. 106) anführen:

Soziale Kompetenz Systematisches Denken und Handeln Ausdruck und Argumentation Auftreten/Selbständigkeit/Belastbarkeit Zielstrebigkeit/Durchsetzung Leistungs- und Führungsverhalten Jedem Unternehmen ist es nun belassen, herauszufinden, über welche Schlüsselqualifikationen ihre Leistungsträger und Führungskräfte der Zukunft verfügen müssen, damit diese gezielt qualifiziert werden können. Methoden hierzu werden von Kannheiser (1995) beschrieben. Dabei muß bedacht werden, daß diese Anforderungen in der Zukunft nicht unbedingt die gleichen sein werden, die heute Erfolg garantieren (Wiendieck 1990; Müller & Adelt, 1990).

In der Regel sind die relevanten Beurteilungskriterien als Fähigkeits- oder Eigenschaftsdimension gefaßt. Oft wird in Form von Verhaltensbeispielen oder Checklisten eine Konkretisierung gegeben. Die Beobachter registrieren zunächst die Verhaltensweisen der Teilnehmer sowie das Ergebnis dieser Handlungen.

Zu einer Verdichtung der Einzelergebnisse zu Urteilen über Fähigkeits- bzw. Eigenschaftsdimensionen kommt es im Anschluß an einzelne Übungen oder erst später bei der Integration der Einzelurteile zu einer Gesamtbeurteilung (Schuler & Stehle, 1987). In diese Beurteilung können auch die Selbstaussagen der Teilnehmer über ihre Leistung sowie die Aussagen der Mitkandidaten mit einfliessen. Selbst- und Peerurteile können ebenfalls im Anschluß an Übungen, beispielsweise als Rangreihe über die Effizienz der Teilnehmer, erhoben werden. Werden sie im Anschluß an das gesamte Verfahren erhoben, kommt sowohl ein Rangreihen- als auch ein Benotungs-Verfahren in Betracht.

Exkurs: Diagnostik von Persönlichkeitsmerkmalen

Die Erhebung relativ zeitstabiler Eigenschaften (Traits) steht im Mittelpunkt der meisten Management-Diagnostik-Verfahren. Zwar wird der „personale Ansatz“ in der Diagnostik schon seit langem heftig diskutiert und gegen das „situative Paradigma“ abgewogen, demzufolge Verhalten den Kräften der jeweiligen Situation unterliegt. Die meisten Theoretiker vertreten derzeit eine vermittelnde Position des „Interaktionismus“, demzufolge Verhalten nicht allein durch interne oder externe Gegebenheiten erklärt werden kann. Dennoch dominiert der personorientierte Ansatz in der Management-Diagnostik, da das Konzept praktisch und nachvollziehbar ist (Dieterich & Sowarka, 1995). Menschen werden verständlich und berechenbar, wenn ihre konstanten Eigenschaften bekannt sind.

Die Datenerhebung in den meisten Assessment-Centern entspricht dem interaktionistischen Ansatz: Verhaltensweisen werden im Kontext von Situationen betrachtet. Diese Situationen sollten möglichst genau auf die Unternehmensrealität abgestimmt sein. Rollenspiele, Postkörbe, Gruppendiskussionen etc. sind dann sinnvoll eingesetzt, wenn sie den Arbeitsalltag des Kandidaten wiedergeben. Insofern ist es wenig sinnvoll, die Gruppendiskussion Der neue Dienstwagen (Jesserich, 1990) bei AC-Teilnehmern aus dem Innendienst anzuwenden. Je mehr die Übungen den tatsächlich am Arbeitsplatz gestellten Anforderungen entsprechen, desto eher ist eine Diagnose über das Vorhandensein der jetzt und in Zukunft notwendigen Fähigkeiten möglich.

Es wird leicht übersehen, daß das Assessment-Center nicht den Anspruch erhebt, ein Persönlichkeitsbild zu liefern, sondern nur ein Fähigkeitsprofil erhebt - bezogen auf die Anforderungsdimensionen (Fisseni & Fennekels, 1995, S. 142). Die Aussage, die am Ende des Verfahrens steht, darf deshalb nicht lauten: „Herr Schmitz ist ein kooperativer und flexibler Mensch“ sondern „Herr Schmitz tritt in Gruppendiskussionen flexibel und kooperativ auf“. Wenn die inhaltliche Validität der durchgeführten Gruppendiskussionen gegeben ist, läßt sich daraus ein Rückschluß auf das Verhalten von Herrn Schmitz am Arbeitsplatz treffen.

Persönlichkeits- und Fähigkeitsprofile, die aus der Zusammenfassung von numerischen Urteilen am Ende des AC erstellt werden, erwecken jedoch den Anschein, das AC ermögliche die Erfassung von stabilen, situationsunabhängigen Merkmalen - und Wissenschaftler kommen den Erwartungen und Forderungen der Unternehmen in diesem Punkt allzu gerne entgegen (vgl. Sarges, 1996, S. 103).

3.4 Testtheoretische Qualität des Assessment Center

Einen Ansatz zur Beurteilung der Qualität von Meßverfahren liefert die testtheoretischen Überprüfung. Dabei hat es sich bewährt, die aus der klassischen Testtheorie (KTT) bekannten Kriterien wie Objektivität, Reliabilität und Validität zu ermitteln. Die in diesem Kapitel angeführten Daten sind an Beobachterurteile erhoben worden; die Qualität von Selbst- und Kollegenurteilen wird anschließend behandelt.

Das Assessment Center ist konzeptionell zwar der kriteriumsorientierten Testtheorie zuzuordnen (Fisseni & Fennekels, 1995, S. 165). Die Testgütekriterien können jedoch aus der KTT übernommen werden (Fricke, 1974).

3.4.1 Objektivität

Die Objektivität eines Testverfahrens gibt an, wie weit relevantes Verhalten eindeutig quantifiziert wird. Sie beschreibt, wie weit in der diagnostischen Situation eine Standardisierung des Tests gelingt (Fisseni, 1990, S. 54). Unterschieden wird zwischen Durchführungs-, Auswertungs- und Interpretationsobjektivität. Während sich die Durchführungsobjektivität auf Rahmenbedingungen, Instruktionen etc. bezieht, hat Auswertungs- und Interpretationsobjektivität die Zuordnung von Verhalten zu Merkmalsausprägungen zum Gegenstand.

Die Standardisierung eines Assessment Centers ist nur in Ansätzen zu leisten. Da das AC auf jedes Unternehmen individuell zugeschnitten wird, ist die Durchführungsobjektivität geringer als z.B. bei klinischen Testverfahren.

Auswertungs- und Interpretationsobjektivität läßt sich als Interrater-Reliabilität beschreiben, also als Übereinstimmung von Urteilen unterschiedlicher Beurteiler. Die Korrelation von Beobachterurteilen, die sich auf die gleiche Übung beziehen, schwankt nach Hossiep (1994) zwischen .50 und .90 und kann damit als zufriedenstellend bezeichnet werden. Scholz (1994, S. 166) berichtet über Reliabilitätskoeffizienten vor Aussprache der Beobachter zwischen r = .43 und r = .76. Objektivität als intersubjektiver Konsens wird begünstigt, wenn - Anforderungsdimensionen und Auswertkategorien eindeutig festgelegt sind, und - Beobachter im Verständnis der Anforderungsdimensionen und Antwortkategorien trainiert wurden (Fisseni & Fennekels, 1995, S. 170).

3.4.2 Reliabilität

Unter Reliabilität wird das Ausmaß verstanden, „in dem wiederholte Messungen eines Objekts mit einem Meßinstrument die gleichen Werte liefern“ (Schnell, Hill & Esser, 1989, S. 147). Definiert ist die Reliabilität nach der klassischen Testtheorie als das Verhältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte. Da die wahren Werte nicht zugänglich sind, muß die Reliabilität geschätzt werden, was mittels verschiedener Methoden möglich ist.

Im Assessment-Center besteht die Möglichkeit, die Reliabilität als Interrater-Reliabilität, interne Konsistenz oder Retest-Reliabilität zu erheben (Hossiep, 1994, S. 94).

Die Interrater-Reliabilität wurde im Rahmen der Objektivität beschrieben. Sie fällt im AC oft zufriedenstellend aus. Geringere Werte treten beim Erheben der „internen Konsistenz“ auf: Hinrichs & Haanperä (1976) ermittelten Werte von -.04 bis .73 beim Vergleich der gleichen Eigenschaftsdimension, erhoben in verschiedenen Übungen.

Die Retest-Reliabilität eines AC kann bei nochmaliger Teilnahme ermittelt werden. In einer Untersuchung von Huck (1973) wurden dieselben Teilnehmer von denselben Beobachtern nach einem Monat ein zweites Mal einem AC unterzogen. Dabei ergab sich eine Übereinstimmung im Urteil von r = .73. Es ist anzunehmen, daß diese Korrelation wesentlich geringer ausfällt, wenn nicht auf die gleichen Beobachter zurückgegriffen werden kann (vgl. Wherry & Bartlett, 1982).

Zur Erhöhung der Reliabilitätswerte empfiehlt Hossiep (1994), Beobachter zu trainieren, den Informationsaustausch zwischen Beobachtern zu fördern sowie die Beobachterriege mit Personen mit gegensätzlichen Beurteilungstendenzen zu besetzen.

3.4.3 Validität

Die Validität eines Verfahrens gibt Auskunft auf die Frage, „wie sich vom Test-Score auf das Ziel-Merkmal, vom numerischen Relativ auf das empirische Relativ schließen läßt“ (Fisseni, 1990, S. 75). Es wird angegeben, wie genau ein Test mißt, was er zu messen vorgibt.

Allerdings kann man Validität nicht als generelle Eigenschaft eines Tests verstehen, sondern muß sie immer auf die Anwendung eines Tests auf eine bestimmte Population und unter bestimmten Bedingungen beziehen (Roth, 1993, S. 356). Streng genommen kann deshalb nicht von „der“ Validität eines Meßverfahrens gesprochen werden. Dennoch werden Validitätsmaße immer wieder berechnet und zur Rechtfertigung für die Wahl einer Methode herangezogen. Aussagekräftiger sind in Metaanalysen aggregierte Werte (Mabe & West, 1982; Harris & Schaubroek, 1988). Da die Validitätswerte verschiedener Verfahren sehr weit streuen, müssen sie für jede Anwendung neu berechnet werden.

Die verschiedenen Arten von Validität stellen dabei nicht unterschiedliche „Typen“, sondern verschiedene, einander ergänzende Sichtweisen oder Facetten einer Gesamtdefinition des Validitätsbegriffs dar (Schuler, 1989, S. 225). Es ist deshalb sinnvoll, eine AC-Konzeption nicht durch einen Kennwert zu beschreiben sondern im Rahmen verschiedener Validitätsaspekte zu betrachten.

Im Bereich des Assessment Center sind Konstruktvalidität und kriteriumsbezogene Validität von großer Bedeutung. Der von Schuler und Stehle (1983) eingebrachte Begriff der sozialen Validität beleuchtet zudem Aspekte der Akzeptanz des Verfahrens bei den Teilnehmern. Diese drei Facetten der Valdität sollen in ihrer Ausprägung im Assessment Center diskutiert werden.

3.4.3.1 Konstruktvalidität

Konstruktvalidität stellt einen Aspekt von Validität dar, der als „Übereinstimmung zwischen Test-Score und einem Netz anderer Scores oder anderer Aussagen“ (Fisseni, 1990, S. 86) definiert ist. Die nicht beobachtbare Eigenschaft, als Konstrukt bezeichnet, wird mit anderen Variablen innerhalb eines nomologischen Netzwerks in Beziehung gesetzt.

Konstruktvalidität bedeutet dabei „eine theoretische Klärung dessen, was das betreffende Testverfahren mißt“ (Kleinmann, 1997, S. 14).

Wichtige Teilaspekte sind diskriminante und konvergente Validität. Konvergente Validität beschreibt den Zusammenhang zwischen Messungen eines Konstrukts mittels unterschiedlicher Verfahren. Erwünscht ist eine hohe konvergente Validität.

Diskriminante Validität besteht zwischen den Messungen unterschiedlicher Konstrukte, sowohl mit der gleichen als auch mit unterschiedlichen Methoden. Sie sollte möglichst gering ausfallen.

3.4.3.1.1 Konstruktvalidierung nach Campbell und Fiske

Campbell und Fiske (1959) entwickelten eine Methode zur Konstruktvalidierung, bei der verschiedene empirische Indikatoren verschiedener Konstrukte zusammengestellt werden: Die Multi-Trait-Multi-Method-Matrix. Bei dieser Form der Konstruktvalidierung (MTMM-Validierung) werden die Korrelationen von mindestens drei Konstrukten bzw. Traits durch mindestens drei Methoden erfaßt. Durch Prüfung der entstehenden Matrix hinsichtlich vier Kriterien läßt sich entscheiden, ob die Konstrukte valide erfaßt worden sind.

Folgende Kriterien werden von Campbell und Fiske (1959) zur Prüfung auf Konstruktvalidität vorgegeben (Abb. 5):

Die monotrait-heteromethod Korrelationskoeffizienten (mit 1 gekennzeichnet) sollten möglichst groß sein, da sie für die gemeinsame Varianz gleicher Konstrukte stehen, die mit verschiedenen Methoden gemessen werden (konvergente Validität).

Die heterotrait-monomethod Korrelationskoffizienten (mit 3 gekennzeichnet) sollten geringer ausfallen, da sie die gemeinsame Varianz von verschiedenen Konstrukten, die mittels der gleichen Methode gemessen werden bezeichnen, (diskriminante Validität).

Die heterotrait-heteromethod Korrelationskoeffizienten (mit 2 gekennzeichnet) sollten ebenfalls geringer als die Koeffizienten der konvergenten Validität sein. Sie stellen die gemeinsame Varianz von verschiedenen Konstrukten dar, die mittels unterschiedlicher Methoden gemessen werden.

Ein weiteres Kriterium bezieht sich auf den Vergleich der Muster der Interkorrelationen innerhalb der verschiedenen Blöcke. Campbell und Fiske (1959) geben vor, daß die Interkorrelationsmuster von monomethod- und heteromethod-Korrelationen gleich sein sollen.

Abbildung in dieser Leseprobe nicht enthalten

Abb.5 Beispiel für eine Multitrait-Multimethod-Matrix mit drei Traits (T1 bis T3) und drei Methoden

(M1 bis M3).

Die vorgestellte Methode ist nicht unproblematisch, da für keines der vier Kriterien ein einzelner Koeffizient existiert und keine Entscheidungsregeln vorgegeben werden, wie hoch die Korrelationskoeffizienten sein müssen und inwiefern Verletzungen erlaubt sind. Die Kriterien von Campbell und Fiske erlauben einigen Spielraum für Interpretationen. Was bedeutet z.B. „Gleichheit von Interkorrelationsmustern“? Und um wieviel geringer sollte die diskriminante Validität im Vergleich zur konvergenten Validität ausfallen ?

Die MTMM-Validierung kann nur als „informelle Auswertmethode“ bezeichnet werden, die erste Hinweise auf Konstruktvalidität gibt. Gegebenenfalls müssen weitere Auswertungsschritte folgen.

Auf die Beobachterurteile eines Assessment Center-Verfahrens wurde das Multitrait-Multimethod-Verfahren von Russell (1987) angewendet (Tab. 2). Dabei ergab sich eine durchschnittliche konvergente Validität (fett gedruckt) von r = .25. Die durchschnittliche diskriminante Validität (kursiv) beträgt hingegen r = .53 . Es zeigte sich also, daß die Korrelationen verschiedener Traits innerhalb einer Übung höher ausfallen als die Korrelationen desselben Traits, beobachtet in verschiedenen Übungen.

Tab. 2: MTMM-Matrix der Beobachterurteile eines Assessment Center-Verfahrens (C.G. Russell,

Abbildung in dieser Leseprobe nicht enthalten

Dies bedeutet, daß die Konstrukte nicht über die unterschiedlichen Übungen hinweg erfaßt werden. Zudem wird innerhalb von Übungen unzureichend zwischen den unterschiedlichen Konstrukten differenziert. Konstruktvalidität kann Beobachterurteilen im AC demnach nicht bescheinigt werden.

3.4.3.1.2 Faktorenanalytische Auswertung

Die faktorenanalytische Auswertung von Assessment Center-Urteilen ist eine angemessene Methode, um Aussagen darüber zu treffen, inwiefern die vorgegebenen Konstrukte als Grundlage der Bewertung dienen. Es sollten sich idealerweise so viele Dimensionen finden, wie Konstrukte gegeben sind. Auf den jeweiligen Faktoren sollten die gleichen Traits, erhoben in verschiedenen Übungen, hoch laden (>.50), während alle anderen Traits niedriger laden.

Dies wurde durch Sackett und Dreher (1982) in einer grundlegenden Arbeit untersucht, deren Ergebnis immer wieder repliziert werden konnte (vgl. Dickinson, Hassett & Tannenbaum, 1986; Scholz, 1994).

Das Ergebnis ihrer Hauptkomponentenanalyse mit Varimax-Rotation an 559 Assessment Center-Teilnehmern aus drei Organisationen lautete, daß Bewertungen eher übungs- als dimensionsweise abgegeben wurden: „As can be seen, there ist virtually no agreement among the various ratings of a dimension and relatively high agreement among the dimensional ratings made in each exercise“ (Sackett & Dreher, 1982, S. 404). Auf den Faktoren konnten jeweils hohe Ladungen der unterschiedlichen, innerhalb einer Übung erhobenen Traits verzeichnet werden. Exemplarisch sind die Ergebnisse einer Untersuchung von Scholz (1994) angeführt (Tab.3). Die angegebenen Daten wurden zwar in einem dynamischen Assessment Center erhoben, weisen aber keinen Unterschied zu den Ergebnissen von Sackett und Dreher (1982) auf. Es zeigt sich, daß trotz des Aufsehens, das die Arbeit von Sackett und Dreher erregt hat, in den letzten Jahren kaum Fortschritte hinsichtlich der Konstruktvalidität im AC gemacht wurden.

Sackett und Dreher (1982) ermittelten in ihrer Studie auch Korrelationskoeffizienten und lagen dabei in dem später von Russell (1987) berichteten Bereich. Die diskriminante Validität war bei allen Organisationen unbefriedigend; es wurden durchschnittliche Korrelationen zwischen den in einer Übung erhobenen Dimensionen von r = .63 bzw. .39 und .64 gefunden. Die konvergente Validität war in zwei von drei Fällen extrem gering (r = .07 bzw. .10) und einmal höher (r =.50). In keinem Fall überstiegen die Korrelationswerte für konvergente Validität jedoch die Werte für diskriminante Validität. Nur in wenigen Untersuchungen konnten diskriminante Validitäten gefunden werden, die geringer als die konvergenten Validitäten ausfielen (vgl. Kleinmann, 1997).

Tab. 3 Faktorladungen der Beobachterurteile eines dynamischen Assessment Center (Scholz, 1994). Aufgeführt sind alle Faktorladungen > .50. N = 211.

Abbildung in dieser Leseprobe nicht enthalten

Welches sind die Ursachen dafür, daß die Konstruktvalidität im Assessment Center unbefriedigend ausfällt? Es wurden eine Reihe von Moderatoren der Konstruktvalidität gefunden, die im folgenden aufgeführt sind.

3.4.3.1.3 Moderatoren der Konstruktvalidität

- Anzahl der Beobachtungsdimensionen

Gaugler und Thornton (1989) stellten eine höhere konvergente Validität fest, wenn nur drei anstelle von sechs oder neun Beobachtungsdimensionen erhoben wurden. Die diskriminante Validität konnte in der Untersuchung jedoch nicht verbessert werden.

Die Autoren vermuten, daß die begrenzte Informationsverarbeitungskapazität der Beobachter einen limitierenden Einfluß auf die Konstruktvalidität hat.

- Transparenz der Beobachtungsdimensionen

Die Transparenz der Beobachtungsdimensionen war Gegenstand einer Untersuchung von Kleinmann (1993). Er erhob die Annahmen der Teilnehmer darüber, welche Dimensionen im Verfahren bewertet würden. Es zeigte sich, daß für diejenigen Teilnehmer eine höhere Konstruktvalidität resultierte, die die relevanten Kriterien exakter einschätzen konnten.

In einer weiteren Untersuchung von Kleinmann (1997) wurden die Beobachtungsdimensionen vor einem eintägigen AC der Hälfte der Teilnehmer erläutert. Von diesen gaben anschließend nur etwa 40 % an, sich nach diesen Anforderungsdimensionen gerichtet zu haben.

Für diejenigen Teilnehmer, denen die Dimensionen bekannt waren und die sich danach richteten, entstanden signifikant höhere konvergente und diskriminante Validitäten im Verhältnis zu denjenigen, die die Dimensionen kannten und sich nicht danach richteten. Durch die Bekanntgabe der relevanten Kriterien allein schien sich dagegen keine signifikante Veränderung in der Konstruktvalidität zu ergeben.

- Unabhängigkeit der Beobachtungsdimensionen

Kleinmann (1997) ließ durch Experten (drei erfahrene Diplom-Psychologen) einschätzen, inwieweit die im AC beobachteten Dimensionen miteinander konfundiert sind. Bei der anschließenden Durchführung des Verfahrens ergab sich eine deutlich höhere diskriminante Validität, wenn die Urteilsdimensionen als voneinander unabhängig eingeschätzt worden waren.

- Beobachtbarkeit der Beobachtungsdimensionen

In der gleichen Versuchsanordnung ging Kleinmann (1997) ebenfalls der Frage nach, ob unterschiedliche Beobachtbarkeit von Dimensionen einen Einfluß auf die Konstruktvalidität habe. Die Einschätzung der Beobachtbarkeit wurde ebenfalls durch Expertenrating vorgenommen. Bei der Untersuchung von vier gut beobachtbaren und vier weniger gut beobachtbaren Kriterien zeigte sich nur ein geringer Einfluß dieses Aspekts. Lediglich bei der Dimension „Durchsetzungsfähigkeit“ ergab sich eine signifikant höhere konvergente Validität. Zu einem anderen Ergebnis kamen Shore, Shore und Thornton (1992). Sie fanden eine größere Konstruktvalidität bei besser beobachtbaren Dimensionen, allerdings für Selbst- und Mitkandidatenbeurteilung. Möglicherweise besteht hier ein Unterschied zur Beobachtung durch Assessoren.

- Beurteilungsverfahren

Silverman, Dalessio, Woods und Johnson (1986) verglichen zwei Auswertungsstrategien im Assessment Center miteinander. Dabei stellten sie fest, daß eine höhere Validität resultiert, wenn erst am Ende des ACs jedes Merkmal über alle Übungen hinweg bewertet wurde. Eine geringere Konstruktvalidität ergab sich, wenn direkt nach jeder Aufgabe Urteile über die Ausprägung von Merkmalen abzugeben waren.

Die Autoren nehmen an, daß bei der erstgenannten Auswertungsmethode die Beobachter eher dazu angehalten werden, solche Verhaltensweisen zu registrieren, die sich über die Übungen hinweg zeigen. Allerdings müssen die Ergebnisse dieser Studie aufgrund der unsystematischen Variation weiterer Bedingungen mit Vorbehalt betrachtet werden.

In einer Untersuchung von Kleinmann (1997), die an der Fragestellung von Silverman et al. ansetzte, aber methodisch sauberer angelegt war, konnte keine Veränderung der konvergenten und diskriminanten Validität bei Gegenüberstellung von „aufgabenweiser“ und „merkmalsweiser“ Beurteilung festgestellt werden. Allerdings erreichte die konvergente Validität in beiden Versuchsbedingungen substantielle Werte mit r = .51, wenn die Urteile am Ende des Verfahrens für jedes Merkmal abgegeben wurden und r = .44, wenn die Urteile sofort nach jeder Übung zu erheben waren.

- Verhaltensbeschreibungen zu Anforderungsdimensionen

Die konvergente Validität der im AC beobachteten Dimensionen konnte auch dadurch gesteigert werden, daß den Beobachtern zu jeder Dimension konkrete Verhaltensbeschreibungen in Form von Checklisten vorgegeben wurden. Dies zeigten Reilly, Henry und Smither (1990).

- Organisation der Beobachtungssituation

Kleinmann (1997, S. 77) geht davon aus, daß die Organisation der Beobachtungssituation einen Einfluß auf die Konstruktvalidität hat. Zu beachten ist, daß im herkömmlichen Assessment Center die konvergente Validität durch Korrelation der Urteile verschiedener Beobachter zustande kommt, während bei der diskriminanten Validität die Urteile der gleichen Beobachter korreliert werden. Bei der Bewertung der Konstruktvalidität eines Verfahrens sollte dabei in Betracht gezogen werden, ob und inwiefern eine Rotation der Beobachter stattfindet. Ein Rotationssystem, bei dem unerwünschte Effekte möglichst gering gehalten werden, wird von Andres und Kleinmann (1993) vorgeschlagen.

Es konnten Moderatoren der Konstruktvalidität im Assessment Center aufgezeigt werden. Keinen Einfluß auf die konvergente Validität haben hingegen die Art der Datenintegration in der Beobachterkonferenz, die Güte der Beobachtbarkeit der Verhaltensdimensionen und die Attributionsprozesse der Beobachter in unterschiedlichen Übungen (Kleinmann, 1997, S. 176).

3.4.3.2 Kriteriumsbezogene Validität

Die kriteriumsbezogene Validität wird durch die Korrelation der erhobenen Werte mit einem passend erscheinenden Außenkriterium ermittelt. Dies kann ein gleichzeitig erhobenes (Übereinstimmungsvalidität) oder im Anschluß erhobenes (Vorhersagevalidität) Kriterium sein.

Aus Sicht des Unternehmens ist gerade die Vorhersagevalidität von Interesse, da der Auftraggeber hofft, durch das Verfahren ein zuverlässiges Mittel zur Voraussage von Berufserfolg zur Hand zu haben. Wie jedoch kann Berufserfolg zuverlässig gemessen werden?

In verschiedenen Studien wurde die AC-Aussage mit Kriterien wie Berufserfolg, Beförderung oder Gehaltszuwachs nach mehreren Jahren ermittelt.

Hinrichs (1978) fand einen Validitätskoeffizienten von r = .46 zwischen der Potentialaussage im AC und der erreichten Hierarchieebene nach acht Jahren bei einer Stichprobe von n= 30. Fennekels (1990, S. 859) untersuchte die Karriereentwicklung von 295 AC-Teilnehmern mittels DEL-Analyse und fand, daß eine Karriereentwicklung nach fünf Jahren um 43 % exakter als durch reine Zufallsschätzung vorausgesagt worden war.

Thornton, Gaugler, Rosenthal und Bentson (1987) kamen in ihrer Metaanalysee von 107 Validitätswerten aus 50 Studien zu einem korrigierten und um statistische sowie methodische Artefakte bereinigten Validitätskoeffizienten von .37. Als externe Kriterien dienten dabei sowohl Karriereentwicklung (r = .36) als auch Trainingsleistungen (r = .36) und Potentialaussagen der Vorgesetzten, die mit r = .53 einen erstaunlichen hohen Validitätskoeffizienten erreichten.

Die berücksichtigten Koeffizienten in der Studie von Thornton et al. variieren allerdings zwischen r = -.25 und .78. Dieser Wert macht deutlich, daß Aussagen aus einem statistisch nicht überprüften AC kritisch betrachtet werden müssen.

Übereinstimmungsvalidität wird durch die Korrelation von AC-Ergebnissen und gleichzeitig erhobenen Maßen ermittelt. So können die Konstrukte des Assessment Centers in ein nomologisches Netz (vgl. Scholz & Schuler, 1993) eingebettet werden. Dies kann u.a. zur Ermittlung der Konstruktvalidität genutzt werden.

Tab. 4: Kriteriumsvalidität der Assessment Center-Endbeurteilung (Overall Rating) in verschiedenen Studien

Abbildung in dieser Leseprobe nicht enthalten

Als Maße zur Erhebung der Übereinstimmungsvalidität haben sich sowohl Testergebnisse (Scholz, 1994) als auch Mitkandidaten (Peer) - und Selbsturteile heranziehen lassen. Insbesondere Intelligenztestwerte korrelierten dabei hoch mit Beobachterurteilen (vgl. Tab.4). Im Vergleich mit anderen Urteilsarten fällt die in vielen Studien ermittelte Übereinstimmung mit dem Mitkandidatenurteil relativ hoch aus (Maukisch et al., 1991).

3.4.3.2.1 Moderatoren der Kriteriumsvalidität

Es wurden eine Reihe von Aspekten gefunden, die moderierend auf die Kriteriumsvalidität wirken. Thornton et al.(1987) überprüften in ihrer Metaanalyse, die sich auf 50 Studien stützte, die Auswirkungen von insgesamt 20 potentiellen Moderatorvariablen. Die wichtigsten Aspekte werden vorgestellt.

- Anzahl der verwendeten Übungen

Die Validität steigt mit zunehmender Anzahl und Bandbreite der im AC verwendeten Übungen. Dieses Grundprinzip der Verfahrensvielfalt ist Teil der Methode und wird seit jeher angewendet. Es zeigt sich, daß das AC einzelnen Verfahren oder Arbeitsproben hinsichtlich der Validität überlegen ist.

- Nutzung von Mitkandidatenurteilen

Auch die Nutzung der Perspektive der Mitkandidaten hat eine positive Auswirkung auf die Validität der Aussage. Diejenigen Studien, bei denen Peer-Urteile in das Gesamturteil integriert wurden, fielen valider aus. In der Mehrzahl der Untersuchungen wurden Peerurteile jedoch nicht genutzt, um den Wettbewerb der Teilnehmer untereinander nicht zusätzlich zu entfachen. Thornton et al. (1987) befürworten den Einsatz von Mitkandidatenurteilen unbedingt, empfehlen aber, den Teilnehmern die Vorteile zu erklären und potentielle Widerstände vorab zu zerstreuen.

- Psychologen als Beobachter

Wenn Psychologen als Beobachter eingesetzt waren, so führte dies zu einer höheren Validität der Urteile als beim Einsatz von Linienvorgesetzten. Diese Erkenntnis sollte bei Forderungen, Manager als Beobachter einzusetzen, bedacht werden, auch wenn sie mit dem Unternehmens-hintergrund bestens vertraut sind (Schircks, 1994).

- Intransparenz der Anforderungsdimensionen

Kleinmann (1997) stellte fest, daß die Bekanntgabe von erhobenen Anforderungsdimensionen an die Teilnehmer zu einem Absinken der Kriteriumsvalidität führt. Er bringt dies mit der Annahme in Verbindung, daß im AC diejenigen Personen am besten abschneiden, die die relevanten Urteilsdimensionen intuitiv erkennen und in der Lage sind, ihr Verhalten danach auszurichten (vgl. Klimoski & Strickland, 1977; Bungard, 1987; Kompa, 1989). Gerade diese Menschen seien es, die im Unternehmen auch sonst erfolgreich sind, weil sie auch in anderen Situationen, die z.B. beförderungsrelevant sind, relevantes Verhalten zeigen. Durch die Bekanntgabe der Anforderungen an alle Teilnehmer würde dieser Vorteil im AC nicht mehr auftreten, so daß die Teilnehmer mit dieser Fähigkeit weniger valide herausgefiltert würden.

- Merkmale der Assessment Center Teilnehmer

Während zwischen Alter des Teilnehmers und Validität keine Beziehung gefunden wurde, stellte sich heraus, daß höhere Validität resultiert, wenn Frauen in der Teilnehmergruppe vertreten sind sowie wenn Mitglieder von Minderheiten bewertet werden. Letzteres Ergebnis kann mit der besonderen Situation in den USA in Zusammenhang gesehen werden, und ist nicht ohne weitere Prüfung auf europäische Verhältnisse übertragbar.

Keinen moderierenden Einfluß auf die Kriteriumsvalidität konnten Thornton et al. (1987) hingegen bei folgenden Aspekten finden: Verhältnis von Beurteilern zu Beurteilten, Dauer des AC in Tagen, Dauer des Beobachtertrainings und Dauer der Beobachterkonferenz. Das Feedback an Beurteilte und ihre Vorgesetzten hatte nur dann einen Einfluß, wenn als Kriterium „Potentialaussage“ gewählt wurde.

Unter diesen Erkenntnissen überrascht besonders, daß die Dauer des als wichtig erachteten Beobachtertrainings (Jeserich, 1990) keinen Einfluß auf die Validität der Ergebnisse hatte. Dabei muß offen bleiben, ob das Beobachtertraining ohne Einfluß blieb, oder ob auch ein kurzes Beobachtertraining soviel an Gewinn bringt, daß durch ein längeres Training nur noch unbedeutend validere Ergebnisse erzielt werden können.

3.5 Urteilstendenzen

Die Qualität von Leistungsbeurteilungen läßt sich nur teilweise in Termini der Gütekriterien der psychologischen Testtheorie bestimmen (Schuler, 1989, S. 419). Urteilstendenzen sollten zusätzlich betrachtet werden. Ihr Auftreten kann dazu führen, daß Urteile invalide ausfallen, andererseits kann aber aus der Abwesenheit von Urteilstendenzen nicht geschlossen werden, daß Urteile valide sind. So wiesen Balzer und Sulsky (1992) darauf hin, daß der Zusammenhang zwischen Halo und der Validität von Urteilen fraglich sei. Murphy und Balzer (1989) fanden keinen Zusammenhang zwischen dem Auftreten von Halo, Milde-Effekt oder geringer Varianz der Urteile und Urteilsgenauigkeit (r = .04).

Nachfolgend werden die bedeutsamsten Urteilstendenzen dargestellt. Dabei wird auf ihre Ermittelung und Möglichkeiten zur Vermeidung eingegangen.

Fisseni und Fennekels (1995) nennen folgende Verzerrungs- oder Verfälschungstendenzen, die sich nicht disjunkt voneinander trennen lassen: Der Hof- oder Halo-Effekt, der Milde- bzw. Strenge-Effekt, der Positions-Effekt, die Zentrale Tendenz, der Kontrast- oder Ähnlichkeitsfehler sowie der Erwartungseffekt. Kleinmann (1995) führt Reihenfolgeeffekte und implizite Persönlichkeitstheorien als empirisch belegte Einflußfaktoren für Beobachterverhalten an. Saal, Downey und Lahey (1980) unterscheiden zusätzlich zwischen Zentraler Tendenz und der Neigung, die Urteilsskala nur begrenzt zu nutzen.

Urteilstendenzen können als Korrelations-, Mittelwerts- und Streuungstendenzen beschrieben werden.

3.5.1 Korrelationstendenzen: Der Halo-Effekt

Saal et al. (1980) beschreiben den Halo-Effekt (Überstrahlung) als Unvermögen des Beobachters, zwischen konzeptuell unterschiedlichen und unabhängigen Aspekten des Verhaltens des Beobachteten zu unterscheiden. Sie berichten von verschiedenen Ansätzen, den Halo-Effekt meßbar zu machen:

- Als Interkorrelation zwischen den Ratings auf verschiedenen Dimensionen, wobei eine höhere Korrelation als geringere Diskriminierung zwischen verschiedenen Verhaltensaspekten zu werten ist und somit einen höheren Halo-Effekt bedeutet;

- Als Ergebnis einer Faktorenanalyse der Dimensionsurteile, wobei eine geringere Anzahl von Faktoren auf einen größeren Halo-Effekt hinweist (vgl. Sackett & Dreher, 1982; Scholz, 1994).

Schuler (1989) führt hingegen an, daß eine Korrelation zwischen Urteilsaspekten nicht auf Urteilstendenzen beruhen muß, da auch eine Konfundierung zwischen Merkmalen gegeben sein kann.

Bei der Betrachtung des faktorenanalytisch erhobenen Werte ist neben der Anzahl der Beobachtungsdimensionen von Interesse, wie hoch der Anteil der erklärten Varianz ist, der auf den ersten Faktor entfällt. Je höher dieser Anteil ausfällt, desto ausgeprägter ist der Halo-Effekt.

In der Untersuchung von Scholz (1994) wird leider nicht angegeben, wieviel Varianz durch den ersten der sechs ermittelten Faktoren erklärt wird. Der Eigenwert von 8.83 fällt jedoch wesentlich höher als bei den nachfolgenden Faktoren (2,46; 1,66; 1,29; 1,29; 1,05) aus, was bei einer erklärten Gesamtvarianz von 79,7 % darauf hinweist, daß wenigstens die Hälfte der erklärten Varianz, also etwa 40 %, auf den ersten Faktor zurückgeführt werden können.

Moser et al. (1994) ermittelten einen durch den ersten Faktor von Hauptkomponentenanalysen aufgeklärten Varianzanteil bei Vorgesetztenbeurteilungen von 47,4 % bei Fähigkeits- und 46,9% bei Verhaltenskriterien.

3.5.2 Mittelwertstendenzen: Der Milde- bzw. Strenge-Effekt

Unter Mittelwertstendenzen werden Differenzen zwischen den Beobachtern hinsichtlich ihrer durchschnittlichen Einstufungen bezeichnet. Saal et al. (1980) stellen unterschiedliche konzeptuelle Definitionen vor. Demnach läßt sich der Effekt u.a. als Tendenz, einem Teilnehmer eine höhere oder niedrige Wertung zuzuschreiben als durch sein Verhalten gerechtfertigt ist oder als Verschiebung der Durchschnittswerte vom Mittelpunkt der Beurteilungsskala in eine Richtung begreifen.

Der populärste Ansatz zur Untersuchung des Effekts beinhaltet den Vergleich der durchschnittlichen Urteilswerte mit den Mittelpunkten der verwendeten Urteilsskala. Durchschnittliche Urteilswerte oberhalb des Mittelpunkts werden als Milde-Effekt, unterhalb als Strenge-Effekt interpretiert (Bernardin, Alvares & Cranny, 1976).

Die Tendenz zur positiven Bewertung wird im Zusammenhang mit Selbsturteilen berichtet (Shore et al., 1992 ). Außerdem kann sie auftreten, wenn Beurteilungen konsequenzenreich sind, mit den Beurteilten erörtert werden müssen, und wenn subjektiv wahrgenommene Ähnlichkeit zwischen Urteiler und Beurteiltem besteht (Schuler, 1989).

3.5.3 Streuungstendenzen: Zentrale Tendenz

Die zentrale Tendenz wird von Korman (1971) beschrieben als „tendency to rate all rating objects around the „middle“ or mean of a rating continuum and not to use the extremes“ (p. 180f.). Extreme Urteile werden vermieden, mittlere (neutrale) dagegen bevorzugt. Dies zeigt sich darin, daß sich die Scores im Mittelbereich konzentrieren und daß die Standard- abweichung gering ausfällt. Saal et al. (1980) weisen darauf hin, daß die geringe Streuung der Urteile durchaus auch um einen anderen Punkt als den Skalenmittelwert vorkommen kann, so daß diese Urteilstendenz mit einer Milde- bzw. Strenge-Tendenz gekoppelt wäre.

3.5.4 Ähnlichkeits-, Kontrast- Eindrucks- und Erwartungseffekte

Ähnlichkeits- und Kontrasteffekte bestehen darin, daß der Beurteiler Eigenschaften „erkennt“, die er sich selbst auch zuschreibt bzw. selbst nicht besitzt (Fisseni, 1990). Genau wie Eindruckseffekte haben sie laut Saal et al. (1980) nur geringfügige Bedeutung. Allerdings hat Steingrüber (1997) einen Effekt des ersten Eindrucks bei Beurteilern im Auswahl-AC feststellen können.

Der Erwartungs-Effekt (self-fulfilling prophecy) beschreibt das Phänomen, daß sich Beurteiler in ihren Schlußfolgerungen von ungeprüften Hypothesen leiten lassen.

3.5.5 Vermeidung von Urteilstendenzen

Eine Reihe von Maßnahmen können das Auftreten von Urteilstendenzen verhindern bzw. Urteilsfehler mindern. So wird das Auftreten von Urteilstendenzen durch die Wahl des Erhebungsinstruments beeinflußt: Mittelwertstendenzen können durch die Verwendung von Rangordnungsverfahren vermieden werden, da die Streuung der Urteile durch das Verfahren vorgegeben ist. Das Auftreten des Halo-Effekts kann jedoch auch durch die Verwendung dieses Verfahren nicht ganz ausgeschlossen werden (King, Hunter & Schmidt, 1980).

Weitere Maßnahmen sind die Verwendung eindeutiger, verhaltensbezogener und operational abgrenzbarer Urteilskriterien sowie der Einsatz mehrerer erfahrener Beobachter (Schuler, 1989).

Um das Auftreten von Urteilsfehlern im Assessment Center zu reduzieren, empfehlen einige Autoren das Absolvieren eines Beobachter-Trainings (Fisseni & Fennekels, 1995; kritisch dazu: Lord, 1985). Jeserich (1990) berichtet über positive Effekte eines Beobachtertrainings an 60 Managern, die regelmäßig Leistungsbeurteilungen durchführen. Ein halbes Jahr nach einem Training traten sowohl Halo-Effekt, Kontrast-Effekt, Ähnlichkeitsphänomen und Effekte des ersten Eindrucks nicht mehr auf.

Fisseni und Fennekels (1995) berichten, das Beobachter-Training könne Beobachtungs- und Beurteilungsfehler zwar nicht völlig ausschalten, die Qualität des Beobachtungs- und Beurteilungsprozesses aber entscheidend verbessern. Weiterhin wurden Auswirkungen auf die Gütekriterien des Verfahrens gemessen: Die Retest-Reliabilität bei trainierten Beobachtern fiel gegenüber ungeübten Beobachtern höher aus.

In einem typischen Beobachtertraining zum Assessment Center werden die Beurteiler auf mögliche Verzerrungstendenzen aufmerksam gemacht. Darüber hinaus lernen sie die verwendeten Kriterien und deren Operationalisierungen kennen. Eindeutige Beobachtung sowie die Umwandlung der Beobachtung in eindeutige Urteile stehen im Mittelpunkt des Trainings. In praktischen Übungen wird Gelegenheit geboten, Verhaltensbeschreibung zu üben sowie Rückmeldungen an die Teilnehmer durchzuführen (Fisseni & Fennekels, 1995).

3.6 Soziale Validität

Der Begriff der „sozialen Validität“ ist von Schuler und Stehle (1983) eingeführt und von Schuler (1990) weiterentwickelt worden. Sie schlagen diese Formulierung als Kontrast zur „technischen“ Validität (Schuler & Stehle, 1987) vor und fassen darunter vier Aspekte, die das Verfahren aus Sicht der Teilnehmer charakterisieren. Es geht dabei um das Erleben und die Wirkung, die mit der AC-Teilnahme verbunden ist, sowie die damit einhergehende Akzeptanz des Verfahrens durch den Kandidaten.

Schuler (1996) nennt vier Aspekte der sozialen Validität: Partizipation, Transparenz, Urteilskommunikation und Information. Sie werden im folgenden beschrieben:

- Partizipation an Entwicklung und Verwendung des Instruments.

Schuler und Stehle (1983, S. 35) plädieren dafür, „den Prozeß von der Aufgabenanalyse bis zur Formulierung der Empfehlungen unter die gemeinsame Beteiligung und Kontrolle aller ... relevanten Gruppen“, also auch der Teilnehmer, zu stellen.

- Transparenz von Durchführung des Verfahrens und diagnostischem Schluß.

Konkret wird unter Transparenz die erkennbare Relevanz der Beobachtungssituation (Augenscheinvalidität) und Klarheit über Beurteilungsmaßstäbe- und kriterien sowie Urteilsaggregation verstanden. Die Möglichkeit zur Selbstbeurteilung wird von Schuler und Stehle (1983, S. 35) als besonders förderlich für die Transparenz des Verfahrens erachtet.

- Urteilskommunikation / Feedback in rücksichtsvoller, nachvollziehbarer, verständlicher Form.

Soziale Validität zeigt sich u.a. in der wechselseitigen Kommunikation zwischen Unternehmen und AC-Teilnehmer. Dabei ist es wichtig, daß die Beurteilung aufgrund von Verhaltensbeschreibungen, nicht Eigenschaftszuweisungen erfolgt. Schließlich sollte sich die Urteilskommunikation durch Rücksichtnahme auf die Persönlichkeitssphäre auszeichnen.

- Information über Arbeitsplatz, Organisation und Verfahren.

Dieser Aspekt hat in der weiterentwickelten Form des Konzepts den ursprünglich angesetzten Aspekt Berücksichtigung sozialpsychologischer Anforderungen ersetzt. Er bezieht sich darauf, inwiefern die Teilnehmer über Aspekte von Organisation, Arbeitsplatz und persönlichen Entwicklungschancen informiert werden.

[...]


[1] Die folgenden Aussagen beziehen sich gleichermaßen auf weibliche und männliche Personen. Der Einfachheit halber wird jedoch nur die maskuline Form verwendet.

Ende der Leseprobe aus 173 Seiten

Details

Titel
Selbst- und Mitkandidatenurteile im Entwicklungs-Assessment Center. Eine Untersuchung zu Validität und Urteilstendenzen
Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn
Note
2
Autor
Jahr
1997
Seiten
173
Katalognummer
V185251
ISBN (eBook)
9783668301023
ISBN (Buch)
9783867461573
Dateigröße
1760 KB
Sprache
Deutsch
Schlagworte
selbst-, mitkandidatenurteile, entwicklungs-assessment, center, eine, untersuchung, validität, urteilstendenzen
Arbeit zitieren
Ulrich Walbrühl (Autor:in), 1997, Selbst- und Mitkandidatenurteile im Entwicklungs-Assessment Center. Eine Untersuchung zu Validität und Urteilstendenzen, München, GRIN Verlag, https://www.grin.com/document/185251

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Selbst- und Mitkandidatenurteile im Entwicklungs-Assessment Center. Eine Untersuchung zu Validität und Urteilstendenzen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden