Empirische Studie Obermann Consulting
Persönlichkeitsfragebögen in Auswahl und Potenzialanalyse etabliert
Die Ausgangslage für psychometrisch konstruierte Persönlichkeitsfragebögen stellt sich wie folgt dar: Laut der letzten empirischen Erhebung des Forum Assessment nutzen im deutschsprachigen Raum etwa 40% der Organisationen psychometrische Fragebögen als Teil von Assessment-Center (AC) oder Development-Center (DC) (Obermann, Höft & Becker, 2016). Ihre Validität in der Vorhersage von Führungs- und Berufserfolg liegt auf der Höhe von Instrumenten wie Rollenspiel oder Fallstudie (Roth, Bobko & McFarland, 2005). Das Forum Assessment fordert in seinen Qualitätsstandards, dass psychometrisch konstruierte Persönlichkeitsfragebögen oder kognitive Tests ein empfohlener Bestandteil von AC/DC sind (Forum Assessment, 2016).
Ihre diagnostische Berechtigung ergibt sich daraus, dass sie im Sinne des Mehrmethodenprinzips eine relevante weitere Sichtweise auf das Potenzial von AC-Teilnehmenden einbringen. Über Verhaltenssimulationen, z. B. Fallstudie / Gruppenübung, können Persönlichkeitsmerkmale für Berufs- und Führungserfolg nicht oder nur indirekt erfasst werden.
Fragezeichen an der Aussagekraft von Persönlichkeitsfragebögen
Trotz dieser Relevanz gibt es in der Methodik zu Persönlichkeitsfragebögen kaum erkennbaren Fortschritte. Sie werden wie vor 100 Jahren konstruiert. Der Laie vermutet und erwartet ausgetüftelte Methoden, in denen das Innere der Persönlichkeit aufgedeckt werden kann. Sie wären enttäuscht, wenn sie wüssten, dass Fragebögen simple Selbstbeschreibungen sind, wie z. B. „Stimmen Sie der Aussage zu: Ich bin ein fleißiger Mensch Ja / teilweise / Nein“.
Im Kontext von Bewerbungen oder Potenzialanalysen ist für Bewerbende in solchen Fragen durchschaubar, worin die Erwartungshaltung des Arbeitgebers liegt und wie solche Fragen entsprechend des Stereotyps des immer bereiten und allseits belastbaren Mitarbeiters zu beantworten sind.
Konzeptionell ergibt sich die weitere Herausforderung, dass sozial erwünschtes Antworten gleichzeitig mit Berufserfolg in Zusammenhang steht (Blickle et al., 2012; Zivnuska et al., 2004; Bui, 2002): Wer sich positiv darstellt und aus den Fragebögen besser als andere die erwarteten Antworten antizipieren kann, gehört auch im Beruf zu den erfolgreicheren Personen. Dann wären Persönlichkeitsfragebögen zwar nützlich, weil sie zeigen, wer sich gut darstellten kann, aber das eigentliche Versprechen wird nicht eingelöst, dass belastbare Aussagen zu Persönlichkeitseigenschaften erhoben werden können.
Teilstudie 1: In welchem Umfang gibt es Faking / sozial erwünschte Antworten tatsächlich im Bewerbungskontext?
Für die Studie eingesetzt wurde der LPA (Leadership Potential Assessment) der Autoren (Obermann, 2022), ein bewährter Online-Persönlichkeitsfragebogen mit Skalen zur Persönlichkeit (etwa Stressempfinden, Teamfähigkeit, Gewissenhaftigkeit), Integrität und zur beruflichen Grundmotivation (etwa Leistungsmotiv, Führungsmotiv, Anerkennungsmotiv. Der LPA hat das Transparenzzertifikat der deutschen Psychologenverbände.
Dazu wurden N=151 berufstätige Personen gebeten, insgesamt 224 Items jeweils unter zwei Bedingungen zu beantworten: A) Was ist Ihre intuitive/spontane Antwort? B) Wie würden Sie antworten, wenn Sie sich bewerben würden. So konnte für alle Teilnehmenden und jede Skala erhoben werden, in welchem Umfang Bewerbende bereit wären, ihre eigentliche/intuitive Antwort abzuwandeln und sozial erwünscht zu „optimieren“.
Zum Ergebnis: Sozial erwünschtes Antworten im findet tatsächlich in erheblichem Umfang statt, bei einzelnen der Skalen beträgt der sogenannte d-Wert, der Unterschied zwischen der ehrlichen und der Bewerbungsbedingung mehr als 1 Standardabweichung. Dies bedeutet beispielsweise, dass bei einer 7-er Skala (Mittelwert=4, Standardabweichung=1,5) ein in der Bewerbung erhobener Wert von im Durchschnitt 5,5 „in Wahrheit“ eigentlich nur ein Wert von 4 wäre, wenn die Bewerbenden ehrlich geantwortet hätten.
In der Studie wurde als Validierungskriterium auch eine Vorgesetzteneinschätzung erhoben. Die ursprüngliche Validität der Skalen im Persönlichkeitsfragebogens sinkt in der Bewerbungsbedingung erheblich, beispielhaft in der Skala Gewissenhaftigkeit von r=.18 auf r=.03 (unkorrigierte Werte). Damit bestätigt sich der ursprüngliche Verdacht, dass der angenommene Nutzen von Persönlichkeitsfragebögen im Kontext Bewerbung in der Vorhersage von Berufserfolg durch Faking erheblich absinkt.
Der Umfang des sozial erwünschten Antwortens variiert erheblich zwischen den einzelnen Skalen. Es gibt solche, bei denen die Erwartungshaltung der Arbeitgeber weniger klar ist, z. B. Dominanz oder das Anschlussmotiv. Bei anderen Skalen ist der Effekt des sozial erwünschten Antwortens jedoch erheblich, z. B. Integrität oder Stressempfinden. Hier ist für Bewerbende klar, dass sie sich als absolut integer und belastbar „verkaufen“.
Die erste Teilstudie führt zu weiteren Befunden: Auch zwischen den einzelnen Bewerbenden gibt es erhebliche Unterschiede im Grad des sozial erwünschten Antwortens. Bei etwa 37% der Probanden der Studie gab es nur geringe Unterschiede zwischen den Bedingungen „ehrlich“ und „Bewerbung“, sie antworten also auch in der Bewerbungsbedingung ehrlich. Anderseits wurde bei 41% der Probanden das Ausmaß des Übertreibens als erheblich eingeschätzt. Das führt zu einem weiteren Dilemma: Wenn wir von Bewerbenden Testergebnisse vor uns haben, wissen wir nicht, ob es sich um ehrliche Personen oder „Faker“ handelt. Wir können nicht pauschal die ermittelten Werte reduzieren. Insgesamt relativiert dieser Befund erheblich die Einsetzbarkeit von Persönlichkeitsfragebögen im Auswahlkontext.
Wie kann Faking / sozial erwünschtes Antworten kontrolliert werden?
Es stehen verschiedene Optionen für Testanwender und -entwickler zur Verfügung, die bewertet wurden, die aus unserer Sicht interessante Variante wurde empirisch überprüft.
Optimierung der Items: Die einzelnen Testitems variieren erheblich in ihrer Anfälligkeit gegenüber sozial erwünschtem Antworten. Eine Introspektion der diesbezüglich guten und schlechten Items ergab, dass allgemein formulierte Items („ich bin ehrlich“) eher zum sozial erwünschten Antworten einladen als scheinbar spezifische („ich bin ehrlich, wenn es mir wichtig ist“). Testanwender und Testanwenderinnen sollten sich die Items anschauen und daraufhin überprüfen, ob solche Items konzipiert wurden.
Vergleichsnomen aus realen Bewerbungen: Wenn die Testergebnisse von Bewerbenden verglichen werden mit Normdaten aus ebenfalls einer Population von Bewerbenden (statt z. B. Studierenden), dann hebt sich zumindest für den Durchschnitt der negative Effekt des sozial erwünschten Antwortens auf: Die sozial erwünschte Übertreibung wird verglichen mit anderen, die auch übertreiben. Daher sollten Testanwender und Testanwenderinnen bei dem jeweiligen Anbieter prüfen, wie sich die Vergleichsnorm zusammensetzt.
Ipsative Items: In dieser Variante erhalten die Bewerbenden mehrere gleich sozial erwünschte Antworten zur Auswahl, z. B. „Bitte sortieren Sie, was auf Sie am meisten zutrifft: Ehrgeizig, hilfsbereit, gewissenhaft oder kommunikativ“ (sogenannte Forced Choice). Da die Alternativen zuvor auf gleiche soziale Erwünschtheit überprüft wurden, gibt es keine Möglichkeit mehr, sich positiv sozial erwünscht darzustellen. Diese Methodik hat jedoch einen großen Nachteil: Der Mittelwert aller Skalen bei jedem Bewerbenden ist immer gleich, ein Vergleich zwischen Bewerbenden geht nicht mehr. So kann ein Bewerber in dem Beispiel etwa „hilfsbereit“ immer zugunsten anderer Begriffe abwählen, er könnte dennoch relativ viel hilfsbereiter sein als andere Personen, die auch im Fragebogen „hilfsbereit“ abgewählt hatten. Einige der Verfahren, die die komplexere Item-Response-Theory (adaptives Testen) nutzen, um aus diesen Items möglichst wenig ipsative Scores zu ziehen, haben gezeigt, dass hier bei der Konstruktion einige Faktoren beachtet werden müssen. Unter anderem, dass der Test möglichst viele Dimensionen abfragen sollte (Schulte, Holling, & Bürkner, 2021) und Frageblöcke heterogen gestaltet werden sollte (Bürkner, Schulte, & Holling, 2019).
Quasi-ipsative Items: Hier werden klassische Itemformate mit ipsativen Formaten kombiniert. Hohe Skalenwerte können nur erreicht werden, wenn sowohl die klassischen Items in der Wirkrichtung beantwortet werden und gleichzeitig die ipsativen Angebote zulasten anderer Skalen gewählt werden.
Lügenskalen oder Soziale-Erwünschtheit-Skalen: Es wurden über die Jahre viele Skalen zur Messung von sozialer Erwünschtheit entwickelt, welche unterschiedliche Ansätze verfolgen. Die bekannteste ist wahrscheinlich die von Marlowe und Crowne (Crowne & Marlowe, 1960), welche zwischen Impression Management und Self Deception unterscheidet. Diese Skalen haben jedoch einige Problematiken gemeinsam: Sie können Faking nur erkennen, nicht korrigieren; ihre Validität für die Korrektur ist nicht gesichert (McCrae & Costa, 1983) und sie messen einfach nur ein weiteres Persönlichkeitskonstrukt, anstatt ein Artefakt (Perinelli & Gremigni, 2016).
Teilstudie 2: Empirische Überprüfung der in welchem Umfang gibt es Faking / sozial erwünschte Antworten tatsächlich im Bewerbungskontext?
Die Autoren haben sich entschlossen, für den LPA-Persönlichkeitsfragebogen die Variante der quasi-ipsativen Itemformate zu überprüfen. Dabei wurde wiederum das gleiche Vorgehen wie in Teilstudie 1 gewählt: Die Probanden und Probandinnen wurden gebeten, die diversen Items des verwendeten Persönlichkeitsfragebogens entweder intuitiv zu beantworten oder sich vorzustellen, sie müssten sich bei einer Bewerbung möglichst positiv darstellen. Nunmehr wurden jedoch die klassischen Items kombiniert mit solchen nach dem ipsativen Format. Da die ursprünglichen Skalen in Teilstudie 1 in sehr unterschiedlichem Maße von sozial erwünschten Antworten infiziert waren, haben wir eine neue methodische Variante gewählt, die Anzahl der klassischen Items und der ipsativen Items je nach Skala unterschiedlich zu gewichten. In den gefährdeten Skalen, z. B. Stressempfinden, wurden die ipsativen Items höher gewichtet, in diesem Beispiel 45% zu 55%.
Ergebnis: Tatsächlich konnten mit dieser Vorgehensweise sozial erwünschte Antworttendenzen deutlich reduziert werden. Für die Skala Stressempfinden von ursprünglich d > 1,0 auf d = 0,10. Durch den Anteil der ipsativen Items müssen sich nunmehr die Bewerbenden entscheiden, welche – der vielen – sozial erwünschten Persönlichkeitseigenschaften am stärksten auf sie zutrifft. Allerdings war dieser dämpfende Effekt nicht für alle Skalen zu finden. Am geringsten war der Dämpfungseffekt bei der Skala Lernagilität von ursprünglich d =0,90 auf d = 0,55.
Zusammenfassend stehen Testanwendern und Testentwicklern mehrere Strategien zur Verfügung, um in Persönlichkeitsfragebögen zu ehrlichen Profilen zu gelangen. Der methodisch aufwändige Ansatz der quasi-ipsativen Items hatte im Rahmen diese Studie überzeugende Effekte. Insofern wurde der LPA der Autoren in dieser Richtung weiterentwickelt.
Fazit
Psychometrische Persönlichkeitsfragebögen sind neben Simulationen und Interviews eines der drei geforderten Verfahrenskategorien des AC/DC. Die Studie 1 hat gezeigt, dass Faking die Aussagekraft im Kontext Personalauswahl reduziert. Sogenannte Lügenskalen können das Faking nicht reduzieren.
Testanwender im Kontext Personalauswahl sollten auf Basis der vorliegenden Erkenntnisse genauer prüfen, welche methodischen Vorkehrungen vorgenommen wurden. Sie sollten eher auf Fragebögen mit spezifisch statt zu allgemein formulierten Items setzen. Sie sollten Fragebögen auswählen, in denen Vergleichsnormen verwendet wurden, die ebenfalls im Kontext Personalauswahl gewonnen wurden. Schließlich hat die AC-Methode die Kernidee, sich nicht auf eine Verfahrenskategorie zu verlassen, sondern die Ergebnisse untereinander abzusichern. Insofern kann die Kombination von Fragebögen mit anderen diagnostischen Instrumenten das Faking kontrollieren.
Literatur
Blickle, G., Diekmann, C., Schneider, P. B., Kalthöfer, Y., & Summers, J. K. (2012). When modesty wins: Impression management through modesty, political skill, and career success—a two-study investigation. European Journal of Work and Organizational Psychology, 21(6), 899-922.
Bui, T. D (2002). Social desirability as a predictor of customer service specialists‘ job performance. Alliant International University, Los Angeles.
Bürkner, P.-C., Schulte, N., & Holling, H. (2019). On the statistical and practical limitations of Thurstonian IRT models. Educational and Psychological Measurement, 79(5), 827-854.
Crowne, D. P., & Marlowe, D. (1960). Marlowe-Crowne social desirability scale. Journal of Consulting Psychology.
Forum Assessment e.V. (2016). Standards der Assessment Center Technik 2016. Online im Internet: URL: http:// https://www.forum-assessment.de/publikationen/standards (Stand 01.07.2022).
Judge, T. A., Higgins, C. A., Thoresen, C. J. & Barrick, M. R. (1999). The big five personality traits, general mental ability, and career success across the life span. Personnel Psychology, 52, 621-652.
McCrae, R. R., & Costa, P. T. (1983). Social desirability scales: More substance than style. Journal of consulting and clinical psychology, 51(6), 882.
Obermann, C. (2022). Handbuch zum Leadership Potential Assessment, Brooklynmaxx GmbH, Köln.
Obermann, C. (2018). Assessment Center Entwicklung, Durchführung, Trends mit originalen AC-Übungen (6., vollständig überarbeitete und erweiterte Auflage.). Wiesbaden: Springer Gabler.
Obermann, C., Höft, S. & Becker, J.-N (2016). Assessment Center-Praxis 2016: Ergebnisse der aktuellen AkAC-Anwenderbefragung. In Arbeitskreis Assessment Center e.V. (Hrsg.), Dokumentation zum 9. Deutschen Assessment-Center-Kongress. Lengerich: Papst.
Perinelli, E., & Gremigni, P. (2016). Use of social desirability scales in clinical psychology: A systematic review. Journal of clinical psychology, 72(6), 534-551.
Roth, P. L., Bobko, P. & McFarland, L. (2005). A meta‐analysis of work sample test validity: updating and integrating some classic literature. Personnel Psychology, 58(4), 1009-1037.
Schulte, N., Holling, H., & Bürkner, P.-C. (2021). Can high-dimensional questionnaires resolve the ipsativity issue of forced-choice response formats? Educational and Psychological Measurement, 81(2), 262-289.
Zivnuska, S., Kacmar, K. M., Witt, L. A., Carlson, D. S., & Bratton, V. K. (2004). Interactive effects of impression management and organizational politics on job performance. Journal of Organizational Behavior: The International Journal of Industrial, Occupational and Organizational Psychology and Behavior, 25(5), 627-640.