Einsatzfelder von OBM: Effektive Leistungsbeurteilungssysteme gestalten

Die Beurteilung der Leistung von Mitarbeitern verlangt besondere Aufmerksamkeit, insbesondere, wenn diese Beurteilung an die Bezahlung (oder die Gewährung von Bonussen) gebunden ist. Immer wieder klagen Angestellte über ihrer Meinung nach ungerechte Beurteilungen. Sie fühlen sich nicht nach ihrer Leistung, sondern nach ihrer Hautfarbe, ihrem Geschlecht oder ihrem Alter bewertet. Den Firmen fällt es schwer, die Objektivität der Leistungsmessung nachweisen zu können. In der Tat ist diese meist wenig strukturiert und begünstigt Verfälschungen durch Faktoren auf Seiten des Beobachters. Ratingsysteme sind oft nur eine exakter wirkende Darstellungsform für die subjektive Meinung eines Vorgesetzten über seinen Mitarbeiter. Oft ist nicht klar, was gemessen werden soll:

Persönlichkeitseigenschaften (z.B. Verlässlichkeit, Teamfähigkeit), das Ergebnis der Arbeit (z.B. Anzahl der Unfälle je Millionen Arbeitsstunden, Pflegezustand der Maschinen) oder das Arbeitsverhalten selbst (z.B. den Kunden bedienen, sicher arbeiten).

Einige häufige Fehler bei der Beurteilung von Leistungen sind:

Die geringe Qualität der Beurteilungssysteme in Firmen verwundert nicht, angesichts der kaum durchdachten Definitionen der erhobenen Kriterien, des kaum vorhandenen Beobachtertrainings und des Fehlens von Erfolgskontrollen, die sicherstellen, dass die Mitarbeiter unabhängig von ihren irrelevanten Merkmalen (Rasse, Geschlecht usw.) beurteilt wurden.

Wie können nun aber Beurteilungssysteme verbessert werden? In einer Studie von Doyle und Shapiro (1980) verbesserte sich die Leistung von Verkäufern um 34,7 %, einzig deshalb, weil die Rückmeldung über die Verkäufe zeitiger und akkurater erfolgte. Komaki (1998) berichtet, dass ein Feedbacksystem, das die Instandhaltung von schwerem militärischem Gerät verbessern sollte, zunächst nicht funktionierte. Schließlich wurde die Quantität der Instandhaltungsleistungen über die Zeit, die die Soldaten mit dem „Handhaben von Werkzeugen und Einrichtungen“ verbrachten, definiert, was zu einer Verbesserung der Qualität des militärischen Geräts führte.

Die traditionelle Literatur zur Wirkung von Beurteilungssystemen ist vor allem beschreibend. Es wird erklärt, welche Arten von Beurteilungssystemen es gibt, aber nicht, wie man diese verbessern könnte. Die Forscher beschäftigen sich mehr mit den Beobachtern und ihren kognitiven Prozessen als mit den Ergebnissen. Das Kriterium für den Erfolg der Maßnahmen wird kaum klar definiert, oft ist das Ziel ebenso unklar wie der Weg (was eigentlich beobachtet wird).

Komaki (2001) empfiehlt für die Gestaltung von Beurteilungssystemen das sogenannte SURF & C Modell, dass auf den Erkenntnissen der Verhaltensanalyse basiert. Dabei stehen die Buchstaben für folgende Kriterien:

Das S steht dafür, dass die Informationen direkt beobachtet werden (directly sampled) und nicht erst gefiltert werden oder aus zweiter Hand stammen.

U bedeutet, dass das Ziel unter der Kontrolle der Arbeiter sein muss. Arbeiter sollen nicht für etwas verantwortlich gemacht werden, was sie nur teilweise beeinflussen können. Ihr eigenes Verhalten können sie vollständig kontrollieren, das Ergebnis ihrer Arbeit (z.B. das Produkt) ist dagegen nur zum Teil von ihren Bemühungen abhängig.

R bedeutet, dass die Beobachtungen reliabel, d.h. verlässlich sein sollen. Mehrere Beobachter sollen bei dem selben Vorgang unabhängig voneinander zum selben Ergebnis kommen. Es wird mindestens eine Beobachterübereinstimmung von 80 % bis 90 % erwartet.

F bedeutet, dass häufig beobachtet (frequently) wird. Je häufiger beobachtet wird, desto weniger fehleranfällig ist die Beurteilung (weil zufällige Schwankungen ausgeglichen werden) und desto häufiger gibt es Gelegenheit zur positiven Verstärkung.

C schließlich steht dafür, dass das Ziel bedeutsam (critical) für die Aufgabe ist. Die beobachteten Handlungen (bspw. sichere Verhaltensweisen) müssen in einer engen Beziehung zum erwünschten Effekt (weniger Arbeitsunfälle) stehen.

Beobachtungssituationen sind für die Motivation der Teilnehmer entscheidend. Beobachtungen nach den SURF & C Modell stellen Konsequenzen bereit, die häufig, positiv und kontingent sind – wichtige Qualitäten eines wirksamen Verstärkers.

Dabei wird über die Kriterien U und C definiert, was bewertet werden soll. Die Anzahl der Arbeitsunfälle spiegelt nicht unbedingt das unsicherer Arbeitsverhalten der Mitarbeiter wieder. Im Bereich des Service ist die Zahl der Transaktionen oder die Briefe, die Kunden schreiben, etwas, das kaum von den Mitarbeitern kontrolliert werden kann. Damit eine Messung bedeutsam ist, muss sich idealerweise eine hohe Korrelation zwischen dem beobachteten Verhalten und dem erwünschten Ergebnis aufzeigen lassen. Im Bereich der Arbeitssicherheit konnten das Reber und Wallin schon 1983 zeigen: Die beobachteten sicheren Verhaltensweisen korrelierten zu -.65 (bis -.76) mit der Zahl der Arbeitsunfälle. Aber auch wenn eine solche Untersuchung nicht möglich ist, kann man kritische Verhaltensweisen finden. Um auf Ideen zu kommen, sollte man beispielsweise nach Extremgruppen suchen: Welche Gruppe schneidet im erwünschten Ergebnis besonders gut ab und welche besonders schlecht und woran (außer dem Verhalten) könnte das liegen? Oder man vergleiche erfahrene und unerfahrene Arbeiter, bzw. erfolgreiche und nicht erfolgreiche Situationen (z.B. Verkaufsgespräche). Das alles sind natürlich nur Richtlinien, die sich dann im konkreten Einsatz bewähren müssen. Wenn ein System zur verhaltensorientierten Arbeitssicherheit langfristig nicht zur Reduzierung der Arbeitsunfälle führt, dann sind die beobachteten sicheren Verhaltensweisen nicht relevant für das Ziel.

Die Kriterien R, F und S regeln, wie beurteilt werden sollte. Die Reliabilität der Messungen bzw. die Beobachterübereinstimmung sollte bereits während der Entwicklung des Beobachtungsinstrumentes eingesetzt werden. Wenn die Beobachter nicht in ausreichendem Maße in ihren Beobachtungen übereinstimmen, dann müssen die Definitionen verbessert werden. Im Training gibt die Beobachterübereinstimmung Aufschluss über den weiteren Trainingsbedarf des Beobachters: Ist diese gering, muss er noch weiter trainiert werden. Schließlich stellt eine hohe Beobachterübereinstimmung im laufenden Prozess die Qualität des Prozesses sicher. Ca. 8% aller laufenden Beobachtungen sollten mittels Doppelbeobachtung auf ihre Beobachterübereinstimmung und damit ihre Qualität hin geprüft werden. Häufige Beobachtungen verbessern die Wirksamkeit der Intervention, die Repräsentativität der Beobachtungen und die Zufriedenheit der Beobachteten. Das direkte Beobachten erhöht ebenfalls die subjektive Fairness des Prozesses und ermöglicht die unmittelbare Rückmeldung an den Beobachteten. Je zeitnäher eine Rückmeldung, desto besser ihre Wirkung.

Literatur

Burns, T. (1954). The directions of activity and communication in a departmental executive group. Human Relations, 7, 73 – 97.

Dillon, M. J. ; Kent, H. M. & Malott, R. W. (1980). A supervisory system for accomplishing long-range projects. An application to master’s thesis research. Journal of Organizational Behavior Management, 2, 213 – 227.

Doyle, S. X. & Shapiro, B. P. (1980). What counts most in motivating your sales force. Harvard Business Review, May – June, 133 – 140.

Hammer, M. (1985). Implications of behavioral and cognitive reciprocity in social network data. Social Networks, 7, 189 - 201.

Komaki, J. L. (1998). When performance improvement is the goal. A new set of criteria for criteria. Journal of Applied Behavior Analysis, 31 (2), 263 – 280.

Komaki, J. L.. (2001). Developing performance appraisals. Criteria for what and how performance is measured. In C. M. Johnson; W. K. Redmon; T.C. Mawhinney (Eds) Handbook of Organizational Performance. Behavior Analysis and Management (pp. 51 – 80). New York: Harworth Press.

Reber, R. A. & Wallin, J. A. (1983). Validation of a behavioral measure of occupational safety. Journal of Organizational Behavior Management, 5 (2), 69 – 77.

zurück zur Hauptseite

zuletzt verändert am 08.05.2005