Wissen und GesellschaftKlinik und Therapie

Normwerte in Leistungstests: Konfidenzintervalle

In Tests werden neben Normwerten oft auch Konfidenzintervalle angegeben. Sie helfen beim Vergleich der Leistungen verschiedener Testkandidaten und bei der Interpretation von Veränderungen im Rahmen von Wiederholungsmessungen. Häufig werden sie auch in den Normtabellen als T-Wert-Band oder Prozentrangband aufgeführt.

Leistungstests in der Schule

Mit Leistungstests soll eingeschätzt werden, wie kompetent ein Proband im betreffenden Leistungsbereich relativ zu Gleichaltrigen ist, oder auch, wie sich seine Leistung im Zeitverlauf verändert. Normwerte sind dabei ein Maßstab, um die individuelle Leistung eines Probanden zu den Ergebnissen einer Vergleichsgruppe in Beziehung zu setzen.

Beispiele für Normwertskalen sind IQ-Werte oder T-Werte. Jede Normwertskala weist einen fest definierten Wertebereich auf. Der Durchschnittsbereich bei T-Werten liegt beispielsweise zwischen 40 und 59 Punkten. T-Werte unterhalb von 40 gelten nach den gängigen Konventionen als unterdurchschnittlich, T-Werte ab 60 sind als überdurchschnittlich gute Leistung zu bewerten. Erreicht ein Proband in einem Rechentest einen T-Wert von 75, lässt sich dies als eine weit überdurchschnittliche Rechenleistung interpretieren. Wiederholt man denselben Test nach einem halben Jahr, erzielt der Proband aber vielleicht „nur" 71 T-Wert-Punkte. Hat er sich also verschlechtert? Vermutlich nicht.

Kein Test misst fehlerfrei

Bei der Interpretation eines Testergebnisses ist immer zu bedenken, dass kein Testverfahren die Leistung des Einzelnen messfehlerfrei abbilden kann. Die Ergebnisse derselben Person werden also bei Messwiederholungen mehr oder weniger stark schwanken. Ebenso könnten geringe Normwertunterschiede zwischen zwei Personen lediglich auf Messfehler – und nicht auf sogenannte wahre Unterschiede im gemessenen Leistungsbereich – zurückzuführen sein.

Wie kommen Messfehler zustande?

Messfehler können mit dem Test selbst zu tun haben, aber auch mit dem Testkandidaten bzw. der Untersuchungssituation und Entscheidungen des Testleiters bei der Auswertung (Lienert & Raatz, 1998).

Auf der Seite der im Test begründeten Messfehler könnte z. B. die Reihenfolge der Testaufgaben nicht optimal sein. Eine weitere Möglichkeit bestünde darin, dass die Testaufgaben zwar in weiten Teilen das gleiche Merkmal untersuchen, dass verschiedene Items aber neben dem eigentlich zu messenden Merkmal (z. B. Rechenleistung) auch weitere Kompetenzen erfordern (z. B. Sprachverständnis bei Textaufgaben), die in anderen Aufgaben nicht oder in geringerem Maße gefragt sind (die Testaufgaben sind also nicht perfekt homogen bezüglich des Merkmals Rechenleistung). Darüber hinaus können auch uneindeutige Aufgabenformulierungen oder unscharfe Auswertungshinweise für den Testleiter zu Messfehlern beitragen (Lienert und Raatz, 1998).

Auf der anderen Seite resultieren Messfehler auch daraus, dass zwei verschiedene Testsituationen für die untersuchte Person niemals identisch sind. Hier spielen Müdigkeit, Motivation, körperliche Missempfindungen durch Schmerzen oder unangenehme Raumtemperaturen, Ängste, aktuelle neue Erfahrungen, Unterschiede im Verhalten des Testleiters u. Ä. eine Rolle (vgl. auch Lienert und Raatz, 1998).

Reliabilität: Die Messgenauigkeit eines Tests

Die Messgenauigkeit eines Tests wird durch die sogenannte Reliabilität des Verfahrens angegeben. Sie ist ein Hauptgütekriterium von Tests. Die Reliabilität eines Testverfahrens kann Werte zwischen 0 und 1 annehmen, wobei der nie erreichte Wert von 1 einer perfekten Messgenauigkeit entspräche. Dies würde bedeuten, dass eine bestimmte Person in mehreren Messungen mit diesem Verfahren bei verschiedenen Testleitern und zu verschiedenen Zeitpunkten immer das gleiche Ergebnis erzielen würde. Auch kleine Unterschiede in den Normwerten zweier Personen würden dann tatsächlich wahre Fähigkeitsunterschiede aufzeigen. Je höher also die Reliabilität eines Testverfahrens ausfällt, desto geringer ist der Messfehler und desto schmaler fallen die im folgenden beschriebenen Konfidenzintervalle bzw. Vertrauensintervalle aus.

Was sind Konfidenzintervalle?

Das Konfidenzintervall gibt den Bereich an, in dem sich der „wahre" Wert der Person mit einer bestimmten Sicherheit befindet. In Testverfahren werden üblicherweise Konfidenzintervalle von 68 % oder 95 % verwendet.

Die Ränder dieser Konfidenzintervalle werden als Vertrauensgrenzen bezeichnet. Angenommen die 95 %-Vertrauensgrenze für einen Test läge bei ± 6 T-Wert-Punkten, würde dies Folgendes bedeuten:

Erzielt eine Person in diesem Test 50 T-Wert-Punkte, so liegt ihr „wahrer" Wert mit einer Sicherheit von 95 % zwischen den T-Werten 44 und 56. Anders formuliert: Man kann sehr sicher sein, dass sich der „wahre Wert“ der Person nicht außerhalb dieses Intervalls befindet.

Anmerkung: Es wurde in dieser Erklärung bewusst der Begriff Sicherheit statt Wahrscheinlichkeit gewählt. Die statistisch exakte Erklärung des Konfidenzintervall-Begriffs erfordert ein kleines Gedankenexperiment: Man stelle sich vor, dass derselbe Proband theoretisch 100 mal mit demselben Testverfahren untersucht wird und hierbei keine Lerneffekte zeigen würde. Auf diese Weise erhielte man 100 Messwerte, die nicht alle exakt identisch wären, da ein Test (wie oben ausgeführt) nie absolut perfekt misst. Wenn man nun für jeden der 100 Messwerte dieses Probanden das Konfidenzintervall berechnete, so würde in 95 dieser 100 Intervalle der „wahre Wert“ dieses Probanden enthalten sein. Mit welcher Wahrscheinlichkeit sich der „wahre Wert“ in einem einzelnen Konfidenzintervall befindet, lässt sich ganz streng genommen nicht berechnen.

Normwertbänder

Im besten Fall werden in Testverfahren in den Normtabellen neben den eigentlichen Normwerten auch Normwertbänder angegeben. Diese repräsentieren das Konfidenzintervall des entsprechenden Messwertes. Die T-Wert-Bänder helfen, Überinterpretationen kleiner Leistungsunterschiede bei Testwiederholungen bzw. zwischen verschiedenen Personen zu vermeiden. Das folgende Beispiel veranschaulicht dies.

Interpretation von Normwertbändern: Ein Beispiel

Beispielhaft wird der Diagnostische Rechtschreibtest für 4. Klassen (DRT 4) von Grund, Leonhart und Naumann (2017) herangezogen. Die dort in der Tabelle auf Seite 63 angegebenen Prozentrangbänder wurden in T-Wert-Bänder umgerechnet.

Das T-Wert-Band der Messwerte beträgt hier jeweils ± 3-T-Wert-Punkte. Wenn sich die T-Wert-Bänder zweier Testungen überschneiden, ist davon auszugehen, dass kein wahrer Fähigkeitsunterschied im Rechtschreiben vorliegt. Die Unterschiede zwischen zwei Messwerten sind also mit einiger Wahrscheinlichkeit durch den Messfehler des Verfahrens erklärbar.

Für Schüler A sei angenommen, dass er 34 der insgesamt 42 Wörter richtig geschrieben hat. Dies entspricht einem als durchschnittlich zu bewertenden T-Wert von 56, dem ein 68 %-T-Wert-Band von 53 bis 59 zugeordnet wird. Mit einer Sicherheit von 68 % liegt die wahre Rechtschreibkompetenz des Schülers also zwischen den T-Werten 53 und 59.

Schüler B erhält mit 28 Richtigschreibungen einen T-Wert von 50 (T-Werte-Band: 47 bis 53). Beide Schüler erzielen also unterschiedliche T-Werte. Dennoch kann wegen des Messfehlers des Testverfahrens nicht sicher von einem wahren Leistungsunterschied zwischen A und B ausgegangen werden. Beide T-Wert-Bänder überschneiden sich (der T-Wert 53 ist Bestandteil beider T-Wert-Bänder). Die äußeren Ränder der T-Wert-Bänder beider Schüler liegen aber jeweils im Durchschnittsbereich der T-Skala, so dass auch unter Berücksichtigung des Messfehlers von einer durchschnittlichen Rechtschreibleistung der Schüler A und B gesprochen werden kann.

Allerdings wäre Schüler C mit 20 richtig geschriebenen Wörtern und damit einem T-Wert von 41 (T-Wert-Band: 38 bis 44) auch unter Berücksichtigung des Messfehlers des DRT 4 in seiner Leistung relativ zu den Schülern A und B als schwächer zu beurteilen, da sein T-Wert-Band keine Überschneidung mit den T-Wert-Bändern von A und B aufweist. Die wahre Leistung von Schüler C liegt mit einer Sicherheit von 68 % im Grenzbereich zwischen einer durchschnittlichen und einer unterdurchschnittlichen Rechtschreibleistung.

Literatur

Grund, M., Leonhart, R. & Naumann, C. L. (2017). DRT 4: Diagnostischer Rechtschreibtest für 4. Klassen (3., aktualisierte und neu normierte Auflage). Göttingen: Hogrefe.

Lienert, G. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Auflage). Weinheim: Beltz PVU.

Dr. Anne Wyschkon

Dr. Anne Wyschkon ist Diplom-Psychologin sowie Kinder- und Jugendlichenpsychotherapeutin. Sie ist Lektorin im Hogrefe Verlag und Schulpsychologin am Leonardo Da Vinci Campus in Nauen.

Hogrefe Diagnostik-Toolbock

Die smarte App für alle, die Tests einsetzen

Sie möchten Testergebnisse umrechnen und im Verhältnis zur Normalverteilung visualisieren oder in Vorbereitung für ein Gespräch leichter verständliche Prozentränge verwenden? Nutzen Sie für diese und weitere Anwendungsfälle die kostenfreie Hogrefe Diagnostik-Toolbox.

Empfehlungen des Verlags