cNORM - Gewichtung

cNORM - Gewichtung

Die Repräsentativität der Normstichprobe ist für die Schätzung gültiger Normwerte von wesentlicher Bedeutung. Um dies zu erreichen, wird in der Regel eine Zufallsstichprobe verwendet. Aber selbst wenn es keine systematischen Verzerrungen bei der Datenerhebung gibt, kann die resultierende Stichprobe von der Zusammensetzung der Grundgesamtheit abweichen. cNORM bietet Funktionen, um Stichprobengewichte in den Normierungsprozess zu integrieren und somit negative Auswirkungen von nicht-repräsentativen Normstichproben auf die Qualität der Normwerte zu reduzieren.

Zu diesem Zweck wurde das so genannte Raking, eine Methode der iterativen proportionalen Anpassung, implementiert, das die Poststratifikation der verwendeten Normstichprobe in Bezug auf eine oder mehrere Schichtungsvariablen (SVn) für gegebene Anteile der Populationsanteile der verwendeten SVn ermöglicht. Die Fälle werden so gewichtet, dass die Zusammensetzung des gewichteten Datensatzes der repräsentativen Grundgesamtheit entspricht.

Berechnung und Standardisierung der Raking-Gewichte

Zur Berechnung der Gewichte wird eine Datentabelle mit drei Spalten benötigt, in denen die Populationsanteile angegeben sind:

Die erste Spalte gibt den Namen der Schichtungsvariablen an.
Die zweite Spalte enthält die Faktorstufen der Schichtungsvariablen.
Die dritte Spalte gibt den Anteil des jeweiligen Stratums an der repräsentativen Grundgesamtheit an.

Die Funktion 'computeWeights()' wird verwendet, um die Gewichte zu ermitteln. Die ursprünglichen Daten und die Datentabelle müssen als Funktionsparameter übergeben werden.

Im folgenden Beispiel gibt es die beiden Schichtungsvariablen 'sex' und 'migration' mit jeweils zwei Faktorstufen, die im Fall des Geschlechts 1 und 2, im Fall des Migrationshintergrunds als 0 und 1 kodiert sind. Die Gewichte werden für den ppvt-Datensatz berechnet, der beide SVn enthält.

marginals <- data.frame(var = c("sex", "sex", "migration", "migration"),
level = c(1,2,0,1),
prop = c(0.51, 0.49, 0.65, 0.35))

weights <- computeWeights(data = ppvt, population.margins = marginals)

Durch die Übergabe der Gewichte an die Funktion 'cnorm()'-Funktion oder 'cnorm.betabinomial()' unter Verwendung des Funktionsparameters 'weights' werden diese Gewichte automatisch in den nachfolgenden Normierungsprozess einbezogen.

Fallstricke und Empfehlungen für die Anwendung

Bestimmte Abweichungen von der Repräsentativitätauch werden mit kontinuierlicher Normierung auch ohne Verwendung von Gewichten bereits korrigiert bzw. abgemildert, so z. B. wenn die Abweichung von der Repräsentativität nur in einzelnen Altersgruppen auftritt. In verschiedenen Simulationsstudien untersuchten wir, ob die zusätzliche Verwendung von Gewichtung die Normierung verbessert, wenn die Abweichungen von der Repräsentativität nicht nur in einzelnen Altersgruppen, sondern in der gesamten Stichproben auftreten. Wir simulierten hierfür Stichproben, die unterschiedlich stark und auf unterschiedliche Art von der Repräsentativität abwichen. Dabei stellten wir fest, dass gewichtete Normierung in den meisten, aber nicht allen Anwendungsfällen sehr gut funktioniert. Bitte beachten Sie die folgenden Punkte:

Mangelnde Repräsentativität führt in den meisten Fällen auch mit Gewichtung zu einem zumindest leicht erhöhten Fehler der resultierenden Normwerte. Es ist deshalb immer besser, den höchstmöglichen Grad an Repräsentativität bereits bei der Datenerhebung sicherzustellen.
Die Datenziehung sollte so sorgfältig wie möglich vorgenommen werden.
Verwenden Sie die Gewichtung nur für solche Schichtungsvariablen, die deutlichen Einfluss auf die abhängige Variable haben.
Falls verfügbar, können auch die Wahrscheinlichkeiten von Kreuzklassifikationen der Schichtungsvariablen (z. B. Geschlecht × Schulart) verwendet werden. Kodieren Sie in diesem Fall die Variablen zu einer einzigen Schichtungsvariable um und geben Sie direkt die verbundenen Populationsanteile (z. B. Anteil an Jungen im Gymnasium) an. Vermeiden Sie aber zu viele Schichtungsvariablen mit vielen feinen Abstufungen, da dies zu hohen Gewichten führen kann. Kombinieren Sie lieber verschiedene Stufen von Schichtungsvariablen, wenn sich die entsprechenden Untergruppen hinsichtlich des Testergebnisses nicht stark unterscheiden.
Die Datenziehung innerhalb jedes Stratums muss randomisiert sein.
In den meisten - aber nicht in allen - Fällen reduziert die Gewichtung die negativen Auswirkungen von nicht repräsentativen Normstichproben. Persistierende Verzerrungen treten vor allem dann auf, wenn die Varianz innerhalb der Stichprobe erheblich geringer ist als die Varianz innerhalb der Population.
Generell sollten die Verzerrungen der Stichprobe nicht zu groß ausfallen. Als Faustregel gilt, dass standardisierte Gewichte, die einen Wert von 2.5 bis 3 überschreiten, darauf hinweisen, dass der Datensatz eventuell zu stark von der Referenzpopulation abweicht. Vor allem wenn die Gesamtstichprobe klein ist, sollten Sie dann lieber Fälle nacherheben anstatt die Daten zu gewichten.
Wenn nur kleine Abweichungen von der Repräsentativität in einzelnen Altersgruppen vorhanden sind, ist bei kontinuierlicher Normierung eine Gewichtung unnötig.

Datenaufbereitung

Modellierung

Site menu: