Site menu:

Sprache auf englisch umschalten

Parametrische Modellierung mit cNORM - Mathematischer Hintergrund der Sinh-Arcsinh-Verteilung



Die Sinh-Arcsinh-Verteilung (shash-Verteilung) wird durch eine Transformation einer standardnormalverteilten Variablen definiert. Wenn Y standardnormalverteilt ist, Y ~ N(0,1), dann wird die shash-verteilte Variable X durch folgende Gleichung erzeugt:

\[X = \mu + \sigma \cdot \sinh\left(\frac{\text{arcsinh}(Y) - \epsilon}{\delta}\right)\]

Diese Transformation ermöglicht es, dass Lage, Skalierung, Schiefe und Gewichtung der Verteilungsenden der resultierenden Variablen X durch folgende vier Parameter kontrolliert werden kann:

  • \(\mu\) (mu): Lageparameter, verschiebt die Verteilung horizontal (ähnlich dem Mittelwert)
  • \(\sigma\) (sigma): Skalenparameter (\(\sigma > 0\)), kontrolliert die Streuung der Verteilung (ähnlich der Standardabweichung)
  • \(\epsilon\) (epsilon): Schiefeparameter (\(\epsilon = 0\) für Symmetrie, \(\epsilon > 0\) für Rechtsschiefe, \(\epsilon < 0\) für Linksschiefe)
  • \(\delta\) (delta): Gewichtung der Verteilungsenden (\(\delta = 1\) erzeugt normalverteilungsähnliche Enden, \(\delta > 1\) erzeugt stärker gewichtete Verteilungsenden, \(\delta < 1\) reduziert das Gewicht der Verteilungsenden)

Die Wahrscheinlichkeitsdichtefunktion ist gegeben durch:

\[f(x|\mu,\sigma,\epsilon,\delta) = \frac{\delta}{\sigma\sqrt{2\pi}} \cdot \frac{\cosh(\delta \cdot \text{arcsinh}(z) + \epsilon)}{\sqrt{1 + z^2}} \cdot \exp\left(-\frac{1}{2}[\sinh(\delta \cdot \text{arcsinh}(z) + \epsilon)]^2\right)\]

wobei \(z = \frac{x - \mu}{\sigma}\). Die kumulative Verteilungsfunktion (CDF) hat keine geschlossene Form, kann aber numerisch berechnet werden. Für einen gegebenen Wert x ist die CDF:

\[F(x|\mu,\sigma,\epsilon,\delta) = P(X \leq x) = \Phi[\sinh(\delta \cdot \text{arcsinh}(z) + \epsilon)]\]

wobei \(\Phi\) die standardnormale CDF ist und \(z = (x - \mu)/\sigma\). Die Quantilsfunktion (inverse CDF) kann ausgedrückt werden als:

\[Q(p|\mu,\sigma,\epsilon,\delta) = \mu + \sigma \cdot \sinh\left(\frac{\text{arcsinh}(\Phi^{-1}(p)) - \epsilon}{\delta}\right)\]



Modellierung der Sinh-Arcsinh-Verteilung über das Alter

In cNORM werden die vier Parameter der shash-Verteilung als Polynomfunktionen über die explanatorische Variable (z. B. das Alter) hinweg modelliert. Allerdings wird die Gewichtung der Verteilungsenden \(\delta\) in der Standardeinstellung über alle Altersgruppen konstant gehalten. Sie kann angepasst werden, um Populationseigenschaften abzubilden, z.B. durch Erhöhung auf Werte \(\delta > 1\) für heterogene Stichproben oder \(\delta < 1\) für homogene Stichproben. Durch Setzen des delta_degree Parameters d wird \(\delta\) ebenfalls als Polynom über das Alter hinweg modelliert. Es ist es ratsam, den delta_degree Parameter niedrig zu halten (d. h. nicht höher als 2), um Überanpassung zu vermeiden. Das Alter wird standardisiert als: \[\text{age}_{std} = \frac{\text{age} - \overline{\text{age}}}{\text{SD}(\text{age})}\] um die numerische Stabilität während der Optimierung zu erhöhen. Konkret werden die Parameter modelliert als:

\[\mu(\text{age}_{std}) = \mu_0 + \mu_1 \text{age}_{std} + \mu_2 \text{age}_{std}^2 + ... + \mu_m \text{age}_{std}^m\]

\[\log(\sigma(\text{age}_{std})) = \sigma_0 + \sigma_1 \text{age}_{std} + \sigma_2 \text{age}_{std}^2 + ... + \sigma_s \text{age}_{std}^s\]

\[\epsilon(\text{age}_{std}) = \epsilon_0 + \epsilon_1 \text{age}_{std} + \epsilon_2 \text{age}_{std}^2 + ... + \epsilon_e \text{age}_{std}^e\]

\[\log(\delta(\text{age}_{std})) = \delta_0 + \delta_1 \text{age}_{std} + \delta_2 \text{age}_{std}^2 + ... + \delta_d \text{age}_{std}^d\]

wobei m, s, e und d die Grade der Polynome für die jeweiligen Parameter sind. Wir verwenden den Logarithmus von \(\sigma\) und \(\delta\), um positive Wertebereiche in der Optimierung sicherzustellen. Diese Transformation hilft auch bei der Stabilisierung der Varianz und verbessert den Optimierungsprozess. Die Parameter werden unter Verwendung der Maximum-Likelihood-Schätzung geschätzt. Die Log-Likelihood-Funktion für N Beobachtungen lautet:

\[L(\theta | X, Age) = \sum_{i=1}^N \log[f(X_i | \mu(Age_{std,i}), \sigma(Age_{std,i}), \epsilon(Age_{std,i}), \delta(Age_{std,i}))]\]

wobei \(\theta\) die latente Variable, \(X_i\) den Rohwert und \(Age_{std,i}\) das standardisierte Alter für die i-te Beobachtung repräsentiert. Die Datenanpassung erfolgt simultan unter Verwendung numerischer Optimierungstechniken, speziell des L-BFGS-B (Limited-memory BFGS) Algorithmus der 'optim'-Funktion des stats-Package der R Plattform. Dabei handelt es sich um eine Quasi-Newton-Methode zur Lösung großer nichtlinearer Optimierungsprobleme mit einfachen Grenzen. Durch Approximation der Hesse-Matrix werden simultan diejenigen Koeffizienten der Regressionsgleichungen für alle Parameter bestimmt, die die Log-Likelihood maximieren und damit die beste Anpassung an die beobachteten Daten liefern.



Literatur

Jones, M. C., & Pewsey, A. (2009). Sinh-arcsinh distributions. Biometrika, 96(4), 761-780.



zurück zur parametrischen Modellierung