Site menu:

Sprache auf englisch umschalten

Berechnung von Effektstärken

Statistische Signifikanz besagt, ob ein Ergebnis unter Berücksichtigung eines Restrisikos noch durch Zufall zustande gekommen sein kann, oder nicht. Nicht jedes statistisch signifikante Ergebnis ist jedoch auch praktisch bedeutsam. Je nachdem, wie viele Daten zu Verfügung stehen, welches Datenniveau diese haben und welche Analysemethoden zur Anwendung kommen, sind auch kleine Effekte unter Umständen statistisch signifikant. Zur Einschätzung der praktischen Bedeutsamkeit existieren verschiedene Effektstärke-Maße, die bei der Interpretation der Größe eines Effektes helfen. Die bekannteste ist die Effektstärke d von Cohen (1988).

Im folgenden finden Sie eine Reihe an Berechnungsmöglichkeiten, mit denen Sie online die folgenden Effektstärken berechnen und interpretieren können:

  1. Berechnung von Cohen's d und Glass' Δ für Gruppenvergleiche bei gleich großen Gruppen
  2. Gruppenvergleiche bei verschieden großen Gruppen (Cohen's d, Hedges' g)
  3. Vergleiche für Experimental- und Interventionsstudien mit Prä-Post-Kontrollgruppen-Design bei Kontrolle von Vortestunterschieden
  4. Berechnung von d aus der Teststatistik von abhängigen und unabhängigen T-Tests
  5. Ermittlung von d aus dem F-Wert von Varianzanalysen (ANOVAs)
  6. Berechnung der Effektstärke für Varianzanalysen (ANOVAs) mit beliebig vielen Gruppen aus den Gruppenmittelwerten
  7. Zunahme der Wahrscheinlichkeit eines Behandlungserfolgs: Binomial Effect Size Display (BESD) und Number Needed to Treat (NNT)
  8. Risk Ratio, Odds Ratio, Risk Difference
  9. Effektstärke für den Unterschied zweier Korrelationen
  10. Effektstärke für den non-parametrische Tests: Mann-Whitney-U, Wilcoxon-W und Kruskal-Wallis-H
  11. Berechnung der gepoolten Standardabweichung
  12. Umrechnung der Effektstärkemaße r, d, η2 (Eta Quadrat) und des Odds Ratio
  13. Berechnung der Effektstärken d, r und η2 aus χ2- und z-Werten
  14. Interpretationstabelle für die Größe von Effekten nach Hattie (2009) und Cohen (1988)

1. Berechnung von Cohens d und Glass Δ für Mittelwertsunterschiede zweier gleich großer Gruppen (Cohen's d)

Handelt es sich um zwei Gruppen mit gleicher Gruppengröße, so kann aus Mittelwert 1 und Mittelwert 2 sowie der jeweiligen Standardabweichung die Effektstärke dCohen berechnet werden. Dabei wird die gepoolte Standardabweichung zugrunde gelegt. Diese Effektstärke wird beispielsweise bei einer Prä-Post-Messung mit einer Gruppe angewandt. Gruppe1 wäre in diesem Fall die Prä-, Gruppe2 die Post-Messung.

Sind die Standardabweichungen beider Gruppen sehr unterschiedlich, so schlägt Glass vor, nicht auf die gepoolte Standardabweichung zurückzugreifen, sondern auf die Standardabweichung der Kontrollgruppe. Dahinter steckt die Logik, dass die Standardabweichung der Kontrollgruppe nicht durch eine Intervention beeinflusst wurde. Das Effektstärkemaß wird als Glass' Δ ("Glass' Delta") bezeichnet. In der folgenden Tabelle wird für die Berechnung von Glass' Δ davon ausgegangen, dass es sich bei Gruppe 1 um die Kontrollgruppe handelt.

Gruppe 1 Gruppe 2
Mittelwert
Standardabweichung
Effektstärke dCohen
Effektstärke Glass' Δ

N
(Gesamtzahl an Beobachtungen in beiden Gruppen)
Konfidenzkoeffizient
Konfidenzintervall für dCohen

Bitte beachten Sie, dass bei Interventionen ohne Kontrollgruppe, also einem einfachen Prä-Post-Design, sehr schnell sehr große Effekte entstehen können, diese aber nicht zwangsläufig auf die Intervention zurückführbar sind. Eine bessere Herangehensweise für den Nachweis von Effekten bei Interventionsstudien liegt im Vergleich der Effekte in der Experimental- und einer Kontrollgruppe (z. B. Wartelistenkontrollgruppe oder Alternativbehandlung).



2. Mittelwertsunterschiede zweier verschieden großer Gruppen (Cohen's d, Hedges' g)

Analog zu 1. lässt sich die Effektstärke bei unterschiedlicher Gruppengröße berechnen, indem die Größe der Gruppe bei der Berechnung der gepoolten Standardabweichung berücksichtigt wird. Der Ansatz ist im wesentlichen vergleichbar mit dCohen, außer dass die gepoolte Standardabweichung um einen kleinen, positiven Bias korrigiert wird. In der Literatur wird dieser Effekt sehr häufig ebenfalls als dCohen bezeichnet (siehe auch Anmerkung unterhalb der Tabelle).

Für die Effektstärke lässt sich zudem ein Konfidenzintervall berechnen, also einen Bereich, in dem bei Berücksichtigung der Variabilität empirischer Ergebnisse die Effektstärke mit einer bestimmten Wahrscheinlichkeit liegt (Berechnung nach Hedges & Olkin, 1985, S. 86). Falls Sie diese Berechnung möchten wählen Sie bitte die gewünschte Sicherheitswahrscheinlichkeit (= Konfidenzkoeffizient) aus. Das Intervall wird umso größer, je höher die Sicherheitswahrscheinlichkeit gewählt wird.

Gruppe 1 Gruppe 2
Mittelwert
Standardabweichung
Gruppengröße (N)
dCohen bzw. gHedges *

Konfidenzkoeffizient
Konfidenzintervall

* Anmerkung: Die Terminologie ist leider nicht einheitlich. Ursprünglich wurde die Größe g von Hedges und Olkin in Anlehnung an Cohen als d bezeichnet. g wurde dagegen Anfang der 80er für korrigierte Effektstärken verwendet, da Glass als erster Korrekturen vorgeschlagen hatte (siehe Ellis, 2010, S. 27). Aus diesem Grund hat sich für das Maß von Hedges in Anlehnung an Glass der Buchstabe g eingebürgert und nicht h, wie es dieser Logik folgend eigentlich sein müsste. In der Regel wird der Effekt aber ebenfalls schlicht mit dem Buchstaben d versehen.



3. Experimental- und Interventionsstudien mit Prä-Post-Kontrollgruppen-Design bei Kontrolle von Vortestunterschieden

Bei einer Interventionsstudie wird die Entwicklung von mindestens zwei verschiedenen Gruppen (i. d. R. eine Kontroll- und eine Experimentalgruppe) miteinander verglichen. Es gibt dabei verschiedene Möglichkeiten, wie mit Vortestunterschiedenen und unterschiedlichen Varianzen umgegangen werden kann. Klauer (2001) schlägt vor, die Effektstärken der Prä- und Postmessung mittels Hedges g zu berechnen und die beiden Effektstärken voneinander abzuziehen. Hierbei werden sowohl unterschiedliche Gruppengrößen, als auch Vortestunterschiede korrigiert. Die Berechnung basiert also auf der Differenz der Effektstärken beider Gruppen gemäß Berechnungsvariante 2. Morris (2008) stellt unterschiedliche Effektmaße für Designs mit Messwiederholung vor und kommt in seiner Modellrechnung zum Schluss, dass die Differenzen der Prä-Post-Messung in den Gruppen an der gepoolten Standardabweichung der Prä-Messung gewichtet werden sollte (sog. dppc2 nach Carlson & Smith, 1999), da diese durch die Intervention nicht beeinflusst wurde. Zudem werden verschiedene Gewichtungsfaktoren berücksichtigt. Das folgende Formular ermöglicht beide Berechnungsvarianten, die beide in den meisten Fällen zu sehr ähnlichen Ergebnissen kommen.

Der Nachteil beider Vorgehensweisen liegt darin, dass die verschiedenen Messzeitpunkte als unabhängige Gruppen betrachtet werden. Bitte beachten Sie deshalb auch Berechnungsvarianten 4, um basierend auf den Ergebnissen von Teststatistiken aus Hypothesentests die Abhängigkeiten zwischen Messzeitpunkten zu berücksichtigen. Alternativ können Sie auch bei Varianzanalysen die Effekte über den Anteil aufgeklärter Varianz (η2) in die Effektstärke d transformieren.

Interventionsgruppe Kontrollgruppe
Prä Post Prä Post
Mittelwert
Standardabweichung
Gruppengröße (N)
Effektstärke dppc2 sensu Morris (2008)
Effektstärke dKorr sensu Klauer (2001)


4. Berechnung der Effektstärke bei abhängigen und unabhängigen t-Tests

Effektstärken können nicht alleine nur aus Rohdaten, sondern auch aus Teststatistiken von Hypothesentests wie z. B. t-Tests gewonnen werden. Handelt es sich um unabhängige Gruppen, so ergeben sich im wesentlichen die gleichen Effektstärken wie bei Berechnungsvariante 2.

Beim abhängigen Testen von Hypothesen (z. B. bei Untersuchungen im Prä-Post-Design oder gematchten Stichproben) wird dagegen noch mehr Informationen ausgeschöpft, da die Zuordnung von Datenpunkten zwischen zwei Messungen erhalten bleibt, also beispielsweise die Ergebnisse einer Person oder auch die Zuordnung von z. B. Zwillingen oder gematchten Personen. Entsprechend wird auch bei der Berechnung von Effektstärken mehr Information berücksichtigt. Diese Vorgehensweise entspricht im wesentlichen dem Vergleich von Prä-Posttest-Differenzen und deren Testung mittels eines unabhängigen T-Tests (Morris & DeShon, 2002, p. 119) und sollte dementsprechend ähnliche Effektstärken erzielen.

Bitte wählen Sie zur Berechnung, ob es sich um einen abhängigen oder unabhängigen Test handelt und geben Sie die Prüfgröße t an. Geben Sie für den abhängigen Test zusätzlich die Anzahl an Fällen und die Korrelation zwischen beiden Variablen an. Spezifizieren Sie beim unabhängigen Test die Größe der beiden Gruppen. Die Berechnung erfolgt nach Borenstein (2009, S. 228f.).

Testung
t-Wert
n1
n2
r

Effektgröße d

* Für die Berechnung für die Formel tc aus Dunlop, Cortina, Vaslow & Burke (1996, S. 171) verwendet, da diese gemäß Simulationsrechnungen beste Schätzung für die Effektstärke d darstellt. Wir danken Frank Aufhammer für den Hinweis zu dieser Publikation. Sollte keine Angabe zur Korrelation verfügbar sein, so tragen Sie bitte 0 ein. Die Berechnung wird in diesem Fall konservativ, da in diesem Fall der Standardfehler nicht kontrolliert wird.



5. Berechnung der Effektstärke aus dem F-Wert von Varianzanalysen

Ein sehr einfaches Maß zur Ermittlung des Effekts ist bei Varianzanalysen das η2, das den Anteil an aufgelärter Varianz an der Gesamtvarianz darstellt. Dieser Anteil lässt sich auch in d umrechen. Steht die Angabe zum η2 nicht zur Verfügung, so kann auch aus dem F-Wert eine Effektstärke berechnet werden, sofern die Größe beider Gruppen bekannt ist. Die folgende Berechnung ist für Varianzanalysen mit zwei Gruppen (df1 = 1) vorgesehen. Die Berechnung erfolgt nach Thalheimer & Cook (2002):

F-Wert
Fallzahl der Treatment-Gruppe
Fallzahl der Kontroll-Gruppe
Effektgröße d


6. Berechnung der Effektstärke für Varianzanalysen (ANOVAs) mit beliebig vielen Gruppen anhand der Gruppenmittelwerte

Sind die Mittelwerte der verschiedenen Gruppen einer Varianzanalyse bekannt, so lassen sich hieraus die Effektstärken f und d berechnen (Cohen, 1988, S. 273 ff.). Allerdings muss hierfür selbst ein bisschen gerechnet werden: Bestimmten Sie zunächst die Gruppen mit dem maximalen und dem minimalen Mittelwert. Berechnen Sie zusätzlich die gemeinsame Streuung der Gruppenmittelwerte aller Gruppen. Das geht folgendermaßen: Bilden Sie die Differenz zwischen dem Mittelwert jeder einzelnen Gruppe und dem Mittelwert über alle Gruppen und quadrieren Sie diese. Summieren Sie alle berechneten Werte auf und teilen Sie die Summe durch die Anzahl an Gruppen. Ziehen Sie abschließend die Wurzel.

Weiterhin muss entschieden werden, wie stark die Bandbreite der Mittelwerte streut:

  1. Wählen Sie "minimale Streuung", wenn die Gruppenmittelwerte mit Ausnahme des minimalen und maximalen Wertes nahe am Gesamtmittelwert liegen.
  2. Wählen Sie "mäßige Streuung", wenn sich die Gruppenmittelwerte über die ganze Bandbreite verteilen.
  3. Wählen Sie "maximale Streuung", wenn sich die Gruppenmittelwerte nahe am minimalen und maximalen Mittelwert liegen, in der Mitte jedoch kaum.

Höchster Mittelwert (mmax)
Niedrigster Mittelwert (mmin)
Streuung der Mittelwerte
Anzahl an Gruppen
Verteilung der Mittelwerte
Effektgröße f
Effektgröße d

7. Zunahme der Wahrscheinlichkeit eines Behandlungserfolgs: Binomial Effect Size Display (BESD) und Number Needed to Treat

Effektstärken wie d oder Korrelationen sind oftmals nicht leicht zu kommunizieren. Nimmt man beispielsweise r2 als Maß für die aufgeklärte Varianz, so wirken Effekte rasch sehr klein. Wenn die entsprechenden Interpretationen nicht bekannt sind, so verdichtet sich der Eindruck, eine Intervention sei erfolglos. Aber auch kleine Effekte können sehr bedeutsam sein, insbesondere wenn es um existenzielle Fragen geht. Zwei Beispiele (vgl. Hattie, 2007):

Rosenthal und Rubin (1982) schlagen deshalb vor, die Effektivität von Interventionen über die Zunahme von Erfolgen auszudrücken. Die Vorgehensweise ist geeignet für 2x2-Kontingenztabellen, bei denen in den Zeilen die verschiedenen Gruppen (Interventionsgruppe versus Kontrollgruppe) und in den Spalten die Fallzahlen für Erfolg versus Misserfolg (z. B. geheilt versus nicht geheilt) notiert wird. Der BESD wird berechnet, indem man die Erfolgswahrscheinlichkeit der Behandlungsgruppe von der Erfolgswahrscheinlichkeit der Kontrollgruppe abzieht. Die Prüfgröße kann zudem in die Effektstärke nach dCohen umgerechnet werden.

Ein anderes, in der evidenzbasierten Medizin weit verbreitetes Effektstärkemaß ist das sog. Number Needed to Treat. Dieses veranschaulicht, wie viele Personen man in der Behandlungsgruppe benötigen würde, um im Vergleich zur Kontrollgruppe mindestens einen zusätzlichen Fall mit günstigem Ausgang beobachten zu können. Ist der Wert negativ, so spricht man von Number Needed to Harm, also von einer schädigenden Wirkung.

Bitte tragen Sie bei der Interventions- und der Kontrollgruppe die Fallzahlen für Erfolg und für Misserfolg ein:

Erfolg Misserfolg Erfolgs-
wahrscheinlichkeit
Interventionsgruppe
Kontrollgruppe
Binomial Effect Size Display (BESD)
(Zunahme der Erfolgswahrscheinlichkeit)
Number Needed to Treat
rPhi
Effektstärke dcohen


Eine Konvertierung zwischen NNT und anderen Effektstärken wie Cohen's d ist nicht ohne weiteres möglich. Im obigen Beispiel wird versucht, die Effektstärke d über die punkt-biserale Korrelation rphi zu schätzen. Alternative Herangehensweisen (vgl. z. B. Furukawa & Leucht, 2011) ermöglichen es, auch eine Konvertierung von d zu NNT vorzunehmen. Die Ergebnisse stimmen innerhalb eines mittleren Bereichs von -1.0 ≤ d ≤ 1.0 im Wesentlichen mit der Konvertierung auf der Basis der Rohdaten überein:

Cohen's d Number Needed to Treat (NNT)


8. Risk Ratio, Odds Ratio und Risk Difference

Wenn es in einer Studie darum geht, ob ein Ereignis (z. B. Heilung) eintritt und ob sich zwei Gruppen in der Häufigkeit dieses Ereignisses unterscheiden, dann greift man in der Regel auf Odds Ratios, Risk Ratios und Risk Difference zurück (vgl. Borenstein et al. 2009, Kap. 5). Einen sehr häufigen Einsatz finden diese Effektstärkemaße deshalb in klinischen Studien und in der Epidemiologie. Die drei Maße haben die folgende Bedeutung:

In Metaanalysen muss beim Aggregieren von Werten auf die logarithmierten Ratios zurückgegriffen werden. Erst am Ende werde diese wieder delogarithmiert.

Ereignis
eingetreten
Ereignis nicht
eingetreten
N
Teatment
Kontrollgruppe

Risk Ratio Odds Ratio Risk Difference
Ergebnis
Log
geschätzte Varianz V
VLogRiskRatio

VLogOddsRatio

VRiskDifference
geschätzter Standardfehler SE
SELogRiskRatio

SELogOddsRatio

SERiskDifference
Yule's Q




9. Effektstärke der Unterschiede zwischen Korrelation

Cohen (1988, S. 109) schlägt ein Effektstärkemaß mit der Bezeichnung q vor, das den Unterschied zweier Korrelationen interpretierbar macht. Bei dieser Vorgehensweise werden die beiden Korrelationen Fisher-Z-transformiert und von einander abgezogen. Cohen schlägt als Interpretation von q die folgende Einteilung vor: <.1: kein Effekt; .1 bis.3: kleiner Effekt; .3 bis .5: mittlerer Effekt; >.5: großer Effekt.

Korrelation r1
Korrelation r2
Cohen's q
Interpretation

Insbesondere bei Metaanalysen ist es häufig notwendig, Korrelationen zu mitteln oder Signifikanztests mit Korrelationen (Testung auf unterschiedlichkeit, Testung auf Verschiedenheit von 0 ...) durchzuführen. Auf der Seite Signifikanztests bei Korrelationen finden Sie entsprechende Online-Rechner.



10. Effektstärken für non-parametrische Tests: Mann-Whitney-U, Wilcoxon-W und Kruskal-Wallis-H

Für die Effektstärkemaße wie Cohen's d oder η2 sind Verteilungsannahmen notwendig. Werden diese nicht erfüllt, wie z. B. im Fall von ordninal- oder nominalskalierten Daten, dann wird meist auf non-parametrische Tests wie Wilcoxon oder Mann-Whitney-U zurück gegriffen. Diese Verteilung der Prüfgrößen dieser Testverfahren werden anschließend einer z-Verteilung approximiert und entsprechend die Signifikanz bestimmt. Die Prüfgrößen können analog auch in eine Effektstärke umgerechnet werden (siehe Fritz, Morris & Richler, 2012, S. 12; Cohen, 2008). Im folgenden können die Teststatistiken von Wilcoxon-Rangsummentest, Mann-Whitney-U oder Kruskal-Wallis-H zur Berechnung von eta;2 verwendet, oder auch direkt auf die Prüfgröße z zurückgegriffen werden.

Test
Teststatistik *
n2
n2
Eta squared (η2)
dCohen**

* Anmerkung: Bitte geben Sie als Prüfgröße bitte nicht die Rangsummen ein, die beispielsweise von SPSS ausgegeben werden, sondern verwenden Sie die Prüfgrößen U, W oder z der statistischen Tests. Bei Wilcoxon und Kruskal-Wallis ist die Gesamtstichprobengröße einzugeben und geben Sie bei Kruskal-Wallis-H zusätzlich die Anzahl and Gruppen an. Sollte Sie die z-Statistik gewählt haben, so ist ebenfalls die Gesamtstichprobengröße einzugeben.

** Die Transformation von η2 nach d wird mit der Prozedur aus Umrechnung der Effektstärken d, r, η2, f und des Odds Ratio vorgenommen.



11. Berechnung der gepoolten Standardabweichung

Für die Berechnung von Conhen's d, aber auch in anderen Zusammenhängen ist es notwendig, die mittlere (=gepoolte) Standardabweichung zu berechnen. Hier ein kleines Hilfsmittel, inkl. Korrektur unterschiedlicher Gruppengrößen:

Gruppe 1 Gruppe 2
Standardabweichung
Gruppengröße (N)
gepoolte Standardabw. spool


12. Umrechnung der Effektstärken d, r, η2, f und des Odds Ratio

Bitte wählen Sie im Dropdown-Menü die Effektstärke, die Sie umrechnen möchten und geben Sie im Feld rechts daneben anschließend die betreffende Angabe ein. Die Umrechnung erfolgt nach Cohen (1988), Rosenthal (1994, S. 239) und Borenstein, Hedges, Higgins, und Rothstein (2009; Umrechnung zwischen Odds Ratio und anderen Effektstärken).

Effektstärke
d
r
η2
f
Odds Ratio
Number Needed to Treat (NNT)
Anmerkung: Bitte beachten Sie bim Hinblick auf die Umrechnung in NNT die Hinweise im Abschnitt BESD und NNT.

13. Berechnung der Effektstärken d, r und η2 aus χ2- und z-Werten

Die Effektstärkemaße d und r können aus den Prüfgrößen von χ2 und z aus Hypothesentests berechnet werden (Vorgehen nach Rosenthal & DiMatteo, 2001, S. 71; siehe auch Elis, 2010, S. 28). Das Vorgehen ist bezüglich des χ2-Tests nur bei Fällen mit einem Freiheitsgrad zulässig. Bitte wählen Sie im Dropdown-Menü die Prüfgröße aus und geben Sie den Wert ein. Spezifizieren Sie zusätzlich das N. Die Umrechnung in d und η2 erfolgt mit den Formeln der vorherigen Funktion.

Prüfgröße
N
d
r
η2


14. Interpretation der Höhe der Effektstärken

Hier sehen Sie noch einmal im Überlick die Interpretation der Effektstärken nach Cohen (1988) und Hattie (2009 S. 97). Hattie legt seiner Einstufung real erreichbare Effekte im Bildungssystem zugrunde und kommt deshalb zu einer etwas milderen Einstufung. Dort wo die Intervallgrenzen nicht exakt in die tabellarische Auflistung passten, wurde jeweils zur nächsten Intervallgrenze der Angabe der Effektstärke d gerundet.

d r* η2 Interpretation nach Cohen (1988) Interpretation nach Hattie (2007)
< 0 < 0 - negativer Effekt
0.0 .00 .000 kein Effekt Developmental effects
0.1 .05 .003
0.2 .10 .010 kleiner Effekt Teacher effects
0.3 .15 .022
0.4 .2 .039 Zone of desired effects
0.5 .24 .060 mittlerer Effekt
0.6 .29 .083
0.7 .33 .110
0.8 .37 .140 großer Effekt
0.9 .41 .168
≥ 1.0 .45 .200

* Cohen (1988) gibt für r die folgenden Intervalle an: .1 bis .3: kleiner Effekt; .3 bis .5: mittlerer Effekt; .5 und höher: starker Effekt




Literatur

Borenstein (2009). Effect sizes for continuous data. In H. Cooper, L. V. Hedges, & J. C. Valentine (Eds.), The handbook of research synthesis and meta analysis (pp. 221-237). New York: Russell Sage Foundation.

Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to Meta-Analysis, Chapter 7: Converting Among Effect Sizes . Chichester, West Sussex, UK: Wiley.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Auflage). Hillsdale, NJ: Erlbaum.

Cohen, B. (2008). Explaining psychological statistics (3rd ed.). New York: John Wiley & Sons.

Dunlap, W. P., Cortina, J. M., Vaslow, J. B., & Burke, M. J. (1996). Meta-analysis of experiments with matched groups or repeated measures designs. Psychological Methods, 1, 170-177.

Elis, P. (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge: Cambridge University Press.

Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18. https://doi.org/10.1037/a0024338

Furukawa, T. A., & Leucht, S. (2011). How to obtain NNT from Cohen's d: comparison of two methods. PloS one, 6, e19070.

Hattie, J. (2009). Visible Learning. London: Routledge.

Hedges, L. & Olkin, I. (1985). Statistical Methods for Meta-Analysis. New York: Academic Press.

Klauer, K. J. (2001). Handbuch kognitives Training. Göttingen: Hogrefe.

Morris, S. B., & DeShon, R. P. (2002). Combining effect size estimates in meta-analysis with repeated measures and independent-groups designs. Psychological Methods, 7(1), 105-125. https://doi.org/10.1037//1082-989X.7.1.105

Morris, S. B. (2008). Estimating Effect Sizes From Pretest-Posttest-Control Group Designs. Organizational Research Methods, 11(2), 364-386. http://doi.org/10.1177/1094428106291059

Rosenthal, R. (1994). Parametric measures of effect size. In H. Cooper & L. V. Hedges (Eds.), The Handbook of Research Synthesis (231-244). New York, NY: Sage.

Rosenthal, R. & DiMatteo, M. R. (2001). Meta-Analysis: Recent Developments in Quantitative Methods for Literature Reviews. Annual Review of Psychology, 52(1), 59-82. doi:10.1146/annurev.psych.52.1.59

Rosenthal, R., & Rubin, D.B. (1982). A simple general purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169.

Thalheimer, W., & Cook, S. (2002, August). How to calculate effect sizes from published research articles: A simplified methodology. Retrieved March 9, 2014 from http://work-learning.com/effect_sizes.htm.