Signifikanztests für intraindividuelle Therapievergleiche – Vorsicht vor Signifikanzverlusten ...

PDF

, ,

J. Hirsch1, C. Baulig1, F. Krummenauer1

In Klinischen Prüfungen in der Zahnärztlichen Implantologie sind Studiendesigns mit intraindividuellem (z.B. „links/rechts“) Vergleich möglich. Die Wahl der statistischen Analysemethoden muss jedoch diese Design-Besonderheit angemessen widerspiegeln; Signifikanztests und Konfidenzintervalle für den Vergleich verbundener Stichproben sind dann das Mittel der Wahl. Wird ein intraindividueller Vergleich zweier wirksamer Therapien hingegen mit Methoden zum Vergleich unverbundener Stichproben analysiert, können real vorliegende signifikante Kontraste zwischen den Therapien übersehen werden. Dieser Effekt eines „Signifikanzverlusts“ aufgrund der unverbundenen Analyse verbundener Studiendesigns wird demonstriert an simulierten Daten zu einer Klinischen Studie zum additiven Nutzen einer Mikrostrom-Applikation bei Parodontitistherapie.

Schlüsselwörter: intraindividueller Vergleich von Therapien; verbundene Stichproben; Vorzeichentest; verbundener Wilcoxon-Test; Konfidenzintervall der medianen Differenz

Clinical trials in oral implantology can be based on study designs with intraindividual (e. g. “left/right”) contrasts. As a consequence, the choice of statistical evaluation methods for such trials must then reflect the inherent design: significance tests and confidence intervals for paired samples become appropriate. If, however, paired trial designs are evaluated by means of two sample comparison methods, factually significant sample differences between two effective therapeutic alternatives may be found falsely non-significant. Simulated data for a controlled clinical trial on the comparative evaluation of a combined parodontitis therapy with one of its component therapies will be used to demonstrate this effect of false-negative findings due to unpaired analysis of paired data.

Keywords: intraindividual therapy comparison; paired samples; sign test; paired samples Wilcoxon test; confidence interval for the median difference

Anmerkung: Die in diesem Artikel dargestellten Ausführungen sind enthalten in der Dissertationsschrift von Frau M.Sc. Jessica Hirsch, derzeit in Erstellung an der Fakultät für Gesundheit der Universität Witten/Herdecke zur Erlangung des Grades „Dr. rer. medic.“

Verbundene Stichproben

Eine Option für Klinische Studien in der Zahn-, Mund- und Kieferheilkunde ist die Möglichkeit der intraindividuellen Vergleichbarkeit zweier alternativer Therapien, also Anwendung und Vergleich beider Therapien „innerhalb“ eines jeden Studienteilnehmers (z.B. im „links/rechts“-Vergleich). Der primäre klinische Endpunkt kann dann für beide Therapien am selben Patienten bestimmt, der Therapieunterschied entsprechend an der individuellen Abweichung – also an der links/rechts-Differenz der Ergebnisse in diesem Endpunkt – festgemacht werden [1].

Vorteil dieser sogenannten „verbundenen“ (= intraindividuell vergleichenden) Studiendesigns ist im Fall ihrer Anwendbarkeit, dass beide Therapien „unter Ausblendung der biologischen Streuung“ von Studienpatienten verglichen werden können. Im Gegensatz hierzu steht das interindividuell vergleichende „unverbundene“ Studiendesign, das zu vergleichende Therapien zwei verschiedenen Patientenkollektiven zuweist. Besonders attraktiv ist das verbundene Studiendesign für den Vergleich einer Kombinationstherapie mit einer der beiden zugrunde liegenden Monotherapien [1] bei Anwendung im selben Patienten.

Nachfolgend sollen für solche intraindividuell vergleichenden Klinischen Prüfungen Methoden zur Signifikanzprüfung der Studienergebnisse zusammengestellt werden [2]; deren Anwendung soll dann an simulierten Daten zur Evaluation einer Kombinationstherapie der Parodontitis demonstriert werden [1]: Die Grundlage der simulierten Daten stellt dabei eine Studie zum Nutzen der Mikrostrom-Applikation als additive Therapie der Parodontitis marginalis profunda (Typ II) [5]. Dem klinischen Nutzen der Standardtherapie (Kürettage mit Handinstrument) soll der Nutzen einer zusätzlichen Behandlung mit einem Mikrostrom-Applikator gegenübergestellt werden. Jedem Patienten werde in diesem Szenario randomisiert zugeteilt, in welcher Kieferseite er zusätzlich die Mikrostrom-Applikation erhalten soll, während beide Kieferseiten die gleiche Basisbehandlung erhalten. Zur Simulation angenommen wurde eine erwartbare Reduktion der Sondierungstiefe unter Monotherapie um 0,8 mm und unter Kombinationstherapie um 1,1 mm. Mit diesen Vorgaben zu den erwartbaren (= mittleren) Wirksamkeiten wurden also Individualdaten per Zufallszahlen-Generator erzeugt. Hierbei wurde zwischen den beiden Therapiealternativen eine Korrelation von +0,6 angenommen: Es ist zu erwarten, dass eine einseitig wirksame Monotherapie bei kontralateraler Kombination mit einem nichtinvasiven und komplikationsarmen Addendum bei Anwendung im selben Patienten ein ähnliches Wirksamkeitsprofil zeigt, also für die beiden Therapien pro Patient „ähnliche“ Ergebnisse zu erwarten sind. Abbildung 1 zeigt einen Differenzen-Boxplot [1] für die unter obigen Annahmen simulierten Individualdaten; die mediane Differenz von +0,3 mm zugunsten der Kombinationstherapie gemäß den Modell-Annahmen für die Simulation zeigt sich in der Box entsprechend.

Signifikanztests für
verbundene Daten

Das oben motivierte verbundene, also intraindividuell vergleichende Studiendesign kann mit auf die Bewertung verbundener Daten ausgerichteten Signifikanztests analysiert werden [4]: Ein stets auf solche paarigen Daten anwendbarer Test ist der sogenannte Vorzeichentest, der im obigen Beispiel die links/rechts-Differenzen zwischen der Sondierungstiefen-Reduktion nach Kombinations- versus nach Monotherapie betrachtet. Konkret vermerkt der Vorzeichentest lediglich, ob für einen Patienten die Differenz zwischen Kombinations- und Monotherapie positiv (Kombination besser) oder negativ (Kombination schlechter als Monotherapie) ausgefallen ist. Der Vorzeichentest bestimmt also seinen p-Wert unter merklichem Informationsverlust gegenüber den originalen Differenzen: Die klinische Größenordnung (mm) der Differenzen von Sondierungstiefen-Reduktionen nach Kombinations- versus nach Monotherapie wird nicht berücksichtigt; eine Abweichung zwischen den Therapien von 1,2 mm – 0,8 mm = 0,4 mm zugunsten der Kombinationstherapie wird genauso als „positiv“ gewichtet wie eine Abweichung von 1,2 mm – 0,3 mm = 0,9 mm. Abbildung 1 deutet an, dass etwas mehr als die Hälfte der Abweichungen zwischen Kombinations- und Monotherapie positiv ausgefallen ist, also etwas mehr als die Hälfte der Studienpatienten in ihrem Ergebnis einen Vorteil der Kombinationstherapie demonstriert. Dementsprechend ergab sich in der Situation von Abbildung 1 für den Vorzeichentest ein p-Wert von lediglich p = 0,065 und damit kein zum Niveau 5 % signifikanter Unterschied zwischen Kombinations- und Monotherapie trotz des medianen Unterschieds von immerhin +0,3 mm zugunsten der Kombinationstherapie.

Liegen verbundene (Differenzen-) Daten vor und sind diese wie im Fall von Abbildung auch symmetrisch verteilt, so kann statt des Vorzeichentests ein anderes Verfahren zur Anwendung kommen [2], der sogenannte verbundene Wilcoxon-Test. Dieser nutzt anders als der Vorzeichentest die originalen Differenzendaten zur Bestimmung eines p-Werts für die Prüfung eines signifikanten Therapieunterschieds zwischen Kombinations- und Monotherapie: In der Situation von Abbildung 1 ergab sich für den verbundenen Wilcoxon-Test ein p-Wert von p = 0,024 und damit ein zum Niveau 5 % statistisch signifikanter Unterschied zugunsten der zusätzlichen Mikrostrom-Applikation bei Parodontitistherapie.

Kritisch muss hier jedoch betont werden, dass besagter Wilcoxon-Test für verbundene Daten nur valide Ergebnisse liefert, wenn die zugrunde liegenden Differenzendaten symmetrisch verteilt sind! Bei sehr kleinen Fallzahlen wird dies niemals sicher aus einer grafischen oder numerischen Beschreibung der Differenzen belegt werden können, sodass im Zweifelsfall stets der Vorzeichentest angeraten ist trotz seiner konstruktionsbedingt eher konservativen Signifikanzprüfung.

Unverbundene Auswertung verbundener Daten

Wird auf ein verbundenes Studiendesign fälschlicherweise ein Signifikanztest für Zwei-Stichprobenvergleiche angewandt, so sind merklich verfälschte Ergebnisse zu erwarten: Wird etwa der unverbundene Wilcoxon-Test [4] zum Vergleich zweier Stichproben auf die obigen – per Design verbundenen – Daten angewendet, so ergibt sich ein p-Wert von p = 0,151 entsprechend einem zum Niveau 5 % nicht signifikanten Unterschied. Dies spiegelt die Tatsache wider, dass ein Test zum Vergleich zweier unverbundener Stichproben das intraindividuell vergleichende Studiendesign nicht angemessen ausnutzen kann und künstlich zwei „separate“ Messreihen gegenüber stellt. Der Vorteil des intraindividuellen Vergleiches – die Elimination von Streuung zwischen den Patienten – wird nicht genutzt; die so künstlich erhöhte Streuung in der Analyse erklärt den Verlust der Signifikanz gegenüber der verbundenen Analyse mit dem verbundenen Wilcoxon-Test.

Grundsätzlich sollte also eine statistische Analysemethode das Studiendesign optimal widerspiegeln, ein verbundenes Studiendesign sollte mittels Signifikanztests für verbundene Daten ausgewertet werden. Ein Aufbrechen dieser Regel kann jedoch legitim sein, wenn für einzelne Patienten nicht beide Therapien angewendet werden konnten, oder für eine der Therapien das Ergebnis nicht bestimmt werden konnte durch eine einseitig zusätzlich notwendig gewordene Intervention. In diesem Fall müssten entweder alle Patienten, bei denen nicht beide Therapien im primären Endpunkt bewertet werden können, aus der Analyse ausgeschlossen werden; dies widerspräche dem Prinzip, maximal mögliche Studieninformation in die Analyse einzubringen. Alternativ müssten in dieser Situation die beiden Therapien für alle Patienten wie in einem gänzlich unverbunden geplanten Studiendesign gegenüber gestellt werden – absehbar mit einer dann zu geringen effektiven Netto-Fallzahl, um noch eine statistische Signifikanz zu erreichen.

Im Ergebnis sollte also bei Anstreben eines intraindividuell vergleichenden Studiendesigns maximale Energie in dessen erfolgreiche Implementierung investiert werden, um damit eine klare Ausgangslage für die nachfolgende Analyse sicherstellen zu können.

Konfidenzintervall der medianen Differenz

Eine sehr anschauliche Alternative zu Signifikanztests für verbundene Stichproben liefert das Konfidenzintervall der medianen Differenz: Zur in Abbildung 1 gezeigten medianen Abweichung von +0,3 mm zugunsten der Kombinationstherapie kann ein (zumindest näherungsweises) 95%-Konfidenzintervall bestimmt werden. Liegt der Wert „0“ nicht in diesem 95%-Konfidenzintervall, so besteht ein zum Niveau 5% statistisch signifikanter Unterschied zwischen den Sondierungstiefen-Reduktionen nach Kombinations- versus nach Monotherapie [3]. Wird für die simulierten Daten aus Abbildung 1 das 95%-Konfidenzintervall zur medianen Differenz bestimmt, so ergibt sich dieses zu [+0,01 mm; +0,52 mm] und umfasst nicht den Wert „0 mm“ für die mediane Differenz (Abbildung 2). Dieses 95%-Konfidenzintervall demonstriert damit analog zum Ergebnis des verbundenen Wilcoxon-Tests einen zum Niveau 5 % signifikanten Unterschied in der Größenordnung der Sondierungstiefen-Reduktion zugunsten der Kombinationstherapie.

Zusammenfassung

  • 1. Im kontralateralen Vergleich kann einer Kombinationstherapie einem ihrer Konstituenten mittels eines verbundenen, intraindividuell vergleichenden Studiendesigns gegenüber gestellt werden („links/rechts-Vergleich“).
  • 2. Verbundene Studiendesigns sollten grundsätzlich mittels Analysemethoden für verbundene Stichproben (z.B. Differenzen) ausgewertet werden.
  • 3. Der Vorzeichentest kann grundsätzlich für den Vergleich verbundener Stichproben genutzt werden, liefert jedoch oft konstruktionsbedingt konservative Ergebnisse. Als trennschärfere Alternative zum Vorzeichentest kann – zumindest im Fall symmetrisch verteilter Differenzen zwischen den verbundenen Stichproben – auch der verbundene Wilcoxon-Test verwendet werden.
  • 4. Eine anschauliche und stets anwendbare Alternative zu Signifikanztests für verbundene Stichproben bietet das (näherungsweise) (1 – ?)-Konfidenzintervall für die mediane Differenz der verbundenen Daten: Liegt der Wert „0“ nicht in diesem Intervall, so besteht ein zum Niveau ? signifikanter Unterschied zwischen den beiden verbundenen Stichproben.

Korrespondenzadresse

M.Sc. Jessica Hirsch

Institut für Medizinische Biometrie
und Epidemiologie

Fakultät für Gesundheit der Universität Witten/Herdecke

Alfred-Herrhausen-Straße 50

D-58448 Witten

Tel.: 02302 926762

Fax: 02302 92644825

Jessica.Hirsch@uni-wh.de

Literatur

1. Hirsch J, Baulig C, Krummenauer F: Anwendungen des Bland/Altman-Diagramms in Klinischen Prüfungen der Zahnärztlichen Implantologie – Informationsgewinn in Studien zum Vergleich von Kombinations- und Monotherapie. Z Zahnärztl Impl 2013;29: 80–83

2. Hirsch J: Planung und Analyse klinischer Studien an paarigen Organen – Empfehlung zur Wahl von Signifikanz test und Fallzahl bei stetigem oder binärem Endpunkt. Dissertationsschrift (in Erstellung) zur Erlangung des Grades „Dr. rer. medic.“ der Fakultät für Gesundheit der Universität Witten/Herdecke

3. Krummenauer F, Al-Nawas B, Baulig C: Konfidenzintervall und Signifikanztest – zwei Darstellungen einer Aussage. Z Zahnärztl Impl 2009;25:170–172

4. Krummenauer F, Al-Nawas B, Baulig C: Signifikanztest – aber welchen??? Z Zahnärztl Impl 2008;24:304–307

5. Reimschüssel A: Retrospektive epidemiologische Studie zum patientenseitigen Nutzen einer Mikrostrom-Applikation als additive Therapie der Parodontitis marginalis profunda (Typ II). Dissertationsschrift (in Erstellung) zur Erlangung des Grades „Dr. med. dent.“ der Fakultät für Gesundheit der Universität Witten/Herdecke

Fussnoten

Institut für Medizinische Biometrie und Epidemiologie (Direktor: Prof. Dr. F. Krummenauer), Fakultät für Gesundheit der Universität Witten/Herdecke, Alfred-Herrhausen-Straße 50, 58448 Witten


(Stand: 05.06.2013)

DGI Nachrichten aktuell

In Memoriam an Karl-Ludwig Ackermann. Ein Nachruf von Prof. Dr. Günter Dhom und Gedenken an einen ganz „Großen“ der Zahnmedizin. 

zum Nachruf an Dr. Ackermann

Aktuelle Ausgabe 3/2020

Im Fokus

  • Kippkonus-Abutment
  • Statine und Bisphosphonate
  • Teleskopierende Hypridbrücke

FORTBILDUNGSANGEBOTE DGI

Die DGI bietet ein umfassendes und überregionales Fortbildungsangebot an. 

WERDEN SIE AUTOR

Sie haben ein spannendes Thema aus dem Bereich der Implantologie und würden gerne einen Artikel dazu in der ZZI veröffentlichen? Dann nutzen Sie unseren Editorial Manager und reichen Sie ihr Manuskript direkt bei uns ein.

Manuskript einreichen