Studiendesigns in der Implantologie (II): <br/>Fallzahlplanung – zwischen Hoffen und Wissen …<div class="titleEnglish">Designing Clinical Trials in Implantology (II): <br/>sample size calculation – between intuition and insight …</div>

PDF

, ,

F. Krummenauer1, C. Baulig1, B. Al-Nawas2

Bei der Planung einer Studie muss unter anderem die darin einzubringende Fallzahl kalkuliert und gegenüber Behörden wie der Ethik-Kommission gerechtfertigt werden. Dies kann im Wesentlichen geschehen durch Vorgabe von Signifikanzniveau, Power und zu erwartendem klinisch relevantem Mindestunterschied zwischen den zu vergleichenden Messreihen. Power und Signifikanzniveau legen dabei die statistische Aussagekraft der Studie fest, während der von klinischer Seite zu fixierende erwartete Unterschied im primären Endpunkt der Studie die klinische Relevanz vorgibt. Je geringer das Signifikanzniveau und je höher die statistische Power der Studie angesetzt wird, desto höher ergibt sich die zu rekrutierende Fallzahl zu deren Einhaltung. Ebenso steuert aber auch der klinisch relevante Mindestunterschied im primären Endpunkt die Fallzahl: Je geringer der nachzuweisende Unterschied zwischen zwei zu vergleichenden Messreihen erwartet wird, desto höher ergibt sich die zu rekrutierende Fallzahl. In Studienpublikationen sollte in jedem Fall darauf geachtet werden, dass eine plausible Dokumentation einer Fallzahlplanung vorliegt. Dies geht zumeist einher mit der expliziten Definition des primären klinischen Endpunktes der Studie sowie der aus bestehender Literatur motivierten Vorgabe des als klinisch relevant angesehenen Mindestunterschieds in diesem Endpunkt.

Schlüsselwörter: Signifikanzniveau; statistische Power; klinisch relevanter Unterschied; Fallzahl; effektive Fallzahl

The designing of a clinical trial also includes the calculation of its sample size, which represents a crucial component of trial considerations by clinical trial authorities. Sample size calculation can be performed by the determination of the significance level, the statistical power and the clinical efficacy estimator of the trial. Whereas power and significance level characterize the statistical validity of the investigation in terms of type I and type II error control, the clinical efficacy estimator characterizes the order of clinically relevant trial outcomes. The smaller the significance level and the larger the statistical power are pre-determined, the larger will turn out the corresponding minimum necessary sample size. Furthermore, the smaller the clinically relevant difference to be detected between measurement series is assumed, the larger will turn out the corresponding sample size. As a consequence clinical trial publications should thoroughly document these underlying assumptions on minimum clinically relevant differences as well as on power and significance considerations to legitimate the chosen sample size and thereby the methodological validity of the investigation.

Keywords: significance level; statistical power; clinically relevant difference; sample size; effective sample size

Signifikanzniveau und
statistische Power

Das Ergebnis einer klinischen Studie hängt explizit von der eingebrachten Fallzahl ab: Diese muss mindestens so hoch angesetzt werden, dass ein angestrebtes Studienergebnis als signifikant aufgedeckt werden kann. Gleichzeitig darf die Fallzahl aber auch nicht höher angesetzt werden als für einen solchen statistisch signifikanten Nachweis notwendig: Beim Vergleich zweier Therapien muss „so früh wie möglich“ erkannt werden können, ob eine Therapie der anderen überlegen ist – nur so kann vermieden werden, dass weiter Patienten innerhalb der Studie einer schon als unterlegen erkennbaren Therapie zugeordnet würden. Dieser Optimierung zwischen statistischer Aussagekraft und ethischer Vertretbarkeit der Studie trägt die simultane Vorgabe von Signifikanzniveau und statistischer Power einer Studie Rechnung [1].

Das Signifikanzniveau (meist 5 % oder 1 %) einer Studie sichert deren Ergebnis gegen den Fehler erster Art oder auch alpha-Fehler ab [2]: Werden zwei Implantate hinsichtlich ihrer Verweildauer im Kiefer gegenübergestellt und zeigt sich ein statistisch signifikanter Unterschied zwischen den Implantaten, so ist die Wahrscheinlichkeit eines rein zufallsbedingten Unterschieds in den Verweildauern – der außerhalb der Studie gar nicht besteht – maximal so groß wie eben dieses Signifikanzniveau.

Wird jedoch in der Studie kein Unterschied zwischen den Implantatverweildauern gefunden, während faktisch in der Grundgesamtheit aber ein Unterschied vorliegt, so spricht man vom Fehler zweiter Art oder auch beta-Fehler. Der beta-Fehler ist jedoch nicht durch das Signifikanzniveau kontrolliert: Erhält man keinen signifikanten Unterschied in der Studie, kann noch lange keine Gleichwertigkeit der Therapien folgerbar sein – es konnte lediglich in der Studie kein Unterschied aufgedeckt werden [3]. Die Wahrscheinlichkeit, den beta-Fehler nicht zu begehen, also die Fähigkeit einer Studie, in der Grundgesamtheit bestehende Unterschiede mit der vorliegenden Fallzahl aufdecken zu können, wird dabei auch als statistische Power der Studie bezeichnet.

Während für das Signifikanzniveau Werte zwischen 1 % und 5 % üblich sind, hat sich für die statistische Power eine Vorgabe zwischen 80 % und 90 % etabliert (entsprechend einer maximal tolerablen Wahrscheinlichkeit des beta-Fehlers zwischen 20 % und 10 %).

Wird eine Studie zum Vergleich zweier Implantate hinsichtlich derer Verweildauer im Kiefer zur statistischen Power 80 % und zum Signifikanzniveau 5 % durchgeführt, kann deren Studienergebnis wie folgt interpretiert werden: Ergibt sich ein statistisch signifikanter Unterschied zwischen den Implantat-verweildauern zum Signifikanzniveau 5 % (p-Wert ? 5 %), so ist dieser Unterschied mit einer Wahrscheinlichkeit von maximal 5 % nur „zufällig“ in der Studie zustande gekommen. Ergibt sich hingegen kein statistisch signifikanter Unterschied zwischen den Implantaten (p-Wert > 5 %), so ist die Wahrscheinlichkeit, einen tatsächlichen Unterschied zwischen den Verweildauern der Implantate in der Studie „übersehen“ zu haben, maximal 20 % (= 100 % – Power).

Determinanten der Fallzahl

Power und Signifikanzniveau sind offenkundig Determinanten der in eine Studie einzubringenden Fallzahl: Je höher die in einer Studie geforderte Power, die Fähigkeit einen real existenten Unterschied mit der Studie aufdecken zu können, desto höher wird die Fallzahl der Studie angesetzt werden müssen. Je geringer ferner das geforderte Signifikanzniveau, der Schutz vor dem Auffinden „falsch-positiver“ Ergebnisse durch die Studie, desto höher wird wiederum die Fallzahl der Studie angesetzt werden müssen.

Neben den statistischen Vorgaben zur Fallzahlplanung sind aber auch klinische zu machen, die sich nach dem primären Endpunkt richten [4]. Hierzu wird eine Vorgabe für den Unterschied zwischen zwei Messreihen gemacht, der mindestens erreicht werden muss, um ein klinisch relevantes Ergebnis der Studie attestieren zu können. Wird zur Bewertung der Prognose zweier Implantate der primäre klinische Endpunkt „Komplikationsfreies Verbleiben im Kiefer zwei Jahre nach Abschluss der Versorgung (ja/nein)“ betrachtet, so muss die Fallzahlplanung den zu erwartenden Unterschied der Auftrittshäufigkeiten von Komplikationen zwischen den beiden Implantaten einbeziehen: Werden etwa Komplikationsraten von 6 % versus 3 % erwartet, muss die Fallzahl der geplanten Studie so hoch angesetzt werden, dass eben dieser Unterschied 6 % versus 3 % mit der gewählten Fallzahl statistisch signifikant aufgedeckt werden kann.

Generell sind zum Beleg sehr „feiner“ Unterschiede, wie in diesem Beispiel, deutlich höhere Fallzahlen einzubringen als zum Nachweis „deutlicherer“ Unterschiede (z. B. bei erwarteten Komplikationsraten von 15 % versus 5 %). Dieser vor Studienbeginn festzulegende klinisch relevante Mindestunterschied im primären Endpunkt einer Studie stellt somit eine zentrale Determinante der Fallzahl dar und muss im Methodenteil einer Publikation explizit dokumentiert und aus klinischer Perspektive motiviert werden, z. B. durch Zitierung von Ergebnissen vergleichbarer Studien aus der Literatur. Ebenso sollten in Publikationen stets das für den Nachweis des klinisch relevanten Mindest-unterschieds zugrunde gelegte Signifikanzniveau und die statistische Power angegeben werden.

Fallzahlplanung bei
stetigem Endpunkt

Wird der primäre Endpunkt einer Studie kontinuierlich/stetig erhoben (z. B. Taschentiefen nach Therapie [mm] oder Gesamtkosten unterschiedlicher Versorgungen [€]), so wird zumeist vorgegeben, wie stark sich die Mediane der konkurrierenden Verfahren mindestens unterscheiden müssen, um von einem klinisch relevanten Unterschied in diesem Endpunkt sprechen zu können. Soll ein neu konzipiertes Kieferimplantat einem bereits zertifizierten Implantat hinsichtlich der medianen Verweildauer gegenüber- gestellt werden und ist für das zertifizierte Implantat eine mediane Standdauer von acht Jahren belegt, so würde ein klinisch relevanter Vorteil durch das neue Implantat sicher bei dessen medianer Verweildauer von zehn Jahren belegt sein. Bei einer medianen Dauer von lediglich 8,2 Jahren gegenüber acht Jahren hingegen würde für den behandelnden Arzt die Verwendung dieses neuen Implantats kritisch zu hinterfragen sein – der patientenseitige Nutzen wäre hier nur von grenzwertiger klinischer Relevanz.

Eine Studie wäre weder für das Ziel optimaler Patientenversorgung noch das Ziel wissenschaftlichen Erkenntnisgewinns zurechtfertigen, wenn sie auf den Nachweis eines zu kleinen – klinisch irrelevanten – Mindestunterschieds ausgelegt würde. Insbesondere würde eine Studie zum Nachweis derart kleiner Unterschiede zwischen den Verweildauern der Implantate enorme Fallzahlen erfordern: Es leuchtet ein, dass ein großer Unterschied zwischen zwei Therapiearmen viel schneller, d. h. mit wesentlich weniger Patienten, aufgedeckt werden kann als ein feiner Unterschied (Abbildung 1 untere Darstellung). Insofern ist es weder klinisch noch statistisch sinnvoll, mit einer Studie zu kleine Unterschiede statistisch signifikant aufdecken zu wollen. Die Fallzahlen werden drastisch sein, und es können Unterschiede als statistisch signifikant resultieren, die keinerlei klinische Relevanz besitzen [5].

Als letzte und oft am wenigsten anschauliche Determinante einer Fallzahlplanung entlang eines kontinuierlichen Endpunkts muss dessen Streuung berücksichtigt werden. Hier leuchtet intuitiv ein, dass große Streuung in den Stichproben (also größere Heterogenität im primären Endpunkt) eher eine höhere Fallzahl nach sich ziehen wird. Abbildung 1 (obere Darstellung) illustriert diesen Effekt für den Fall zweier Stichproben, die entlang ihrer Mediane verglichen werden sollen. Anders als beim klinisch relevanten (Mindest-)Unterschied im primären Endpunkt zwischen Therapiealternativen ist jedoch eine Abschätzung der Streuung selten aus klinisch motivierten Überlegungen ableitbar, sondern muss z. B. aus bestehender Literatur zu Studien an vergleichbaren Therapien abgeleitet werden. Letzteres ist jedoch vor allem bei neuen Produkten oder Therapien bestenfalls für mit bereits etablierter Therapie zu versorgende Kontrollgruppen möglich, so dass meist auf Mutmaßungen zurückgegriffen werden muss.

Effektive Fallzahl

Speziell bei Studien mit langem Nachbeobachtungszeitraum sind „drop outs“ selbst bei maximal professioneller Stu-
dienführung nicht zu vermeiden, d. h., es werden nicht alle initial in die Studie eingeschlossenen Patienten bei Auswertung des primären Endpunkts berücksichtigt werden können. Um dennoch sicherstellen zu können, dass hinreichend viele Patienten in die Auswertung eingebracht werden können, wird in Anträgen an Ethik-Kommissionen zur Votierung des geplanten Vorhabens nicht selten die effektive Fallzahl entlang obiger Argumentationen motiviert, dann aber die darauf abgestimmte Rekrutierung einer höheren Fallzahl beantragt. Diese zur Rekrutierung im Antrag an die Kommission beantragte Fallzahl ergibt sich üblicherweise aus der effektiven (für die statistische Auswertung notwendigen) Fallzahl vor Abzug einer angenommenen Drop-out-Rate: Müssen 500 Patienten ausgewertet werden und wird erwartet, dass im Verlauf der Studie bis zu 20 % aller eingeschlossenen Patienten die Studie vorzeitig verlassen (z. B. durch Wohnortwechsel oder Rücknahme der Einverständniserklärung zur Teilnahme), so wird die Rekrutierung der 1,2-fachen zur Auswertung notwendigen Fallzahl beantragt, also 500 x (100 % + 20 %) = 500 x 1,2 = 600 Patienten.

Diese oft massive Erhöhung der Gesamtzahl zu rekrutierender und zu versorgender Patienten muss insbesondere bei der finanziellen und logistischen Planung einer Studie berücksichtigt werden! In Publikationen der Studie sollte dann die faktisch aufgetretene mit der bei Studienplanung angenommenen „Drop-out“-Rate verglichen sowie die Gründe für „drop outs“ konkret benannt und deren Häufigkeit beziffert werden.

Dokumentation der
Fallzahlplanung

Die für eine Studie zu rekrutierende Patientenzahl ist entlang Signifikanzniveau, statistischer Power, erwartetem Mindestunterschied im primären Endpunkt sowie angenommener Drop-out-Rate sowohl in Publikationen zu Stu-dienergebnissen als auch in Anträgen z. B. an Ethik-Kommissionen oder Förderer vor Studienbeginn reproduzierbar zu begründen! Hierzu bietet es sich oft an, verschiedene Fallzahlplanungsszenarien zusammenzustellen, etwa durch Variation der angenommenen Werte für Signifikanzniveau, Power und klinisch relevanten Unterschied.

Tabelle 1 zeigt die Darstellbarkeit einer solchen Variation für die Planung einer fiktiven Studie zum Vergleich der Komplikationsraten nach konservativer versus Wurzelkanalstift-gestützte Endodontie von Prämolaren. Als primärer Endpunkt der Studie werde das „Auftreten einer zum Zahnverlust führenden Komplikation bis zu 24 Monate nach Abschluss der definitiven Versorgung (ja/nein)“ festgesetzt. Weiter werde nach konservativer Versorgung eine Komplikationsrate von 4 %, nach Stift-gestützter von 8–4 % = 4 % erwartet; dieser Unterschied wurde von der Studienleitung als klinisch relevant erachtet.

Die erste Zeile in Tabelle 1 zeigt für angenommene Unterschiede von 3 %, 4 % und 5 % zwischen den Komplikationsraten die effektiv zur Auswertung notwendige Fallzahl, wenn die Studie ein Signifikanzniveau von 5 % und eine statistische Power von 80 % einhalten soll. Schon diese geringfügige Variation des aufzudeckenden Unterschieds zwischen den Komplikationsraten bedingt ein Rangieren der effektiven Fallzahl zwischen 420 und 971 Patienten (Prämolaren) pro Studienarm. Wie erwartet zeigt sich dabei die höchste effektive Fallzahl für den geringsten Unterschied (3%) zwischen den Komplikationsraten: Für diese Konstellation wären 2 x 971 Prämolaren in der Studie auszuwerten, bei einem Ratenunterschied von immerhin 5 % hingegen „nur“ 2 x 420 Prämolaren. Bei einer für eine zweijährige Nachbeobachtung sicher anzunehmenden Drop-out-Rate von 10 % wären also in diesen Konstellationen mindestens 2 x 1069 bzw. 2 x 462 Prämolaren (Patienten) für die Studie zu rekrutieren, um die effektiven Fallzahlen sicherstellen zu können.

Die obige Verdopplung der Fallzahl bei nur minimaler Veränderung des als klinisch relevant angenommenen Unterschieds von 3 % versus 5 % in den zweijährigen Komplikationsraten verdeutlicht die Sensibilität einer Fallzahlplanung bezüglich der Determinante „klinisch relevanter Mindestunterschied“! Deren Ableitung aus Literatur-recherche und klinischer Bewertung ist also im eigensten Interesse der Studienleitung hinreichend viel Vorbereitungszeit zu widmen.

Tabelle 1 zeigt ferner die nicht minder geringe Abhängigkeit der effektiven Fallzahl von Signifikanzniveau und Power. Letztlich muss bei der Entscheidung für die Fallzahl der Studie nun selbstehrlich das von den Studienzentren faktisch leistbare Rekrutierungsprofil mit den notwendigen Qualitätsanforderungen für die geplante Studie abgeglichen werden. Bei der beschriebenen Fragestellung scheint ein Signifikanzniveau von 5 % bei einer statistischen Power von 80 % durchaus vertretbar, so dass die Fallzahlentscheidung im bereits oben geschilderten Bereich angesiedelt werden kann.

Korrespondenzadresse

Prof. Dr. Frank Krummenauer

Institut für Medizinische Biometrie und Epidemiologie

Medizinische Fakultät der Universität
Witten/Herdecke

Alfred-Herrhausen-Straße 50, 58448 Witten

Tel.: 0 23 02 / 92 67-60, Fax: -01

E-Mail: Frank.Krummenauer@uni-wh.de

Literatur

1. Schumacher M, Schulgen G: Methodik Klinischer Studien – Methodische Grundlagen der Planung, Durchführung und Auswertung (2008; dritte Ausgabe), Kapitel 10. Springer Berlin-Heidelberg

2. Baulig C, Al-Nawas B, Krummenauer F: p-Werte – Statistische Signifikanz versus Klinische Relevanz. Z Zahnärztl Impl 2008;24:126–128

3. Krummenauer F, Al-Nawas B, Baulig C: Der Nachweis therapeutischer Äquivalenz – mehr als ein „nicht-signifikantes Ergebnis“... . Z Zahnärztl Impl 2009;25: 282–285

4. Krummenauer F, Al-Nawas B, Baulig C: Primäre Endpunkte in klinischen Studien der Implantologie. Z Zahnärztl Impl 2008;24:211–214

5. Krummenauer F, Al-Nawas B, Baulig C: Statistische Signifikanz – nur ein Fallzahl-Phänomen!?! Z Zahnärztl Impl 2010;26:78–81

Fussnoten

1 Institut für Medizinische Biometrie und Epidemiologie (Direktor: Prof. Dr. F. Krummenauer), Medizinische Fakultät der Privaten Universität Witten/Herdecke, Alfred Herrhausen-Straße 50. 58448 Witten

2 Klinik für Mund-, Kiefer-, und Gesichtschirurgie, plastische Operationen (Direktor: Prof. Dr. Dr. W. Wagner), Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Augustusplatz 2, 55131 Mainz


(Stand: 23.03.2011)

DGI Nachrichten aktuell

In Memoriam an Karl-Ludwig Ackermann. Ein Nachruf von Prof. Dr. Günter Dhom und Gedenken an einen ganz „Großen“ der Zahnmedizin. 

zum Nachruf an Dr. Ackermann

Aktuelle Ausgabe 2/2021

Im Fokus

  • Freiendkonstruktionen zur Versorgung von Schalt- und Freiendlücken
  • Hybridgestützte Doppelkronen als Konzept für langlebige Versorgung
  • Komplikationen bei Implantaten

FORTBILDUNGSANGEBOTE DGI

Die DGI bietet ein umfassendes und überregionales Fortbildungsangebot an. 

WERDEN SIE AUTOR

Sie haben ein spannendes Thema aus dem Bereich der Implantologie und würden gerne einen Artikel dazu in der ZZI veröffentlichen? Dann nutzen Sie unseren Editorial Manager und reichen Sie ihr Manuskript direkt bei uns ein.

Manuskript einreichen