Biometrische Methodik als Qualitätsindikator in implantologischen Publikationen – Vorschlag einer „Check-Liste“

PDF

, ,

F. Krummenauer1, C. Baulig1, B. Al-Nawas2

Im Methodenteil einer jeden Publikation muss auch der zur Darstellung der Ergebnisse verwendeten statistischen Methodik (Planung und Auswertung von Studiendesign und resultierenden klinischen Daten) Rechnung getragen werden. Dazu sollen zusammenfassende Empfehlungen zur sachgerechten, an Studiendesign und Skalenniveau der klinischen Endpunkte orientierten Auswahl von Methoden der beschreibenden und schließenden Statistik gegeben werden. Ferner werden das Studiendesign betreffende Aspekte, welche in Publikationen klinischer Daten zu berücksichtigen sind, in Checklisten zusammen gestellt (Randomisation und Verblindung, Rücklaufquote, Charakterisierung primärer Endpunkte, Power und Fallzahlplanung etc.).

Schlüsselwörter: Methodenteil der Publikation, Signifikanztest, Konfidenzintervall, Fallzahlplanung, Studiendesign

The “Material and Methods” section of dental research papers should reference major aspects concerning statistical planning and evaluation concerning both the study design and the resulting clinical data. Particular focus is laid on the listing of methods for description and significance evaluation of trial data, as well as on design-associated trial determinants (randomisation and blinding strategy, response rate documentation, primary endpoints, power and sample size etc.). Author check list proposals are provided for both issues.

Keywords: “Material and Methods” section of publications, significance tests, confidence intervals, sample size, study design

Die Bedeutung klinischer Studien zur Bewertung neuer Therapieformen in der Implantologie hat in den letzten Jahren deutlich zugenommen. Trotz dieser erfreulichen Entwicklung lassen die Angaben zur Methodik in Studienpublikationen speziell im Bereich der Medizinprodukt-Evaluation nicht selten zu wünschen übrig. Die folgenden Checklisten sollen in diesem Sinne zum einen dem publizierenden Autor als Hilfe dienen bei der Referenzierung biometrischer Methoden in klinischen Publikationen, zum anderen aber auch dem Leser publizierter Studienberichte Anhaltspunkte zu Mindestinformationen geben, welche im Sinne der methodischen Qualitätssicherung in Publikationen bereit gestellt sein sollten. Diese Checklisten können keinen Anspruch auf Vollständigkeit oder gar Allgemeingültigkeit erheben – sie sollen vielmehr als Orientierungshilfe verstanden werden. Es sei deutlich betont, dass, unabhängig von Checklisten und noch so ausführlichen Hilfsprogrammen in statistischen Software-Paketen, im Bedarfsfall die Konsulation methodischer Fach-Ansprechpartner anzuraten ist. Es wäre fatal mit Blick auf die enorme Arztseitig investierte Mühe bei der Studiendurchführung, wenn eine ungünstige Auswahl von Methoden die Ergebnisse einer per se gut implementierten Studie nur noch suboptimal wiedergäbe, oder wenn eine nicht sachgerechte Darstellung der Studienergebnisse beim Leser zu falschen klinischen Schlussfolgerungen führe.

Primärer Endpunkt

Die wichtigsten Aspekte, die hinsichtlich der Biometrie und Statistik in eine Publikation eingehen sollten, betreffen den primären Endpunkt der Studie. Dieser muss in jedem Fall explizit definiert werden, mit genauer (Mess-) Einheit, Art und Zeitpunkt seiner Erhebung: Für die Aussage der Studie ist es ein elementarer Unterschied, ob „das prophylaktische Potential einer Zahnpaste im Spiegel von Fluorid-Konzentrationen“ oder „die Anwenderfreundlichkeit der Zahnpaste-Tube hinsichtlich optimaler Ausquetschbarkeit des Inhalts“ untersucht werden! Für implantologische Untersuchungen ist der Unterschied zwischen Implantat-Erfolg und Implantat-Überleben hinlänglich dieskutiert. Aber schon die Auswahl von Surrogatkriterien wie des marginalen Knochenabbaus an Implantaten sollte gut bedacht und mit Literatur belegt sein. Meist wird die Prognose eines inserierten Implantates im Vordergrund stehen – etwa charakterisiert durch die Verweildauer [Monate] seit Implantation. Es muss bei Verwendung von Surrogat-Endpunkten wie dem marginalen Knochenabbau begründet und belegt werden, dass dieser hinreichend gut die eigentlich interessierende Prognose widerspiegeln kann.

Die Natur des primären Endpunkts bestimmt ferner die Wahl der Auswertungsmethodik einer Studie: Wird als primärer Endpunkt der Studie erhoben, ob das Implantat ein Jahr lang Komplikationsfrei im Kiefer verbleiben konnte [„ja“/„nein“], so werden von statistischer Seite Methoden zur Auswertung eines binären Endpunktes zu verwenden sein wie das relative Risiko. Wird jedoch als primärer Endpunkt die Verweildauer [Monate] bis zu einer möglichen Komplikation erfasst, so sind Methoden für „time to event“-Endpunkte anzuwenden wie der Kaplan/Meier-Schätzer für Überlebenswahrscheinlichkeiten. Die entsprechende statistische Methodik wird im Methoden-Abschnitt einer Publikation angekündigt und bereitet die nachfolgende Darstellung der Ergebnisse im primären Endpunkt der Studie vor. Sie richtet sich nach dem Skalenniveau des Endpunkts (siehe Checkliste 1). Umso wichtiger ist daher die explizite Festlegung des primären Endpunkts im Methodenteil der Publikation inklusive einer detaillierten Beschreibung der Methoden (Messverfahren, Fragebogen etc.) und Einheiten, entlang derer er erhoben und dokumentiert werden wird.

Auswertungsverfahren

Zumindest für den primären Endpunkt der Studie sollten die geplanten statistischen Auswertungsstrategien (Lagemaße zur Beschreibung, Graphiken, Signifikanztests, Konfidenzintervalle) und die dabei verwendete Software benannt werden (Checkliste 1); für sekundäre Endpunkte und weitergehende Analysen können die Methoden dann oft summarisch benannt werden.

Fallzahl-Begründung

Eine Begründung der in die Studienauswertung eingebrachten Fallzahl bezieht sich ebenfalls auf den primären Endpunkt und sollte im Methodenteil einer Publikation dokumentiert sein. Die Fallzahl in einer Studie muss so hoch sein, dass ein Studienergebnis als zu einem vorgegebenen Signifikanzniveau α signifikant mit der Studie aufgedeckt werden kann. Ferner soll die Studie eine hinreichend hohe statistische Power vorhalten, um im Falle eines Negativ-Ergebnisses sicherstellen zu können, dass erwartete klinische Effekte mit der vorliegenden Fallzahl hätten aufgedeckt werden können. Für die statistische Power, die Fähigkeit einen real existierenden Unterschied in einer Studie als signifikant aufdecken zu können, fordert man meist einen Mindestwert von 80 % oder 90 %. Für das Signifikanzniveau α, die maximal tolerable Wahrscheinlichkeit, falsch-positive Unterschiede in einer Studie zu erhalten, üblicherweise einen Maximalwert von 5 % (siehe z. B. [1]).

Neben den statistischen Vorgaben zur Fallzahlplanung sind aber auch klinische Vorgaben zu machen, die sich nach dem primären Endpunkt richten. Ist dieser kontinuierlich, so wird zumeist vorgegeben, wie stark sich die Mediane der zu vergleichenden Therapien mindestens unterschieden müssen, um von einem klinisch relevanten Unterschied sprechen zu können. Hier wird also ein Mindestwert für das Effektmaß der Studie vorgegeben, welcher mindestens für ein „positives“, also klinisch relevantes Ergebnis der Studie gefordert wird. Wird zur Bewertung der Prognose zweier Implantate der primäre klinische Endpunkt „Komplikationsfreies Verbleiben ein Jahr nach Abschluss der Versorgung [ja /nein]“ betrachtet, so stellt das für die Fallzahlplanung relevante Effektmaß den Unterschied zwischen den Auftrittshäufigkeiten von Komplikationen innerhalb eines Jahres dar: Werden Komplikationsraten von 5 % versus 3 % erwartet, so wird die Fallzahl der geplanten Studie so hoch angesetzt werden müssen, dass der Unterschied 5% versus 3% mit dieser Fallzahl statistisch signifikant aufgedeckt werden kann. Generell sind zum Beleg sehr „feiner“ Unterschiede wie in diesem Beispiel deutlich höhere Fallzahlen einzubringen als zum Nachweis „deutlicherer“ Unterschiede (z. B. bei erwarteten Komplikationsraten von 15 % versus 5 %). Das erwartete Effektmaß stellt somit eine zentrale Determinante der Fallzahl dar und muss im Methodenteil einer Publikation explizit dokumentiert und aus klinischer Perspektive motiviert werden. Dazu sollten das für den Nachweis des erwarteten Effekts zugrunde gelegte Signifikanzniveau und die statistische Power angegeben werden.

Multiples Testen

Ist es unumgänglich, mehrere parallele klinische Endpunkte mittels Signifikanzanalysen zu evaluieren, können sich im schlimmsten Fall die einzelnen, bei jedem p-Wert resultierenden alpha-Fehler kumulieren [7]. Aus diesem Grund empfiehlt sich bei mehreren, als gleichwertig anzusehenden primären Endpunkten eine Korrektur der resultierenden p-Werte und Konfidenzintervalle z. B. nach Bonferroni: Werden zwei Implantate hinsichtlich der einjährigen und auch der fünfjährigen Komplikationsrate verglichen, so resultieren zwei Signifikanztests zum Vergleich der Implantate, also auch zwei p-Werte bzw. Konfidenzintervalle. Nach Bonferroni ist jeder davon mit dem formalen Signifikanzniveau 5 % / 2 = 2.50 % zu vergleichen, um Unterschiede zwischen den Implantaten nach einem bzw. nach fünf Jahren als statistisch signifikant zu belegen [7]. Diese „schärfere Form“ der Signifikanz wird auch als multiple Signifikanz bezeichnet. Wird dieses Problem des multiplen Testens ignoriert, spricht man von „lokalen Signifikanzen“. Ein pragmatischer Ansatz zur Handhabung dieser formalen Problematik ist die Fixierung der Studienfragestellung auf einen einzigen primären Endpunkt. Andernfalls ist es unumgänglich im Methodenteil einer Publikation explizit zu kommentieren, warum mehrere parallele Endpunkte betrachtet werden und wie mit dem oben angedeuteten Problem des multiplen Testens umgegangen wird. Klinisch bedeutsame zusätzliche Fragen, wie es im obigen Beispiel zur Implantat-Prognose zusätzlich das ästhetische Ergebnis der Versorgung (Pink und White Esthetik Score) sein könnte, lassen sich dann als sekundäre Fragestellungen bzw. als Fragestellungen zu sekundären Endpunkten darstellen. Deren Analyse erfolgt dann lediglich deskriptiv und eine Korrektur des Signifikanzniveaus im obigen formalen Sinne ist nicht erforderlich.

Randomisation und Maskierung („Verblindung“)

Bekanntlich ist die Randomisation das Mittel der Wahl, um Strukturgleichheit zwischen Therapiegruppen herzustellen und diese vergleichbar zu machen. Dabei sollte auf dokumentierbare Listen von Zufallszahlen – publiziert oder von neutraler dritter Stelle mittels spezieller Software erzeugt – zurück gegriffen werden. Die Form der Randomisation ist ebenfalls in der Publikation zu kommentieren. Oft wird eine sogenannte „Stratifikation“ der Randomisation vorgenommen, um bekannte Störfaktoren direkt im Studiendesign zu eliminieren: Für multizentrische Studien bietet sich beispielsweise die Stratifikation der Randomisationsliste nach den Studienzentren an, d. h. es resultiert eine separate Randomisation für jedes einzelne Zentrum, um deren Balancierung innerhalb der Zentren sowie deren Vergleichbarkeit zwischen den Zentren zu sichern.

Ein weiteres Qualitätskriterium ist eine maximal mögliche Maskierung/Verblindung der Therapie gegenüber allen Beteiligten: Es sollte weder für den Patienten noch für den Arzt erkennbar sein, welche der konkurrierenden Therapien oder Wirkstoffe verabreicht werden („doppelt maskierte/doppelt verblindete Studie“). Etwa beim Vergleich zweier verschiedener Implantate kann jedoch die Wahl des Implantats zumindest gegenüber dem Operateur nicht maskiert werden, bestenfalls gegenüber dem Patienten („einfach maskierte Studie“). Soll die Lebensqualität nach Implantatversorgung mittels eines Fragebogens gemessen werden, könnte jedoch eine doppelte Maskierung erwirkt werden, indem ein vom Operationsprozess gänzlich unabhängiger Zahnarzt ohne Kenntnis des gewählten Implantates das Interview der Studienpatienten vornimmt. Bei Arzneimittelstudien hingegen ist eine doppelte Maskierung oft möglich durch optisch nicht unterscheidbare Prägung eines Wirkstoffs und eines Placebo in Tablettenform. Werden ferner zwei dosisäquivalente Darreichungsformen einer Medikation verglichen, etwa eine Wirkstoffgabe als Dragee und eine als Infusion, so kann auch die so genannte „double dummy“-Strategie verwendet werden: Diese schreibt beiden Therapiegaben beide Darreichungsformen vor – bei einer Gruppe enthalten die Dragees das Placebo, in der anderen die Infusion. In jedem Fall sollte das Studiendesign den maximal möglichen Maskierungs- bzw. Verblindungsgrad anstreben, und diesen genauso wie die gewählte Strategie zur Randomisation im Methodenteil einer Publikation offenlegen. Auch wenn die Vorteile der Verblindung in klinischen Studien in der Implantologie nicht immer ausgeschöpft werden können, sollte bei der Studienplanung die Möglichkeit deren Nutzung zumindest überprüft und – wenn immer möglich – genutzt werden.

Votum der Ethikkommission

Für die Erhebung und Auswertung von Studienbedingt zu dokumentierenden Daten (Datenschutz), sowie für die Legitimation von Verblindung und Randomisation als Eingriff in die Entscheidungsfreiheit in der zahnärztlichen Therapiewahl ist in jedem Fall eine Votierung der für das Studienzentrum zuständigen Ethikkommission notwendig. Bei multizentrischen Studien bedeutet dies insbesondere den Einbezug sämtlicher lokal für die Studienzentren zuständiger Kommissionen. Ein Hinweis auf die erhaltenen Voten sollte im Methodenteil der Publikation erfolgen, z. B. mit Verweis auf das Datum der Erteilung des Votums.

Ausblick

Beachtet man die oben genannten Aspekte aus der Vogelperspektive des interessierten Lesers aktueller Publikation, so muss zugegeben werden, dass nicht wenige klinische Studien in der Implantologie bisher auf die Angabe wichtiger oben genannter Kriterien verzichten. Dies erschwert die Beurteilung der Ergebnisse für den Leser und deren Einbezug in systematische Reviews und Meta-Analysen. Im Sinne der langfristigen Nutzbarkeit der Ergebnisse klinischer Studien kann eine Methoden offenlegende und sachgerechte Berichterstattung, wie im Arzneimittelbereich längst üblich, für die Implantologie nur von Nutzen sein.

Checkliste 1: Flexibel anwendbare Methoden zur statistischen Auswertung

Skalenniveau klinischer Endpunkte

a) binäre Daten (z. B. Versorgung Komplikationsfrei erfolgt „ja/nein“)

b) kontinuierliche Daten (z. B. Kosten [€]; Sulcustaschentiefe [mm])

c) time to event-Daten (z. B. Dauer bis Implantatverlust seit Versorgungsende [y])

Deskription (beschreibende Statistik)

a) binäre Daten: Vierfeldertafeln mit absoluten und relativen Häufigkeiten (Zeilenprozente bei Verwendung kausaler Einflussgrößen als Zeilenvariable); Risikodifferenz; relatives Risiko; Number Needed to Treat (NNT) [2]

b) kontinuierliche Daten: Übersichtstabellen mit (Subgruppenweiser) Angabe von Median, 1. und 3. Quartil, minimalem und maximalen Wert, ggf. zusätzlich Mittelwert und Standardabweichung. Graphik: Boxplots (bei verbundenen Messreihen Boxplots der intraindividuellen Differenzen) [3]

c) time to event-Daten: Übersichtstabellen mit (Subgruppenweiser) Angabe von Median, 1. und 3. Quartil, minimalem und maximalen Wert, ggf zudem Mittelwert und Standardabweichung der Überlebenszeit. Graphik: Kaplan/Meier-Kurven

Univariate Signifikanztests (schließende Statistik) [4]

a) binäre Daten: exakter Fisher-Test (unverbundene Stichproben), McNemar-Test (verbundene Stichproben)

b) kontinuierliche Daten: Wilcoxon-Test (unverbundene Stichproben), Vorzeichentest (verbundene Stichproben)

c) time to event-Daten: Logrank-Test (unverbundene und verbundene Stichproben)

Konfidenzintervalle (schließende Statistik) [5]

a) binäre Daten: Risikodifferenz (verbundene und unverbundene Stichproben)

b) kontinuierliche Daten: mediane Differenz (verbunden und unverbunden)

c) time to event-Daten: mediane Überlebenszeit (unverbunden und verbunden)

Checkliste 2: Mindestangaben zur Biometrischen Methodik im Methodenteil einer Publikation

Studiendesign: z. B. Nachweis von Unterschieden oder von Gleichwertigkeit [6]

Stichproben: z. B. verbunden oder unverbunden [4]

Maskierung und Randomisation: Grad der Maskierung (doopelt, einfach, offen), Maßnahmen zur Gewährleistung; Art der Randomisation (z. B. Zentrenweise oder klinische Cofaktoren berücksichtigend/„stratifiziert“) und Methode des Zufallsverfahrens

Ethikkommission(en): Versicherung der Zustimmung der für das Studienzentrum zuständigen Ethikkommission (bei multizentrischen Studien für jedes Zentrum separat lokal einzuholen!) unter Angabe von Datum oder Geschäftszeichen des erteilten Votums

Studienregistrierung: Angabe der ggf. erforderlichen Registrierungsnummer (im Vorfeld der Studienkonzeption einzuholen über www.clinicaltrials.gov); für Arzneimittelstudien ist die Registrierungsnummer obligat und deren Verfügbarkeit/Zitierbarkeit für zahlreiche Zeitschriften eine notwendige Voraussetzung zur Berücksichtigung von Publikationen zu Klinischen Prüfungen

primärer Endpunkt: genaue Benennung mit physikalischer Einheit, Art und Zeitpunkt der Messung (Fragebogen, Messgerät etc.) [7]

wichtigste Methoden zur statistischen Analyse: zusammenfassende Ankündigung der für die Ergebnisdarstellung faktisch verwendeten Methoden z. B. entsprechend Checkliste 1 (dabei explizite Benennung der Analysemethodik für den primären Endpunkt)

multiples Testen: Wurde bei parallelen primären Endpunkten oder parallelen primären Fragestellungen an die gleiche Studie eine Korrektur z. B. nach Bonferroni vorgenommen? Sind Auswertungen explorativer Natur, d.h. p-Werte beschreiben lokale Signifikanzen? [7]

Fallzahlplanung: Begründung der eingebrachten Fallzahl (Signifikanzniveau, Power, mindestens erwartetes Effektmaß im primären Endpunkt)? [8, 6]

Zwischenanalysen und Studienabbruch: Sind bereits in die Planung der Studie und deren Gesamtfallzahl geplante Zwischenauswertungen einbezogen? Welche Ergebnisse führen zu einem ggf. vorzeitigen Studienabbruch? Welche Häufungen von unerwünschten und/oder schwerwiegenden Ereignissen bei einzelnen Studienpatienten führen zu einem globalen Studienabbruch?

drop out – Raster: Anzahl angesprochener und Anzahl eingeschlossener Patienten, darunter Anzahl komplett (nach)beobachteter Patienten, Gründe für Ausschlüsse oder Ausfälle (z. B. Verweigerung, Sprachprobleme, Komedikation, Komorbidität, Komplikationen, Verifikation eines Ausschlusskriteriums nach bereits erfolgtem Einschluss); Empfehlung: Flussdiagramm entsprechend dem CONSORT statement [9]

Software: Mit welcher Software wurden Dateneingabe, Rohdatenverarbeitung, statistische Auswertung und graphische/tabellarische Aufbereitung durchgeführt?

 

Korrespondenzadresse

Prof. Dr. Frank Krummenauer

Institut für Medizinische Biometrie und Epidemiologie

Medizinische Fakultät der Universität Witten/Herdecke

Alfred Herrhausen-Straße 50

D-58448 Witten

Tel.: 0 23 02 / 92 67 60

Fax : 023 02 / 92 67 01

E-Mail: Frank.Krummenauer@uni-wh.de

Literatur

1. Schumacher M, Schulgen G (2008) Methodik Klinischer Studien – Methodische Grundlagen der Planung, Durchführung und Auswertung (dritte Ausgabe), Kapitel 10. Springer Berlin-Heidelberg

2. Krummenauer F, Al-Nawas B, Baulig C (2008) Risikomaße – kompakt und vielfältig interpretierbar. Z Zahnärztl Impl 24: 57–9

3. Krummenauer F, Wojciechowski C, Baulig C, Al-Nawas B (2007) Boxplots – die flexible Alternative zu „Antennenbildchen“. Z Zahnärztl Impl 23: 319–22

4. Krummenauer F, Al-Nawas B, Baulig C (2008) Signifikanztests – aber welchen???. Z Zahnärztl Impl 24: 304–8

5. Baulig C, Al-Nawas B, Krummenauer F (2009) Konfidenzintervalle – die anschauliche Alternative zum p-Wert. Z Zähnärztl Impl 25: 55-7

6. Krummenauer F, Al-Nawas B, Baulig C (2009) Nachweis therapeutischer Äquivalenz – mehr als nur ein „nicht-signifikantes Ergebnis“. Z Zahnärztl Impl 25: in press

7. Krummenauer F, Al-Nawas B, Baulig C (2008) Primäre Endpunkte in klinischen Studien der Implantologie. Z Zahnärztl Impl 24: 211–4

8. Baulig C, Al-Nawas B, Krummenauer F (2008) p-Werte – Statistische Signifikanz versus Klinische Relevanz. Z Zahnärztl Impl 24: 126–8

9. Türp JC, Antes G, Falck-Ytter Y (2003): Das CONSORT-statement. DZZ 58: 320-2

Fussnoten

1 Institut für Medizinische Biometrie und Epidemiologie, (Direktor: Prof. Dr. F. Krummenauer), Medizinische Fakultät der Privaten Universität Witten/Herdecke,
Alfred Herrhausen-Straße 50. 58448 Witten

2 Klinik für Mund-, Kiefer-, und Gesichtschirurgie, plastische Operationen, (Direktor: Prof. Dr. Dr. W. Wagner), Universitätsmedizin der Johannes Gutenberg-Universität Mainz, Augustusplatz 2, 55131 Mainz


(Stand: 26.04.2011)

DGI Nachrichten aktuell

Implantieren in Zeiten von Corona? 
Der Präsident der DGI, Prof. Dr. Dr. Knut A. Grötz mit einem Statement

zum Statement Prof. Grötz

Aktuelle Ausgabe 2/2020

Im Fokus

  • CMD: Implantatprothetische Therapie
  • Zahnimplantate bei Diabetes mellitus
  • Zirkonoxid in Einzelzahnlücken

FORTBILDUNGSANGEBOTE DGI

Die DGI bietet ein umfassendes und überregionales Fortbildungsangebot an. 

WERDEN SIE AUTOR

Sie haben ein spannendes Thema aus dem Bereich der Implantologie und würden gerne einen Artikel dazu in der ZZI veröffentlichen? Dann nutzen Sie unseren Editorial Manager und reichen Sie ihr Manuskript direkt bei uns ein.

Manuskript einreichen