„Quality by Design“ – Evidenzgrade vergleichender Studiendesigns der implantologischen Forschung

PDF

, , ,

Frank Krummenauer1, Inga Bayh1, Stephanie Knippschild1, Christine Baulig1

Vergleichende Studiendesigns können bezüglich der jeweils daraus ableitbaren Aussagekraft rangiert werden: Während aus einer randomisierten kontrollierten Klinischen Studie (RCT) ein kausaler Zusammenhang zwischen Therapiewahl und -ergebnis abgeleitet werden kann, sind die Ergebnisse von Kohorten- und Fallkontrollstudien selbst nach Korrektur für bekannte prognostisch relevante Störgrößen nur als Assoziationen zwischen Versorgung und Ergebnis interpretierbar und können Epi-Phänomene unbekannter Störgrößen sein. Dementsprechend kann eine Klassifikation von Forschungsergebnissen auf Basis der ihnen zugrunde liegenden Studiendesigns entlang der daraus ableitbaren kausalen Belastbarkeit erfolgen: Aus retrospektiven vergleichenden Designs abgeleiteten Aussagen wird der Evidenzgrad III zugeordnet, bei Ableitung aus prospektiven, nicht-randomisierten, vergleichenden Designs der Evidenzgrad II. Ergebnissen aus randomisierten Studiendesigns wird der maximal erreichbare Evidenzgrad I (oft noch unterteilt in Grad I B bei Verfügbarkeit einer einzelnen RCT zu einer Fragestellung sowie den höheren Evidenzgrad I A für die quantitative Kombination mehrerer RCTs in einer Metaanalyse) zugeordnet. Grundsätzlich wird der Evidenzgrad I als Maßstab der Patienten-orientierten Forschung verstanden; in begründeten Fällen können aber auch Studiendesigns mit Evidenzgrad II und III z.B. aus logistischen Gründen eine realistische Vorgehensweise zumindest zur zeitnahen Erstadressierung einer Fragestellung bieten.

Schlüsselwörter: randomisierte Studie; Kohortenstudie; Fallkontrollstudie; Evidenzgrad

Comparative trial designs can be ranged according to their inferential impact. Randomized controlled clinical trials (RCTs) allow for causal inference on differences between health care alternatives, whereas cohort and case control designs only allow for the assessment of a “statistical association” between alternative health care procedures and their respective outcome; this association estimate may, however, still remain biased due to the impact of unknown residual confounders – even after adjusting for known cofactors of prognostic relevance. As a consequence, comparative trial designs can be ranged according to their respective potential for causal inference: trial results derived from retrospective comparative designs are assigned evidence level III, whereas results derived from prospective non-randomized comparative designs are assigned evidence level II. Accordingly, the results of randomized designs are assigned evidence level I, which is mostly stratified into levels I B (only one RCT being available for the research hypothesis under investigation) and I A (availability of several independent RCTs on the same research hypothesis as well as a quantitative meta analysis of the latter). In general, evidence level I is considered as the gold standard in patient-related research; nevertheless, trial designs of levels II and III may appear legitimate at least as a first attempt tool to efficiently and timely address a research questions under urgent consideration.

Keywords: randomized trial; cohort trial; case cohort trial; evidence level

Die Planung von Patientenstudien umfasst diverse Schritte von der Festlegung primärer Endpunkte über die Bestimmung der zu rekrutierenden und auszuwertenden Fallzahl bis hin zur Abschätzung der in die Studie zu investierenden personellen und finanziellen Ressourcen. Allen diesen Schritten vorangestellt ist jedoch die Festlegung der von einer Studie zu klärenden Fragestellung und damit direkt verbunden die Festlegung des für diese Fragestellung angemessenen Studiendesigns. Dabei stellen vergleichende Studiendesigns zweifelsohne den Standard der Patienten-orientierten Forschung dar, wobei üblicherweise zwischen epidemiologischen – also bevölkerungsbezogenen – und klini-schen – also primär experimentellen – Studiendesigns unterschieden wird. Je nach gerade anstehender Frage ist dabei eher eine epidemiologische Studie angemessen oder eher eine klinische Studie: Wird zu etablierten Therapien primär eine Bewertung ihrer Sicherheit in der zahnärztlichen Anwendung angestrebt, sind epidemiologische Studiendesigns indiziert, die die Breite der Anwendung der Therapie in der Bevölkerung besser abbilden können als eine bezüglich ihrer Ergebnisse weniger weit generalisierbare Klinische Studie: Klinische Studien unterliegen üblicherweise scharf konturierten Ein- und Ausschlusskriterien sowie Prozess-Standardisierungen in der Therapiegabe, was nicht selten die Repräsentativität der Versorgungsprozesse einschränkt und damit auch die Übertragbarkeit der Studienergebnisse in die Versorgungsrealität. Soll hingegen eine neu konzipierte Therapie auf ihre Wirksamkeit und Sicherheit hin überprüft werden, ist ein experimentelles Studiendesign angezeigt, das gerade unter eben solchen scharf konturierten Rahmenvorgaben Wirksamkeit und Sicherheit gegenüber Versorgungsalternativen oder gegenüber Placebo kausal belegen soll. Für diesen Fall hat sich zweifelsohne die randomisierte kontrollierte Klinische Studie (RCT) als „Goldstandard“ der Patienten-orientierten Forschung etabliert [5].

Eine Metaanalyse verschiedener publizierter randomisierter Studien zur gleichen Fragestellung kann ferner genutzt werden, um das maximal verfügbare Wissen zur betrachteten Therapie respektive deren Wirksamkeits- und Sicherheitsprofil quantitativ zu bündeln [1]. In diesem Sinne kann auch die Aussagekraft einer Metaanalyse aus mehreren RCTs zur gleichen Fragestellung als höher eingestuft werden als die Aussagekraft einer alleinigen RCT; gleichzeitig ist die Aussagekraft einer RCT als Ergebnis eines experimentellen Studiendesigns zum Beleg therapeutischer Wirksamkeit höher als die Aussagekraft einer epidemiologischen Studie, die jenseits kontrollierter Vergleichbarkeit therapeutischer Alternativen keinen kausalen Wirksamkeitsbeleg ermöglicht [10]. Im Ergebnis können also verschiedene Studiendesigns bezüglich ihrer kausalen Aussagekraft rangiert werden, wenn die zu klärende Fragestellung aus der Perspektive des Wirksamkeitsnachweises von Therapiekonzepten erwächst. In diesem Fall sind klinische (experimentelle) Studiendesigns den epidemiologischen Designs klar überlegen bezüglich der daraus ableitbaren Aussagekraft. Gleichzeitig können epidemiologische Studiendesigns indiziert sein, wenn die zu klärende Frage aus der Perspektive der Anwendung einer bereits als wirksam belegten Therapie „in der Breite“ (also auf Bevölkerungsebene) erwächst – wenn z.B. sehr seltene unerwünschte Arzneimittelwirkungen oder Medizinprodukte-assoziierte Vorkommnisse aufgedeckt werden sollen, die in experimentellen Studien allein schon aufgrund ihres seltenen Auftretens niemals bekannt und charakterisierbar würden. Die Wahl des Studiendesigns ist also, wie eingangs erwähnt, eng an der angestrebten Fragestellung zu orientieren; die mit dem gewählten Design erwirkbare Aussagekraft [10] sollte aktive Berücksichtigung finden.

Im Folgenden sollen vor diesem Hintergrund klassische vergleichende epidemiologische und klinische Studiendesigns gegenübergestellt werden entlang ihrer Charakteristika und Limitationen bezüglich (kausaler) Aussagekraft und praktischer Umsetzbarkeit. Illustriert werden sämtliche Designs an der virtuellen Konzeption einer Fragestellung zum Vergleich der Wurzelkanalstift-gestützten mit der alleinigen konservativen Versorgung von Prämolaren nach Endodontie [3].

Randomisierte kontrollierte Klinische Studie (RCT)

Der „Goldstandard“ der therapeutische n Forschung stellt 2 therapeutische Alternativen prospektiv gegenüber, indem diese zufällig [5] den Studienteilnehmern zugeordnet werden. Eine häufige Form der RCT, das doppelt respektive einfach verblindete Design, maskiert zudem die Therapiegabe gegenüber Behandler und Patient respektive mindestens gegenüber dem Patienten. Die Maskierung soll dabei gewollte oder ungewollte (z.B. aus unbewussten Erwartungshaltungen erwachsende) Verzerrungen der Behandlungsergebnisse im Ansatz ausschließen. In jedem Fall liegt diesem experimentellen Studiendesign der Ansatz zugrunde, durch zufällige Zuordnung der Therapie eine Vergleichbarkeit der erwachsenden Stichproben zu sichern: Durch die Randomisation wird eine Gleichverteilung möglicher Störgrößen zwischen den zu vergleichenden Therapiearmen (Stichproben) erwirkt, die sonst bei asymmetrischem Auftreten zwischen den Stichproben die jeweiligen Behandlungsergebnisse entsprechend asymmetrisch beeinflussen könnten. Wird insbesondere eine neue Therapie randomisiert gegen ein Placebo kontrastiert, erlaubt die Randomisation dementsprechend sogar den kausalen Nachweis therapeutischer Wirksamkeit.

Beispiel:

Wird vermutet, dass die Insertion von Wurzelkanalstiften das einjährige Komplikationsrisiko gegenüber einer alleinige konservativen Versorgung erhöht, würde eine RCT den primären Endpunkt „Zahnverlust oder Komplikation im ersten Jahr seit Ende der definitiven Versorgung“ beleuchten können. Im obigen Sinne wäre eine solche Studie nur aussagefähig, wenn sichergestellt werden kann, dass nicht in einer der beiden zu vergleichenden Stichproben („Stift-gestützt“ versus „konservativ“) ungleich mehr Raucher oder auch Patienten mit schlechter Oralhygiene vertreten sind als in der anderen. Dieses Ungleichgewicht prognostisch relevanter Störgrößen würde das Ergebnis zwischen den beiden Stichproben möglicherweise so weit verzerren, dass die eigentlich weniger sichere Therapie aus der Studie fälschlich als sicherer hervorgehen könnte: Sind in der Stichprobe konservativ versorgter Patienten besonders viele Patienten mit grundsätzlich schlechter Prognose einer oralchirurgischen Versorgung, würde diese Stichprobe möglicherweise allein aufgrund dieses „prognostischen Nachteils“ mehr Komplikationen aufweisen können als die Stichprobe Stift-gestützt versorgter Patienten – selbst wenn die Stift-gestützte Versorgung per se eine höhere Komplikationsrate bedingte als die konservative. Eine Randomisation der Versorgungsmodi auf die Studienteilnehmer bedingt hier die Vergleichbarkeit der Stichproben durch Gleichverteilung eben solcher prognostischer Störgrößen. Eine RCT zum Vergleich der Wurzelkanalstift-gestützten mit der alleinigen konservativen Versorgung von Prämolaren nach Endodontie würde also jedem grundsätzlich zur Teilnahme an der Studie infrage kommenden Patienten auf Basis einer vorgefertigten Liste von Zufallszahlen einen der beiden Versorgungsmodi zuweisen, irrespektive einer prognostischen Einschätzung des Behandlers. Selbst wenn Behandlerseitig bei einem eingeschlossenen Patienten aufgrund seiner oralen Gesamtsituation eher eine Tendenz für oder gegen die Insertion eines Wurzelkanalstiftes bestünde, entscheidet in der RCT nun alleinig die Zufallsliste, ob ein Stift inseriert wird oder nicht. Der wissenschaftliche Vorteil einer kausalen Vergleichbarkeit der beiden Versorgungsmodi wird also faktisch „erkauft“ durch die Aufgabe der zahnärztlichen Entscheidungsfreiheit: Behandler sind verpflichtet, die individuell am besten passende Versorgung für einen Patienten zu wählen – diese Pflicht wird in einer RCT aufgegeben zugunsten des akademischen Erkenntnisgewinns. Es ist klar, dass eine solche Abgabe behandlerischer Verantwortung nur bei Vorliegen eines positiven Votums einer zuständigen Ethikkommission legitim ist [2]. Aus wissenschaftlicher Perspektive ist im vorliegenden Fall eine solche randomisierte Zuordnung des Versorgungsmodus legitimierbar, wenn der therapeutische Nutzen oder auch das therapeutische Risiko der beiden Modi nicht aus schon bestehender Literatur heraus zweifelsfrei gegeneinander abgewogen werden kann.

Klarer Vorteil einer RCT ist also zusammengefasst die aus der Randomisation ableitbare Möglichkeit des kausalen Belegs therapeutischer Unterschiede. Um jedoch Patienten auf 2 Versorgungsmodi randomisieren zu können, müssen auch beide Versorgungsalternativen für den jeweiligen Patienten infrage kommen; die Einschlusskriterien einer RCT müssen somit sehr streng gefasst werden, um beide Alternativen überhaupt zu legitimieren. Ferner sollte eine RCT möglichst wenige Patienten randomisieren, um so schnell wie möglich die überlegene Therapie identifizieren und die unterlegene aus dem Versorgungsspektrum entfernen zu können. Dieses Ziel der Minimierung der Patientenzahlen in RCTs erzwingt zugleich eine maximale Homogenität der Studienteilnehmer, um das Verschleiern therapeutischer Unterschiede aufgrund von Störgrößen wie beispielsweise Raucherstatus oder Oralhygiene zu vermeiden. Im obigen Beispiel wäre es also denkbar, überhaupt nur Nichtraucher mit insgesamt guter Oralhygiene in die Studie einzuschließen, um die Versorgungsmodi „Stift-gestützt“ versus „konservativ“ bereinigt für diese Störgrößen vergleichen zu können – das Studienergebnis wäre aber dann aufgrund dieser Einschlusskriterien nicht auf Raucher generalisierbar. Im Ergebnis unterliegen RCTs sehr scharf konturierten Ein- und Ausschlusskriterien, die naturgemäß die Generalisierbarkeit des Studienergebnisses einschränken; gleichzeitig steht der Vorteil der kausalen Belegbarkeit von Unterschieden zwischen Versorgungsalternativen im Versorgungsergebnis außer Frage im Vordergrund und legitimiert RCTs per se.

Metaanalyse mehrerer RCTs

Liegen zu einer Fragestellung bereits mehrere RCTs vor, können diese entlang eines Systematic Review und ggf. danach entlang einer Metaanalyse [1] quantitativ kombiniert werden: Während jede einzelne RCT zwangsläufig von den lokal am durchführenden Studienstandort bestehenden Infrastrukturen und Prozessen abhängt, erlaubt die Aggregation mehrerer RCTs einen davon entkoppelten Vergleich von Versorgungsalternativen. Voraussetzungen für die Kombinierbarkeit unabhängig durchgeführter RCTs in einer Meta-Analyse sind gleichzeitig eine grundsätzliche Vergleichbarkeit des Patientenguts und eine Ähnlichkeit der in den einzelnen RCTs verwendeten primären Endpunkte: Im oben genannten Beispiel würde die beschriebene RCT den primären Endpunkt „Komplikation im ersten Jahr nach Ende der definitiven Versorgung“ beleuchten, eine zweite RCT hingegen vielleicht den Nutzen-bezogenen Endpunkt „Anstieg der Lebensqualität zum Zeitpunkt 3 Monate nach Ende der definitiven Versorgung gegenüber vor Behandlungsbeginn“; eine dritte RCT hätte vielleicht den ökonomischen Endpunkt „Gesamtkosten der Versorgung“ aus Sicht der Leistungserbringer im Vordergrund. Es ist klar, dass diese verschiedenen Endpunkte nicht in einem Meta-Schätzwert zum Vergleich der Versorgungsmodi kombiniert werden können. Ferner wäre es denkbar, dass eine RCT ausschließlich die Versorgung von Prämolaren betrachtet, eine davon unabhängige RCT ausschließlich die Versorgung von Frontzähnen. Dann wäre zu hinterfragen, ob der therapeutische Vergleich an Prämolaren mit dem an Frontzähnen überhaupt so weit vergleichbar ist, dass die beiden Studienergebnisse gleichberechtigt kombiniert werden können.

Vorteil einer Metaanalyse mehrerer RCTs zur gleichen Fragestellung ist also zweifelsohne die Zusammenführung maximal verfügbaren Wissens aus der bestehenden Literatur zu einer Gesamtaussage; Nachteil ist die dafür zwingende Voraussetzung des Vorliegens aussagefähiger RCT-Publikationen zu sehr ähnlichen Rahmenvorgaben der Versorgung. Liegen solche jedoch vor, ist die Aussagekraft einer Metaanalyse aus mehreren kompatiblen RCTs klar der Aussagekraft einer einzelnen RCT überlegen.

Kohortenstudie

Wie beschrieben sind charakterisierende Merkmale einer RCT naturgemäß die zufällige Zuweisung der Therapie auf die Studienpatienten sowie die (oft ethisch motiviert) scharfe Konturierung der Ein- und Ausschlusskriterien nebst entsprechender Einschränkung der Ergebnis-Generalisierbarkeit. In einer prospektiven Kohortenstudie werden diese beiden Charakteristika der RCT nicht berücksichtigt: Kohortenstudien vergleichen ebenfalls 2 Versorgungsalternativen, dies aber eher „in der Breite der therapeutischen Anwendung“, d.h. unter sehr weit gefassten Einschlusskriterien und entlang einer stets individualisierten Behandlerseitigen Therapiewahl. Kohortenstudien vergleichen also in der therapeutischen Forschung alternative Versorgungsmodi eher „bevölkerungsbezogen“: Oft werden prospektive Kohortenstudien nach der Zulassung von Arzneimitteln respektive nach dem Inverkehrbringen von Medizinprodukten durchgeführt, um Sicherheit und Nutzen ihrer Anwendung „in der Breite“ bewerten zu können. Speziell in der Pharmako-Epidemiologie sind vergleichende Kohortenstudien oft die einzige Möglichkeit, seltene unerwünschte Arzneimittelwirkungen aufdecken zu können, die in RCTs schlichtweg aufgrund der dort geringeren Fallzahlen niemals beobachtbar waren.

Beispiel:

Im oben beschriebenen Beispiel des Vergleichs einer Wurzelkanalstift-gestützten mit einer alleinigen konservativen Versorgung nach Endodontie erschien seinerzeit bei Planung im Jahr 2003 eine prospektive Kohortenstudie [3] durchaus als eine legitime Alternative zur oben geschilderten fiktiven RCT: Beide Versorgungsmodi waren etabliert, die Wurzelkanalstifte insbesondere CE-zertifiziert und es bestand nur bedingt ein Anlass zur Vermutung eines therapeutischen Nachteils der Stift-basierten Versorgung. In der Gesamtschau wurde von den beiden das Projekt betreuenden Zahnärztinnen eine Randomisation der Patienten als nur bedingt legitimiert angesehen und stattdessen eine bevölkerungsbezogene Kohortenstudie in der Praxis der Behandlerin erwogen. Verzichtet würde in diesem Ansatz also „lediglich“ auf die Randomisation der beiden alternativen Versorgungsmodi (siehe Abb. 1), davon abgesehen hätte jedoch die implementierte prospektive Kohortenstudie das gleiche Design – bis hin zum oben genannten primären Endpunkt ein Jahr nach definitiver Versorgung auftretender Komplikationen – aufgewiesen wie die eingangs motivierte RCT. Jedoch könnte bei dieser dann nicht randomisierten Studie nicht mehr ausgeschlossen werden, dass die individuelle Therapiewahl („Stift-gestützt“ versus „konservativ“) zumindest ungewollt von der Behandlerin beeinflusst worden wäre in der Gesamtschau der prognostischen Situation einzelner Patienten in der Studie.

Klarer Vorteil der Kohortenstudie in der therapeutischen Forschung ist also ihre Repräsentativität bezüglich des realen Versorgungsgeschehens. Dies wird jedoch „erkauft“ durch Verzicht auf die Möglichkeit, aus dem Studienergebnis kausale Therapievergleiche ableiten zu können: Das Ergebnis einer Kohortenstudie gestattet nur die Quantifizierung einer „statistischen“ Assoziation zwischen dem Auftrittsraster z.B. von Komplikationen und der Therapiewahl, kann aber nur sehr bedingt vom Einfluss möglicher prognostischer Störgrößen zwischen den Studienarmen bereinigt werden. Ein Unterschied in Komplikationsraten oder Therapieerfolgsraten kann in einer Kohortenstudie letztlich auch das Epi-Phänomen einer asymmetrischen Verteilung von prognostisch relevanten Störgrößen zwischen den Kohorten sein. Sind diese Störgrößen bekannt, kann zwar mit multivariaten statistischen Verfahren eine Ergebnisbereinigung versucht werden – dennoch besteht keine Gewähr, dass das bereinigte Ergebnis nicht immer noch verfälscht ist aufgrund zwischen den Kohorten asymmetrisch aufgetretener unbekannter Störgrößen.

An dieser Stelle sei noch erwähnt, dass Kohortenstudien oft auch retrospektiv konzipierbar sind. Liegt eine ausreichende Dokumentation des Behandlungsverlaufs und des Behandlungsergebnisses sowie ggf. prognostisch relevanter anamnestischer und Patienten-bezogener Kofaktoren vor, ist grundsätzlich auch retrospektiv die Zusammenstellung aller Informationen zur Schätzung der Assoziation zwischen Versorgungsmodus und -ergebnis möglich. Die retrospektive Erhebung ist dann freilich wesentlich schneller und Ressourcenschonender möglich. Im obigen Beispiel des Vergleichs Stift-gestützter versus konservativer Versorgung nach Endodontie konnte die Praxisdokumentation der Behandlerin auch retrospektiv sämtliche einjährigen Verläufe der Studienpatienten aufzeigen, da eine regelmäßige Nachsorge in der behandelnden Praxis zum damaligen Versorgungsstandard gehörte. Die Kohortenstudie hätte damit also auch retrospektiv implementiert werden können ohne Informationsverlust bezüglich der zur Auswertung relevanten Charakteristika zu Patienten und Behandlungen. Mit diesem Ansatz müsste nicht pro Studienteilnehmer ein ganzes Jahr dessen Verlauf prospektiv verfolgt werden. Gleichzeitig müsste auch keine prospektive Rekrutierung von Patienten vorgenommen werden; im Ergebnis könnten in diesem Design der retrospektiven Kohortenstudie vermutlich mehrere Jahre Forschungszeit „abgekürzt“ werden dank schon bestehender Verlaufsdokumentationen zur angestrebten Fragestellung.

Fallkontrollstudie

Neben der Kohortenstudie stellt die Fallkontrollstudie das häufigste Studiendesign der „klassischen“ Epidemiologie dar. Ebenso wie aus der Kohortenstudie kann jedoch auch aus der Fallkontrollstudie nur eine Assoziation und kein kausaler Zusammenhang zwischen Versorgungsmodus und -ergebnis abgeleitet werden. Die Fallkontrollstudie ist ebenfalls geeignet zur Beantwortung vergleichender Fragestellungen, unterscheidet sich aber von allen anderen bisher beleuchteten Studiendesigns grundlegend bezüglich der Rekrutierung: Sowohl RCT als auch Kohortenstudie rekrutieren Studienteilnehmer entlang der Wahl des Versorgungsmodus und beobachten dann entlang der Zeit nach Ende der Versorgung deren Ergebnis („Outcome“). In beiden Designs wird also ausgehend von der Vorgabe des Versorgungsmodus – bei RCTs entlang einer Randomisation – das therapeutische Ergebnis beobachtet. Die Fallkontrollstudie invertiert diesen zeitlichen Ablauf und rekrutiert die Studienteilnehmer retrospektiv entlang ihrer dann schon bekannten therapeutischen Outcomes. Während also die Beobachtungsrichtung bei RCTs und Kohortenstudien der Wirkungsrichtung zwischen Versorgungswahl und -ergebnis entspricht, vertauscht das Design der Fallkontrollstudie Wirkungs- und Beobachtungsrichtung.

Die klassische Anwendung dieses Studiendesigns findet sich in der Krebs-Epidemiologie bei der Suche nach Expositionsrastern: Rekrutiert werden Krebserkrankte („Fälle“), denen dann zum Zeitpunkt der Studiendurchführung nicht an Krebs erkrankte Personen („Kontrollen“) gegenübergestellt werden. Es werden dann individuelle Risikoprofile (Rauchstatus, Ernährungsgewohnheiten, berufliche oder häusliche Exposition zu karzinogenen Stoffen etc.) erhoben und zum vorliegenden Erkrankungsstatus in Relation gesetzt. Aus diesem retrospektiven Ansatz kann jedoch niemals eine kausale Wirkung erkannter Expositionsraster auf die Krankheitsentwicklung abgeleitet werden. Gleichzeitig ist aber vor allem in der Epidemiologie sehr seltener Krebserkrankungen die Fallkontrollstudie oft die einzige Möglichkeit, überhaupt im multifaktoriellen Krankheitsentstehen Zusammenhänge zu bestimmten Expositionsrastern aufdecken zu können. Es würde Jahrzehnte prospektiver Beobachtung erfordern, sehr seltene Erkrankungen in statistisch belastbarer Anzahl zu dokumentieren und dann auf die im Verlauf der Studiendauer durchlebten diversen Expositionsraster zurückführen zu können.

Beispiel:

Zum Vergleich der Wurzelkanalstift-gestützten versus der konservativen Versorgung nach Endodontie würde eine Fallkontrollstudie ihre Teilnehmer also entlang des einjährigen Behandlungsergebnisses rekrutieren (Abb. 1): Es würden Patienten in die Fallkontrollstudie eingeschlossen, bei denen bereits eine einjährige Komplikation bekannt wurde im einjährigen Zeitraum seit Versorgung in der Studien-Praxis. Zu dieser Patientengruppe würde dann – ebenfalls retrospektiv – eine Gruppe von Patienten rekrutiert werden, bei denen ein erfolgreicher einjähriger Verlauf dokumentiert ist. Nach Abschluss der Rekrutierung dieser beiden Patientengruppen mit respektive ohne einjährige Komplikation würde dann eruiert werden, welche Versorgung jeweils gewählt wurde („Stift-gestützt“ oder „konservativ“); damit könnte dann wieder die Assoziation zwischen Versorgungsergebnis und -modus geschätzt werden. Vorteil dieses Ansatzes gegenüber dem einer retrospektiven Kohortenstudie wäre die dann gesichert hohe Prävalenz von einjährigen Komplikationen im Gesamtdatensatz: Bei Durchführung einer (retrospektiven) Kohortenstudie wäre nur gesichert, dass beide Versorgungsmodi hinreichend oft in die Studie rekrutiert würden; es könnte jedoch nicht sichergestellt werden, dass im Fall eher seltener einjähriger Komplikationen zu beiden Versorgungsmodi hinreichend viele einjährige Komplikationen aufgetreten sind für eine belastbare statistische Auswertung der Kohorten. Das Design der Fallkontrollstudie hingegen sichert – eben aufgrund der Rekrutierung entlang des Versorgungsergebnisses – das hinreichend häufige Vorliegen von Komplikationen und setzt diese dann individuell in Relation zum initial gewählten Versorgungsmodus. Aus diesem Grund wurde faktisch bei Konzeption der oben beschriebenen Studie seinerzeit entschieden, die angestrebte Fragestellung im Design einer Fallkontrollstudie [3] zu implementieren: Eine RCT erschien wie erwähnt nur bedingt legitimiert, während eine retrospektive Kohortenstudie ggf. zu wenige einjährige Komplikationen in die statistische Auswertung eingebracht hätte. Für das vorliegende Beispiel des Vergleichs zweier therapeutischer Alternativen stellte diese Designwahl einen sinnvollen Kompromiss aus Zielsetzung und Effizienz dar [3].

Vorteil der Fallkontrollstudie in der therapeutischen Forschung ist also deren Gewährleistung hinreichend hoher Prävalenzen auch seltener Behandlungskomplikationen aufgrund der am Versorgungsergebnis orientierten Rekrutierung der Studienteilnehmer. Ihr essenzieller Nachteil ist aber die zumeist retrospektiv nicht mehr mögliche Dokumentation von Störgrößen, anhand derer sich die zu vergleichenden Personengruppen möglicherweise unterscheiden (z.B. im obigen Beispiel im einjährigen Zeitraum notwendig gewordene Versorgungen von Zähnen nahe dem Index-Prämolar der Fallkontrollstudie, die die Prognose des Prämolars beeinflusst haben könnten aufgrund veränderter mechanischer Rahmensituationen).

Cluster-randomisierte Klinische Studie (c-RCT)

Cluster-randomisierte Studien können als „Hybrid“ einer RCT mit einer Kohortenstudie verstanden werden: Vor allem in der Versorgungsforschung hat es sich als wenig effektiv erwiesen, einzelne Patienten zu randomisieren; Leistungserbringer tendieren nicht selten grundsätzlich zu einem bestimmten Versorgungsmodus und möchten verständlicherweise mit Blick auf die damit bestehende maximale Vertrautheit – gerade auch im Interesse ihrer Patienten – keine Randomisation auf alternative, weniger vertraute Versorgungsmodi zulassen. Ist also im obigen Beispiel ein Behandler überzeugt vom Nutzen der Wurzelkanalstift-Insertion, wird er kaum einer Zufallsliste unter Ausschaltung seines zahnärztlichen Ermessens zur bestmöglichen individuellen Versorgung eine alternative Therapievorgabe gestatten. Ein anderer Behandler mag vielleicht für beide Versorgungsmodi offen sein, kann und möchte aber aufgrund logistischer Aspekte in seiner Praxis nur einen Modus für alle Patienten verfolgen. Für diese Situation stellt die cluster-randomisierte Studie (c-RCT) einen probaten Kompromiss bereit, indem sie die beiden alternativen Versorgungsmodi randomisiert auf Ebene der Behandler/Praxen: Nicht der einzelne Patient in einer c-RCT wird randomisiert, sondern es wird auf Praxisebene per Randomisation derjenige Versorgungsmodus vorgegeben, den sämtliche (!) Studienpatienten der entsprechenden Praxis durchlaufen werden. Behandler sind oft grundsätzlich bereit, eine solche Randomisation für einen gewissen Zeitraum hinzunehmen, müssen dann aber für den Studienzeitraum sicherstellen, sämtliche ihrer Patienten – soweit ethisch vertretbar – der zugewiesenen Therapiewahl zu unterziehen. Für die einzelne Praxis entsteht also dann jeweils eine Kohorte von identisch behandelten Patienten, die Kohorten sind jedoch durch übergeordnete Randomisation entstanden und erlauben damit einen kausalen Vergleich der beiden Versorgungsmodi durch Gegenüberstellung der Praxis-weisen Ergebnisse über alle Patienten einer Praxis hinweg.

Ein Vorteil der cluster-randomisierten gegenüber der individuell randomisierten Studie ist also deren höhere Akzeptanz bei Behandlern mit Blick auf die stärkere Nähe zur Versorgungsrealität vor allem in der Niederlassung. Der entscheidende Nachteil ist aber neben dem hohen logistischen Aufwand zur Rekrutierung ausreichend vieler Praxen bzw. Behandlungszentren mit Bereitschaft zur „Praxisrandomisation“ die insgesamt recht hohe zu rekrutierende Patientenzahl gegenüber einer „klassischen“ RCT: Da die Patienten einer Praxis in einer c-RCT nicht als unabhängige Beobachtungen ausgewertet werden können, müssen insgesamt oft um 20–30 % höhere effektive Patientenzahlen in die Auswertung eingebracht werden. Jenseits der Versorgungsforschung hat sich deshalb die Cluster-Randomisation in der therapeutischen Forschung nur bedingt durchsetzen können, obwohl sie sämtliche Vorteile einer „klassischen“ RCT – vor allem den kausalen Wirksamkeitsnachweis – in sich birgt.

Beispiel:

Speziell in der Zahnheilkunde stellt die c-RCT eine unterschätzte Ressource der therapeutischen Forschung dar: Statt einer (Cluster-)Randomisation verschiedener Praxen ist die cluster-Randomisation verschiedener Kieferquadranten eines Patienten in der Zahnärztlichen Implantologie eine naheliegende Strategie, um mehrere Zähne pro Patient als „Cluster“ in eine Auswertung einbringen zu können: Werden im oben beschriebenen Beispiel zur Evaluation der Komplikationsrate nach Stift-gestützter versus konservativer Behandlung die beiden Unterkiefer-Prämolaren eines jeden Studienteilnehmers identisch entsprechend der diesem Patienten per Randomisation zugeordneten Strategie versorgt, erwächst pro Patient ein Cluster mit dessen beiden Prämolaren; die resultierende c-RCT muss im Ergebnis weniger Patienten rekrutieren als eine individuell randomisierende Studie, die pro Patient nur einen Prämolar in die Auswertung einbringen würde. Jedoch kann nicht von einer „Halbierung“ der Patientenzahl ausgegangen werden, da 2 Prämolaren eines Patienten nicht als unabhängige Informationen gewertet werden können – faktisch würde im cluster-randomisierten Ansatz eine Reduktion der effektiven Patientenzahl um circa 15 % gegenüber dem individuell randomisierenden Design möglich. Dieser ethische Vorteil muss jedoch aus logistischer Perspektive hinterfragt werden: Für eine solche Cluster-RCT müssen beide Prämolaren eines Patienten vergleichbar stark vorgeschädigt sein und jeweils (!) beide alternativen Versorgungsmodi erlauben, damit sie gleichberechtigt als Cluster auf diese randomisiert werden können. Es wird sicherlich schwer sein, Patienten mit 2 „vergleichbar stark vorgeschädigten“ Prämolaren zu finden, sodass eine individuelle Randomisation zumindest aus logistischer Perspektive das effizientere Studiendesign darstellen dürfte.

Matched-Pair-Designs

Für sämtliche der beschriebenen klinischen und epidemiologischen Studiendesigns besteht die Möglichkeit einer Effizienzsteigerung, oft verbunden mit einer Reduktion der effektiv notwendigen Patientenzahl, durch sogenanntes Matching der Studienteilnehmer. Dieses Konzept kann für epidemiologische Studiendesigns verstanden werden als ein zumindest ansatzweiser Ersatz der dort nicht enthaltenen Randomisation von Studienpatienten: Im oben beschriebenen Fallkontrollstudien-Ansatz zum Vergleich der Wurzelkanalstift-gestützten mit der alleinigen konservativen Versorgung nach Endodontie (Abb. 1) wäre es naheliegend, zu jedem rekrutierten Patienten mit bekannt gewordener einjähriger Komplikation („Fall“) einen diesem prognostisch sehr ähnlichen Patienten ohne bekannt gewordene Komplikation („Kontrolle“) zu rekrutieren, um im Ergebnis zwischen Fällen und Kontrollen eine bessere Vergleichbarkeit bezüglich prognostischer Kofaktoren zu erwirken: Zu einem rauchenden „Fall“ mit insgesamt schlechter Oralhygiene würde dann direkt ein ebenfalls rauchender „Kontroll“-Patient mit ebenfalls schlechter Oralhygiene rekrutiert werden, um diese beiden als „Matched Pair“ direkter gegenüber stellen zu können. Unterscheiden sich dann die beiden Patienten eines solchen Matched Pair in der initial gewählten Therapie, ist der Zusammenhang zwischen Therapiewahl und -ergebnis in jedem Fall bereinigt für den sonst möglicherweise störenden Einfluss des Rauchstatus und der Oralhygiene der Patienten. Wird nun zu jedem „Fall“ eine derart passende „Kontrolle“ rekrutiert unter Passung bekannter prognostischer Kofaktoren, kann die gesamte Fallkontrollstudie als für den störenden Einfluss dieser Kofaktoren im Ansatz bereinigt die Assoziation zwischen Therapiewahl und -ergebnis bestimmen. Der Vorteil eines solchen „Matched-Pair-Designs“ ist also eine direktere Vergleichbarkeit zweier nicht randomisierter Kohorten durch Elimination von Störgrößen entlang der Rekrutierung. Durch diese Design-Optimierung wird gleichzeitig die Streuung zwischen Fällen und Kontrollen reduziert, da diese bezüglich der Match-Kriterien paarweise übereinstimmen; Unterschiede in den Komplikationsrastern der zu vergleichenden Versorgungsalternativen sind somit oft mit einer effektiv geringeren Patientenzahl möglich [4] als im entsprechenden Design ohne Matching; der logistische Aufwand zur Auffindung passender Matched-Pair-Kontrollen zu einem schon rekrutierten Fall ist jedoch oft nicht zu unterschätzen.

Das Konzept des Matching lässt sich auch auf prospektive Studien übertragen: Wird eine Kohortenstudie zur beschriebenen endodontischen Fragestellung prospektiv initiiert (siehe Abb. 1), würde man im Matched-Pair-Ansatz einem Studienteilnehmer mit Stift-gestützter Versorgung einen „prognostisch ähnlichen“ Studienteilnehmer mit konservativer Versorgung zuordnen und das resultierende Matched Pair gemeinsam prospektiv verfolgen, respektive in der Auswertung der Studie gepaart gegenüberstellen [4]. Auch in diesem Kohortendesign wäre ein – dann prospektives – Matching entlang bekannter prognostischer Kofaktoren wie Raucherestatus und individuelle Oralhygiene ein naheliegender Ansatz zur Reduktion der effektiv für die Auswertung notwendigen Patientenzahl.

Selbst in randomisierten Studien ist das Konzept des Matching nutzbar: Wird wie für das Design der prospektiven Kohortenstudie motiviert jeweils in eine RCT ein Paar zweier für die Studienteilnahme in Frage kommender Patienten rekrutiert, welche bezüglich bekannter Störgrößen wie Rauchstatus und Oralhygiene übereinstimmen, können diese als Matched Pair „intra pair“ randomisiert werden [5]; faktisch würde also eine Randomisation der beiden Versorgungs-Alternativen „Stift-gestützter“ versus „konservativer“ Versorgung nach Endodontie jeweils innerhalb eines solches Paares zweier prognostisch ähnlicher Patienten erfolgen. Auch in diesem randomisierten Ansatz müssen jedoch der Vorteil einer effektiv reduzierbaren Patientenzahl und der Nachteil einer erschwerten Rekrutierung durch Berücksichtigung der Match-Kriterien ernsthaft gegeneinander abgewogen werden.

Evidenzgrad vergleichender Studiendesigns

Wie mehrfach angedeutet, können verschiedene zur Untersuchung einer Fragestellung adressierbare vergleichende Studiendesigns bezüglich der daraus ableitbaren Aussagekraft rangiert werden: Während aus einer RCT ein kausaler Zusammenhang zwischen Versorgungswahl und -ergebnis abgeleitet werden kann, sind die Ergebnisse von Kohorten- und Fallkontrollstudien selbst nach Korrektur für bekannte Störgrößen nur im Sinne von „statistischen“ Assoziationen zwischen Versorgungswahl und -ergebnis interpretierbar und können Epi-Phänomene unbekannter Störgrößen sein. Sackett [9] hat diesen Unterschied in der kausalen Belastbarkeit von Aussagen aus alternativen Studiendesigns zur gleichen Fragestellung genutzt, um eine Klassifikation von Studiendesigns vorzunehmen und im aus dem jeweiligen Design ableitbaren „Evidenzgrad“ zusammenzufassen: Aus retrospektiven Designs ableitbaren Aussagen (Fallkontrollstudie und retrospektive Kohortenstudie) ordnet er den Evidenzgrad III zu, aus prospektiven nicht-randomisierten Designs ableitbaren Aussagen den Evidenzgrad II und den Ergebnissen randomisierter Studiendesigns den maximalen Evidenzgrad I. Der Grad I wird dabei oft noch unterteilt in einen Grad I B im Fall des Vorliegens lediglich einer einzelnen RCT oder c-RCT zu einer bestimmten Fragestellung, sowie den naturgemäß höheren Evidenzgrad I A für das Vorliegen mehrerer RCTs oder c-RCTs zur gleichen Fragestellung sowie deren Aggregierbarkeit in Form einer Metaanalyse (siehe Tab. 1). Der höchstmögliche Evidenzgrad I wird also mit der Ableitbarkeit eines kausalen Zusammenhangs zwischen Versorgungswahl und -ergebnis definiert; dazu gehört insbesondere der Wirksamkeitsnachweis entlang einer Placebo-kontrollierten RCT. Längst wird der Evidenzgrad I als Maßstab der Klinischen und generell der Patientenorientierten Forschung verstanden, wobei jedoch wie schon mehrfach motiviert in begründeten Fällen Studiendesigns zum Evidenzgrad II und III durchaus ihre Berechtigung haben können und oft aus rein logistischen Gründen heraus sogar die einzige realistische Vorgehensweise zum Status quo darstellen.

Ressourcen-Intensität

vergleichender Studiendesign

s

Der hohe Evidenzgrad einer RCT wird nicht selten „erkauft“ durch einen enormen personellen, finanziellen und letztlich auch zeitlichen Aufwand [6, 7]. Nicht selten ist eine offene Frage zumindest in einem ersten Schritt effizienter mit einem Studiendesign geringeren Evidenzgrades adressierbar, d.h. es werden bewusst Studien des Evidenzgrades III in einem ersten Schritt der Durchführung einer RCT vorgeschaltet, um belastbare Informationen z.B. für die Fallzahlplanung eben der angestrebten RCT bereitstellen zu können [8]. Grundsätzlich sind Studien des Evidenzgrades III aufgrund ihrer retrospektiven Natur Ressourcen-effizient und schnell durchführbar, sofern auf eine sachgerechte Dokumentation der Vergangenheit von Versorgungsverlauf und -ergebnis zurückgegriffen werden kann. Prospektive Kohortenstudien hingegen werden in ihrer Ressourcen-Lastigkeit nicht selten unterschätzt und bedingen aufgrund ihrer mit RCTs vergleichbar langen Laufzeit merkliche Kosten für dokumentarische Ressourcen; lediglich die Rekrutierung ist meist zeiteffizienter als bei einer RCT zur gleichen Fragestellung aufgrund der liberaleren Einschlusskriterien.

Unter den Studiendesigns des Evidenzgrades I bedingen sicherlich „klassische“ RCTs den höchsten finanziellen und zeitlichen Aufwand. Die Cluster-Randomisation hat sich dabei in vielen Fällen als durchaus Ressourcen-effizientere Alternative erwiesen, wenn eine Fragestellung grundsätzlich „klassisch“ oder cluster-randomisiert angegangen werden konnte (Tab. 1). Ein positives Aufwand-Nutzen-Verhältnis zeigt zudem die Metaanalyse aus mehreren RCTs oder c-RCTs zur gleichen Fragestellung, da sie keine Originaldaten rekrutiert und damit keine individuellen Nachbeobachtungszeiten abwarten muss [1]. Gleichzeitig wird der personelle Aufwand zur – professionellen! – Durchführung einer Metaanalyse nicht selten drastisch unterschätzt: Etablierter Standard zur Durchführung einer Metaanalyse ist nicht nur die Kontrolle des Ergebnisses einer elektronischen Recherche durch „Hand-Recherchen“ (also Sichtungen ganzer Zeitschriftenbände im Original zur Prüfung der Vollständigkeit einer elektronischen Recherche), sondern auch die Auswertung sämtlicher in die Meta-analyse eingeschlossenen Artikel durch 2 unabhängige parallele Reviewer. Dies kann faktisch eine Verdopplung notwendiger personeller Ressourcen für spezialisierte Lektoren bedingen. Dennoch kann mit Blick auf die maximal mögliche kausale Belastbarkeit von aus einer Metaanalyse ableitbaren Versorgungsempfehlungen deren Aufwand als überaus Ressourcen-gerecht bezeichnet werden.

Zusammenfassung

Vergleichende Studiendesigns können bezüglich der jeweils daraus ableitbaren Aussagekraft rangiert werden: Während aus einer randomisierten kontrollierten Klinischen Studie (RCT) ein kausaler Zusammenhang zwischen Therapiewahl und -ergebnis abgeleitet werden kann, sind die Ergebnisse von Kohorten- und Fallkontrollstudien selbst nach Korrektur für bekannte prognostisch relevante Störgrößen nur als Assoziationen zwischen Versorgung und Ergebnis interpretierbar und können Epi-Phänomene unbekannter Störgrößen sein. Dementsprechend kann eine Klassifikation von Forschungsergebnissen auf Basis der ihnen zugrunde liegenden Studiendesigns entlang der daraus ableitbaren kausalen Belastbarkeit erfolgen: Aus retrospektiven vergleichenden Designs abgeleiteten Aussagen wird der Evidenzgrad III zugeordnet, bei Ableitung aus prospektiven nicht-randomisierten vergleichenden Designs der Evidenzgrad II sowie bei Ableitung aus randomisierten Studiendesigns der maximal erreichbare Evidenzgrad I attestiert (oft noch unterteilt in Grad I B bei Verfügbarkeit einer einzelnen RCT zu einer Fragestellung sowie den höheren Evidenzgrad I A für die quantitative Kombination mehrerer RCTs in einer Metaanalyse). Grundsätzlich wird der Evidenzgrad I als Maßstab der Patientenorientierten Forschung verstanden, wobei jedoch in begründeten Fällen auch Studiendesigns mit Evidenzgrad II und III z.B. aus logistischen Gründen heraus eine realistische Vorgehensweise zumindest zur zeitnahen Erst-Adressierung einer Fragestellung bieten.

Korrespondenzadresse

Prof. Dr. Frank Krummenauer

Institut für Medizinische Biometrie und Epidemiologie

Fakultät für Gesundheit der Universität Witten/Herdecke

Alfred Herrhausen-Straße 50

58448 Witten

Tel.: 02302 926 760

Fax: 02302 926 701

Frank.Krummenauer@uni-wh.de

Literatur

1. Baulig C, Knippschild S, Krummenauer F: Meta-Analyse und Forest Plot – mehrere Studien wissen mehr als eine. Z Zahnärztl Impl 2015;31:158–162

2. Baulig C, Hirsch J, Krummenauer F: Antragstellung an die Ethik-Kommission – Formalismen zum Schutz von Patient und eigener Approbation. Z Zahnärztl Impl 2013;29:331–237

3. Baulig C, Neumann C, Krummenauer F: Kosteneffektivität Wurzelkanalstift-gestützter versus konservativer Zahnversorgung nach Endodontie. Dtsch Zahnärztl Z 2006;61,188–193

4. Hirsch J, Baulig C, Krummenauer F: Signifikanztests für intraindividuelle Therapievergleiche – Vorsicht vor Signifikanzverlusten. Z Zahnärztl Impl 2013;29:160–165

5. Krummenauer F, Hirsch J, Baulig C: Randomisation in Klinischen Studien – durch Zufall zum Erfolg. Z Zahnärztl Impl 2014;30:60–66

6. Krummenauer F, Baulig C, Al-Nawas B: Studiendesigns in der Implantologie (VI): Budgetierung Klinischer Studien – was kostet das Ganze? Z Zahnärztl Impl 2011;27:354–361

7. Krummenauer F, Baulig C, Al-Nawas B: Studiendesigns in der Implantologie (IV): Projektmanagement in Klinischen Studien – Meilensteine und Zeithorizont. Z Zahnärztl Impl 2011;27:177–181

8. Krummenauer F, Baulig C, Al-Nawas B: Studiendesigns in der Implantologie (III): Geplante Interimsanalysen – „Spicken“ in klinischen Studien. Z Zahnärztl Impl 2011;27:72–80

9. Sackett D, Rosenberg WM, Gray JA, Haynes RB, Richardson WS: Evidence Based Medicine – what it is and what it isn’t. BMJ 1996;312:71–72

Fussnoten

1Institut für Medizinische Biometrie und Epidemiologie (Direktor: Prof. Dr. F. Krummenauer), Fakultät für Gesundheit der Universität Witten/Herdecke, Alfred-Herrhausen-Straße 50, 58448 Witten


(Stand: 25.11.2015)

DGI Nachrichten aktuell

In Memoriam an Karl-Ludwig Ackermann. Ein Nachruf von Prof. Dr. Günter Dhom und Gedenken an einen ganz „Großen“ der Zahnmedizin. 

zum Nachruf an Dr. Ackermann

Aktuelle Ausgabe 3/2020

Im Fokus

  • Kippkonus-Abutment
  • Statine und Bisphosphonate
  • Teleskopierende Hypridbrücke

FORTBILDUNGSANGEBOTE DGI

Die DGI bietet ein umfassendes und überregionales Fortbildungsangebot an. 

WERDEN SIE AUTOR

Sie haben ein spannendes Thema aus dem Bereich der Implantologie und würden gerne einen Artikel dazu in der ZZI veröffentlichen? Dann nutzen Sie unseren Editorial Manager und reichen Sie ihr Manuskript direkt bei uns ein.

Manuskript einreichen