London School of Hygiene & Tropical Medicine

Die meisten Evaluationen beinhalten die Bewertung von Interventionen, die in Einheiten auftreten, die größer sind als die von Einzelpersonen. Dies können Einzugsgebiete des Gesundheitssystems, Schulen, geografische Regionen oder sogar Länder sein. In einigen Fällen ist es angemessen und möglich, die Intervention von Interesse zufällig auf der Ebene dieser größeren Einheiten zuzuordnen und als solche den effizientesten und zuverlässigsten Ansatz zur Verringerung von Verwechslungen anzuwenden.

Wichtige Ressourcen zum Erlernen randomisierter Cluster-Studien

Eine neue Website für randomisierte Cluster-Studien wurde entwickelt, um diejenigen zu unterstützen, die randomisierte Cluster-Studien und Stufenkeildesigns durchführen, sowie diejenigen, die methodische Forschung zu diesen Designs durchführen. Die Website enthält die neuesten Veröffentlichungen, Software, Diskussionen und Veranstaltungen im Zusammenhang mit Clustered Design.

Dieses Buch von Richard Hayes und Lawrence Moulton ist zum führenden methodischen Text auf diesem Gebiet geworden:

Cluster Randomised Trials
Hayes R, Moulton L. Cluster randomised trials. Chapman and Hall / CRC Press , Boca Raton , FL , 2009

Eine kurze Zusammenfassung dessen, was das Buch bietet, wird in Bezug auf diese Themen bereitgestellt:

Begründung und Einschränkungen randomisierter Cluster-Studien

Es gibt mehrere Umstände, unter denen randomisierte Cluster-Studien angemessen sind und anderen randomisierten Designs vorgezogen werden können. Einige Interventionen sollen naturgemäß eher auf ganze Gemeinschaften als auf einzelne Personen angewendet werden, z. B. Bildungsprogramme oder die Verbesserung der Wasserversorgung in Dörfern. Unter bestimmten Umständen bietet die Cluster-Randomisierung mehr logistischen Komfort oder würde mit größerer Akzeptanz empfangen, wenn sie an die gesamte Bevölkerung und nicht auf individueller Ebene geliefert wird. Randomisierte Cluster-Studien sind auch ein wirksames Mittel, um Kontaminationen zu vermeiden, und dies ist einer der häufigsten Gründe für die Annahme dieses Designs. Schließlich lassen sich mit CRTs sowohl die direkten als auch die indirekten Auswirkungen einer Intervention erfassen, was ein Maß für die Gesamtwirkung der Durchführung einer Intervention in der gesamten Bevölkerung darstellt. Dies ist besonders nützlich bei Infektionskrankheiten. Diejenigen, die die Intervention erhalten, profitieren sowohl von der direkten Wirkung der Intervention auf die Anfälligkeit für die Infektion als auch von den indirekten Masseneffekten, die zu einer Verringerung der Exposition gegenüber der Infektion führen.

Bei der Betrachtung eines randomisierten Cluster-Designs müssen diese Vorteile gegen die Einschränkungen abgewogen werden.Statistische und Kosteneffizienz sind wichtig zu berücksichtigen. Die Leistung und Präzision einer Cluster-randomisierten Studie ist geringer als eine individuell randomisierte Studie, und die logistischen Aspekte der Arbeit in mehreren verschiedenen Clustern können die Implementierung einer CRT teuer machen. Weitere zu berücksichtigende Themen sind Selektionsverzerrungen, Ungleichgewicht zwischen den Studienarmen und Verallgemeinerbarkeit. Die Gründe sowie die Einschränkungen und Strategien zu deren Minimierung werden in Kapitel 3 erörtert.

Überlegungen zum Design

Designauswahl für Behandlungsarme

Parallelgruppendesign

Dies ist das häufigste Design für randomisierte Einzel- und Cluster-Studien. Unter diesem Design verbleibt jeder Cluster während der gesamten Studie in dem Arm, dem er zufällig zugewiesen wurde.

Dreiarmige Studien

Angesichts der mit CRTs verbundenen Kosten und logistischen Komplexität und der Schwierigkeit, genügend Cluster aufzunehmen, um in jedem Behandlungsarm eine ausreichende Stichprobengröße bereitzustellen, folgt die große Mehrheit der CRTs einem Studiendesign, bei dem Cluster auf nur zwei Behandlungsarme randomisiert werden. Dreiarmige Studien sind manchmal durchführbar, CRTs mit mehr als drei Armen sind jedoch sehr selten. Wenn sie jedoch berücksichtigt werden, folgen sie zwei Hauptansätzen: Die erste vergleicht zwei verschiedene Interventionen mit einem Kontrollarm, und die zweite vergleicht dieselbe Intervention, die in unterschiedlichen Intensitätsstufen mit einem Kontrollarm verabreicht wurde, um eine Dosis-Wirkungs-Analyse durchzuführen.

Faktorielle Studien

Um die Wirkung von zwei Interventionen abzuschätzen, müssten herkömmlicherweise entweder zwei Studien entworfen oder eine dreiarmige Studie durchgeführt werden, was den Nachteil einer kleineren Stichprobengröße in jedem Arm hat. Faktorielle Designs ermöglichen die Untersuchung der unabhängigen Wirkungen von zwei Interventionen in derselben Studie. Dies hat den Vorteil, kosteneffizient zu sein und die Stichprobengröße zu schonen. Das Design nimmt ein 2 X 2-Layout an, was zu vier Behandlungsarmen führt: ein Arm, der den ersten Eingriff erhält, ein anderer, der den zweiten Eingriff erhält, ein Arm, der beide Eingriffe erhält, und schließlich ein Kontrollarm. Die Abschätzung der Wirkung jeder Intervention erfolgt jedoch durch Vergleich einer relevanten Kombination von zwei der Arme mit der Kombination der verbleibenden zwei Arme. Dieser Ansatz ist nur gültig, wenn keine Interaktion zwischen den Interventionen besteht. Wo Wechselwirkungen erwartet oder gewünscht werden, können faktorielle Designs verwendet werden, um die gemeinsame Wirkung von zwei Interventionen zu identifizieren, jedoch können größere Stichprobengrößen erforderlich sein.

Cross Over Design

Das Ziel dieses Designs ist es, den Zeittrend zu steuern. Dieses Design wird häufig in individuell randomisierten Studien verwendet und wurde für CRTs übernommen. Jeder Cluster erhält zwei Behandlungen, eine nach der anderen. Es gibt oft einen Zeitraum dazwischen, der als Auswaschperiode bezeichnet wird, um Übertragungseffekte zu vermeiden.

Gestuftes Keildesign

Klicken Sie hier, um mehr über dieses Design zu erfahren.

Art und Größe der Cluster

Eine der ersten Entscheidungen beim Entwurf einer CRT betrifft die Auswahl und Definition der Cluster, die während der Studie randomisiert werden sollen. Es gibt eine Vielzahl von Arten und Größen von Clustern, die von Familien oder Haushalten mit wenigen Personen bis hin zu großen geografischen Gebieten mit Millionen von Personen reichen. Die praktischen Elemente der Durchführung solcher Versuche sind sehr unterschiedlich. Kapitel 4 befasst sich mit den verschiedenen Arten von Studienclustern und erörtert die wichtigsten Fragen, die bei der Auswahl der Clustergröße zu berücksichtigen sind.

Kontamination

Kontamination tritt auf, wenn die Antworten in einem Cluster aufgrund des Kontakts mit Personen von außerhalb des Clusters verzerrt sind. Dies könnte aufgrund eines Kontakts zwischen den Interventionsclustern und den Kontrollclustern geschehen. Dies könnte auch durch den Kontakt zwischen den Interventionsclustern oder den Kontrollclustern und der breiteren Bevölkerung geschehen. Strategien zur Verringerung des Kontaminationsgrades in einer CRT umfassen die Auswahl von Clustern, die ausreichend weit voneinander entfernt und gut voneinander getrennt sind. In Fällen, in denen geografische Zonen entweder den Interventions- oder Kontrollarmen zugewiesen werden und nicht bestimmten Gemeinschaften, Pufferzonen werden verwendet, um sicherzustellen, dass Cluster keine gemeinsame Grenze zwischen ihnen haben. Diese beiden Strategien werden verwendet, um sicherzustellen, dass keine Kontamination zwischen den Interventions- und Kontrollclustern auftritt. Das ‚Spiegelei-Design‘ ist eine Strategie, die verwendet wird, um den Kontakt zwischen den Interventions- oder Kontrollclustern und der breiteren Bevölkerung zu reduzieren. Die Art und Weise, wie Kontaminationen auftreten, und die Strategien zu deren Verringerung werden in Kapitel 4 näher erläutert.

Ansätze zur Messung der Ergebnisse von Einzelpersonen

Die interessierenden Ergebnisse werden anhand einer Stichprobe von Personen gemessen, die aus jedem Cluster ausgewählt wurden. Es gibt zwei Hauptansätze für die Messung von Individuen, abhängig vom Ergebnis: Querschnittserhebungen oder Kohorten. Eine vollständige Diskussion darüber, wann jeder verwendet werden kann und welche Vor- und Nachteile er hat, finden Sie in Kapitel 8.

Wiederholte Querschnittsproben

Querschnittserhebungen erfordern die Entnahme einer wiederholten Probe aus jedem Cluster zu unterschiedlichen Zeiten. Es wird verwendet, wenn das Maß für das Ergebnis ein binäres Ergebnis (wie HIV oder Raucherprävalenz) oder ein quantitativer Endpunkt (wie der mittlere Cholesterinspiegel oder die mittlere Körpergröße von Kindern) ist.

Kohorten-Follow-up

Der Kohorten-Ansatz beinhaltet das Follow-up ausgewählter Personen über die Zeit. Dies wird verwendet, wenn das Maß für das Ergebnis eine Rate oder ein Risiko von Ereignissen ist, die während eines bestimmten Nachbeobachtungszeitraums auftreten. Die Kohorte kann aus der Gesamtpopulation eines Clusters oder einer Zufallsstichprobe aus diesem Cluster bestehen. Wenn die Gesamtpopulation verfolgt werden soll, muss angegeben werden, ob neue Personen, die zu einem späteren Zeitpunkt in die Population eintreten, berücksichtigt werden oder die Studie auf die zu Studienbeginn beobachteten Personen beschränken.

Stichprobengröße

Beim Entwerfen einer CRT ist die Stichprobengröße einer der wichtigsten zu berücksichtigenden Faktoren. Eine unzureichende Stichprobengröße erhöht den Zufallsfehler, verringert die Aussagekraft der Studie und verringert somit die Fähigkeit, den Effekt genau zu quantifizieren. In Kapitel 7 werden die Methoden zur Auswahl einer geeigneten Stichprobengröße für eine CRT detailliert beschrieben. Dazu gehören Methoden für nicht angepasste, angepasste und geschichtete Studiendesigns sowie Methoden zur Auswahl einer geeigneten Stichprobengröße für jeden Cluster.

Merkmale, die spezielle Entwurfs- und Analysemethoden erfordern

Interclusterkorrelation und Variabilität zwischen Clustern

In individuell randomisierten Studien wird davon ausgegangen, dass Einzelpersonen statistisch unabhängige Beobachtungen des interessierenden Ergebnisses liefern. Diese Annahme trifft jedoch bei CRTs nicht zu, da Beobachtungen an Individuen innerhalb desselben Clusters tendenziell korrelieren. Dies bedeutet, dass das Wissen über das Ergebnis einer Person tendenziell Informationen über das Ergebnis einer anderen Person im selben Cluster liefert. Interclusterkorrelation tritt in CRTs aus drei Hauptgründen auf:

Clustering von Populationsmerkmalen

Variationen bestehen zwischen verschiedenen Populationen aufgrund von Unterschieden in den Individuen, aus denen jeder Cluster besteht, wie z demografische oder sozioökonomische Merkmale oder aufgrund von Unterschieden in Variablen auf Clusterebene wie Umwelteigenschaften des Clusters.

Variationen in Reaktion auf Intervention

Verschiedene Cluster reagieren möglicherweise unterschiedlich auf die Interventionen, was zu Variationen der Ergebnisse zwischen Clustern führt, selbst wenn die Variation der Ergebnisse zwischen Clustern vor der Intervention nicht vorhanden war.

Korrelation aufgrund der Interaktion zwischen Individuen

Die Cluster-Randomisierung kann besonders wichtig sein in Studien mit Interventionen, bei denen eine Person in diesem Cluster entweder einen direkten oder indirekten Einfluss auf das Ergebnis bei anderen Personen haben kann, wie Interventionen gegen Infektionskrankheiten oder Gesundheitserziehungsprogramme, bei denen Bildungsbotschaften von Mitgliedern der Gemeinschaft diskutiert werden, was zu Ähnlichkeiten im Verhalten führt.

Das Ausmaß der Interclusterkorrelation hängt von der Existenz anderer Cluster und der Art und Größe der Cluster ab. Die Intercluster-Korrelation hängt von der Existenz anderer Cluster ab: Es hat keine Bedeutung, wenn nur eine Studienpopulation in einem Cluster berücksichtigt wird. Darüber hinaus ist es auch nur vorhanden, wenn es echte Variabilität in den Ergebnissen zwischen Clustern gibt. Daher können Interclusterkorrelation und Variabilität zwischen Clustern als entsprechende Konzepte betrachtet werden, die zwei verschiedene Perspektiven auf dieselben zugrunde liegenden Phänomene bieten. Die Schlussfolgerungen, die aus einer CRT gezogen werden können, hängen vom Grad der Variabilität zwischen den Clustern im interessierenden Ergebnis ab, daher, sollte angemessen gemessen und beim Design und bei der Analyse einer CRT berücksichtigt werden. Es gibt zwei Ansätze, mit denen die Variabilität zwischen Clustern zusammengefasst werden kann: Variationskoeffizient zwischen Clustern und Intra-Cluster-Korrelationskoeffizient. Diese werden in Kapitel 2 des Buches ausführlich besprochen.

Studienarm-Ungleichgewichte

Aufgrund praktischer und finanzieller Einschränkungen ist die Anzahl der Cluster, die in einer CRT randomisiert werden, im Vergleich zu der Anzahl der Personen, die normalerweise für eine individuell randomisierte Studie rekrutiert werden, oft recht gering. Bei einer kleinen Anzahl von Clustern stellt die Randomisierung nicht sicher, dass die beiden Arme ausgeglichen sind, so dass ein Ungleichgewicht zwischen den Studienarmen bei einem oder mehreren potenziellen Störfaktoren ein Risiko darstellt, wenn einfach eine kleine Anzahl von Clustern randomisiert wird. Designstrategien wie Matching und Stratifizierung können verwendet werden, um das Gleichgewicht zwischen den Behandlungsarmen zu verbessern und die Variabilität zwischen den Clustern zu verringern. Diese werden in Kapitel 5 erörtert, und es werden auch Richtlinien bereitgestellt, wann diese Strategien angewendet werden sollten.

Matching kann dazu beitragen, die Unterschiede zwischen den Behandlungsarmen in Bezug auf die Basismerkmale zu minimieren und die Leistung und Präzision der Studie zu verbessern. Wenn eine erhebliche Variabilität zwischen den Clustern besteht, kann beschlossen werden, zuerst Cluster zu gruppieren, von denen erwartet wird, dass sie in Bezug auf das interessierende Ergebnis ähnlich sind, und die Behandlung diesen Gruppen zuzuordnen. Die Gruppierung der Cluster in ähnliche Paare stellt sicher, dass die Behandlungsarme zu Studienbeginn ähnlich sind, zumindest in Bezug auf die Merkmale, auf die wir uns abstimmen.

Die Stratifizierung umfasst die Gruppierung verfügbarer Cluster in zwei oder mehr Schichten, von denen erwartet wird, dass sie in Bezug auf das interessierende Ergebnis ähnlich sind. Die Cluster innerhalb jeder Schicht werden dann zufällig zwischen den Behandlungsarmen zugeordnet. Die Schichtung hat mehrere Vorteile gegenüber dem angepassten Design.

Angepasste und geschichtete Designs sind Beispiele für eingeschränkte Randomisierung, da diese Schemata die zufällige Auswahl aus einer kleineren Menge von Zuordnungen beinhalten, die bestimmte Einschränkungen erfüllen.

Diese Konstruktionen können zwar dazu beitragen, Ungleichgewichte zwischen den Behandlungsarmen zu verringern, es gibt jedoch Umstände, unter denen auf sie nicht verlass ist, um ein angemessenes Gleichgewicht zu erreichen, insbesondere wenn mehrere Variablen vorliegen, bei denen ein Gleichgewicht erforderlich ist. Unter solchen Umständen kann ein anderer Ansatz zur eingeschränkten Randomisierung verwendet werden, der ein Gesamtgleichgewicht zwischen den Behandlungsarmen erreicht. Das Gesamtgleichgewicht bezieht sich darauf, wenn jede der Variablen in ähnlicher Weise über die Behandlungsarme verteilt ist und kein Gleichgewicht innerhalb der Untergruppen erforderlich ist. Dies erfolgt unter Verwendung von Baseline- oder bereits vorhandenen Daten für jeden Cluster und beschränkt sich auf Zuordnungen, die bestimmte vorab festgelegte Saldokriterien erfüllen. Kapitel 6 erläutert diesen Ansatz der eingeschränkten Randomisierung und beschreibt die Arten von Variablen, bei denen ein Gleichgewicht erforderlich wäre, wie die Gleichgewichtskriterien definiert werden, die die Zuweisungen einschränken würden, und unter welchen Umständen eine erneute Aufzählung der Zuweisungen in Betracht gezogen werden sollte. Wenn ein eingeschränktes Randomisierungsschema verwendet wird, besteht die Gefahr, dass ein voreingenommenes oder ungültiges Design erstellt wird, was dazu führt, dass Standardmethoden der statistischen Inferenz falsche Ergebnisse liefern. In diesem Kapitel wird auch erläutert, was unter Verzerrung und Gültigkeit zu verstehen ist, wann sie auftreten können und wie sie zu berücksichtigen sind.

Analyse

Es gibt zwei Hauptansätze: Analyse basierend auf zusammenfassenden Clustermaßstäben und Analyse basierend auf Daten auf individueller Ebene unter Verwendung von Regressionsmethoden, die Korrelationen zwischen Clustern ermöglichen.

Das Hauptprinzip dieser beiden Methoden besteht darin, dass sie die beiden zuvor diskutierten Hauptmerkmale von CRTs berücksichtigen: Intercluster-Korrelationen und Zufallsungleichgewichte zwischen Studienarmen, die sich aus einer kleinen Anzahl von Clustern ergeben.

Das Buch beschreibt nicht alle möglichen Methoden, die für die Analyse von CRTs verwendet werden können, sondern konzentriert sich auf diejenigen, die sich in den Kapiteln 9 – 12 als effizient und robust erwiesen haben.

Die Analysemethode sollte für das spezifische Design geeignet sein.

Berichterstattung und Interpretation

Es gibt eine wachsende Zahl von Beweisen und Erfahrungen mit Cluster-randomisierten Studien zur Bewertung der Auswirkungen von Interventionen auf die Gesundheitsergebnisse, und die Extended CONSORT Guidelines sind verfügbar, um die Berichterstattung über solche Studien zu leiten:

Consort 2010 Statement: Erweiterung auf randomisierte Cluster-Studien.
Campbell MK, Piaggio G, Elbourne DR, Altman DG. Consort 2010 Statement: Erweiterung auf Cluster randomisierte Studien.

Kapitel 15 des Clusters Randomized Trials Buch von Hayes und Moulton diskutiert und erklärt die CONSORT-Richtlinien.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.