Cochrane Training

Holger J. Schünemann, Julian PT Higgins, Gunn E Vist, Paul Glasziou, Elie A Akl, Nicole Skoetz, Gordon H. Guyatt; im Namen der Cochrane GRADEing Methods Group (ehemals Applicability and Recommendations Methods Group) und der Cochrane Statistical Methods Group

Wichtige Punkte:
  • Eine Tabelle ‚Zusammenfassung der Ergebnisse‘ für einen gegebenen Vergleich von Interventionen liefert wichtige Informationen über die Größenordnung der relativen und absoluten Auswirkungen der untersuchten Interventionen, die Menge der verfügbaren Evidenz und die Sicherheit (oder Qualität) der verfügbaren Evidenz.
  • ‚Zusammenfassung der Ergebnisse‘ Tabellen enthalten eine Zeile für jedes wichtige Ergebnis (bis zu maximal sieben). Akzeptierte Formate von ‚Summary of Findings‘-Tabellen und interaktiven ‚Summary of Findings‘-Tabellen können mit der Software GRADEpro GDT von GRADE erstellt werden.
  • Cochrane hat den GRADE-Ansatz (Grading of Recommendations Assessment, Development and Evaluation) zur Beurteilung der Sicherheit (oder Qualität) einer Evidenz angenommen.
  • Der GRADE-Ansatz spezifiziert vier Ebenen der Sicherheit für eine Evidenz für ein bestimmtes Ergebnis: hoch, mittel, niedrig und sehr niedrig.
  • GRADE Assessments of certainty werden unter Berücksichtigung von fünf Domänen bestimmt: Risiko von Bias, Inkonsistenz, Indirektheit, Ungenauigkeit und Publikationsverzerrung. Für Evidenz aus nicht-randomisierten Studien und selten randomisierten Studien können Assessments dann durch Berücksichtigung von drei weiteren Domänen aktualisiert werden.

Zitieren Sie dieses Kapitel als: Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Kapitel 14: Vervollständigung der Tabellen ‚Zusammenfassung der Ergebnisse‘ und Einstufung der Sicherheit der Beweise. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (Herausgeber). Cochrane Handbook for Systematic Reviews of Interventions Version 6.2 (aktualisiert im Februar 2021). Cochrane, 2021. Verfügbar unter www.Ausbildung.cochrane.org/handbook .

14.1 ‚Zusammenfassung der Ergebnisse‘ Tabellen

14.1.1 Einführung in ‚Zusammenfassung der Ergebnisse‘ Tabellen

‚Zusammenfassung der Ergebnisse‘ Tabellen präsentieren die wichtigsten Ergebnisse einer Überprüfung in einem transparenten, strukturierten und einfachen Tabellenformat. Insbesondere liefern sie wichtige Informationen über die Sicherheit oder Qualität der Evidenz (d. h. das Vertrauen oder die Sicherheit im Bereich einer Wirkungsschätzung oder eines Zusammenhangs), das Ausmaß der Wirkung der untersuchten Interventionen und die Summe der verfügbaren Daten zu den wichtigsten Ergebnissen. Cochrane Reviews sollten bei der Planung und Veröffentlichung Tabellen zur Zusammenfassung der Ergebnisse enthalten und mindestens eine wichtige Tabelle zur Zusammenfassung der Ergebnisse enthalten, die die wichtigsten Vergleiche darstellt. Einige Überprüfungen können mehr als eine Tabelle zur Zusammenfassung der Ergebnisse enthalten, z. B. wenn die Überprüfung mehr als einen Hauptvergleich anspricht oder wesentlich unterschiedliche Populationen umfasst, für die separate Tabellen erforderlich sind (z. B. weil die Auswirkungen unterschiedlich sind oder es wichtig ist, die Ergebnisse separat anzuzeigen). In der Cochrane Database of Systematic Reviews (CDSR) erscheint die Haupttabelle ‚Summary of findings‘ eines Reviews am Anfang vor dem Hintergrundabschnitt. Zwischen den Abschnitten Ergebnisse und Diskussion werden weitere Tabellen zur Zusammenfassung der Ergebnisse angezeigt.

14.1.2 Auswahl der Ergebnisse für Tabellen zur ‚Zusammenfassung der Ergebnisse‘

Die Planung der Tabelle zur ‚Zusammenfassung der Ergebnisse‘ beginnt früh in der systematischen Überprüfung mit der Auswahl der Ergebnisse, die in (i) die Überprüfung und (ii) die Tabelle zur ‚Zusammenfassung der Ergebnisse‘ aufgenommen werden sollen. Dies ist ein entscheidender Schritt, den Review-Autoren sorgfältig angehen müssen.

Um die Produktion optimal nützlicher Informationen zu gewährleisten, entwickeln Cochrane Reviews zunächst eine Überprüfungsfrage und listen alle wichtigen Ergebnisse auf, die für Patienten und andere Entscheidungsträger wichtig sind (siehe Kapitel 2 und Kapitel 3). Der GRADE-Ansatz zur Bewertung der Sicherheit der Evidenz (siehe Abschnitt 14.2) definiert und operationalisiert einen Bewertungsprozess, der hilft, Ergebnisse in solche zu trennen, die für die Entscheidungsfindung kritisch, wichtig oder nicht wichtig sind. Konsultationen und Rückmeldungen zum Überprüfungsprotokoll, auch von Verbrauchern und anderen Entscheidungsträgern, können diesen Prozess verbessern.

Kritische Endpunkte sind wahrscheinlich eindeutig wichtige Endpunkte; Typische Beispiele sind Mortalität und schwere Morbidität (wie Schlaganfälle und Myokardinfarkt). Sie können jedoch auch häufige geringfügige und seltene schwerwiegende Nebenwirkungen, Symptome, Lebensqualität, mit der Behandlung verbundene Belastungen und Ressourcenprobleme (Kosten) darstellen. Belastungen stellen die Auswirkungen der Arbeitsbelastung im Gesundheitswesen auf die Patientenfunktion und das Wohlbefinden dar und umfassen die Anforderungen an die Einhaltung einer Intervention, die Patienten oder Betreuer (z. B. Familie) möglicherweise nicht mögen, z. B. häufigere Tests oder die Einschränkungen des Lebensstils, die bestimmte Interventionen erfordern (Spencer-Bonilla et al 2017).

Bei der Formulierung von Fragen, die alle für die Entscheidungsfindung für den Patienten wichtigen Ergebnisse enthalten, werden Review-Autoren häufig mit Berichten von Studien konfrontiert, die nicht alle diese Ergebnisse enthalten haben. Dies gilt insbesondere für unerwünschte Ergebnisse. Zum Beispiel könnten randomisierte Studien Beweise für beabsichtigte Wirkungen und für häufige, relativ geringfügige Nebenwirkungen liefern, aber nicht über seltene unerwünschte Ergebnisse wie Selbstmordversuche berichten. In Kapitel 19 werden Strategien zur Bekämpfung nachteiliger Auswirkungen erörtert. Um Daten für alle wichtigen Ergebnisse zu erhalten, kann es erforderlich sein, die Ergebnisse nicht randomisierter Studien zu untersuchen (siehe Kapitel 24). Cochrane hat in Zusammenarbeit mit anderen eine Anleitung für Review-Autoren entwickelt, um ihre Entscheidung darüber zu unterstützen, wann nicht randomisierte Studien gesucht und aufgenommen werden sollen (Schünemann et al 2013).

Wenn ein Review nur randomisierte Studien umfasst, können diese Studien möglicherweise nicht alle wichtigen Ergebnisse behandeln, und es ist daher möglicherweise nicht möglich, diese Ergebnisse innerhalb der Einschränkungen des Reviews zu behandeln. Rezensionsautoren sollten diese Einschränkungen anerkennen und für die Leser transparent machen. Review-Autoren werden ermutigt, nicht-randomisierte Studien einzubeziehen, um seltene oder langfristige Nebenwirkungen zu untersuchen, die in randomisierten Studien möglicherweise nicht ausreichend untersucht werden. Dies erhöht die Möglichkeit, dass schädliche Ergebnisse aus Studien stammen, in denen sich die Teilnehmer von denen in Studien unterscheiden, die für die Nutzenanalyse verwendet wurden. Die Autoren der Übersichtsarbeiten müssen dann prüfen, inwieweit sich solche Unterschiede wahrscheinlich auf die Ergebnisse auswirken, und dies wird die Sicherheit der Evidenz beeinflussen, da Bedenken hinsichtlich der Indirektheit in Bezug auf die Bevölkerung bestehen (siehe Abschnitt 14.2.2).

Nicht-randomisierte Studien können nicht nur dann wichtige Informationen liefern, wenn randomisierte Studien nicht über ein Ergebnis berichten oder randomisierte Studien an Indirektheit leiden, sondern auch, wenn die Evidenz aus randomisierten Studien als sehr gering eingestuft wird und nicht-randomisierte Studien eine höhere Sicherheit aufweisen. Weitere Informationen zu diesen Themen finden Sie auch in Kapitel 24.

14.1.3 Allgemeines Template für ‚Summary of Findings‘-Tabellen

Es wurden mehrere alternative Standardversionen von ‚Summary of Findings‘-Tabellen entwickelt, um Konsistenz und Benutzerfreundlichkeit über Überprüfungen hinweg, die Einbeziehung der wichtigsten Informationen, die von Entscheidungsträgern benötigt werden, und eine optimale Darstellung zu gewährleisten (siehe Beispiele in Abbildungen 14.1.a und 14.1.B). Diese Formate werden durch Forschung unterstützt, die sich auf ein besseres Verständnis der Informationen konzentriert, die sie vermitteln möchten (Carrasco-Labra et al 2016, Langendam et al 2016, Santesso et al 2016). Sie sind über das offizielle Softwarepaket von GRADE erhältlich, das zur Unterstützung des GRADE-Ansatzes entwickelt wurde: GRADEpro GDT (www.gradepro.org ).

Standard Cochrane ‚Zusammenfassung der Befunde‘ Tabellen enthalten die folgenden Elemente unter Verwendung eines der akzeptierten Formate. Weitere Hinweise hierzu finden Sie in Abschnitt 14.1.6.

  1. Eine kurze Beschreibung der Population und des Umfelds, auf die sich die verfügbaren Nachweise beziehen (die geringfügig von den in der Überprüfungsfrage definierten abweichen oder enger sein können).
  2. Eine kurze Beschreibung des Vergleichs in der Tabelle ‚Zusammenfassung der Ergebnisse‘, einschließlich der experimentellen und vergleichenden Interventionen.
  3. Eine Liste der kritischsten und / oder wichtigsten Gesundheitsergebnisse, sowohl wünschenswert als auch unerwünscht, begrenzt auf sieben oder weniger Ergebnisse.
  4. Ein Maß für die typische Belastung der einzelnen Ergebnisse (z. B. illustratives Risiko oder illustrativer Mittelwert bei vergleichender Intervention).
  5. Die absolute und relative Größe des Effekts, die für jeden gemessen wurden (falls beide geeignet sind).
  6. Die Anzahl der Teilnehmer und Studien, die zur Analyse der einzelnen Ergebnisse beitragen.
  7. Eine Bewertung der Gesamtsicherheit des Beweismaterials für jedes Ergebnis (die je nach Ergebnis variieren kann).
  8. Platz für Kommentare.
  9. Erläuterungen (früher bekannt als Fußnoten).

Idealerweise werden die Tabellen der ‚Zusammenfassung der Ergebnisse‘ durch detailliertere Tabellen (sogenannte ‚Evidenzprofile‘) unterstützt, mit denen die Überprüfung verknüpft werden kann und die detailliertere Erläuterungen enthalten. Evidenzprofile enthalten die gleichen wichtigen Gesundheitsergebnisse und liefern detailliertere Tabellen als ‚Zusammenfassung der Ergebnisse‘ sowohl der einzelnen Überlegungen, die in die Einstufung der Sicherheit einfließen, als auch der Ergebnisse der Studien (Guyatt et al 2011a). Sie stellen sicher, dass die Evidenzsicherheit durch einen strukturierten Ansatz gewährleistet wird. Obwohl sie selten in Cochrane Reviews veröffentlicht werden, werden Evidenzprofile häufig von Leitlinienentwicklern verwendet, um die Sicherheit der Evidenz zur Unterstützung von Leitlinienempfehlungen zu berücksichtigen. Review-Autoren werden es einfacher finden, die Tabelle ‚Zusammenfassung der Ergebnisse‘ zu entwickeln, indem sie die Bewertung der Evidenzsicherheit im Evidenzprofil zuerst in GRADEpro GDT abschließen. Sie können diese dann automatisch in eines der Formate ‚Zusammenfassung der Ergebnisse‘ in GRADEpro GDT konvertieren, einschließlich einer interaktiven ‚Zusammenfassung der Ergebnisse‘ zur Veröffentlichung.

Als Maß für das Ausmaß des Effekts für dichotome Ergebnisse sollte die Tabelle ‚Zusammenfassung der Ergebnisse‘ ein relatives Maß für den Effekt (z. B. Risikoverhältnis, Odds Ratio, Hazard) und ein Maß für das absolute Risiko enthalten. Für andere Datentypen kann ein absolutes Maß allein (z. B. eine Differenz der Mittelwerte für kontinuierliche Daten) ausreichend sein. Es ist wichtig, dass das Ausmaß des Effekts auf sinnvolle Weise dargestellt wird, was eine Transformation des Ergebnisses einer Metaanalyse erfordern kann (siehe auch Kapitel 15, Abschnitt 15.4 und Abschnitt 15.5). Bewertungen mit mehr als einem Hauptvergleich sollten für jeden Vergleich eine separate Tabelle mit der Zusammenfassung der Ergebnisse enthalten.

Abbildung 14.1.a enthält ein Beispiel für eine Tabelle ‚Zusammenfassung der Ergebnisse‘. Abbildung 15.1.b bietet ein alternatives Format, das das Verständnis und die Interpretation der Ergebnisse der Überprüfung durch die Benutzer weiter erleichtern kann. Evidenz, die verschiedene Formate bewertet, legt nahe, dass die Tabelle ‚Zusammenfassung der Ergebnisse‘ eine Risikodifferenz als Maß für die absolute Wirkung enthalten sollte und die Autoren vorzugsweise ein Format verwenden sollten, das eine Risikodifferenz enthält .

Eine detaillierte Beschreibung des Inhalts einer Tabelle ‚Zusammenfassung der Ergebnisse‘ finden Sie in Abschnitt 14.1.6.

Abbildung 14.1.ein Beispiel für eine ‚Zusammenfassung der Ergebnisse‘ Tabelle

Zusammenfassung der Ergebnisse (für interaktive Version klicken Sie hier)

Kompressionsstrümpfe im Vergleich zu keinen Kompressionsstrümpfen für Menschen, die lange Flüge nehmen

Patienten oder Bevölkerung: jeder, der einen langen Flug unternimmt (länger als 6 Stunden)

Einstellungen: internationaler Flugverkehr

Intervention: Kompressionsstrümpfea

Vergleich: ohne Strümpfe

Ergebnisse

Illustrative Vergleichsrisiken* (95%-KI)

Relative Wirkung (95%-KI)

Anzahl der Teilnehmer (Studien)

Gewißheit des Beweises (GRAD)

Angenommenes Risiko

Entsprechendes Risiko

Ohne Strümpfe

Mit Strümpfen

Symptomatische tiefe Venenthrombose (TVT)

Siehe kommentar

Siehe Kommentar

Nicht abschätzbar

(9 studien)

Siehe Kommentar

0 die Teilnehmer entwickelten in diesen Studien eine symptomatische TVT

Symptomlose TVT

Population mit geringem Risikob

RR 0.10

(0.04 auf 0.26)

(9 studien)

⊕⊕⊕⊕

Hoch

10 pro 1000

1 pro 1000

(0 bis 3)

Hochrisikopopulationb

20 pro 1000

2 je 1000

(1 bis 8)

Oberflächliche Venenthrombose

13 pro 1000

6 pro 1000

(2 bis 15)

RR 0.45

(0.18 bis 1.13)

(8 studien)

⊕⊕⊕◯

Moderatec

Ödeme

Werte nach dem Flug gemessen auf einer Skala von 0, kein Ödem, bis 10, maximales Ödem

Der mittlere Ödem-Score reichte über die Kontrollgruppen von

6 bis 9

Der mittlere Ödem-Score in den Interventionsgruppen war im Durchschnitt

4,7 niedriger

(95%-KI -4,9 bis -4.5)

(6 studien)

⊕⊕◯◯

Lowd

Lungenembolie

Siehe Kommentar

Siehe Kommentar

Nicht abschätzbar

(9 studien)

Siehe Kommentar

0 die Teilnehmer entwickelten Lungenembolie in diesen studiese

Tod

Siehe Kommentar

Siehe Kommentar

Nicht schätzbar

(9 studien)

Siehe Kommentar

0 die Teilnehmer starben in diesen Studien

Nebenwirkungen

Siehe Kommentar

Siehe Kommentar

Nicht abschätzbar

(4 studien)

Siehe Kommentar

Die Verträglichkeit der Strümpfe wurde in 4 Studien als sehr gut ohne Nebenwirkungsbeschwerden beschrieben.

* Die Grundlage für das übernommene Risiko ist in Fußnote. Das entsprechende Risiko (und sein 95% -Konfidenzintervall) basiert auf dem angenommenen Risiko in der Interventionsgruppe und dem relativen Effekt der Intervention (und seinem 95% -KI).

KI: Konfidenzintervall; RR: Risikoverhältnis; GRADE: GRADE Working Group grade of evidence (siehe Erläuterungen).

Alle Strümpfe in den neun Studien, die in dieser Übersicht enthalten waren, waren Kompressionsstrümpfe unterhalb des Knies. In vier Studien betrug die Druckfestigkeit 20 mmHg bis 30 mmHg am Knöchel. Es war 10 mmHg bis 20 mmHg in den anderen vier Studien. Strümpfe gibt es in verschiedenen Größen. Wenn ein Strumpf um das Knie zu eng ist, kann er einen essentiellen venösen Rückfluss verhindern, wodurch sich das Blut um das Knie sammelt. Kompressionsstrümpfe sollten richtig angelegt sein. Ein zu enger Strumpf könnte auf einem langen Flug in die Haut schneiden und möglicherweise Geschwüre und ein erhöhtes Risiko für TVT verursachen. Einige Strümpfe können etwas dicker sein als normale Beinbedeckung und können bei enger Fußabnutzung möglicherweise restriktiv sein. Es ist eine gute Idee, vor der Reise Strümpfe im Haus zu tragen, um eine gute, bequeme Passform zu gewährleisten. Die Teilnehmer zogen ihre Strümpfe in den meisten Studien zwei bis drei Stunden vor dem Flug an. Die Verfügbarkeit und die Kosten von Strümpfen können variieren.

b Zwei Studien rekrutierten Teilnehmer mit hohem Risiko, definiert als solche mit früheren Episoden von TVT, Gerinnungsstörungen, schwerer Fettleibigkeit, eingeschränkter Mobilität aufgrund von Knochen- oder Gelenkproblemen, neoplastischen Erkrankungen innerhalb der letzten zwei Jahre, große Krampfadern oder in einer der Studien Teilnehmer größer als 190 cm und schwerer als 90 kg. Die Inzidenz für die sieben Studien, die Teilnehmer mit hohem Risiko ausschlossen, betrug 1.45% und die Inzidenz für die beiden Studien, die Teilnehmer mit hohem Risiko (mit mindestens einem Risikofaktor) rekrutierten, betrug 2,43%. Wir haben 10 und 30 pro 1000 verwendet, um unterschiedliche Risikoschichten auszudrücken.

c Das Konfidenzintervall macht keinen Unterschied und schließt einen kleinen Anstieg nicht aus.

d Die Messung des Ödems war nicht validiert (Indirektheit des Ergebnisses) oder blind für die Intervention (Risiko einer Verzerrung).

e Wenn es nur sehr wenige oder gar keine Veranstaltungen gibt und die Teilnehmerzahl groß ist, kann die Beurteilung der Beweissicherheit (insbesondere die Beurteilung der Ungenauigkeit) auf der absoluten Wirkung beruhen. Hier kann die Sicherheitsbewertung als ‚hoch‘ angesehen werden, wenn das Ergebnis angemessen bewertet wurde und das Ereignis tatsächlich bei 2821 Studienteilnehmern nicht auftrat.

f Keine der anderen Studien berichtete über Nebenwirkungen, abgesehen von vier Fällen oberflächlicher Venenthrombosen bei Krampfadern im Kniebereich, die in einer Studie durch die Oberkante des Strumpfes komprimiert wurden.

Abbildung 14.1.b Beispiel für eine alternative Tabelle ‚Zusammenfassung der Ergebnisse‘

Zusammenfassung der Ergebnisse (für interaktive Version klicken Sie hier):

Probiotika im Vergleich zu keinen Probiotika als Ergänzung zu Antibiotika bei Kindern

Patient oder Population: Kinder mit Antibiotika

Einstellungen: stationär und ambulant

Intervention: Probiotika

Vergleich: keine Probiotika

Ergebnisse

Anzahl der Teilnehmer (Studien)

Relative Wirkungen
(95%-KI)

Erwartete absolute Effekte* (95%-KI)

Sicherheit der Beweise
(GRAD)

Ohne Probiotika

Mit Probiotika

Unterschied

Inzidenz von Durchfall: Probiotische Dosis 5 Milliarden KBE/Tag

Follow-up: 10 tage bis 3 Monate

Kinder < 5 Jahre

Kinder < 5 Jahre

⊕⊕⊕⊝

moderateb

Aufgrund des Risikos von Bias

Verringert wahrscheinlich die Inzidenz von Durchfall.

1474 (7 studien)

RR 0,41

(0,29 bis 0.55)

22.3% a

8.9%

(6.5 zu 12.2)

13.4% weniger Kindera

(10,1 bis 15.8 weniger)

Kinder > 5 Jahre

Kinder > 5 Jahre

⊕⊕⊝⊝

lowb, c

Wegen des Risikos der Verzerrung und der Ungenauigkeit

Kann die Häufigkeit von Durchfall verringern.

624 (4 studien)

RR 0,81

(0,53 bis 1.21)

11.2% a

9%

(5.9 zu 13.6)

2.2% weniger Kindera

(5,3 weniger zu 2.4 mehr)

Unerwünschte Ereignisse:

Follow-up: 10 bis 44 Tage

1575 (11 Studien)

1.8% a

2.3%

(0.8 zu 3.8)

0.5% mehr unerwünschte Ereignise

(1 weniger bis 2 mehr)

⊕⊕⊝⊝

lowf, g

Aufgrund des Risikos von Verzerrungen und Inkonsistenzen

Es kann wenig oder keinen Unterschied in unerwünschten Ereignissen geben.

Dauer der Diarrhö

Nachbeobachtung: 10 tage bis 3 Monate

897 (5 Studien)

Die mittlere Dauer der Diarrhö ohne Probiotika betrug 4 Tage.

0.6 weniger Tage

(1,18 bis 0,02 Tage weniger)

⊕⊕⊝⊝

lowh, i

Wegen Ungenauigkeit und Inkonsistenz

Kann die Dauer der Diarrhö verringern.

Stuhl pro Tag

Follow-up: 10 tage bis 3 Monate

425 (4 Studien)

Der mittlere Stuhl pro Tag ohne Probiotika betrug 2,5 Stuhl pro Tag.

0.3 weniger Stuhl pro Tag

(0,6 bis 0 weniger)

⊕⊕⊝⊝

lowj, k

Wegen Ungenauigkeit und Inkonsistenz

Es kann wenig oder keinen Unterschied im Stuhl pro Tag geben.

* Die Grundlage für das Risiko in der Kontrollgruppe (z. B. das mediane Kontrollgruppenrisiko über Studien hinweg) ist in Fußnoten angegeben. Das Risiko in der Interventionsgruppe (und sein 95% -Konfidenzintervall) basiert auf dem angenommenen Risiko in der Vergleichsgruppe und dem relativen Effekt der Intervention (und seinem 95% -KI). KI: Konfidenzintervall; RR: Risikoverhältnis.

ERLÄUTERUNGEN

Risikoschätzungen einer Kontrollgruppe stammen aus gepoolten Schätzungen von Kontrollgruppen. Relativer Effekt basierend auf der verfügbaren Fallanalyse

b Hohes Risiko einer Verzerrung aufgrund eines hohen Verlusts an Follow-up.

c Ungenauigkeiten aufgrund von wenigen Ereignissen und Konfidenzintervallen beinhalten nennenswerten Nutzen oder Schaden.

d Nebenwirkungen: Hautausschlag, Übelkeit, Blähungen, Erbrechen, vermehrter Schleim, Brustschmerzen, Verstopfung, Geschmacksstörungen und Appetitlosigkeit.

e Risiken wurden aus gepoolten Risikodifferenzen berechnet.

f Hohes Risiko von Bias. Nur 11 von 16 Studien berichteten über unerwünschte Ereignisse, was auf eine selektive Berichterstattung hindeutet.

g Schwerwiegende Inkonsistenz. Zahlreiche Probiotika und Dosen wurden unter einer relativ kleinen Anzahl von Studien bewertet, was unsere Fähigkeit einschränkt, Rückschlüsse auf die Sicherheit der vielen verabreichten Probiotika und Dosen zu ziehen.

h Schwerwiegende ungeklärte Inkonsistenz (große Heterogenität I2 = 79%, P-Wert, Punktschätzungen und Konfidenzintervalle variieren erheblich).

i Schwere Ungenauigkeit. Die Obergrenze von 0,02 Tagen weniger Durchfall wird nicht als patientenrelevant angesehen.

j Schwerwiegende ungeklärte Inkonsistenz (große Heterogenität I2 = 78%, P-Wert, Punktschätzungen und Konfidenzintervalle variieren erheblich).

k Schwere Ungenauigkeit. Das 95% -Konfidenzintervall enthält keine Wirkung und die untere Grenze von 0,60 Stuhl pro Tag ist von fragwürdiger Bedeutung für den Patienten.

14.1.4 Erstellung von Tabellen zur ‚Zusammenfassung der Ergebnisse‘

Die Software der Arbeitsgruppe GRADE, GRADEpro GDT (www.gradepro.org ), einschließlich des interaktiven Handbuchs von GRADE, zur Verfügung, um Review-Autoren bei der Erstellung von Tabellen zur Zusammenfassung der Ergebnisse zu unterstützen. GRADEpro kann Daten über das Risiko der Vergleichsgruppe und die Effektschätzung (eingegeben von den Review-Autoren oder importiert aus Dateien, die in RevMan generiert wurden) verwenden, um die relativen Effekte und absoluten Risiken im Zusammenhang mit experimentellen Interventionen zu ermitteln. Darüber hinaus führt es den Benutzer durch den Prozess einer Notenbewertung und erstellt eine Tabelle, die als eigenständige Tabelle in einer Überprüfung verwendet werden kann (auch durch direkten Import in Software wie RevMan oder Integration in RevMan Web), oder eine interaktive ‚Zusammenfassung der Ergebnisse‘ Tabelle (siehe Hilfe in GRADEpro).

14.1.5 Statistische Überlegungen in den Tabellen ‚Zusammenfassung der Ergebnisse‘

14.1.5.1 Dichotome Ergebnisse

Die Tabellen ‚Zusammenfassung der Ergebnisse‘ sollten sowohl absolute als auch relative Wirkungsmaße für dichotome Ergebnisse enthalten. Risikoquoten, Quotenverhältnisse und Risikounterschiede sind verschiedene Möglichkeiten, zwei Gruppen mit dichotomen Ergebnisdaten zu vergleichen (siehe Kapitel 6, Abschnitt 6.4.1). Darüber hinaus gibt es zwei unterschiedliche Risikoquoten, je nachdem, welches Ereignis (z. B. ‚Ja‘ oder ‚Nein‘) im Mittelpunkt der Analyse steht (siehe Kapitel 6, Abschnitt 6.4.1.5). Bei Vorliegen eines Interventionseffekts ungleich Null riskiert jede Variation zwischen den Studien in der Vergleichsgruppe (d. variation des Risikos des Ereignisses ohne die Intervention von Interesse, zum Beispiel in verschiedenen Populationen) macht es unmöglich, dass mehr als eine dieser Maßnahmen in jeder Studie wirklich gleich ist.

In der Epidemiologie wurde lange angenommen, dass relative Wirkungsmaße von einem Szenario zum anderen konsistenter sind als absolute Wirkungsmaße. Es gibt empirische Belege, die diese Annahme stützen (Engels et al 2000, Deeks und Altman 2001, Furukawa et al 2002). Aus diesem Grund sollten Metaanalysen im Allgemeinen entweder ein Risikoverhältnis oder ein Odds Ratio als Maß für die Wirkung verwenden (siehe Kapitel 10, Abschnitt 10.4.3). Dementsprechend ist eine einzelne Schätzung des relativen Effekts wahrscheinlich eine geeignetere Zusammenfassung als eine einzelne Schätzung des absoluten Effekts. Wenn ein relativer Effekt tatsächlich in allen Studien konsistent ist, haben die verschiedenen Risiken der Vergleichsgruppe unterschiedliche Auswirkungen auf den absoluten Nutzen. Zum Beispiel, wenn das Risikoverhältnis konstant 0 ist.75, dann würde die experimentelle Intervention ein Vergleichsgruppenrisiko von 80% auf 60% in der Interventionsgruppe reduzieren (eine absolute Risikoreduktion von 20 Prozentpunkten), würde aber auch ein Vergleichsgruppenrisiko von 20% auf 15% in der Interventionsgruppe reduzieren (eine absolute Risikoreduktion von 5 Prozentpunkten).

‚Zusammenfassung der Ergebnisse‘ Die Tabellen basieren auf der Annahme eines konsistenten relativen Effekts. Es ist daher wichtig, die Auswirkungen dieses Effekts auf die verschiedenen Risiken der Vergleichsgruppe zu berücksichtigen (diese können aus einer Reihe von Quellen abgeleitet oder geschätzt werden, siehe Abschnitt 14.1.6.3), die eine Bewertung der Evidenzsicherheit für prognostische Evidenz erfordern können (Spencer et al 2012, Iorio et al 2015). Für jedes Vergleichsgruppenrisiko ist es möglich, ein entsprechendes Interventionsgruppenrisiko (d. H. Das absolute Risiko mit der Intervention) aus dem metaanalytischen Risikoverhältnis oder der Odds Ratio abzuschätzen. Beachten Sie, dass die Zahlen in der Spalte ‚Entsprechendes Risiko‘ spezifisch für die ‚Risiken‘ in der benachbarten Spalte sind.

Für das metaanalytische Risikoverhältnis (RR) und das angenommene Komparatorrisiko (ACR) ergibt sich das entsprechende Interventionsrisiko als:

.

Als Beispiel in Abbildung 14.1.a, das metaanalytische Risikoverhältnis für symptomlose tiefe Venenthrombose (DVT) ist RR = 0,10 (95% CI 0,04 bis 0,26). Unter der Annahme eines Komparatorrisikos von ACR = 10 pro 1000 = 0,01 erhalten wir:

.

Für das metaanalytische Odds Ratio (OR) und das angenommene Komparatorrisiko, ACR, ergibt sich das entsprechende Interventionsrisiko als:

.

Obere und untere Konfidenzgrenzen für das entsprechende Interventionsrisiko ergeben sich durch Ersetzen von RR bzw. durch deren obere bzw. untere Konfidenzgrenze (z.B. Ersetzen von 0.10 mit 0,04, dann im Beispiel mit 0,26). Solche Konfidenzintervalle beinhalten keine Unsicherheit in den angenommenen Komparatorrisiken.

Beim Umgang mit Risikoquoten ist es wichtig, dass die gleiche Definition von ‚Ereignis‘ verwendet wird, wie sie für die Metaanalyse verwendet wurde. Wenn sich die Metaanalyse beispielsweise auf den Tod (im Gegensatz zum Überleben) als Ereignis konzentriert, müssen sich die entsprechenden Risiken in der Tabelle ‚Zusammenfassung der Befunde‘ auch auf den Tod beziehen.

In (seltenen) Fällen, in denen eine eindeutige Begründung für die Annahme einer konsistenten Risikodifferenz in der Metaanalyse vorliegt, ist es grundsätzlich möglich, diese für relevante ‚angenommene Risiken‘ und deren entsprechende Risiken darzustellen und die entsprechenden (unterschiedlichen) relativen Auswirkungen für jedes angenommene Risiko darzustellen.

Die Risikodifferenz drückt die Differenz zwischen dem ACR und dem entsprechenden Interventionsrisiko (oder der Differenz zwischen der experimentellen und der Komparatorintervention) aus.

Für das metaanalytische Risikoverhältnis (RR) und das angenommene Vergleichsrisiko (ACR) ergibt sich die entsprechende Risikodifferenz als (beachten Sie, dass Risiken auch in Prozent oder Prozentpunkten ausgedrückt werden können):

Als Beispiel in Abbildung 14.1.b das metaanalytische Risikoverhältnis für Diarrhö bei Kindern unter 5 Jahren beträgt 0,41 (95%-KI 0,29 bis 0,55). Unter der Annahme eines Vergleichsgruppenrisikos von 22,3% erhalten wir:

.

Für das metaanalytische Odds Ratio (OR) und das angenommene Komparatorrisiko (ACR) ergibt sich die absolute Risikodifferenz als (Prozentpunkte):

Obere und untere Konfidenzgrenzen für die absolute Risikodifferenz werden erhalten, indem die obige Berechnung wiederholt wird, während RR oder OR durch ihre oberen bzw. unteren Konfidenzgrenzen ersetzt werden (z. B. Ersetzen von 0,41 durch 0,28 und dann durch 0,55 im Beispiel). Solche Konfidenzintervalle beinhalten keine Unsicherheit in den angenommenen Komparatorrisiken.

14.1.5.2 Time-to-Event-Ergebnisse

Time-to-Event-Ergebnisse messen, ob und wann ein bestimmtes Ereignis (z. B. Tod) auftritt (van Dalen et al 2007). Die Auswirkung der experimentellen Intervention im Vergleich zur Vergleichsgruppe auf die Zeit bis zum Eintritt des Ereignisses wird üblicherweise unter Verwendung einer Hazard Ratio (HR) gemessen (siehe Kapitel 6, Abschnitt 6.8.1).

Eine Hazard Ratio drückt eine relative Wirkungsschätzung aus. Es kann auf verschiedene Arten verwendet werden, um absolute Risiken und andere interpretierbare Größen für eine bestimmte Population zu erhalten. Hier beschreiben wir, wie man Hazard Ratios in Bezug auf: (i) absolutes Risiko eines ereignisfreien Überlebens innerhalb eines bestimmten Zeitraums; (ii) absolutes Risiko eines Ereignisses innerhalb eines bestimmten Zeitraums; und (iii) mediane Zeit bis zum Ereignis. Alle Methoden basieren auf der Annahme konsistenter relativer Effekte (d. h. dass sich die Hazard Ratio im Laufe der Zeit nicht ändert).

(i) Absolutes Risiko des ereignisfreien Überlebens innerhalb eines bestimmten Zeitraums Das ereignisfreie Überleben (z. B. das Gesamtüberleben) wird häufig in Einzelstudien berichtet. Um absolute Effekte für Time-to-Event-Outcomes zu erhalten, die als ereignisfreies Überleben gemessen werden, kann die Summary HR in Verbindung mit einem angenommenen Anteil von Patienten verwendet werden, die in der Vergleichsgruppe ereignisfrei sind (Tierney et al 2007). Dieser Anteil der Patienten ist spezifisch für einen Beobachtungszeitraum. Es ist jedoch nicht unbedingt erforderlich, diesen Zeitraum anzugeben. Zum Beispiel könnte ein Anteil von 50% der ereignisfreien Patienten für Patienten mit einer hohen Ereignisrate, die über 1 Jahr beobachtet wurde, oder für Patienten mit einer niedrigen Ereignisrate, die über 2 Jahre beobachtet wurde, gelten.


Angenommen, die metaanalytische Hazard Ratio beträgt 0,42 (95% -KI 0,25 bis 0,72). Unter der Annahme eines Vergleichsgruppenrisikos für das ereignisfreie Überleben (z. B. für das Gesamtüberleben lebender Personen) nach 2 Jahren ACR = 900 pro 1000 = 0,9 erhalten wir:


so dass 956 pro 1000 Menschen mit der experimentellen Intervention nach 2 Jahren am Leben sein werden. Die Ableitung des Risikos sollte in einem Kommentar oder einer Fußnote erläutert werden.

(ii) Absolutes Risiko eines Ereignisses innerhalb eines bestimmten Zeitraums Um diesen absoluten Effekt zu erzielen, kann wiederum die Zusammenfassung HR verwendet werden (Tierney et al 2007):


Nehmen wir im Beispiel an, wir nehmen ein Vergleichsgruppenrisiko für Ereignisse (z. B. für Mortalität, Tote) bei 2 Jahren ACR = 100 pro 1000 = 0,1 an. Wir erhalten:


so dass 44 pro 1000 Menschen mit der experimentellen Intervention nach 2 Jahren tot sein werden.

(iii) Mediane Zeit bis zum Ereignis Anstelle von absoluten Zahlen kann die Zeit bis zum Ereignis in den Interventions- und Vergleichsgruppen als mediane Überlebenszeit in Monaten oder Jahren ausgedrückt werden. Um die mediane Überlebenszeit zu erhalten, kann die gepoolte HR auf eine angenommene mediane Überlebenszeit in der Vergleichsgruppe angewendet werden (Tierney et al 2007):

Unter der Annahme einer medianen Überlebenszeit der Vergleichsgruppe von 80 Monaten erhalten wir im Beispiel:

Für alle drei dieser Optionen zur erneuten Darstellung der Ergebnisse von Time-to-Event-Analysen werden obere und untere Konfidenzgrenzen für das entsprechende Interventionsrisiko erhalten, indem HR durch seine obere bzw. untere Konfidenzgrenze ersetzt wird (z. B. Ersetzen von 0,42 durch 0,25, dann im Beispiel durch 0,72). Auch bei dichotomen Ergebnissen berücksichtigen solche Konfidenzintervalle keine Unsicherheit in den angenommenen Risiken der Vergleichsgruppe. Dies ist besonders besorgniserregend für das Langzeitüberleben mit einer niedrigen oder moderaten Mortalitätsrate und einer entsprechend hohen Anzahl zensierter Patienten (d. h. einer geringen Anzahl von Risikopatienten und einer hohen Zensurrate).

14.1.6 Detaillierter Inhalt einer ‚Zusammenfassung der Befunde‘ -Tabelle

14.1.6.1 Tabellentitel und Kopfzeile

Der Titel jeder ‚Zusammenfassung der Befunde‘ -Tabelle sollte die Gesundheitsfrage spezifizieren, in Bezug auf die Bevölkerung gerahmt sein und deutlich machen, welche Arten von Interventionen genau durchgeführt werden. In Abbildung 14.1.a, die Bevölkerung sind Menschen, die lange Flugzeugflüge unternehmen, die Intervention ist Kompressionsstrümpfe, und die Kontrolle ist keine Kompressionsstrümpfe.

Die ersten Zeilen jeder ‚Zusammenfassung der Befunde‘ -Tabelle sollten die folgenden ‚Header‘ -Informationen enthalten:

Patienten oder Population Dies verdeutlicht weiter die Population (und möglicherweise die Subpopulationen) von Interesse und idealerweise das Ausmaß des Risikos des wichtigsten nachteiligen Ergebnisses, auf das sich eine Intervention richtet. Zum Beispiel, Menschen auf einem Langstreckenflug können unterschiedlichen Risiken für TVT ausgesetzt sein; diejenigen, die selektive Serotonin-Wiederaufnahmehemmer (SSRIs) verwenden, können ein unterschiedliches Risiko für Nebenwirkungen haben; während diejenigen mit Vorhofflimmern ein niedriges (< 1%), moderates (1% bis 4%) oder hohes (> 4%) jährliches Schlaganfallrisiko haben können.

Einstellung Hier sollten alle spezifischen Merkmale der Einstellungen der Gesundheitsfrage angegeben werden, die die Anwendbarkeit der Zusammenfassung der Ergebnisse auf andere Einstellungen einschränken könnten (z. B. Grundversorgung in Europa und Nordamerika).

Intervention Die experimentelle Intervention.

Vergleich Die Komparatorintervention (einschließlich keiner spezifischen Intervention).

14.1.6.2 Ergebnisse

Die Zeilen einer Tabelle ‚Zusammenfassung der Ergebnisse‘ sollten alle wünschenswerten und unerwünschten Gesundheitsergebnisse (in der Reihenfolge ihrer Wichtigkeit aufgelistet) enthalten, die für die Entscheidungsfindung wesentlich sind, bis zu maximal sieben Ergebnisse. Wenn der Review mehr Ergebnisse enthält, müssen die Review-Autoren die weniger wichtigen Ergebnisse aus der Tabelle weglassen, und die Entscheidung, welche Ergebnisse für den Review kritisch oder wichtig sind, sollte während der Protokollentwicklung getroffen werden (siehe Kapitel 3). Review-Autoren sollten Zeitrahmen für die Messung der Ergebnisse (z. B. 90 Tage oder 12 Monate) und die Art der Instrumentenwerte (z. B. von 0 bis 100) angeben.

Beachten Sie, dass Review-Autoren die vorab festgelegten kritischen und wichtigen Ergebnisse in die Tabelle aufnehmen sollten, unabhängig davon, ob Daten verfügbar sind oder nicht. Sie sollten jedoch darauf achten, dass die Bedeutung eines Ergebnisses (z. B. einer schwerwiegenden nachteiligen Wirkung) erst bekannt wird, nachdem das Protokoll erstellt oder die Analyse durchgeführt wurde, und geeignete Maßnahmen ergreifen, um diese in die Tabelle ‚Zusammenfassung der Ergebnisse‘ aufzunehmen.

Die Tabelle ‚Zusammenfassung der Ergebnisse‘ kann Effekte in Untergruppen der Population für verschiedene Vergleichsrisiken und Effektgrößen separat enthalten. Zum Beispiel in Abbildung 14.1.b-Effekte werden für Kinder jünger und älter als 5 Jahre separat dargestellt. Review-Autoren können sich auch dafür entscheiden, separate Tabellen zur Zusammenfassung der Ergebnisse für verschiedene Populationen zu erstellen.

Review-Autoren sollten schwerwiegende unerwünschte Ereignisse einschließen, aber es könnte möglich sein, geringfügige unerwünschte Ereignisse als ein einziges Ergebnis zu kombinieren und dies in einer erläuternden Fußnote zu beschreiben (beachten Sie, dass es nicht angebracht ist, Ereignisse zusammenzufügen, es sei denn, sie sind unabhängig, dh ein Teilnehmer, der ein unerwünschtes Ereignis erlebt hat, hat eine unbeeinflusste Chance, das andere unerwünschte Ereignis zu erleben).

Ergebnisse, die zu mehreren Zeitpunkten gemessen werden, stellen ein besonderes Problem dar. Um die Tabelle einfach zu halten, sollten Review-Autoren im Allgemeinen mehrere Zeitpunkte nur für entscheidungskritische Ergebnisse angeben, bei denen entweder das Ergebnis oder die getroffene Entscheidung wahrscheinlich im Laufe der Zeit variieren. Der Rest sollte möglichst zu einem gemeinsamen Zeitpunkt vorgelegt werden.

Reviewautoren können kontinuierliche Ergebniskennzahlen in der Tabelle ‚Zusammenfassung der Ergebnisse‘ darstellen und sollten sich bemühen, diese für die Zielgruppe interpretierbar zu machen. Dies erfordert, dass die Einheiten klar und leicht interpretierbar sind, z. B. Schmerztage oder Häufigkeit von Kopfschmerzen, und der Name und die Skala der verwendeten Messinstrumente angegeben werden sollten (z. B. eine visuelle Analogskala im Bereich von 0 bis 100). Viele Messinstrumente sind jedoch für nicht spezialisierte Kliniker oder Patienten nicht ohne weiteres interpretierbar, z. B. Punkte auf einem Beck-Depressionsinventar oder einem Lebensqualität-Score. Für diese kann eine besser interpretierbare Darstellung die Umwandlung eines kontinuierlichen in ein dichotomes Ergebnis beinhalten, z. B. > 50% Verbesserung (siehe Kapitel 15, Abschnitt 15.5).

14.1.6.3 Beste Schätzung des Risikos bei vergleichender Intervention

Die Autoren des Reviews sollten bis zu drei typische Risiken für Teilnehmer angeben, die die vergleichende Intervention erhalten. Bei dichotomen Ergebnissen empfehlen wir, diese je nach Häufigkeit des Ergebnisses in Form der Anzahl der Personen pro 100 oder 1000 Personen (Eigenfrequenz) darzustellen. Bei kontinuierlichen Ergebnissen würde dies als Mittelwert oder Medianwert des gemessenen Ergebnisses angegeben.

Geschätzte oder angenommene Interventionsrisiken von Komparatoren könnten auf Bewertungen typischer Risiken in verschiedenen Patientengruppen basieren, die sich aus dem Review selbst, einzelnen repräsentativen Studien im Review oder Risiken ergeben, die sich aus einem systematischen Review von Prognosestudien oder anderen Evidenzquellen ergeben, die wiederum eine Bewertung der Sicherheit für die prognostische Evidenz erfordern können (Spencer et al 2012, Iorio et al 2015). Im Idealfall würden Risiken Gruppen widerspiegeln, die Kliniker anhand ihrer präsentierenden Merkmale leicht identifizieren können.

In einer erläuternden Fußnote sollte die Quelle oder Begründung für jedes Risiko der Vergleichsgruppe angegeben werden, gegebenenfalls einschließlich des Zeitraums, dem es entspricht. In Abbildung 14.1.a, Kliniker können Personen mit Risikofaktoren für eine tiefe Venenthrombose leicht von Personen ohne unterscheiden. Wenn bekannt ist, dass das Baseline-Risiko nur geringfügig variiert, können die Review-Autoren das mediane Vergleichsgruppenrisiko in allen Studien verwenden. Wenn typische Risiken nicht bekannt sind, besteht eine Option darin, das Risiko aus den eingeschlossenen Studien auszuwählen, wobei das zweithöchste für eine Population mit hohem und das zweitniedrigste für eine Population mit niedrigem Risiko bereitgestellt wird.

14.1.6.4 Risiko mit Intervention

Für dichotome Ergebnisse sollten die Review-Autoren ein entsprechendes absolutes Risiko für jedes Vergleichsgruppenrisiko zusammen mit einem Konfidenzintervall angeben. Dieses absolute Risiko bei der (experimentellen) Intervention wird in der Regel aus dem Metaanalyseergebnis abgeleitet, das in der Spalte relative Wirkung dargestellt ist (siehe Abschnitt 14.1.6.6). Die Formeln sind in Abschnitt 14.1 angegeben.5. Die Autoren des Reviews sollten den absoluten Effekt im gleichen Format wie die Risiken bei einer Vergleichsintervention darstellen (siehe Abschnitt 14.1.6.3), z. B. als Anzahl der Personen, bei denen das Ereignis pro 1000 Personen auftritt.

Für kontinuierliche Ergebnisse sollte ein Mittelwertunterschied oder ein standardisierter Mittelwertunterschied mit seinem Konfidenzintervall angegeben werden. Diese werden in der Regel direkt aus einer Metaanalyse gewonnen. Erläuternder Text sollte verwendet werden, um die Bedeutung zu verdeutlichen, wie in Abbildungen 14.1.a und 14.1.b.

14.1.6.5 Risikodifferenz

Bei dichotomen Ergebnissen kann die Risikodifferenz als zusätzliche Option in einem der Tabellenformate ‚Zusammenfassung der Befunde‘ angegeben werden (siehe Abbildung 14.1.B). Diese Risikodifferenz drückt den Unterschied zwischen der experimentellen und der vergleichenden Intervention aus und wird normalerweise aus dem Metaanalyseergebnis abgeleitet, das in der Spalte relative Wirkung dargestellt ist (siehe Abschnitt 14.1.6.6). Die Formeln sind in Abschnitt 14.1.5 angegeben. Die Autoren des Reviews sollten die Risikodifferenz im gleichen Format wie angenommen und die entsprechenden Risiken mit einer Vergleichsintervention darstellen (siehe Abschnitt 14.1.6.3). zum Beispiel als Anzahl der Personen, die das Ereignis pro 1000 Personen erleben, oder als Prozentpunkte, wenn die angenommenen und entsprechenden Risiken in Prozent ausgedrückt werden.

Für kontinuierliche Ergebnisse, wenn die Tabelle ‚Zusammenfassung der Ergebnisse‘ diese Option enthält, kann die mittlere Differenz hier dargestellt und die Spalte ‚entsprechendes Risiko‘ leer gelassen werden (siehe Abbildung 14.1.B).

14.1.6.6 Relativer Effekt (95% -KI)

Der relative Effekt ist typischerweise ein Risikoverhältnis oder eine Odds Ratio (oder gelegentlich ein Hazard Ratio) mit dem dazugehörigen 95% -Konfidenzintervall, das aus einer Metaanalyse erhalten wurde, die auf der Grundlage desselben Effektmaßes durchgeführt wurde. Risikoquoten und Odds Ratios sind ähnlich, wenn die Risiken der Komparatorintervention gering und die Auswirkungen gering sind, können sich jedoch erheblich unterscheiden, wenn die Risiken der Komparatorgruppe zunehmen. Die Metaanalyse kann eine Annahme von festen oder zufälligen Effekten beinhalten, je nachdem, was die Review-Autoren für angemessen halten, und implizieren, dass der relative Effekt entweder eine Schätzung der Wirkung der Intervention oder eine Schätzung der durchschnittlichen Wirkung der Intervention über Studien hinweg ist.

14.1.6.7 Anzahl der Teilnehmer (Studien)

Diese Spalte sollte die Anzahl der Teilnehmer enthalten, die in den eingeschlossenen Studien für jedes Ergebnis bewertet wurden, und die entsprechende Anzahl von Studien, die diese Teilnehmer beigetragen haben.

14.1.6.8 Sicherheit der Evidenz (GRAD)

Review-Autoren sollten sich zur Sicherheit der Evidenz äußern (auch bekannt als Qualität der Evidenz oder Vertrauen in die Wirkungsschätzungen). Review-Autoren sollten das spezifische Evidenz-Bewertungssystem verwenden, das von der GRADE Working Group (Atkins et al 2004, Guyatt et al 2008, Guyatt et al 2011a) entwickelt wurde und in Abschnitt 14.2 ausführlich beschrieben wird. Der GRADE-Ansatz kategorisiert die Sicherheit in einem Evidenzkörper als ‚hoch‘, ‚moderat‘, ’niedrig‘ oder ’sehr niedrig‘ nach Ergebnis. Dies ist ein Ergebnis des Urteils, aber der Urteilsprozess arbeitet in einer transparenten Struktur. Zum Beispiel wäre die Sicherheit hoch, wenn die Zusammenfassung aus mehreren randomisierten Studien mit geringem Risiko für Verzerrungen bestünde, aber die Bewertung der Sicherheit wird niedriger, wenn Bedenken hinsichtlich des Risikos von Verzerrungen, Inkonsistenzen, Indirektheit, Ungenauigkeit oder Publikationsverzerrung bestehen. Andere Urteile als Solche mit hoher Sicherheit sollten durch erläuternde Fußnoten oder die Spalte ‚Bemerkungen‘ in der Tabelle ‚Zusammenfassung der Feststellungen‘ transparent gemacht werden (siehe Abschnitt 14.1.6.10).

14.1.6.9 Kommentare

Das Feld ‚Kommentare‘ soll bei der Interpretation der in der Zeile identifizierten Informationen oder Daten helfen. Dies kann beispielsweise die Gültigkeit des Ergebnismaßes oder das Vorhandensein von Variablen sein, die mit der Größe des Effekts verbunden sind. Wichtige Vorbehalte zu den Ergebnissen sollten hier markiert werden. Nicht alle Zeilen benötigen Kommentare, und es ist am besten, ein Leerzeichen zu lassen, wenn nichts einen Kommentar rechtfertigt.

14.1.6.10 Erläuterungen

Detaillierte Erläuterungen sollten als Fußnoten zur Unterstützung der Beurteilungen in die Tabelle ‚Zusammenfassung der Ergebnisse‘ aufgenommen werden, z. B. die Gesamtbeurteilung der NOTEN. Die Erklärungen sollten die Gründe für wichtige Aspekte des Inhalts beschreiben. Tabelle 14.1.eine kurze Anleitung für nützliche Erklärungen. Erklärungen sollten kurz, informativ, relevant, leicht verständlich und genau sein. Wenn Erklärungen in Fußnoten nicht ausreichend beschrieben werden können, sollten Review-Autoren weitere Details zu den Themen in den Abschnitten Ergebnisse und Diskussion der Review angeben.

Tabelle 14.1.eine Anleitung zur Bereitstellung nützlicher Erklärungen in Tabellen zur Zusammenfassung der Ergebnisse (SoF). Adaptiert von Santesso et al (2016)

Allgemeine Hinweise

  1. Geben Sie die Informationen für die Leser nach Möglichkeit direkt in die Tabelle ein (z. B. Informationen zur Nachbeobachtungsdauer oder zur verwendeten Skala).
  2. Zitieren Sie im Abschnitt Erläuterungen im Allgemeinen keine Referenzen, es sei denn, es liegen spezifische Gründe vor, z. B. Informationen über Quellen von Basisrisiken bereitzustellen (siehe Punkt 3).
  3. Geben Sie die Informationsquelle zu den Basisrisiken an, die zur Berechnung der absoluten Auswirkungen verwendet werden.
  4. Überprüfen Sie nach Abschluss der Tabelle alle Erklärungen, um festzustellen, ob einige mehrfach referenziert werden können, wenn sie neu formuliert oder kombiniert werden.
  5. Geben Sie Gründe für die Aktualisierung und Herabstufung der Evidenz an (siehe domänenspezifische Anleitung unten) und verwenden Sie die GRADEpro GDT-Software, um die Bewertungsrichtlinien einzuhalten.
  6. Der Beweiskörper für ein bestimmtes Ergebnis kann schwerwiegende oder sehr schwerwiegende Probleme für die betroffene Domäne aufweisen (oder kritisch ernst für das Risiko einer Verzerrung, wenn ROBINS-I verwendet wird). Daher kann es nützlich sein, die Anzahl der Stufen für die Herabstufung anzugeben (z. B. um eine Stufe für das Risiko einer Verzerrung herabgestuft), aber eine Wiederholung der Angaben in der Tabelle (und den Eindruck einer formelhaften oder algorithmischen Berichterstattung) zu vermeiden. In Evidenzprofilen befinden sich diese Informationen bereits in den Zellen der Tabelle.
  7. Obwohl Erklärungen über die Sicherheit der Beweise in erster Linie erforderlich sind, wenn sie die Sicherheit ändern, sollten Sie eine Erklärung hinzufügen, wenn die Sicherheit der Beweise nicht geändert wurde, diese Entscheidung jedoch von anderen in Frage gestellt werden kann. Dies hilft beim Verständnis der Gründe für Meinungsverschiedenheiten.
  8. Stellen Sie sicher, dass die Tabelle nicht als Beschreibung der Methoden der Überprüfung verwendet wird (z. B. beschreiben Sie nicht die Gründe für die statistische Analyse).
  9. Geben Sie Ergebnisse für Ergebnisse ein, die in einer Metaanalyse statistisch nicht kombiniert werden konnten (z. narrative Ergebnisse) direkt in die SoF-Tabelle in den Ergebnisspalten. Eine Erklärung ist möglicherweise nicht erforderlich, um diese Ergebnisse zu kommunizieren. Wenn dies für die beabsichtigte Zielgruppe als vorteilhaft erachtet wird, fügen Sie in der Kommentarspalte ergänzende Schätzungen der Interventionseffekte hinzu (z. B. Anzahl, die für die Behandlung von Nutzen und Schaden erforderlich ist, Risikodifferenz ausgedrückt als Prozentsatz, kontinuierliches Ergebnis ausgedrückt in Einheiten mit minimalen wichtigen Unterschieden).
  10. Verwenden Sie die in den Erläuterungen zum Bewertungsprozess enthaltenen Informationen, um andere wichtige Teile der Überprüfung zu informieren, einschließlich zusammenfassender Versionen und der Diskussion.

Domänenspezifische Anleitung zum Schreiben nützlicher Erklärungen

Risiko der Verzerrung

  1. Beschreiben Sie die Anzahl der Studien oder die Menge an Informationen, die sie in der Metaanalyse bereitstellen, die ein hohes Risiko für Verzerrungen hatten und für welches Kriterium.
    1. Verwenden Sie Begriffe wie Mehrheit, Minderheit, alle, einige oder keine; oder die Anzahl der Studien als X / X Studien.
    2. Erwähnen Sie bei randomisierten Studien die spezifischen Kriterien, einschließlich Zuordnungssequenz-Verschleierung, selektive Ergebnisberichterstattung usw. Beschreiben Sie bei nicht randomisierten Studien das Kriterium im verwendeten Tool (z. B. mit dem ROBINS-I-Tool).
    3. Geben Sie an, ob der Effekt des Bias-Risikos in einer Sensitivitätsanalyse untersucht wurde. Erwähnen Sie gegebenenfalls den Beitrag der Studien mit hohem Verzerrungsrisiko zu den Schätzungen.
  2. Informationen über das Studiendesign können in den Erläuterungen enthalten sein, insbesondere in SoF, wenn verschiedene Studiendesigns enthalten sind.

Inkonsistenz

  1. Geben Sie die Kennzahl an, die zur Beurteilung der Inkonsistenz verwendet wird, z. B. den statistischen Test oder die statistische Kennzahl (I2, Chi2, Tau) oder die Überlappung von Konfidenzintervallen oder die Ähnlichkeit von Punktschätzungen.
  2. Wenn die Inkonsistenz auf I2 basiert, beschreiben Sie sie als beträchtlich, erheblich, moderat oder nicht wichtig.
  3. Geben Sie gegebenenfalls an, ob die Heterogenität in Untergruppenanalysen von PICO untersucht wurde (Patienten, Intervention, Vergleich, Ergebnis) und ob es andere mögliche Gründe für die Heterogenität gibt.
  4. Sagen Sie im Falle einer einzelnen Studie für ein Ergebnis, dass es ‚keine‘ und nicht ’nicht anwendbar‘ gibt.

Ungenauigkeit

  1. Geben Sie an, wo der Stichprobenumfang oder die Anzahl der Ereignisse nicht der optimalen berechneten Informationsgröße oder den Faustregeln entspricht (z. B. 400 Ereignisse). Vermeiden Sie den Hinweis auf die Anzahl der Studien als Grund für Ungenauigkeiten.
  2. Geben Sie an, ob die Konfidenzintervalle die Möglichkeit eines geringen oder gar keinen Effekts UND eines wichtigen Nutzens oder Schadens beinhalten. Falls bekannt, geben Sie den numerischen Wert der Schwelle des wichtigen Nutzens an.
  3. Vermeiden Sie es, das Ergebnis als statistisch oder nicht statistisch signifikant anzugeben.

Upgrade

  1. Geben Sie den Grund für das Upgrade an: aufgrund eines großen Effekts; ein Dosis-Wirkungs-Gradient; oder plausible Residual-Confounding erhöht die Evidenzsicherheit.
  2. Geben Sie bei großen Effekten an, ob der relative Effekt >2 oder >5 ist. Geben Sie für Dosis-Wirkungs-Gradienten den Grad der Intervention und die Auswirkung auf das Ergebnis an. Beschreiben Sie für den Bereich ‚plausible Residual opposing Confounding‘ den Effekt des Confounding-Faktors auf die Schätzung.

14.2 Bewertung der Sicherheit oder Qualität eines Beweismaterials

14.2.1 Der Notenansatz

Die Arbeitsgruppe Empfehlungsgrade, Bewertung, Entwicklung und Bewertung (GRADE Working Group) hat ein System zur Einstufung der Sicherheit von Beweismitteln entwickelt (Schünemann et al 2003, Atkins et al 2004, Schünemann et al 2006, Guyatt et al 2008, Guyatt et al 2011a). Über 100 Organisationen, darunter die Weltgesundheitsorganisation (WHO), das American College of Physicians, die American Society of Hematology (ASH), die Canadian Agency for Drugs and Technology in Health (CADTH) und die National Institutes of Health und Clinical Excellence (NICE) in Großbritannien haben das Notensystem übernommen (www.gradeworkinggroup.org ).

Cochrane hat diesen Ansatz auch formell übernommen, und alle Cochrane Reviews sollten GRADE verwenden, um die Sicherheit der Evidenz für wichtige Ergebnisse zu bewerten (siehe MECIR Box 14.2.ein).

MECIR Kasten 14.2.Relevante Erwartungen für die Durchführung von Interventionsüberprüfungen

C74: Beurteilung der Sicherheit des Beweismaterials (verpflichtend)

Verwenden Sie die fünf Bewertungsüberlegungen (Risiko der Verzerrung, Konsistenz der Wirkung, Ungenauigkeit, Indirektheit und Publikationsverzerrung), um die Sicherheit des Beweismaterials für jedes Ergebnis zu bewerten und Schlussfolgerungen über die Sicherheit der Evidenz innerhalb des Textes der Überprüfung zu ziehen.

GRADE ist der am weitesten verbreitete Ansatz zur Zusammenfassung des Vertrauens in die Auswirkungen von Interventionen nach Ergebnis in allen Studien. Es ist vorzuziehen, das Online-GRADEpro-Tool zu verwenden und es wie im Hilfesystem der Software beschrieben zu verwenden. Dies sollte dazu beitragen, sicherzustellen, dass Autorenteams auf die gleichen Informationen zugreifen, um ihre Urteile zu informieren. Idealerweise sollten zwei Personen, die unabhängig voneinander arbeiten, die Sicherheit des Beweismaterials beurteilen und einen Konsens über etwaige Herabstufungsentscheidungen erzielen. Die fünf Bewertungsüberlegungen sollten unabhängig davon behandelt werden, ob die Überprüfung eine Tabelle mit der Zusammenfassung der Ergebnisse enthält. Es ist hilfreich, in der Diskussion, in den Schlussfolgerungen der Autoren auf diese Informationen zurückzugreifen und die Sicherheit der Beweise in der abstrakten und einfachen Zusammenfassung zu vermitteln.

C75: Rechtfertigende Beurteilung der Sicherheit des Beweismaterials (verpflichtend)

Begründen und dokumentieren Sie alle Bewertungen der Sicherheit des Beweismaterials (z. B. Herabstufung oder Aufwertung anhand der NOTE).

Die Anwendung eines strukturierten Ansatzes gewährleistet Transparenz bei der Formulierung einer Interpretation der Beweise, und das Ergebnis ist für den Benutzer informativer.

Bei systematischen Reviews definiert der GRADE-Ansatz die Sicherheit eines Beweismaterials als das Ausmaß, in dem man sicher sein kann, dass eine Schätzung der Wirkung oder Assoziation der Menge von spezifischem Interesse nahe kommt. Die Beurteilung der Sicherheit eines Beweismaterials beinhaltet die Berücksichtigung des studieninternen und studienübergreifenden Risikos von Verzerrungen (Einschränkungen bei Studiendesign und -durchführung oder methodischer Qualität), Inkonsistenz (oder Heterogenität), Indirektheit der Evidenz, Ungenauigkeit der Effektschätzungen und Risiko von Publikationsverzerrungen (siehe Abschnitt 14.2.2) sowie von Domänen, die unser Vertrauen in die Effektschätzung erhöhen können (wie in Abschnitt 14.2.3 beschrieben). Das Notensystem beinhaltet eine Bewertung der Sicherheit eines Beweismaterials für jedes einzelne Ergebnis. Urteile über die Bereiche, die die Sicherheit der Beweise bestimmen, sollten im Abschnitt Ergebnisse oder Diskussion und als Teil der Tabelle ‚Zusammenfassung der Ergebnisse‘ beschrieben werden.

Der GRADE-Ansatz spezifiziert vier Sicherheitsstufen (Abbildung 14.2.ein). Für Interventionen, einschließlich diagnostischer und anderer Tests, die als Interventionen bewertet werden (Schünemann et al 2008b, Schünemann et al 2008a, Balshem et al 2011, Schünemann et al 2012), wird der Ausgangspunkt für die Bewertung der Evidenzsicherheit in zwei Typen eingeteilt:

  • randomisierte Studien; und
  • Nicht randomisierte Interventionsstudien (NRSI), einschließlich Beobachtungsstudien (einschließlich, aber nicht beschränkt auf Kohortenstudien und Fall-Kontroll-Studien, Querschnittsstudien, Fallserien und Fallberichte, obwohl nicht alle diese Designs sind in der Regel in Cochrane Reviews enthalten).

Es gibt viele Fälle, in denen sich Review-Autoren auf Informationen von NRSI verlassen, insbesondere um potenzielle Schäden zu bewerten (siehe Kapitel 24). Darüber hinaus können Review-Autoren relevante Daten sowohl aus randomisierten Studien als auch aus NRSI erhalten, wobei jede Art von Evidenz die andere ergänzt (Schünemann et al 2013).

In GRADE beginnt eine Evidenz aus randomisierten Studien mit einer Bewertung mit hoher Sicherheit, während eine Evidenz aus NRSI mit einer Bewertung mit geringer Sicherheit beginnt. Die niedrigere Bewertung mit NRSI ist das Ergebnis der potenziellen Verzerrung, die durch das Fehlen einer Randomisierung induziert wird (d. H. Verwirrungs- und Auswahlverzerrung).

Bei Verwendung des neuen Tools Risk Of Bias In Non-randomized Studies of Interventions (ROBINS-I) (Sterne et al 2016), einem Bewertungsinstrument, das das Risiko einer Verzerrung aufgrund fehlender Randomisierung abdeckt, können jedoch alle Studien mit hoher Sicherheit der Evidenz beginnen (Schünemann et al 2018). Der Ansatz, alle Studiendesigns (einschließlich NRSI) mit hoher Sicherheit zu beginnen, steht nicht im Widerspruch zum Ansatz der anfänglichen Einstufung, mit der Bewertung von NRSI als Evidenz mit niedriger Sicherheit zu beginnen. Dies liegt daran, dass eine Evidenz von NRSI im Allgemeinen aufgrund des inhärenten Risikos von Bias, das mit dem Mangel an Randomisierung verbunden ist, im Allgemeinen um zwei Stufen herabgestuft werden sollte, nämlich Confounding und Selection Bias. Eine Herabstufung des NRSI von hoher auf niedrige Sicherheit erfordert keine transparente und detaillierte Begründung dafür, was Bedenken hinsichtlich Confounding und Selection Bias mindert (Schünemann et al 2018). Es gibt derzeit nur sehr wenige Beispiele, bei denen eine Herabstufung um zwei Stufen nicht angemessen ist.

Die höchste Sicherheitsbewertung ist ein Beweismaterial, wenn bei keinem der in Abbildung 14.2 aufgeführten Bewertungsfaktoren Bedenken bestehen.a. Review-Autoren stuften die Evidenz häufig auf moderate, niedrige oder sogar sehr niedrige Sicherheit herunter, abhängig vom Vorhandensein der fünf Faktoren in Abbildung 14.2.a. Normalerweise sinkt die Bewertung für jeden Faktor um eine Stufe, bis zu maximal drei Stufen für alle Faktoren. Wenn es für eine Domain sehr schwerwiegende Probleme gibt (z. bei der Beurteilung des Risikos einer Verzerrung waren alle Studien unverhüllt, unblindet und verloren über 50% ihrer Patienten zur Nachsorge), die Evidenz kann allein aufgrund dieses Faktors um zwei Stufen sinken. Es ist nicht möglich, Beweise niedriger als ’sehr niedrige Sicherheit‘ zu bewerten.

Review-Autoren bewerten Evidenz aus soliden, nicht randomisierten Studien im Allgemeinen als wenig sicher, selbst wenn ROBINS-I verwendet wird. Wenn jedoch solche Studien große Effekte ergeben und es keine offensichtliche Verzerrung gibt, die diese Effekte erklärt, können Review–Autoren die Evidenz als moderat oder – wenn der Effekt groß genug ist – sogar als hohe Sicherheit bewerten (Abbildung 14.2.ein). Das sehr niedrige Sicherheitsniveau eignet sich für Studien mit kritischen Problemen und unsystematischen klinischen Beobachtungen (z. B. Fallserien oder Fallberichte), ist aber nicht darauf beschränkt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.