Holger J Schünemann, Julian PT Higgins, Gunn e Vist, Paul Glasziou, Elie a Akl, Nicole Skoetz, Gordon H Guyatt; w imieniu grupy Cochrane GRADEing Methods Group (dawniej Applicability and Recommendations Methods Group) oraz grupy Cochrane Statistical Methods Group
- kluczowe punkty:
- 14.1 tabele „Podsumowanie ustaleń”
- 14.1.1 Wprowadzenie do tabel „Podsumowanie ustaleń”
- 14.1.2 wybór wyników dla tabel „Podsumowanie ustaleń”
- 14.1.3 ogólny szablon dla tabel „Podsumowanie ustaleń”
- 14.1.4 tworzenie tabel „Podsumowanie ustaleń”
- 14.1.5 rozważania statystyczne w tabelach „podsumowanie wyników”
- 14.1.5.1 wyniki dychotomiczne
- 14.1.5.2 wyniki Od czasu do zdarzenia
- 14.1.6 szczegółowa treść tabeli „Podsumowanie ustaleń”
- 14.1.6.1 tytuł i nagłówek tabeli
- 14.1. 6. 2 wyniki
- 14.1. 6. 3 najlepsze oszacowanie ryzyka w przypadku interwencji porównawczej
- 14, 1, 6, 4 ryzyko w przypadku interwencji
- 14.1.6.5 różnica ryzyka
- 14.1.6.Efekt względny (95% CI)
- 14.1. 6. 7 liczba uczestników (badania)
- 14.1.6.8 pewność dowodów (stopień)
- 14.1.6.9 Komentarze
- 14.1.6.10 objaśnień
- 14.2 ocena pewności lub jakości materiału dowodowego
- 14.2.1 podejście do oceny
kluczowe punkty:
- tabela „Podsumowanie ustaleń” dla danego porównania interwencji zawiera kluczowe informacje dotyczące wielkości względnych i bezwzględnych skutków badanych interwencji, ilości dostępnych dowodów oraz pewności (lub jakości) dostępnych dowodów.
- tabele „podsumowanie wyników” zawierają wiersz dla każdego ważnego wyniku (maksymalnie siedem). Akceptowane formaty tabel „Podsumowanie ustaleń”i interaktywnych tabel” Podsumowanie ustaleń ” mogą być tworzone przy użyciu oprogramowania GRADEPRO GDT.
- Cochrane przyjęło podejście GRADE (Grading of Recommendations Assessment, Development and Evaluation) w celu oceny pewności (lub jakości) materiału dowodowego.
- metoda oceny określa cztery poziomy pewności dla materiału dowodowego dla danego wyniku: wysoki, umiarkowany, niski i bardzo niski.
- oceny stopnia pewności określa się poprzez uwzględnienie pięciu dziedzin: ryzyka błędu, niespójności, braku pewności, nieprecyzyjności i błędu publikacji. W przypadku dowodów z badań niezdolomizowanych i rzadko randomizowanych, oceny można następnie uaktualnić poprzez rozważenie trzech dalszych dziedzin.
Cytuj ten rozdział jako: Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Rozdział 14: uzupełnianie tabel „Podsumowanie ustaleń” i ocena pewności dowodów. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.2 (updated February 2021). Cochrane, 2021. Dostępne na stronie www.trening.cochrane.org/handbook.
14.1 tabele „Podsumowanie ustaleń”
14.1.1 Wprowadzenie do tabel „Podsumowanie ustaleń”
tabele „Podsumowanie ustaleń” przedstawiają główne ustalenia przeglądu w przejrzystym, uporządkowanym i prostym formacie tabelarycznym. W szczególności dostarczają one kluczowych informacji dotyczących pewności lub jakości dowodów (tj. pewności lub pewności w zakresie oszacowania skutków lub powiązania), skali skutków badanych interwencji oraz sumy dostępnych danych dotyczących głównych wyników. Przeglądy Cochrane powinny zawierać tabele „Podsumowanie ustaleń” podczas planowania i publikacji oraz powinny zawierać co najmniej jedną kluczową tabelę „Podsumowanie ustaleń” przedstawiającą najważniejsze porównania. Niektóre przeglądy mogą zawierać więcej niż jedną tabelę „podsumowania ustaleń”, na przykład w przypadku, gdy przegląd dotyczy więcej niż jednego głównego porównania lub obejmuje zasadniczo różne populacje, które wymagają oddzielnych tabel (np. ponieważ efekty są różne lub ważne jest, aby pokazać wyniki oddzielnie). W bazie Cochrane Database of Systematic Reviews (CDSR) główna tabela przeglądu „Podsumowanie ustaleń” pojawia się na początku, przed sekcją tła. Między wynikami a sekcjami dyskusji pojawiają się inne tabele „podsumowanie wyników”.
14.1.2 wybór wyników dla tabel „Podsumowanie ustaleń”
planowanie tabeli „Podsumowanie ustaleń” rozpoczyna się na wczesnym etapie przeglądu systematycznego, przy czym wybór wyników należy uwzględnić w: (i) przeglądzie; oraz (ii) tabeli „Podsumowanie ustaleń”. Jest to kluczowy krok, do którego autorzy przeglądu muszą się starannie zająć.
aby zapewnić tworzenie optymalnie użytecznych informacji, przeglądy Cochrane rozpoczynają się od opracowania pytania przeglądowego i wyszczególnienia wszystkich głównych wyników, które są ważne dla pacjentów i innych decydentów (patrz rozdział 2 i Rozdział 3). Podejście oceny do oceny pewności dowodów (patrz sekcja 14.2) definiuje i operacjonalizuje proces oceny, który pomaga rozdzielić wyniki na te, które są krytyczne, ważne lub nieistotne dla podejmowania decyzji. Konsultacje i informacje zwrotne na temat protokołu przeglądu, w tym od konsumentów i innych decydentów, mogą usprawnić ten proces.
krytyczne wyniki mogą obejmować wyraźnie ważne punkty końcowe; typowe przykłady obejmują śmiertelność i poważną zachorowalność (taką jak udar mózgu i zawał mięśnia sercowego). Jednak mogą one również reprezentować częste drobne i rzadkie poważne skutki uboczne, objawy, jakość życia, obciążenia związane z leczeniem i problemy z zasobami (koszty). Obciążenia reprezentują wpływ obciążenia opieką zdrowotną na funkcjonowanie i samopoczucie pacjentów i obejmują wymagania dotyczące przestrzegania interwencji, której pacjenci lub opiekunowie (np. rodzina) mogą nie lubić, takie jak konieczność częstszych testów lub ograniczenia stylu życia, których wymagają niektóre interwencje (Spencer-Bonilla et al 2017).
często, formułując pytania, które obejmują wszystkie ważne dla pacjenta wyniki podejmowania decyzji, autorzy recenzji konfrontują się z doniesieniami z badań, które nie uwzględniły wszystkich tych wyników. Jest to szczególnie prawdziwe w przypadku niekorzystnych wyników. Na przykład, randomizowane badania mogą dostarczyć dowodów na zamierzone skutki, i na częste, stosunkowo niewielkie skutki uboczne, ale nie raport na rzadkie niekorzystne skutki, takie jak próby samobójcze. Rozdział 19 omawia strategie przeciwdziałania niekorzystnym skutkom. W celu uzyskania danych dla wszystkich ważnych wyników może być konieczne zbadanie wyników badań niezdolomizowanych (patrz rozdział 24). Cochrane, we współpracy z innymi, opracował wskazówki dla autorów recenzji, aby wesprzeć ich decyzję o tym, kiedy szukać i włączyć badania niezdolomizowane (Schünemann et al 2013).
jeśli przegląd obejmuje tylko badania randomizowane, badania te mogą nie dotyczyć wszystkich ważnych wyników i dlatego może nie być możliwe zajęcie się tymi wynikami w ramach ograniczeń przeglądu. Autorzy recenzji powinni uznać te ograniczenia i uczynić je przejrzystymi dla czytelników. Autorzy recenzji są zachęcani do włączenia badań niezwiązanych z randomizacją w celu zbadania rzadkich lub długotrwałych działań niepożądanych, które mogą nie być odpowiednio badane w badaniach randomizowanych. Stwarza to możliwość, że skutki szkód mogą pochodzić z badań, w których uczestnicy różnią się od tych w badaniach stosowanych w analizie korzyści. Autorzy przeglądu będą następnie musieli rozważyć, w jakim stopniu takie różnice mogą mieć wpływ na wyniki, a to wpłynie na pewność dowodów ze względu na obawy dotyczące dokładności związanej z populacją (patrz punkt 14.2.2).
badania nie-randomizowane mogą dostarczyć ważnych informacji nie tylko wtedy, gdy badania randomizowane nie informują o wyniku lub badania randomizowane cierpią z powodu indyrectness, ale także wtedy, gdy dowody z badań randomizowanych są oceniane jako bardzo niskie, a badania nie-randomizowane dostarczają dowodów na większą pewność. Dalsze omówienie tych kwestii znajduje się również w rozdziale 24.
14.1.3 ogólny szablon dla tabel „Podsumowanie ustaleń”
opracowano kilka alternatywnych standardowych wersji tabel „Podsumowanie ustaleń”, aby zapewnić spójność i łatwość użycia we wszystkich przeglądach, włączenie najważniejszych informacji potrzebnych decydentom i optymalną prezentację (patrz przykłady na Rys. 14.1.a oraz 14.1.b). Formaty te są wspierane przez badania, które koncentrują się na lepszym zrozumieniu informacji, które zamierzają przekazać (Carrasco-Labra et al 2016, Langendam et al 2016, Santesso et al 2016). Są one dostępne za pośrednictwem oficjalnego pakietu oprogramowania GRADE opracowanego w celu wsparcia podejścia GRADE: GRADEPRO GDT (www.gradepro.org
Standardowe tabele „Podsumowanie ustaleń” Cochrane zawierają następujące elementy przy użyciu jednego z akceptowanych formatów. Dalsze wskazówki dotyczące każdego z nich przedstawiono w sekcji 14.1.6.
- Krótki opis populacji i ustalenie, do którego odnoszą się dostępne dowody (które mogą nieznacznie różnić się od tych określonych w pytaniu przeglądowym lub być węższe od tych określonych w pytaniu przeglądowym).
- Krótki opis porównania ujętego w tabeli „Podsumowanie ustaleń”, obejmujący zarówno interwencje eksperymentalne, jak i interwencje porównawcze.
- lista najważniejszych i / lub najważniejszych skutków zdrowotnych, zarówno pożądanych, jak i niepożądanych, ograniczona do siedmiu lub mniejszej liczby wyników.
- miara typowego obciążenia każdego z wyników (np. obrazowe ryzyko lub obrazowa średnia dla interwencji porównawczej).
- bezwzględna i względna wielkość efektu zmierzona dla każdego z nich (jeśli oba są właściwe).
- liczba uczestników i badań przyczyniających się do analizy każdego z wyników.
- ocena stopnia ogólnej pewności materiału dowodowego dla każdego wyniku (który może się różnić w zależności od wyniku).
- miejsce na komentarze.
- objaśnienia (dawniej znane jako Przypisy).
najlepiej, aby tabele „Podsumowanie ustaleń” były poparte bardziej szczegółowymi tabelami (znanymi jako „profile dowodów”), z którymi można powiązać przegląd, które dostarczają bardziej szczegółowych wyjaśnień. Profile dowodów obejmują te same ważne wyniki zdrowotne i dostarczają więcej szczegółów niż tabele „Podsumowanie ustaleń” dotyczące zarówno poszczególnych rozważań uwzględniających klasyfikację pewności, jak i wyników badań (Guyatt et al 2011a). Zapewniają one stosowanie ustrukturyzowanego podejścia do oceny pewności dowodów. Chociaż rzadko są one publikowane w przeglądach Cochrane, profile dowodowe są często wykorzystywane, na przykład, przez twórców wytycznych w rozważaniu pewności dowodów na poparcie zaleceń wytycznych. Autorzy recenzji łatwiej opracują tabelę „Podsumowanie ustaleń”, wypełniając najpierw ocenę pewności dowodów w profilu dowodowym w GRADEpro GDT. Następnie mogą automatycznie przekonwertować to na jeden z formatów „Podsumowanie ustaleń” w GRADEpro GDT, w tym interaktywne „Podsumowanie ustaleń” do publikacji.
jako miara wielkości wpływu na wyniki dychotomiczne, tabela „Podsumowanie ustaleń” powinna dostarczyć względną miarę wpływu (np. współczynnik ryzyka, iloraz szans, ryzyko) i miary bezwzględnego ryzyka. W przypadku innych typów danych wystarczająca może być sama miara bezwzględna (taka jak różnica w środkach dla danych ciągłych). Ważne jest, aby wielkość efektu została przedstawiona w sposób znaczący, co może wymagać pewnej transformacji wyniku metaanalizy (patrz również Rozdział 15, Punkt 15.4 i punkt 15.5). Przeglądy zawierające więcej niż jedno główne porównanie powinny zawierać oddzielną tabelę „Podsumowanie ustaleń” dla każdego porównania.
rysunek 14.1.a Zawiera przykład tabeli „Podsumowanie ustaleń”. Rysunek 15.1.b zapewnia alternatywny format, który może jeszcze bardziej ułatwić użytkownikom zrozumienie i interpretację ustaleń przeglądu. Dowody oceniające różne formaty sugerują, że tabela „Podsumowanie ustaleń” powinna zawierać różnicę ryzyka jako miarę bezwzględnego efektu, a autorzy powinni najlepiej stosować format, który zawiera różnicę ryzyka .
szczegółowy opis zawartości tabeli „Podsumowanie ustaleń” znajduje się w sekcji 14.1.6.
rysunek 14.1.przykład tabeli „Podsumowanie ustaleń”
Podsumowanie ustaleń (w wersji interaktywnej kliknij tutaj)
pończochy uciskowe w porównaniu z bez pończoch uciskowych dla osób wykonujących długie loty |
||||||
pacjenci lub populacja: każdy, kto odbywa długi lot (trwający ponad 6 godzin) Ustawienia: międzynarodowe podróże lotnicze interwencja: zapasy kompresji porównanie: bez pończoch |
||||||
wyniki |
przykładowe ryzyko porównawcze* (95% CI) |
względny wpływ (95% CI) |
liczba uczestników (badania) |
pewność dowodu (stopień) |
||
zakładane ryzyko |
odpowiednie ryzyko |
|||||
bez pończoch |
z pończochami |
|||||
objawowa zakrzepica żył głębokich (DVT) |
Zobacz komentarz |
Zobacz komentarz |
nie do oszacowania |
(9 opracowania) |
Zobacz komentarz |
0 w tych badaniach u uczestników wystąpiła objawowa zakrzepica żył głębokich (DVT). |
bezobjawowa DVT |
populacja niskiego ryzykab |
RR 0.10 (0.04 do 0.26) |
(9 opracowania) |
⊕⊕⊕⊕ wysoka |
||
10 na 1000 |
1 na 1000 (0 do 3) |
|||||
populacja wysokiego ryzykab |
||||||
20 na 1000 |
2 na 1000 (1 do 8) |
|||||
zakrzepica żył powierzchownych |
13 na 1000 |
6 na 1000 (2 do 15) |
RR 0.45 (0.18 do 1.13) |
(8 opracowania) |
⊕⊕⊕◯ Moderatec |
|
obrzęk wartości po locie zmierzone w skali od 0, brak obrzęku, do 10, maksymalny obrzęk |
Średnia ocena obrzęków wahała się w grupach kontrolnych od 6 do 9 |
średni wynik dotyczący obrzęków w grupach interwencyjnych był średnio 4, 7 niższy (95% CI -4, 9 do -4.5) |
(6 opracowania) |
⊕⊕◯◯ Lowd |
||
zator płucny |
Zobacz komentarz |
Zobacz komentarz |
nie do oszacowania |
(9 opracowania) |
Zobacz komentarz |
0 uczestnicy rozwinęli zator płucny w tych badaniach |
śmierć |
Zobacz komentarz |
Zobacz komentarz |
Nie estymable |
(9 opracowania) |
Zobacz komentarz |
0 w badaniach tych zmarli uczestnicy |
działania niepożądane |
Zobacz komentarz |
Zobacz komentarz |
nie do oszacowania |
(4 opracowania) |
Zobacz komentarz |
tolerancja pończoch została opisana jako bardzo dobra, bez skarg na skutki uboczne w 4 badaniach |
*podstawę zakładanego ryzyka stanowi Przypisy Odpowiednie ryzyko (I 95% przedział ufności) opiera się na zakładanym ryzyku w grupie interwencyjnej i względnym efekcie interwencji (i 95% przedział ufności). CI: przedział ufności; RR: współczynnik ryzyka; stopień: stopnie dowodów w grupach roboczych (patrz wyjaśnienia). |
a wszystkie Pończochy w dziewięciu badaniach zawartych w tym przeglądzie były podkolanowymi pończochami uciskowymi. W czterech badaniach wytrzymałość na ściskanie wynosiła od 20 mmHg Do 30 mmHg w kostce. W pozostałych czterech badaniach wynosił on od 10 mmHg Do 20 mmHg. Pończochy występują w różnych rozmiarach. Jeśli Pończocha jest zbyt ciasna wokół kolana, może to zapobiec niezbędnemu powrotowi żylnemu, powodując gromadzenie się krwi wokół kolana. Pończochy uciskowe powinny być odpowiednio dopasowane. Zbyt ciasna Pończocha może przeciąć skórę podczas długiego lotu i potencjalnie spowodować owrzodzenie i zwiększone ryzyko zakrzepicy żył głębokich. Niektóre Pończochy mogą być nieco grubsze niż normalne pokrycie nóg i mogą być potencjalnie restrykcyjne przy ciasnym noszeniu stóp. Dobrym pomysłem jest noszenie pończoch w domu przed podróżą, aby zapewnić dobre, wygodne dopasowanie. W większości badań uczestnicy zakładali pończochy na dwie do trzech godzin przed lotem. Dostępność i koszt pończoch może się różnić.
B do dwóch badań włączono uczestników wysokiego ryzyka zdefiniowanych jako osoby z wcześniejszymi epizodami DVT, zaburzeniami krzepnięcia, ciężką otyłością, ograniczoną ruchliwością z powodu problemów z kośćmi lub stawami, chorobą nowotworową w ciągu ostatnich dwóch lat, dużymi żylakami lub, w jednym z badań, uczestnikami o wzroście powyżej 190 cm i wadze powyżej 90 kg. Częstość występowania w siedmiu badaniach, w których wykluczono uczestników wysokiego ryzyka, wynosiła 1.45%, a częstość występowania w dwóch badaniach, w których brali udział uczestnicy wysokiego ryzyka (z co najmniej jednym czynnikiem ryzyka) wynosiła 2, 43%. Użyliśmy odpowiednio 10 i 30 na 1000, aby wyrazić różne warstwy ryzyka.
c przedział ufności nie przekracza żadnej różnicy i nie wyklucza niewielkiego wzrostu.
d pomiar obrzęku nie został zwalidowany (dokładność wyniku) lub zaślepiony na interwencję (ryzyko błędu).
E Jeśli zdarzeń jest bardzo mało lub nie ma, a liczba uczestników jest duża, osąd dotyczący pewności dowodów (w szczególności osądów dotyczących nieprecyzyjności) może opierać się na skutku absolutnym. W tym przypadku ocena pewności może być uznana za „wysoką”, jeśli wynik został odpowiednio oceniony, a zdarzenie w rzeczywistości nie wystąpiło u 2821 badanych uczestników.
f w żadnym z pozostałych badań nie odnotowano działań niepożądanych, z wyjątkiem czterech przypadków zakrzepicy żył powierzchownych w żylakach w okolicy kolana, które zostały ściśnięte przez górną krawędź Pończochy w jednym badaniu.
rysunek 14.1.B przykład alternatywnej tabeli „Podsumowanie ustaleń”
Podsumowanie ustaleń (w wersji interaktywnej kliknij tutaj): |
||||||
probiotyki w porównaniu z bez probiotyków jako uzupełnienie antybiotyków u dzieci |
||||||
pacjent lub populacja: dzieci otrzymujące antybiotyki Ustawienia: pacjenci i ambulatoryjni interwencja: probiotyki porównanie: bez probiotyków |
||||||
wyniki liczba uczestników (badania) |
działania względne |
oczekiwane efekty bezwzględne* (95% CI) |
pewność dowodu |
|||
bez probiotyków |
z probiotykami |
różnica |
||||
częstość występowania biegunki: dawka probiotyczna 5 miliardów JTK / dobę : 10 dni do 3 miesięcy dzieci < 5 lat |
dzieci < 5 lat |
⊕⊕⊕⊝ moderateb ze względu na ryzyko błędu |
prawdopodobnie zmniejsza częstość występowania biegunki. |
|||
1474 (7 opracowania) |
RR 0, 41 (0, 29 do 0.55) |
22.3%a |
8.9% (6.5 na 12.2) |
13.4% mniej dzieci (10,1 do 15.8 mniej) |
||
dzieci > 5 lat |
dzieci > 5 lat |
⊕⊕⊝⊝ lowb, c ze względu na ryzyko stronniczości i nieprecyzyjności |
może zmniejszać częstość występowania biegunki. |
|||
624 (4 opracowania) |
RR 0, 81 (0, 53 do 1.21) |
11.2%a |
9% (5.9 na 13.6) |
2.2% mniej dzieci ( 5,3 mniej do 2.4 więcej) |
||
działania Niepożądanesd okres obserwacji: 10 do 44 dni 1575 (11 badań) |
1.8%a |
2.3% (0.8 na 3.8) |
0.5% Więcej działań niepożądanych (1 mniej do 2 Więcej) |
⊕⊕⊝⊝ lowf, g ze względu na ryzyko stronniczości i niespójności |
działania niepożądane mogą być niewielkie lub nie występują żadne różnice. |
|
czas trwania biegunki : 10 dni do 3 miesięcy 897 (5 badań) |
średni czas trwania biegunki bez probiotyków wynosił 4 dni. |
0.6 mniej dni (1,18 do 0,02 mniej dni) |
⊕⊕⊝⊝ lowh, i z powodu nieprecyzyjności i niespójności |
może skrócić czas trwania biegunki. |
||
stolce dziennie : 10 dni do 3 miesięcy 425 (4 badania) |
średnia stolce dziennie bez probiotyków wynosiła 2,5 stolce dziennie. |
0.3 mniej stolców dziennie (0,6 do 0 mniej) |
⊕⊕⊝⊝ lowj, k z powodu nieprecyzyjności i niespójności |
nie może być mała lub żadna różnica w stolce dziennie. |
||
*podstawy ryzyka w grupie kontrolnej (np. mediana ryzyka w grupie kontrolnej w różnych badaniach) przedstawiono w przypisach. Ryzyko w grupie interwencyjnej (i jej 95% przedział ufności) opiera się na założonym ryzyku w grupie porównawczej i względnym efekcie interwencji (i 95% przedział ufności). CI: przedział ufności; RR: współczynnik ryzyka. |
||||||
objaśnienia szacunki ryzyka grupy kontrolnej pochodzą ze zbiorczych szacunków grup kontrolnych. Względny efekt w oparciu o dostępną analizę przypadku B wysokie ryzyko stronniczości z powodu dużej straty do obserwacji. C nieprecyzyjność spowodowana nielicznymi zdarzeniami i przedziałami ufności obejmuje znaczne korzyści lub szkody. d działania niepożądane: wysypka, nudności, wzdęcia, wymioty, zwiększona flegma, ból w klatce piersiowej, zaparcia, zaburzenia smaku i niski apetyt. E ryzyko obliczono na podstawie łącznych różnic ryzyka. f wysokie ryzyko błędu. Tylko 11 z 16 badań zgłosiło działania niepożądane, co sugeruje selektywne odchylenie w zgłaszaniu. G Liczne środki probiotyczne i dawki zostały ocenione wśród stosunkowo niewielkiej liczby badań, ograniczając naszą zdolność do wyciągania wniosków na temat bezpieczeństwa wielu środków probiotycznych i dawek podawanych. H poważna niewyjaśniona niespójność (duża heterogeniczność I2 = 79%, wartość P , szacunki punktowe i przedziały ufności znacznie się różnią). i poważne niedokładności. Górna granica 0, 02 krótszego dnia biegunki nie jest uważana za ważną dla pacjenta. J poważna niewyjaśniona niespójność (duża heterogeniczność I2 = 78%, wartość P , szacunki punktowe i przedziały ufności znacznie się różnią). K. 95% przedział ufności nie zawiera żadnego efektu, a dolna granica 0,60 stolca na dobę ma wątpliwe znaczenie dla pacjenta. |
14.1.4 tworzenie tabel „Podsumowanie ustaleń”
oprogramowanie grupy roboczej GRADEPRO GDT (www.gradepro.org), w tym interaktywny podręcznik GRADE, jest dostępny, aby pomóc autorom recenzji w przygotowaniu tabel „Podsumowanie ustaleń”. GRADEpro może wykorzystywać dane dotyczące ryzyka grupy porównawczej i oszacowania efektu (wprowadzone przez autorów recenzji lub importowane z plików wygenerowanych w RevMan) w celu uzyskania względnych efektów i bezwzględnego ryzyka związanego z interwencjami eksperymentalnymi. Ponadto prowadzi użytkownika przez proces oceny oceny i tworzy tabelę, która może być używana jako samodzielna tabela w przeglądzie (w tym przez bezpośredni import do oprogramowania, takiego jak RevMan lub integracja z RevMan Web) lub interaktywną tabelę „Podsumowanie ustaleń” (zobacz zasoby pomocy w GRADEpro).
14.1.5 rozważania statystyczne w tabelach „podsumowanie wyników”
14.1.5.1 wyniki dychotomiczne
tabele „podsumowanie wyników” powinny zawierać zarówno bezwzględne, jak i względne miary wpływu wyników dychotomicznych. Współczynniki ryzyka, współczynniki kursów i różnice ryzyka są różnymi sposobami porównywania dwóch grup z dychotomicznymi danymi wynikowymi (patrz rozdział 6, sekcja 6.4.1). Ponadto istnieją dwa różne współczynniki ryzyka, w zależności od tego, które zdarzenie (np. ” tak ” lub „nie”) jest przedmiotem analizy (zob. rozdział 6, sekcja 6.4.1.5). W przypadku wystąpienia niezerowego efektu interwencji, wszelkie różnice między badaniami w grupie porównawczej ryzyka (tj. zmienność ryzyka zdarzenia występującego bez interwencji będącej przedmiotem zainteresowania, na przykład w różnych populacjach) sprawia, że niemożliwe jest, aby więcej niż jeden z tych środków był rzeczywiście taki sam w każdym badaniu.
w epidemiologii od dawna zakłada się, że względne miary skutków są bardziej spójne niż bezwzględne miary skutków z jednego scenariusza do drugiego. Istnieją dowody empiryczne na poparcie tego założenia (Engels et al 2000, Deeks and Altman 2001, Furukawa et al 2002). Z tego powodu metaanalizy powinny zasadniczo wykorzystywać albo współczynnik ryzyka, albo współczynnik szans jako miarę efektu (patrz rozdział 10, sekcja 10.4.3). W związku z tym jedno oszacowanie względnego efektu może być bardziej odpowiednim podsumowaniem niż jedno oszacowanie bezwzględnego efektu. Jeśli względny efekt jest rzeczywiście spójny we wszystkich badaniach, różne rodzaje ryzyka z grupy porównawczej będą miały różne implikacje dla bezwzględnych korzyści. Na przykład, jeśli współczynnik ryzyka wynosi konsekwentnie 0.75, a następnie eksperymentalna interwencja zmniejszyłaby ryzyko grupy porównawczej o 80% do 60% w grupie interwencyjnej (bezwzględna redukcja ryzyka o 20 punktów procentowych), ale także zmniejszyłaby ryzyko grupy porównawczej o 20% do 15% w grupie interwencyjnej (bezwzględna redukcja ryzyka o 5 punktów procentowych).
tabele „Podsumowanie ustaleń” opierają się na założeniu spójnego efektu względnego. Dlatego ważne jest rozważenie wpływu tego efektu na różne rodzaje ryzyka grupy porównawczej (można je określić lub oszacować na podstawie wielu źródeł, patrz punkt 14.1.6.3), które mogą wymagać oceny pewności dowodów dla dowodów prognostycznych (Spencer et al 2012, Iorio et al 2015). W przypadku każdego ryzyka grupy porównawczej możliwe jest oszacowanie odpowiedniego ryzyka grupy interwencyjnej (tj. bezwzględnego ryzyka związanego z interwencją) na podstawie metaanalitycznego wskaźnika ryzyka lub wskaźnika szans. Należy zauważyć, że liczby podane w kolumnie „odpowiednie ryzyko” są specyficzne dla „ryzyka” w kolumnie sąsiedniej.
dla wskaźnika ryzyka metaanalitycznego (RR) i zakładanego ryzyka porównawczego (ACR) odpowiednie ryzyko interwencji uzyskuje się jako:
.
jako przykład na rysunku 14.1.a, metaanalityczny współczynnik ryzyka bezobjawowej zakrzepicy żył głębokich (DVT) wynosi RR = 0,10 (95% CI 0,04 do 0,26). Przyjmując ryzyko porównawcze ACR = 10 na 1000 = 0,01, otrzymujemy:
.
dla metaanalizy iloraz szans (OR) I zakładanego ryzyka porównawczego, ACR, odpowiednie ryzyko interwencji uzyskuje się jako:
.
górne i dolne granice ufności dla odpowiedniego ryzyka interwencyjnego uzyskuje się poprzez zastąpienie RR lub odpowiednio górną i dolną granicę ufności (np. zastąpienie 0.10 z 0.04, następnie z 0.26, w przykładzie). Takie przedziały ufności nie uwzględniają niepewności w założonym ryzyku porównawczym.
w odniesieniu do wskaźników ryzyka kluczowe znaczenie ma zastosowanie tej samej definicji „zdarzenia”, co w metaanalizie. Na przykład, jeśli metaanaliza koncentrowała się na „Śmierci” (w przeciwieństwie do przeżycia) jako zdarzeniu, to odpowiednie zagrożenia w tabeli „Podsumowanie ustaleń” muszą również odnosić się do „śmierci”.
w (rzadkich) okolicznościach, w których istnieją wyraźne przesłanki do przyjęcia stałej różnicy ryzyka w metaanalizie, zasadniczo możliwe jest przedstawienie jej dla odpowiednich „przyjętych ryzyk” i odpowiadających im ryzyk oraz przedstawienie odpowiednich (różnych) względnych skutków dla każdego założonego ryzyka.
różnica ryzyka wyraża różnicę między ACR a odpowiadającym mu ryzykiem interwencji (lub różnicę między interwencją eksperymentalną a interwencją porównawczą).
dla metaanalitycznego wskaźnika ryzyka (RR) i zakładanego ryzyka porównawczego (ACR) odpowiednią różnicę ryzyka uzyskuje się jako (Należy pamiętać, że ryzyko może być również wyrażone za pomocą procentów lub punktów procentowych):
jako przykład, na rysunku 14.1.b metaanalityczny współczynnik ryzyka wynosi 0,41 (95% CI 0,29 do 0,55) w przypadku biegunki u dzieci w wieku poniżej 5 lat. Przyjmując ryzyko grupy porównawczej na poziomie 22,3% otrzymujemy:
.
dla metaanalizy iloraz szans (OR) I zakładanego ryzyka porównawczego (ACR) bezwzględną różnicę ryzyka uzyskuje się jako (punkty procentowe):
górne i dolne granice ufności dla bezwzględnej różnicy ryzyka uzyskuje się przez ponowne uruchomienie powyższego obliczenia przy zastąpieniu RR lub lub przez ich górne i dolne granice ufności, odpowiednio (np. zastąpienie 0,41 wartością 0,28, a następnie wartością 0,55 w przykładzie). Takie przedziały ufności nie uwzględniają niepewności w założonym ryzyku porównawczym.
14.1.5.2 wyniki Od czasu do zdarzenia
wyniki Od czasu do zdarzenia mierzą, czy i kiedy ma miejsce określone zdarzenie (np. śmierć) (van Dalen et al 2007). Wpływ interwencji eksperymentalnej w stosunku do grupy porównawczej na wyniki od czasu do zdarzenia jest zwykle mierzony przy użyciu współczynnika ryzyka (HR) (patrz rozdział 6, Punkt 6.8.1).
współczynnik ryzyka wyraża względne oszacowanie wpływu. Może być stosowany na różne sposoby w celu uzyskania bezwzględnego ryzyka i innych możliwych do interpretacji ilości dla określonej populacji. Tutaj opisujemy, jak ponownie wyrazić współczynniki ryzyka w kategoriach: (i) bezwzględne ryzyko przeżycia bez zdarzeń w określonym okresie czasu; (ii) bezwzględne ryzyko zdarzenia w określonym okresie czasu; oraz (iii) mediana czasu do zdarzenia. Wszystkie metody opierają się na założeniu spójnych efektów względnych (tj. że współczynnik ryzyka nie zmienia się w czasie).
(i) bezwzględne ryzyko przeżycia wolnego od zdarzeń w określonym okresie czasu przeżycia wolnego od zdarzeń (np. całkowity czas przeżycia) jest często zgłaszane w poszczególnych badaniach. W celu uzyskania bezwzględnego wpływu na czas do zdarzenia mierzonego jako czas przeżycia wolnego od zdarzenia, sumaryczny HR może być stosowany w połączeniu z zakładanym odsetkiem pacjentów, którzy są wolni od zdarzenia w grupie porównawczej (Tierney i wsp.2007). Ten odsetek pacjentów będzie specyficzny dla okresu obserwacji. Nie jest jednak ściśle konieczne określanie tego okresu. Na przykład odsetek 50% pacjentów bez zdarzeń może dotyczyć pacjentów z wysokim wskaźnikiem zdarzeń obserwowanym w ciągu 1 roku lub pacjentów z niskim wskaźnikiem zdarzeń obserwowanym w ciągu 2 lat.
jako przykład załóżmy, że współczynnik ryzyka metaanalitycznego wynosi 0,42 (95% CI 0,25 do 0,72). Przy założeniu grupy porównawczej ryzyka przeżycia wolnego od zdarzeń (np. dla osób żyjących z całkowitym przeżyciem) po 2 latach ACR = 900 na 1000 = 0,9 otrzymujemy:
aby 956 na 1000 ludzi przeżyło eksperymentalną interwencję po 2 latach. Wynik ryzyka należy wyjaśnić w komentarzu lub przypisie.
(ii) bezwzględne ryzyko zdarzenia w określonym okresie czasu, aby uzyskać ten bezwzględny efekt, ponownie można użyć podsumowania HR (Tierney et al 2007):
w przykładzie załóżmy, że przyjmiemy grupę porównawczą ryzyka zdarzeń (np. śmiertelności, śmierci osób) w 2 latach ACR = 100 na 1000 = 0,1. Otrzymujemy:
tak, że 44 na 1000 ludzi umrze z eksperymentalną interwencją po 2 latach.
(iii) mediana czasu do zdarzenia zamiast liczb bezwzględnych, czas do zdarzenia w grupach interwencyjnych i porównawczych może być wyrażony jako mediana czasu przeżycia w miesiącach lub latach. W celu uzyskania mediany czasu przeżycia łączne wartości HR można zastosować do zakładanej mediany czasu przeżycia w grupie porównawczej (Tierney et al 2007):
w przykładzie, zakładając medianę czasu przeżycia grupy porównawczej wynoszącą 80 miesięcy, otrzymujemy:
dla wszystkich trzech z tych opcji ponownego wyrażania wyników analizy czasu do zdarzenia górne i dolne granice ufności dla odpowiedniego ryzyka interwencji uzyskuje się poprzez zastąpienie HR odpowiednio górną i dolną granicą ufności (np. zastąpienie 0,42 0,25, a następnie 0,72 w przykładzie). Ponownie, jeśli chodzi o wyniki dychotomiczne, takie przedziały ufności nie uwzględniają niepewności w założonym ryzyku grupy porównawczej. Ma to szczególne znaczenie dla długoterminowego przeżycia z niskim lub umiarkowanym wskaźnikiem śmiertelności i odpowiadającą temu wysoką liczbą ocenzurowanych pacjentów (tj. niską liczbą pacjentów zagrożonych i wysokim wskaźnikiem ocenzurowania).
14.1.6 szczegółowa treść tabeli „Podsumowanie ustaleń”
14.1.6.1 tytuł i nagłówek tabeli
tytuł każdej tabeli „Podsumowanie ustaleń” powinien określać kwestię opieki zdrowotnej, sformułowaną w kategoriach populacji i jasno określającą, jakie dokładnie porównuje się interwencje. Na Rysunku 14.1.a, populacja to ludzie wykonujący długie loty samolotem, interwencją są pończochy uciskowe, a kontrolą nie są pończochy uciskowe.
pierwsze wiersze każdej tabeli „podsumowanie wyników” powinny zawierać następujące informacje „nagłówek”:
pacjenci lub populacja to dodatkowo wyjaśnia populację (i ewentualnie subpopulacje) będącą przedmiotem zainteresowania, a najlepiej wielkość ryzyka wystąpienia najistotniejszego niekorzystnego wyniku, na który skierowana jest interwencja. Na przykład osoby podróżujące na długich trasach mogą być narażone na różne zagrożenia związane z zakrzepicą żył głębokich; osoby stosujące selektywne inhibitory wychwytu zwrotnego serotoniny (SSRI) mogą być narażone na różne ryzyko wystąpienia działań niepożądanych; natomiast osoby z migotaniem przedsionków mogą być narażone na niskie (< 1%), umiarkowane (1% do 4%) lub wysokie (> 4%) roczne ryzyko udaru.
ustawienie to powinno określać wszelkie szczególne cechy ustawień w kwestii opieki zdrowotnej, które mogą ograniczyć możliwość zastosowania podsumowania ustaleń do innych ustawień (np. podstawowej opieki zdrowotnej w Europie i Ameryce Północnej).
interwencja eksperymentalna.
porównanie interwencja porównawcza (w tym brak interwencji specyficznej).
14.1. 6. 2 wyniki
wiersze tabeli „podsumowanie wyników” powinny zawierać wszystkie pożądane i niepożądane wyniki zdrowotne (wymienione w kolejności ważności), które są niezbędne do podejmowania decyzji, maksymalnie do siedmiu wyników. Jeśli w przeglądzie jest więcej wyników, autorzy przeglądu będą musieli pominąć mniej ważne wyniki z tabeli, a decyzja o wyborze, które Wyniki są krytyczne lub ważne dla przeglądu, powinna zostać podjęta podczas opracowywania protokołu (patrz rozdział 3). Autorzy recenzji powinni określić ramy czasowe pomiaru wyników (np. 90 dni lub 12 miesięcy)oraz rodzaj wyników (np. od 0 do 100).
zwróć uwagę, że autorzy recenzji powinni uwzględnić w tabeli wstępnie określone krytyczne i ważne wyniki, niezależnie od tego, czy dane są dostępne, czy nie. Powinny one jednak zwracać uwagę na możliwość, że znaczenie wyniku (np. poważnego niekorzystnego działania) może stać się znane dopiero po sporządzeniu protokołu lub przeprowadzeniu analizy, i powinny podjąć odpowiednie działania w celu uwzględnienia ich w tabeli „Podsumowanie ustaleń”.
tabela „podsumowanie wyników” może zawierać efekty w podgrupach populacji dla różnych rodzajów ryzyka porównawczego i wielkości efektów oddzielnie. Na przykład na rysunku 14.1.B efekty są przedstawione oddzielnie dla dzieci młodszych i starszych niż 5 lat. Autorzy przeglądu mogą również zdecydować się na sporządzenie oddzielnych tabel „podsumowania wyników” dla różnych populacji.
autorzy przeglądu powinni uwzględnić poważne zdarzenia niepożądane, ale możliwe jest połączenie drobnych zdarzeń niepożądanych jako jednego wyniku i opisanie tego w przypisie wyjaśniającym (należy zauważyć, że nie jest właściwe sumowanie zdarzeń, chyba że są one niezależne, tzn. uczestnik, który doświadczył jednego zdarzenia niepożądanego, ma niezakłóconą szansę na wystąpienie drugiego zdarzenia niepożądanego).
wyniki mierzone w wielu punktach czasowych stanowią szczególny problem. Ogólnie rzecz biorąc, aby utrzymać prostą tabelę, autorzy recenzji powinni przedstawiać wiele punktów czasowych tylko dla wyników krytycznych dla podejmowania decyzji, w których wynik lub podjęta decyzja mogą się zmieniać w czasie. Pozostała część powinna być przedstawiona we wspólnym punkcie czasowym, o ile to możliwe.
autorzy recenzji mogą przedstawiać ciągłe środki zaradcze w tabeli „Podsumowanie ustaleń” i powinni starać się, aby były one interpretowalne dla docelowych odbiorców. Wymaga to, aby jednostki były jasne i łatwo interpretowalne, na przykład dni bólu lub częstotliwość bólu głowy, a także należy podać nazwę i skalę wszelkich stosowanych narzędzi pomiarowych (np. wizualną skalę analogową, od 0 do 100). Jednak wiele instrumentów pomiarowych nie jest łatwo interpretowalnych przez lekarzy specjalistów lub pacjentów, na przykład punkty na inwentarzu depresji Becka lub wynik jakości życia. Dla tych, bardziej interpretowalna prezentacja może obejmować przekształcenie ciągłego w wynik dychotomiczny, taki jak >50% poprawa (patrz rozdział 15, SEKCJA 15.5).
14.1. 6. 3 najlepsze oszacowanie ryzyka w przypadku interwencji porównawczej
autorzy przeglądu powinni podać maksymalnie trzy typowe zagrożenia dla uczestników otrzymujących interwencję porównawczą. W przypadku wyników dychotomicznych zalecamy przedstawienie ich w postaci liczby osób doświadczających zdarzenia na 100 lub 1000 osób (częstotliwość naturalna) w zależności od częstotliwości wyniku. W przypadku wyników ciągłych jest to wartość średnia lub mediana mierzonego wyniku.
szacowane lub zakładane ryzyko interwencji porównawczej może być oparte na ocenach typowego ryzyka w różnych grupach pacjentów pochodzących z samego przeglądu, poszczególnych reprezentatywnych badań w przeglądzie lub ryzyka wynikającego z systematycznego przeglądu badań rokowania lub innych źródeł dowodów, które z kolei mogą wymagać oceny pewności dla dowodów prognostycznych (Spencer et al 2012, Iorio et al 2015). Najlepiej byłoby, gdyby ryzyko odzwierciedlało grupy, które lekarze mogą łatwo zidentyfikować na podstawie prezentowanych przez siebie cech.
przypis wyjaśniający powinien określać źródło lub uzasadnienie dla każdego ryzyka grupy porównawczej, w tym okres, któremu odpowiada, w stosownych przypadkach. Na Rysunku 14.1.a, klinicyści mogą łatwo odróżnić osoby z czynnikami ryzyka zakrzepicy żył głębokich od osób bez. Jeśli wiadomo, że różnice w ryzyku wyjściowym są niewielkie, autorzy przeglądu mogą wykorzystać medianę ryzyka grupy porównawczej we wszystkich badaniach. Jeśli typowe zagrożenia nie są znane, można wybrać ryzyko z włączonych badań, zapewniając drugie najwyższe dla populacji wysokiego i drugie najniższe dla populacji niskiego ryzyka.
14, 1, 6, 4 ryzyko w przypadku interwencji
w przypadku wyników dychotomicznych autorzy przeglądu powinni podać odpowiednie bezwzględne ryzyko dla każdej grupy porównawczej wraz z przedziałem ufności. To bezwzględne ryzyko związane z interwencją (eksperymentalną) zwykle wynika z wyniku metaanalizy przedstawionej w kolumnie efektu względnego (patrz punkt 14.1.6.6). Wzory przedstawiono w sekcji 14.1.5. Autorzy przeglądu powinni przedstawić bezwzględny efekt w takim samym formacie, jak ryzyko związane z interwencją porównawczą (patrz punkt 14.1.6.3), na przykład jako liczbę osób doświadczających zdarzenia na 1000 osób.
w przypadku wyników ciągłych należy przedstawić różnicę w średniej lub znormalizowaną różnicę w średniej wraz z przedziałem ufności. Zazwyczaj są one uzyskiwane bezpośrednio z metaanalizy. W celu wyjaśnienia znaczenia należy zastosować tekst wyjaśniający, jak na Rys. 14.1.a oraz 14.1.b.
14.1.6.5 różnica ryzyka
w przypadku wyników dychotomicznych różnicę ryzyka można podać, korzystając z jednego z formatów tabeli „Podsumowanie ustaleń” jako opcji dodatkowej (patrz rysunek 14.1.b). Ta różnica ryzyka wyraża różnicę między interwencją eksperymentalną i porównawczą i zwykle wynika z wyniku metaanalizy przedstawionej w kolumnie efektów względnych (patrz punkt 14.1.6.6). Wzory przedstawiono w sekcji 14.1.5. Autorzy przeglądu powinni przedstawić różnicę ryzyka w takim samym formacie jak zakładany i odpowiadające im ryzyko w przypadku interwencji porównawczej( patrz punkt 14.1.6.3); na przykład jako liczbę osób doświadczających zdarzenia na 1000 osób lub jako punkty procentowe, jeśli zakładane i odpowiadające im ryzyko są wyrażone w procentach.
w przypadku wyników ciągłych, jeśli tabela „Podsumowanie ustaleń” zawiera tę opcję, można tu przedstawić średnią różnicę, a Kolumna „odpowiednie ryzyko” pozostawić pustą (patrz rysunek 14.1.b).
14.1.6.Efekt względny (95% CI)
efektem względnym będzie zazwyczaj współczynnik ryzyka lub iloraz szans (lub sporadycznie współczynnik ryzyka) z towarzyszącym mu 95% przedziałem ufności, uzyskany z metaanalizy wykonanej na podstawie tego samego miary wpływu. Wskaźniki ryzyka i kursy są podobne, gdy ryzyko interwencji porównawczej jest niskie, a efekty są małe, ale mogą się znacznie różnić, gdy ryzyko grupy porównawczej wzrasta. Metaanaliza może obejmować założenie efektów stałych lub losowych, w zależności od tego, co autorzy recenzji uznają za właściwe, i sugerując, że efekt względny jest albo oszacowaniem efektu interwencji, albo oszacowaniem średniego efektu interwencji w badaniach, odpowiednio.
14.1. 6. 7 liczba uczestników (badania)
kolumna ta powinna zawierać liczbę uczestników ocenionych w ramach włączonych badań dla każdego wyniku oraz odpowiednią liczbę badań, które przyczyniły się do tych uczestników.
14.1.6.8 pewność dowodów (stopień)
autorzy recenzji powinni skomentować pewność dowodów (znaną również jako jakość materiału dowodowego lub zaufanie do oszacowań skutków). Autorzy przeglądu powinni korzystać ze specjalnego systemu klasyfikacji dowodów opracowanego przez Grupę Roboczą ds. oceny (Atkins et al 2004, Guyatt et al 2008, Guyatt et al 2011a), który został szczegółowo opisany w sekcji 14.2. Metoda oceny klasyfikuje pewność w materiale dowodowym jako „wysoką”, „umiarkowaną”, „niską” lub „bardzo niską” w zależności od wyniku. Jest to wynikiem osądu, ale proces osądu działa w ramach przejrzystej struktury. Na przykład pewność byłaby „wysoka”, gdyby podsumowanie obejmowało kilka randomizowanych badań o niskim ryzyku błędu, ale ocena pewności staje się niższa, jeśli istnieją obawy dotyczące ryzyka błędu, niespójności, dokładności, nieprecyzyjności lub błędu w publikacji. Oceny inne niż „wysoka” pewność powinny być przejrzyste za pomocą przypisów wyjaśniających lub kolumny „uwagi” w tabeli „Podsumowanie ustaleń” (zob. sekcja 14.1.6.10).
14.1.6.9 Komentarze
celem pola „komentarze” jest pomoc w interpretacji informacji lub danych zidentyfikowanych w wierszu. Na przykład, może to dotyczyć ważności miary wyniku lub obecności zmiennych, które są związane z wielkością efektu. Ważne zastrzeżenia dotyczące wyników powinny być oznaczone tutaj. Nie wszystkie wiersze będą wymagały komentarzy, a najlepiej zostawić puste, jeśli nie ma nic uzasadniającego komentarz.
14.1.6.10 objaśnień
szczegółowe wyjaśnienia powinny być dołączone jako Przypisy na poparcie ocen w tabeli „Podsumowanie ustaleń”, takiej jak ogólna ocena stopnia. Wyjaśnienia powinny opisywać uzasadnienie ważnych aspektów treści. Tabela 14.1.zawiera wskazówki dotyczące przydatnych wyjaśnień. Wyjaśnienia powinny być zwięzłe, pouczające, istotne, łatwe do zrozumienia i dokładne. Jeśli wyjaśnienia nie mogą być wystarczająco opisane w przypisach, autorzy recenzji powinni podać dalsze szczegóły dotyczące zagadnień w sekcjach wyników i dyskusji recenzji.
wytyczne dotyczące dostarczania użytecznych wyjaśnień w tabelach „Podsumowanie ustaleń” (SoF). Adaptacja z Santesso et al (2016)
Ogólne wskazówki
- wprowadź informacje dla czytelników bezpośrednio do tabeli, jeśli to możliwe (np. informacje o czasie trwania obserwacji lub zastosowanej skali).
- ogólnie nie należy powoływać się na odniesienia w sekcji objaśnienia, chyba że istnieją szczególne powody, na przykład, dla dostarczenia informacji o źródłach ryzyka wyjściowego (zob. pkt 3).
- po zakończeniu tabeli przejrzyj wszystkie wyjaśnienia, aby ustalić, czy niektóre z nich mogą być wielokrotnie odwoływane, jeśli zostały przeredagowane lub połączone.
- podaj powody uaktualnienia i obniżenia oceny (patrz Wskazówki dotyczące domeny poniżej) i użyj oprogramowania GRADEPRO GDT, aby przestrzegać wskazówek dotyczących oceny.
- zbiór dowodów na konkretny wynik może być uznany za poważny lub bardzo poważny problem dla dotkniętej domeny (lub krytycznie Poważny z powodu ryzyka stronniczości, gdy używa się ROBINS-I). W związku z tym może być użyteczne wskazanie liczby poziomów do obniżenia (np. obniżony o jeden poziom dla ryzyka błędu), ale uniknięcie powtarzania tego, co znajduje się w tabeli (i wrażenia raportowania schematycznego lub algorytmicznego). W profilach dowodów informacje te znajdują się już w komórkach tabeli.
- chociaż wyjaśnienia dotyczące pewności w dowodach są przede wszystkim wymagane, gdy zmieniają one pewność, rozważ dodanie wyjaśnienia, Gdy pewność w dowodach nie została zmieniona, ale gdy decyzja ta może zostać zakwestionowana przez innych. Pomoże to w zrozumieniu przyczyn nieporozumień.
- wprowadź wyniki dla wyników, których nie można było połączyć statystycznie w metaanalizie (tj. wyniki narracyjne) bezpośrednio do tabeli SoF w kolumnach wyników. Wyjaśnienie może nie być konieczne do przekazania tych wyników. Jeżeli jest to uznane za korzystne dla zamierzonej grupy odbiorców, w kolumnie komentarzy należy dodać uzupełniające szacunki efektów interwencji (np. liczbę potrzebną do leczenia z korzyścią i szkodą, różnicę ryzyka wyrażoną w procentach, ciągły wynik wyrażony w jednostkach minimalnej ważnej różnicy).
- wykorzystaj informacje przedstawione w wyjaśnieniach dotyczących procesu oceny, aby poinformować inne kluczowe części recenzji, w tym wersje zbiorcze i dyskusję.
szczegółowe wskazówki dotyczące pisania użytecznych wyjaśnień
ryzyko błędu
- opisują liczbę badań lub ilość informacji, które dostarczają w metaanalizie, które były narażone na wysokie ryzyko błędu i dla jakiego kryterium.
- używaj terminów takich jak większość, mniejszość, wszystkie, niektóre lub żadne; lub liczba badań jako X/X studiów.
- w przypadku badań randomizowanych należy podać szczegółowe kryteria, w tym ukrywanie sekwencji przydziału, selektywne raportowanie wyników itp. W przypadku badań niezdolomizowanych opisz kryterium w używanym narzędziu (np. przy użyciu narzędzia ROBINS-I).
- wskazać, czy w analizie wrażliwości zbadano wpływ ryzyka błędu. W stosownych przypadkach należy podać wkład badań O WYSOKIM RYZYKU stronniczości w szacunki.
- informacje na temat projektu badania mogą być zawarte w wyjaśnieniach, w szczególności w SoF, gdy uwzględniono różne projekty badań.
niespójność
- wskazuje środek używany do oceny niespójności, taki jak test statystyczny lub miara (I2, Chi2, Tau) lub nakładanie się przedziałów ufności lub podobieństwo oszacowań punktowych.
- jeśli I2 bazuje na I2, opisz go jako znaczący, znaczący, umiarkowany lub nieistotny.
- w stosownych przypadkach podać, czy heterogeniczność była badana w analizach podgrup przez PICO (pacjenci, interwencja, porównanie, wynik) i czy istnieją inne potencjalne przyczyny heterogeniczności.
- w przypadku pojedynczego badania dla wyniku, powiedz, że nie ma „żadnego”, A Nie „Nie dotyczy”.
Imprecision
- wskazuje, gdzie wielkość próby lub liczba zdarzeń nie spełnia optymalnej wielkości informacji obliczonej lub „reguł kciuka” (np. 400 zdarzeń). Unikać odniesienia do liczby badań jako przyczyny nieprecyzyjności.
- wskazać, czy przedziały ufności obejmują możliwość wystąpienia małego lub żadnego skutku oraz ważnych korzyści lub szkód. Jeżeli jest znany, należy podać wartość liczbową progu istotnej korzyści.
- unikaj podawania wyniku jako statystycznie lub statystycznie istotnego.
modernizacja
- Wymień przyczynę modernizacji: ze względu na duży efekt; gradient dawka-odpowiedź; lub wiarygodne pozostałości przeciwstawne mylące zwiększa pewność dowodów.
- w przypadku dużych efektów należy zgłosić, czy względny efekt wynosi >2 lub > 5. W przypadku gradientów dawka-odpowiedź należy podać poziom interwencji i wpływ na wynik. W odniesieniu do dziedziny „prawdopodobne rezydualne przeciwstawne pomieszanie” należy opisać wpływ czynnika zakłócającego na oszacowanie.
14.2 ocena pewności lub jakości materiału dowodowego
14.2.1 podejście do oceny
Grupa Robocza ds. oceny rekomendacji, oceny, rozwoju i oceny (Grupa Robocza ds. oceny) opracowała system klasyfikacji pewności materiału dowodowego (Schünemann et al 2003, Atkins et al 2004, Schünemann et al 2006, Guyatt et al 2008, Guyatt et al 2011a). Ponad 100 organizacji, w tym Światowa Organizacja Zdrowia (WHO), American College Of Physicians, American Society of Hematology (ASH), Kanadyjska Agencja Leków i Technologii w zdrowiu (CADTH) oraz Narodowe Instytuty Zdrowia i doskonałości klinicznej (NICE) w Wielkiej Brytanii przyjęły system oceny (www.gradeworkinggroup.org).
Cochrane również formalnie przyjęło to podejście, a wszystkie przeglądy Cochrane powinny wykorzystywać ocenę do oceny pewności dowodów ważnych wyników (patrz MECIR Ramka 14.2.a).
Mecir Box 14.2.istotne oczekiwania dotyczące przeprowadzania przeglądów interwencyjnych
C74: ocena pewności materiału dowodowego (obowiązkowe) |
|
w celu oceny pewności materiału dowodowego dla każdego wyniku i wyciągnięcia wniosków na temat pewności materiału dowodowego w tekście przeglądu należy wykorzystać pięć czynników (ryzyko stronniczości, spójność skutków, nieprecyzyjność, dokładność i stronniczość publikacji). |
GRADE jest najczęściej stosowanym podejściem do podsumowania zaufania do efektów interwencji w wyniku badań. Zaleca się korzystanie z narzędzia online GRADEpro i korzystanie z niego zgodnie z opisem w systemie pomocy oprogramowania. Powinno to pomóc zapewnić, że zespoły autorów mają dostęp do tych samych informacji w celu informowania o swoich ocenach. Najlepiej byłoby, gdyby dwie osoby pracujące niezależnie oceniały pewność materiału dowodowego i osiągały konsensus w sprawie wszelkich decyzji o obniżeniu oceny. Uwagi dotyczące pięciu kategorii należy rozpatrywać niezależnie od tego, czy Przegląd zawiera tabelę „Podsumowanie ustaleń”. Warto skorzystać z tych informacji w dyskusji, we wnioskach autorów i przekazać pewność w dowodach w streszczeniu abstrakcyjnym i prostym języku. |
C75: uzasadnienie oceny pewności materiału dowodowego (obowiązkowe) |
|
Uzasadnij i udokumentuj wszystkie oceny pewności materiału dowodowego (np. obniżenie lub podwyższenie klasy). |
przyjęcie ustrukturyzowanego podejścia zapewnia przejrzystość w formułowaniu interpretacji dowodów, a wynik jest bardziej informacyjny dla użytkownika. |
w przypadku przeglądów systematycznych podejście stopniowe definiuje pewność materiału dowodowego jako zakres, w jakim można mieć pewność, że oszacowanie skutku lub związku jest bliskie ilości szczególnego zainteresowania. Ocena pewności materiału dowodowego obejmuje rozważenie wewnątrz-i w całym badaniu ryzyka błędu (ograniczenia w projektowaniu i realizacji badania lub jakości metodologicznej), niespójności (lub heterogeniczności), nieprecyzyjności dowodów, nieprecyzyjności oszacowań skutków i ryzyka błędu publikacji (patrz punkt 14.2.2), a także dziedzin, które mogą zwiększyć nasze zaufanie do oszacowania skutków (jak opisano w punkcie 14.2.3). System ocen obejmuje ocenę pewności materiału dowodowego dla każdego indywidualnego wyniku. Oceny dotyczące dziedzin, które decydują o pewności dowodów, powinny być opisane w sekcji wyników lub dyskusji oraz jako część tabeli „Podsumowanie ustaleń”.
podejście klasy określa cztery poziomy pewności (rysunek 14.2.a). W przypadku interwencji, w tym testów diagnostycznych i innych, które są oceniane jako interwencje (Schünemann et al 2008b, Schünemann et al 2008a, Balshem et al 2011, Schünemann et al 2012), punkt wyjścia do oceny pewności dowodów dzieli się na dwa typy:
- badania randomizowane; i
- niezdolomizowane badania interwencji (nrsi), w tym badania obserwacyjne (w tym, ale nie ograniczając się do badań kohortowych i badań kontroli przypadku, badań przekrojowych, serii przypadków i raportów przypadków, chociaż nie wszystkie z tych projektów są zwykle uwzględniane w przeglądach Cochrane).
istnieje wiele przypadków, w których autorzy recenzji opierają się na informacjach z NRSI, w szczególności w celu oceny potencjalnych szkód (patrz rozdział 24). Ponadto autorzy recenzji mogą uzyskać odpowiednie dane zarówno z randomizowanych badań, jak i NRSI, przy czym każdy rodzaj dowodów uzupełnia drugi (Schünemann et al 2013).
w klasyfikacji materiał dowodowy z randomizowanych badań rozpoczyna się od oceny o wysokiej pewności, podczas gdy materiał dowodowy z NRSI zaczyna się od oceny o niskiej pewności. Niższa ocena z NRSI jest wynikiem potencjalnego odchylenia wywołanego brakiem randomizacji (tj. odchylenia mylącego i selekcji).
jednak przy użyciu nowego ryzyka błędu w Niezdolomizowanych badaniach interwencyjnych (ROBINS-i) narzędzie (Sterne et al 2016), Narzędzie oceny, które obejmuje ryzyko błędu z powodu braku randomizacji, wszystkie badania mogą rozpocząć się jako wysoka pewność dowodów (Schünemann et al 2018). Podejście polegające na rozpoczęciu wszystkich projektów badań (w tym NRSI) jako wysoka pewność nie koliduje z podejściem dotyczącym początkowej oceny, polegającym na rozpoczęciu oceny nrsi jako dowodów o niskiej pewności. Wynika to z faktu, że materiał dowodowy z NRSI powinien być ogólnie obniżony o dwa poziomy ze względu na nieodłączne ryzyko błędu związane z brakiem randomizacji, a mianowicie błąd mylący i błąd selekcji. Nie obniżenie nrsi z wysokiej do niskiej pewności wymaga przejrzystego i szczegółowego uzasadnienia tego, co łagodzi obawy dotyczące błędu i błędu selekcji (Schünemann et al 2018). Obecnie istnieje bardzo niewiele przykładów, w których nie można obniżyć ratingu o dwa poziomy.
najwyższa ocena pewności jest materiałem dowodowym, gdy nie ma obaw co do żadnego z czynników oceny wymienionych na rysunku 14.2.a. autorzy przeglądu często obniżają ocenę dowodów do umiarkowanych, niskich lub nawet bardzo niskich dowodów pewności, w zależności od obecności pięciu czynników na rysunku 14.2.a. zazwyczaj ocena pewności spadnie o jeden poziom dla każdego czynnika, maksymalnie do trzech poziomów dla wszystkich czynników. Jeśli występują bardzo poważne problemy dla jednej domeny (np. przy ocenie ryzyka błędu, wszystkie badania były nieskrępowane, nieskrępowane i straciły ponad 50% pacjentów do obserwacji), dowody mogą spaść o dwa poziomy z powodu samego tego czynnika. Nie można ocenić dowodów niższych niż „bardzo niska pewność”.
autorzy recenzji generalnie oceniają dowody z badań dźwiękowych niezdolomizowanych jako niską pewność, nawet jeśli używa się ROBINS-I. Jeśli jednak takie badania przynoszą duże efekty i nie ma oczywistego błędu wyjaśniającego te efekty, autorzy przeglądu mogą ocenić dowody jako umiarkowane lub-jeśli efekt jest wystarczająco duży – nawet jako wysoką pewność (rysunek 14.2.a). Bardzo niski poziom pewności jest odpowiedni, ale nie ogranicza się do badań z krytycznymi problemami i niesystematycznych obserwacji klinicznych (np. serii przypadków lub opisów przypadków).