Kapitel 14: komplettering av tabeller med sammanfattande resultat och bedömning av bevissäkerheten | Cochrane-utbildningen

Holger J Schubbiznemann, Julian PT Higgins, Gunn e Vist, Paul Glasziou, Elie a Akl, Nicole Skoetz, Gordon h Guyatt; på uppdrag av Cochrane GRADEing Methods Group (tidigare Applicability and Recommendations Methods Group) och Cochrane Statistical Methods Group

viktiga punkter:
14.1′ sammanfattning av resultaten ’tabeller
14.1.1 introduktion till’ Sammanfattning av resultaten’tabeller
14.1.2 urval av resultat för Tabeller över sammanfattningar av resultat
14.1.3 allmän mall för Tabeller över sammanfattningar av resultat
14.1.4 producera ’sammanfattning av resultaten’ tabeller
14.1.5 statistiska överväganden i ’sammanfattning av fynd’ tabeller
14.1.5.1 dikotoma resultat
14.1.5.2 Time-to-event-resultat
14.1.6 detaljerat innehåll i en ’sammanfattning av resultaten’ tabell
14.1.6.1 Tabellrubrik och rubrik
14.1.6.2 resultat
14.1.6.3 bästa uppskattning av risk med jämförelseintervention
14.1.6.4 Risk med intervention
14.1.6.5 riskskillnad
14.1.6.6 relativ effekt (95% ki)
14.1.6.7 antal deltagare (studier)
14.1.6.8 bevisets säkerhet (betyg)
14.1.6.9 kommentarer
14.1.6.10 förklaringar
14.2 bedömning av säkerheten eller kvaliteten på ett bevismaterial
14.2.1 GRADE-metoden

viktiga punkter:

en sammanfattning av resultaten för en given jämförelse av interventioner ger viktig information om storleken på relativa och absoluta effekter av de undersökta interventionerna, mängden tillgängliga bevis och säkerheten (eller kvaliteten) av tillgängliga bevis.
’sammanfattning av resultat’ tabeller inkluderar en rad för varje viktigt resultat (upp till högst sju). Godkända format för Tabeller över sammanfattande resultat och interaktiva tabeller över sammanfattande resultat kan produceras med grades programvara GRADEpro GDT.
Cochrane har antagit GRADE-metoden (betygsättning av rekommendationer bedömning, utveckling och utvärdering) för att bedöma säkerhet (eller kvalitet) för en bevismassa.
GRADE-metoden specificerar fyra nivåer av säkerhet för en mängd bevis för ett givet resultat: hög, måttlig, låg och mycket låg.
BETYGSBEDÖMNINGAR av säkerhet bestäms genom övervägande av fem domäner: risk för bias, inkonsekvens, indirectness, oprecision och publiceringsbias. För bevis från icke-randomiserade studier och sällan randomiserade studier kan bedömningar sedan uppgraderas genom övervägande av ytterligare tre domäner.

Cite detta kapitel som: Schubbiannemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Kapitel 14: komplettering av tabeller över sammanfattningar av resultat och klassificering av bevisens säkerhet. I: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, sida MJ, Welch VA (redaktörer). Cochrane Handbook for Systematic Reviews of Interventions version 6.2 (uppdaterad februari 2021). Cochrane, 2021. Tillgänglig från www.utbildning.cochrane.org/handbook.

14.1′ sammanfattning av resultaten ’tabeller

14.1.1 introduktion till’ Sammanfattning av resultaten’tabeller

’ sammanfattning av resultaten ’ tabeller presenterar de viktigaste resultaten av en översyn i ett öppet, strukturerat och enkelt tabellformat. De ger särskilt viktig information om bevisens säkerhet eller kvalitet (dvs. förtroende eller säkerhet inom intervallet för en effektberäkning eller en sammanslutning), omfattningen av effekten av de undersökta interventionerna och summan av tillgängliga uppgifter om de viktigaste resultaten. Cochrane recensioner bör innehålla ’sammanfattning av resultaten’ tabeller under planering och publicering, och bör ha minst en viktig ’sammanfattning av resultaten’ tabell som representerar de viktigaste jämförelserna. Vissa granskningar kan innehålla mer än en tabell över sammanfattningar av resultat, till exempel om granskningen tar upp mer än en större jämförelse eller innehåller väsentligt olika populationer som kräver separata tabeller (t.ex. för att effekterna skiljer sig åt eller det är viktigt att visa resultaten separat). I Cochrane Database of Systematic Reviews (CDSR) visas den huvudsakliga sammanfattningen av resultaten i en granskning i början, före Bakgrundssektionen. Andra ’sammanfattning av resultaten’ tabeller visas mellan resultaten och Diskussionsavsnitt.

14.1.2 urval av resultat för Tabeller över sammanfattningar av resultat

planering av tabellen över sammanfattningar av resultat börjar tidigt i den systematiska översynen, med valet av resultat som ska ingå i: (i) översynen; och (ii) tabellen över sammanfattningar av resultat. Detta är ett viktigt steg, och en som granskningsförfattare måste ta itu med noggrant.

för att säkerställa produktion av optimalt användbar information börjar Cochrane-recensioner med att utveckla en granskningsfråga och genom att lista alla huvudresultat som är viktiga för patienter och andra beslutsfattare (se kapitel 2 och kapitel 3). GRADE-metoden för att bedöma bevisens säkerhet (se avsnitt 14.2) definierar och operationaliserar en betygsprocess som hjälper till att separera resultat i de som är kritiska, viktiga eller inte viktiga för beslutsfattandet. Samråd och feedback om granskningsprotokollet, inklusive från konsumenter och andra beslutsfattare, kan förbättra denna process.

kritiska resultat kommer sannolikt att inkludera tydligt viktiga slutpunkter; typiska exempel inkluderar dödlighet och större sjuklighet (såsom stroke och hjärtinfarkt). De kan dock också representera frekventa mindre och sällsynta stora biverkningar, symtom, livskvalitet, bördor i samband med behandling och resursproblem (kostnader). Bördor representerar effekten av vårdbelastningen på patientens funktion och välbefinnande och inkluderar kraven på att följa ett ingrepp som patienter eller vårdgivare (t.ex. familj) kan ogillar, till exempel att behöva genomgå mer frekventa tester eller de restriktioner för livsstil som vissa ingrepp kräver (Spencer-Bonilla et al 2017).

ofta, när man formulerar frågor som inkluderar alla patientviktiga resultat för beslutsfattande, kommer granskningsförfattare att konfrontera rapporter om studier som inte har inkluderat alla dessa resultat. Detta gäller särskilt för negativa resultat. Till exempel kan randomiserade studier bidra med bevis på avsedda effekter och på frekventa, relativt små biverkningar, men rapporterar inte om sällsynta negativa resultat som självmordsförsök. Kapitel 19 diskuterar strategier för att hantera negativa effekter. För att få data för alla viktiga resultat kan det vara nödvändigt att undersöka resultaten från icke-randomiserade studier (se kapitel 24). Cochrane, i samarbete med andra, har utvecklat vägledning för granskningsförfattare för att stödja sitt beslut om när man ska leta efter och inkludera icke-randomiserade studier (Sch Kaukasusnemann et al 2013).

om en granskning endast innehåller randomiserade studier, kan dessa studier inte ta itu med alla viktiga resultat och det kan därför inte vara möjligt att ta itu med dessa resultat inom ramen för granskningen. Granskningsförfattare bör erkänna dessa begränsningar och göra dem transparenta för läsarna. Granskningsförfattare uppmuntras att inkludera icke-randomiserade studier för att undersöka sällsynta eller långsiktiga biverkningar som kanske inte studeras tillräckligt i randomiserade studier. Detta ökar möjligheten att skada resultat kan komma från studier där deltagarna skiljer sig från de i studier som används i analysen av nytta. Granskningsförfattare kommer då att behöva överväga hur mycket sådana skillnader sannolikt kommer att påverka resultaten, och detta kommer att påverka bevissäkerheten på grund av oro för indirekthet relaterad till befolkningen (se avsnitt 14.2.2).

icke-randomiserade studier kan ge viktig information inte bara när randomiserade studier inte rapporterar om ett resultat eller randomiserade studier lider av indirectness, men också när bevisen från randomiserade studier klassificeras som mycket låga och icke-randomiserade studier ger bevis för högre säkerhet. Ytterligare diskussion om dessa frågor visas också i kapitel 24.

14.1.3 allmän mall för Tabeller över sammanfattningar av resultat

flera alternativa standardversioner av tabeller över sammanfattningar av resultat har utvecklats för att säkerställa enhetlighet och användarvänlighet i granskningar, inkludering av den viktigaste informationen som behövs av beslutsfattare och optimal presentation (se exempel i figurerna 14.1.a och 14.1.h). Dessa format stöds av forskning som fokuserar på förbättrad förståelse av den information de avser att förmedla (Carrasco-Labra et al 2016, Langendam et al 2016, Santesso et al 2016). De är tillgängliga via grades officiella mjukvarupaket som utvecklats för att stödja GRADE-metoden: GRADEpro GDT (www.gradepro.org).

Standard Cochrane ’sammanfattning av resultat’ tabeller innehåller följande element med ett av de accepterade formaten. Ytterligare vägledning om var och en av dessa finns i avsnitt 14.1.6.

en kort beskrivning av befolkningen och inställningen som behandlas av tillgängliga bevis (som kan vara något annorlunda eller smalare än de som definieras i granskningsfrågan).
en kort beskrivning av jämförelsen som behandlas i tabellen sammanfattning av resultaten, inklusive både experimentella och jämförelseinterventioner.
en lista över de mest kritiska och/eller viktiga hälsoutfallen, både önskvärda och oönskade, begränsade till sju eller färre resultat.
ett mått på den typiska bördan för varje utfall (t.ex. illustrativ risk eller illustrativt medelvärde vid jämförelseintervention).
den absoluta och relativa storleken på effekten uppmätt för varje (om båda är lämpliga).
antalet deltagare och studier som bidrar till analysen av varje resultat.
en betygsbedömning av den övergripande säkerheten för bevismaterialet för varje resultat (som kan variera beroende på resultat).
utrymme för kommentarer.
förklaringar (tidigare känd som fotnoter).

helst stöds tabellerna sammanfattning av resultat av mer detaljerade tabeller (så kallade bevisprofiler) som granskningen kan kopplas till, vilket ger mer detaljerade förklaringar. Evidensprofiler inkluderar samma viktiga hälsoresultat och ger större detaljer än’ sammanfattning av fynd ’ tabeller över båda de enskilda övervägandena som matar in i klassificeringen av säkerhet och resultaten av studierna (Guyatt et al 2011a). De säkerställer att ett strukturerat tillvägagångssätt används för att bedöma bevissäkerheten. Även om de sällan publiceras i Cochrane recensioner, används bevisprofiler ofta, till exempel, av riktlinjeutvecklare när man överväger säkerheten för bevisen för att stödja riktlinjerekommendationer. Granska författare kommer att finna det lättare att utveckla ’sammanfattning av resultaten’ tabell genom att fylla i betyg av säkerheten av bevis i bevis profilen först i GRADEpro GDT. De kan sedan automatiskt konvertera detta till en av de’ sammanfattning av resultaten ’format i GRADEpro GDT, inklusive en interaktiv’ sammanfattning av resultaten ’ för publicering.

som ett mått på effektens storlek för dikotoma resultat bör tabellen sammanfattning av resultat ge ett relativt effektmått (t.ex. riskkvot, oddsförhållande, fara) och mått på absolut risk. För andra typer av data kan en absolut åtgärd ensam (till exempel en skillnad i medel för kontinuerlig data) vara tillräcklig. Det är viktigt att effektens storlek presenteras på ett meningsfullt sätt, vilket kan kräva en viss omvandling av resultatet av en metaanalys (se även kapitel 15, avsnitt 15.4 och avsnitt 15.5). Recensioner med mer än en huvudjämförelse bör innehålla en separat sammanfattning av resultaten för varje jämförelse.

figur 14.1.a ger ett exempel på en’ sammanfattning av resultaten ’ tabell. Figur 15.1.B tillhandahåller ett alternativt format som ytterligare kan underlätta användarnas förståelse och tolkning av granskningens resultat. Bevis som utvärderar olika format tyder på att tabellen sammanfattning av resultat bör innehålla en riskskillnad som ett mått på den absoluta effekten och författare bör helst använda ett format som innehåller en riskskillnad .

en detaljerad beskrivning av innehållet i en sammanfattning av resultaten visas i avsnitt 14.1.6.

figur 14.1.ett exempel på en ’sammanfattning av resultaten’ tabell

sammanfattning av resultaten (för interaktiv version klicka här)

kompressionsstrumpor jämfört med inga kompressionsstrumpor för personer som tar långa flygningar
patienter eller population: alla som tar en lång flygning (varar mer än 6 timmar) Inställningar: internationella flygresor Intervention: kompression stockingsa jämförelse: utan strumpor
resultat	illustrativa jämförande risker* (95% ki)		relativ effekt (95% ki)	antal deltagare (studier)	bevisets säkerhet (betyg)
	antagen risk	motsvarande risk
	utan strumpor	med strumpor
symtomatisk djup ventrombos (DVT)	se kommentar	se kommentar	Ej uppskattningsbar	(9 studier)	se kommentar	0 deltagarna utvecklade symptomatisk DVT i dessa studier
symptomlös DVT	låg riskbefolkningb		RR 0.10 (0.04 till 0.26)	(9 studier)	⊕⊕⊕⊕ hög
	10 per 1000	1 per 1000 ( 0 till 3)
	högriskbefolkningb
	20 per 1000	2 per 1000 (1 till 8)
ytlig ventrombos	13 per 1000	6 per 1000 (2 till 15)	RR 0.45 (0.18 till 1.13)	(8 studier)	⊕⊕⊕◯ Moderatec
ödem värden efter flygning uppmätta på en skala från 0, inget ödem, till 10, maximalt ödem	medelvärdet för ödem varierade mellan kontrollgrupper från 6 till 9	medelvärdet för ödem i interventionsgrupperna var i genomsnitt 4, 7 lägre (95% ki -4, 9 till -4.5)		(6 studier)	⊕⊕◯◯ Lowd
pulmonell embolus	se kommentar	se kommentar	Ej uppskattningsbar	(9 studier)	se kommentar	0 deltagarna utvecklade lungemboli i dessa studier
död	se kommentar	se kommentar	inte estimable	(9 studier)	se kommentar	0 deltagarna dog i dessa studier
biverkningar	se kommentar	se kommentar	Ej uppskattningsbar	(4 studier)	se kommentar	toleransen för strumporna beskrevs som mycket bra utan några klagomål om biverkningar i 4 studierf
*grunden för den antagna risken finns i fotnot. Motsvarande risk (och dess 95% konfidensintervall) baseras på den antagna risken i interventionsgruppen och den relativa effekten av interventionen (och dess 95% ki). CI: konfidensintervall; RR: riskförhållande; betyg: betyg arbetsgrupp betyg av bevis (se förklaringar).

a ALLA strumpor i de nio studier som ingår i denna översyn var under knä kompressionsstrumpor. I fyra studier var kompressionsstyrkan 20 mmHg till 30 mmHg vid fotleden. Det var 10 mmHg till 20 mmHg i de andra fyra studierna. Strumpor finns i olika storlekar. Om en strumpa är för hårt runt knäet kan det förhindra väsentlig venös återgång som får blodet att samlas runt knäet. Kompressionstrumpor ska monteras ordentligt. En strumpa som är för hårt kan skära in i huden på en lång flygning och potentiellt orsaka sårbildning och ökad risk för DVT. Vissa strumpor kan vara något tjockare än normalt benskydd och kan vara potentiellt begränsande med tätt fotslitage. Det är bra att bära strumpor runt huset före resan för att säkerställa en bra och bekväm passform. Deltagarna lägger sina strumpor på två till tre timmar före flygningen i de flesta studierna. Tillgängligheten och kostnaden för strumpor kan variera.

B två studier rekryterade högriskdeltagare definierade som de med tidigare episoder av DVT, koagulationsstörningar, svår fetma, begränsad rörlighet på grund av ben-eller ledproblem, neoplastisk sjukdom under de föregående två åren, stora åderbråck eller, i en av studierna, deltagare högre än 190 cm och tyngre än 90 kg. Förekomsten för de sju studierna som utesluter högriskdeltagare var 1.45% och incidensen för de två studierna som rekryterade högriskdeltagare (med minst en riskfaktor) var 2,43%. Vi har använt 10 och 30 per 1000 för att uttrycka olika risklager.

c konfidensintervallet korsar ingen skillnad och utesluter inte en liten ökning.

d mätningen av ödem validerades inte (indirekthet av utfallet) eller blindades för interventionen (risk för bias).

e om det finns mycket få eller inga händelser och antalet deltagare är stort, kan bedömningen om bevissäkerheten (särskilt bedömningar om oprecision) baseras på den absoluta effekten. Här kan säkerhetsklassificeringen betraktas som ’ hög ’ om resultatet bedömdes på lämpligt sätt och händelsen faktiskt inte inträffade hos 2821 studerade deltagare.

f ingen av de andra studierna rapporterade biverkningar, förutom fyra fall av ytlig venetrombos i åderbråck i knäregionen som komprimerades av strumpans övre kant i en studie.

figur 14.1.b exempel på alternativ tabell över sammanfattande resultat

sammanfattning av resultaten (för interaktiv version klicka här):
probiotika jämfört med inga probiotika som ett komplement till antibiotika hos barn
Patient eller befolkning: barn som får antibiotika Inställningar: inpatienter och öppenvård Intervention: probiotika jämförelse: inga probiotika
resultat antal deltagare (studier)	relativa effekter (95% ki)	förväntade absoluta effekter* (95% CI)			bevisens säkerhet (grad)
resultat antal deltagare (studier)	relativa effekter (95% ki)	utan probiotika	med probiotika	skillnad	bevisens säkerhet (grad)
förekomst av diarre: probiotisk dos 5 miljarder CFU / dag uppföljning: 10 dagar till 3 månader barn < 5 år		barn < 5 år			⊕⊕⊕⊝ moderateb på grund av risk för bias	förmodligen minskar förekomsten av diarre.
1474 (7 studier)	RR 0,41 (0,29 till 0.55)	22.3%a	8.9% (6.5 till 12.2)	13.4% färre barn (10,1 till 15.8 färre)	⊕⊕⊕⊝ moderateb på grund av risk för bias	förmodligen minskar förekomsten av diarre.
barn > 5 år		barn > 5 år			⊕⊕⊝⊝ lowb, c på grund av risk för förspänning och oprecision	kan minska förekomsten av diarre.
624 (4 studier)	RR 0,81 (0,53 till 1.21)	11.2%a	9% (5.9 till 13.6)	2.2% färre barn (5,3 färre till 2.4 mer)		kan minska förekomsten av diarre.
biverkningar uppföljning: 10 till 44 dagar 1575 (11 studier)		1.8%a	2.3% (0.8 till 3.8)	0.5% fler biverkningare (1 färre till 2 fler)	⊕⊕⊝⊝ lowf, g på grund av risk för partiskhet och inkonsekvens	det kan finnas liten eller ingen skillnad i biverkningar.
varaktighet för diarre uppföljning: 10 dagar till 3 månader 897 (5 studier)		den genomsnittliga varaktigheten av diarre utan probiotika var 4 dagar.		0.6 färre dagar (1,18 till 0,02 färre dagar)	⊕⊕⊝⊝ lowh, i på grund av oprecision och inkonsekvens	kan minska varaktigheten av diarre.
avföring per dag uppföljning: 10 dagar till 3 månader 425 (4 studier)		den genomsnittliga avföring per dag utan probiotika var 2,5 avföring per dag.		0.3 färre avföring per dag (0, 6 till 0 färre)	⊕⊕⊝⊝ lowj, k på grund av oprecision och inkonsekvens	det kan finnas liten eller ingen skillnad i avföring per dag.
*grunden för risken i kontrollgruppen (t.ex. mediankontrollgruppsrisken över studierna) ges i fotnoter. Risken i interventionsgruppen (och dess 95% konfidensintervall) baseras på den antagna risken i jämförelsegruppen och den relativa effekten av interventionen (och dess 95% ki). CI: konfidensintervall; RR: riskförhållande.
förklaringar en Kontrollgruppsriskuppskattning kommer från sammanslagna uppskattningar av kontrollgrupper. Relativ effekt baserad på tillgänglig fallanalys b hög risk för bias på grund av hög förlust för uppföljning. c Oprecision på grund av få händelser och konfidensintervall inkluderar märkbar nytta eller skada. D biverkningar: utslag, illamående, flatulens, kräkningar, ökad slem, bröstsmärta, förstoppning, smakstörning och låg aptit. e risker beräknades utifrån poolade riskskillnader. f hög risk för bias. Endast 11 av 16 försök rapporterade om biverkningar, vilket tyder på en selektiv rapporteringsförspänning. g Allvarlig inkonsekvens. Många probiotiska medel och doser utvärderades bland ett relativt litet antal försök, vilket begränsade vår förmåga att dra slutsatser om säkerheten hos de många probiotiska medlen och doserna som administrerades. h Allvarlig oförklarlig inkonsekvens (stor heterogenitet I2 = 79%, P-värde , punktuppskattningar och konfidensintervall varierar avsevärt). jag Allvarlig oprecision. Den övre gränsen på 0,02 färre dagar av diarre anses inte vara patientviktig. J Allvarlig oförklarlig inkonsekvens (stor heterogenitet I2 = 78%, P-värde , punktuppskattningar och konfidensintervall varierar avsevärt). K Allvarlig oprecision. 95% konfidensintervallet inkluderar ingen effekt och nedre gräns på 0,60 avföring per dag är av tvivelaktig patientvikt.

14.1.4 producera ’sammanfattning av resultaten’ tabeller

GRADE arbetsgruppens programvara, GRADEpro GDT (www.gradepro.org), inklusive grades interaktiva handbok, är tillgänglig för att hjälpa granskningsförfattare att förbereda Tabeller över sammanfattningar av resultat. GRADEpro kan använda data om jämförelsegruppens risk och effektberäkningen (inmatad av granskningsförfattarna eller importerad från filer som genereras i RevMan) för att producera de relativa effekterna och absoluta riskerna i samband med experimentella ingrepp. Dessutom leder den användaren genom processen med en betygsbedömning och producerar en tabell som kan användas som en fristående tabell i en recension (inklusive genom direkt import till programvara som RevMan eller integration med RevMan Web) eller en interaktiv ’sammanfattning av resultat’ – tabell (Se hjälpresurser i GRADEpro).

14.1.5 statistiska överväganden i ’sammanfattning av fynd’ tabeller

14.1.5.1 dikotoma resultat

’sammanfattning av fynd’ tabeller bör innehålla både absoluta och relativa mått på effekt för dikotoma resultat. Riskförhållanden, oddsförhållanden och riskskillnader är olika sätt att jämföra två grupper med dikotoma resultatdata (se Kapitel 6, avsnitt 6.4.1). Dessutom finns det två olika riskförhållanden, beroende på vilken händelse (t.ex. ja eller nej) som är fokus för analysen (se Kapitel 6, avsnitt 6.4.1.5). I närvaro av en interventionseffekt som inte är noll riskerar varje variation mellan studierna i jämförelsegruppen (dvs. variation i risken för att händelsen inträffar utan intresseintervention, till exempel i olika populationer) gör det omöjligt för mer än en av dessa åtgärder att vara riktigt densamma i varje studie.

det har länge antagits i epidemiologi att relativa effektmått är mer konsekventa än absoluta effektmått från ett scenario till ett annat. Det finns empiriska bevis för att stödja detta antagande (Engels et al 2000, Deeks and Altman 2001, Furukawa et al 2002). Av denna anledning bör metaanalyser i allmänhet använda antingen ett riskförhållande eller ett oddsförhållande som ett mått på effekt (se Kapitel 10, avsnitt 10.4.3). På motsvarande sätt är en enda uppskattning av relativ effekt sannolikt en lämpligare sammanfattning än en enda uppskattning av absolut effekt. Om en relativ effekt verkligen är konsekvent mellan studier, kommer olika risker för jämförelsegruppen att ha olika konsekvenser för absolut nytta. Till exempel om riskkvoten är konsekvent 0.75, då skulle det experimentella ingreppet minska en jämförelsegruppsrisk på 80% till 60% i interventionsgruppen (en absolut riskreduktion på 20 procentenheter), men skulle också minska en jämförelsegruppsrisk på 20% till 15% i interventionsgruppen (en absolut riskreduktion på 5 procentenheter).

’sammanfattning av resultat’ tabeller bygger på antagandet om en konsekvent relativ effekt. Det är därför viktigt att överväga konsekvenserna av denna effekt för olika risker i jämförelsegruppen (dessa kan härledas eller uppskattas från ett antal källor, se avsnitt 14.1.6.3), vilket kan kräva en bedömning av bevissäkerheten för prognostiska bevis (Spencer et al 2012, Iorio et al 2015). För varje jämförelsegruppsrisk är det möjligt att uppskatta en motsvarande interventionsgruppsrisk (dvs. den absoluta risken med interventionen) från det metaanalytiska riskförhållandet eller oddsförhållandet. Observera att siffrorna i kolumnen motsvarande risk är specifika för riskerna i den intilliggande kolumnen.

för metaanalytisk riskkvot (RR) och antagen komparatorrisk (ACR) erhålls motsvarande interventionsrisk som:

som ett exempel, i Figur 14.1.a, det metaanalytiska riskförhållandet för symtomlös djup venetrombos (DVT) är RR = 0,10 (95% CI 0,04 till 0,26). Om vi antar en komparatorrisk för ACR = 10 per 1000 = 0,01 får vi:

för metaanalytisk oddsförhållande (eller) och antagen komparatorrisk, ACR, erhålls motsvarande interventionsrisk som:

övre och nedre konfidensgränser för motsvarande interventionsrisk erhålls genom att ersätta RR eller eller genom deras övre respektive nedre konfidensgränser (t.ex. ersätta 0.10 med 0,04, sedan med 0,26, i exemplet). Sådana konfidensintervall innehåller inte osäkerhet i de antagna jämförarriskerna.

vid hantering av riskförhållanden är det viktigt att samma definition av ’händelse’ används som användes för metaanalysen. Till exempel, om metaanalysen fokuserade på ’död’ (i motsats till överlevnad) som händelsen, måste motsvarande risker i tabellen ’sammanfattning av fynd’ också hänvisa till ’död’.

under (sällsynta) omständigheter där det finns tydliga skäl att anta en konsekvent riskskillnad i metaanalysen är det i princip möjligt att presentera detta för relevanta ’antagna risker’ och deras motsvarande risker och att presentera motsvarande (olika) relativa effekter för varje antagen risk.

riskskillnaden uttrycker skillnaden mellan ACR och motsvarande interventionsrisk (eller skillnaden mellan experimentell och komparatorintervention).

för meta-analytic risk ratio (RR) och assumpted comparator risk (ACR) erhålls motsvarande riskskillnad som (Observera att risker också kan uttryckas med procent eller procentenheter):

som ett exempel, i Figur 14.1.B det metaanalytiska riskförhållandet är 0,41 (95% ki 0,29 till 0,55) för diarre hos barn yngre än 5 år. Om vi antar en jämförelsegruppsrisk på 22.3% får vi:

för metaanalytisk oddsförhållande (eller) och antagen jämförelserisk (ACR) erhålls den absoluta riskskillnaden som (procentenheter):

övre och nedre konfidensgränser för den absoluta riskskillnaden erhålls genom att köra om beräkningen ovan medan rr ersätts eller eller med deras övre respektive nedre konfidensgränser (t.ex. ersätter 0,41 med 0,28, sedan med 0,55, i exemplet). Sådana konfidensintervall innehåller inte osäkerhet i de antagna jämförarriskerna.

14.1.5.2 Time-to-event-resultat

time-to-event-resultat mäter om och när en viss händelse (t.ex. död) inträffar (van Dalen et al 2007). Effekten av den experimentella interventionen i förhållande till jämförelsegruppen på tid-till-händelse-resultat mäts vanligtvis med hjälp av en Hazard ratio (HR) (se Kapitel 6, avsnitt 6.8.1).

ett riskförhållande uttrycker en relativ effektuppskattning. Det kan användas på olika sätt för att erhålla absoluta risker och andra tolkningsbara kvantiteter för en viss population. Här beskriver vi hur man uttrycker riskförhållanden i termer av: (i) absolut risk för händelsefri överlevnad inom en viss tidsperiod; (ii) absolut risk för en händelse inom en viss tidsperiod; och (iii) mediantid till händelsen. Alla metoder bygger på ett antagande om konsekventa relativa effekter (dvs. att riskkvoten inte varierar över tiden).

(i) absolut risk för händelsefri överlevnad inom en viss tidsperiod händelsefri överlevnad (t.ex. total överlevnad) rapporteras vanligen i enskilda studier. För att få absoluta effekter för resultat från tid till händelse mätt som händelsefri överlevnad kan sammanfattningen HR användas tillsammans med en antagen andel patienter som är händelsefria i jämförelsegruppen (Tierney et al 2007). Denna andel patienter kommer att vara specifik för en observationsperiod. Det är emellertid inte absolut nödvändigt att ange denna tidsperiod. Till exempel kan en andel av 50% av händelsefria patienter gälla för patienter med hög händelsefrekvens observerad över 1 år eller för patienter med låg händelsefrekvens observerad över 2 år.

Antag till exempel att det metaanalytiska riskförhållandet är 0,42 (95% CI 0,25 till 0,72). Om man antar en jämförelsegruppsrisk för händelsefri överlevnad( t. ex. för övergripande överlevnad som lever) vid 2 år av ACR = 900 per 1000 = 0.9 får vi:

så att 956 per 1000 personer kommer att leva med det experimentella ingreppet på 2 år. Avledningen av risken bör förklaras i en kommentar eller fotnot.

(ii) absolut risk för en händelse inom en viss tidsperiod för att erhålla denna absoluta effekt, återigen kan sammanfattningen HR användas (Tierney et al 2007):

i exemplet antar vi att vi antar en jämförelsegruppsrisk för händelser (t.ex. för dödlighet, människor är döda) vid 2 år av ACR = 100 per 1000 = 0,1. Vi får:

så att 44 per 1000 personer kommer att vara döda med det experimentella ingreppet på 2 år.

(iii) mediantid till händelsen istället för absoluta tal kan tiden till händelsen i interventions-och jämförelsegrupperna uttryckas som medianöverlevnadstid i månader eller år. För att erhålla medianöverlevnadstid kan den poolade HR appliceras på en antagen medianöverlevnadstid i komparatorgruppen (Tierney et al 2007):

i exemplet, förutsatt att en jämförelsegrupps medianöverlevnadstid på 80 månader, får vi:

för alla tre av dessa alternativ för att åter uttrycka resultat av tid-till-händelse-analyser erhålls övre och nedre konfidensgränser för motsvarande interventionsrisk genom att ersätta HR med dess övre respektive nedre konfidensgränser (t.ex. ersätta 0,42 med 0,25, sedan med 0,72, i exemplet). Återigen, som för dikotoma resultat, innehåller sådana konfidensintervall inte osäkerhet i de antagna jämförelsegruppsriskerna. Detta är särskilt oroande för långvarig överlevnad med låg eller måttlig dödlighet och ett motsvarande stort antal censurerade patienter (dvs. ett lågt antal patienter under risk och en hög censureringsfrekvens).

14.1.6 detaljerat innehåll i en ’sammanfattning av resultaten’ tabell

14.1.6.1 Tabellrubrik och rubrik

titeln på varje ’sammanfattning av resultaten’ tabell bör ange hälso-och sjukvårdsfrågan, inramad i termer av befolkningen och göra det klart exakt vilken jämförelse av interventioner görs. I Figur 14.1.a, befolkningen är människor som tar långa flygplansflygningar, interventionen är kompressionsstrumpor och kontrollen är inga kompressionsstrumpor.

de första raderna i varje ’sammanfattning av resultaten’ tabell bör ge följande ’header’ information:

patienter eller population detta klargör ytterligare populationen (och eventuellt subpopulationerna) av intresse och helst storleken på risken för det mest avgörande negativa resultatet som en intervention riktas mot. Till exempel, personer på långdistansflyg kan ha olika risker för DVT; de som använder selektiva serotoninåterupptagshämmare (SSRI) kan ha olika risk för biverkningar; medan de med förmaksflimmer kan ha låg (< 1%), måttlig (1% till 4%) eller hög (> 4%) årlig risk för stroke.

inställning detta bör ange några specifika egenskaper hos inställningarna för vårdfrågan som kan begränsa tillämpligheten av sammanfattningen av resultaten till andra inställningar (t.ex. primärvård i Europa och Nordamerika).

Intervention den experimentella interventionen.

jämförelse jämförelseinterventionen (inklusive ingen specifik intervention).

14.1.6.2 resultat

raderna i en sammanfattning av resultaten bör innehålla alla önskvärda och oönskade hälsoutfall (listade i storleksordning) som är nödvändiga för beslutsfattande, upp till högst sju resultat. Om det finns fler resultat i granskningen måste granskningsförfattare utelämna de mindre viktiga resultaten från tabellen och beslutet att välja vilka resultat som är kritiska eller viktiga för granskningen bör göras under protokollutveckling (se kapitel 3). Granskningsförfattare bör tillhandahålla tidsramar för mätning av resultaten (t.ex. 90 dagar eller 12 månader) och typen av instrumentpoäng (t. ex. från 0 till 100).

Observera att granskningsförfattare bör inkludera de förutbestämda kritiska och viktiga resultaten i tabellen om data är tillgängliga eller inte. De bör dock vara uppmärksamma på möjligheten att betydelsen av ett resultat (t.ex. en allvarlig negativ effekt) kan bli känd först efter protokollet skrevs eller analysen genomfördes, och bör vidta lämpliga åtgärder för att inkludera dessa i tabellen sammanfattning av resultaten.

tabellen sammanfattning av resultat kan inkludera effekter i undergrupper av befolkningen för olika jämförarrisker och effektstorlekar separat. Till exempel i Figur 14.1.B-effekter presenteras för barn yngre och äldre än 5 år separat. Granska författare kan också välja att producera separata ’sammanfattning av resultaten’ tabeller för olika populationer.

granskningsförfattare bör inkludera allvarliga biverkningar, men det kan vara möjligt att kombinera mindre biverkningar som ett enda resultat och beskriva detta i en förklarande fotnot (Observera att det inte är lämpligt att lägga till händelser om de inte är oberoende, det vill säga en deltagare som har upplevt en biverkning har en opåverkad chans att uppleva den andra biverkningen).

resultat uppmätta vid flera tidpunkter representerar ett särskilt problem. I allmänhet, för att hålla tabellen enkel, bör granskningsförfattare presentera flera tidpunkter endast för resultat som är kritiska för beslutsfattandet, där antingen resultatet eller beslutet sannolikt kommer att variera över tiden. Återstoden bör om möjligt presenteras vid en gemensam tidpunkt.

granskningsförfattare kan presentera kontinuerliga resultatmått i tabellen sammanfattning av resultat och bör sträva efter att göra dessa tolkbara för målgruppen. Detta kräver att enheterna är tydliga och lätt tolkningsbara, till exempel dagar med smärta eller frekvens av huvudvärk, och namnet och skalan på alla använda mätverktyg ska anges (t.ex. en visuell analog skala, från 0 till 100). Många mätinstrument kan emellertid inte lätt tolkas av icke-specialiserade kliniker eller patienter, till exempel poäng på en Beck Depression-inventering eller livskvalitet. För dessa kan en mer tolkbar presentation innebära att man omvandlar ett kontinuerligt till ett dikotomt resultat, såsom >50% förbättring (se Kapitel 15, avsnitt 15.5).

14.1.6.3 bästa uppskattning av risk med jämförelseintervention

granskningsförfattare bör ge upp till tre typiska risker för deltagare som får jämförelseinterventionen. För dikotoma resultat rekommenderar vi att dessa presenteras i form av antalet personer som upplever händelsen per 100 eller 1000 personer (naturlig frekvens) beroende på utfallets frekvens. För kontinuerliga resultat skulle detta anges som ett medelvärde eller medianvärde för det uppmätta resultatet.

uppskattade eller antagna jämförelseinterventionsrisker kan baseras på bedömningar av typiska risker i olika patientgrupper som härrör från själva granskningen, enskilda representativa studier i granskningen eller risker som härrör från en systematisk granskning av prognosstudier eller andra beviskällor som i sin tur kan kräva en bedömning av säkerheten för prognostiska bevis (Spencer et al 2012, Iorio et al 2015). Helst skulle risker återspegla grupper som kliniker lätt kan identifiera på grundval av deras presenterande funktioner.

en förklarande fotnot bör ange källan eller motiveringen för varje jämförelsegruppsrisk, inklusive den tidsperiod som den motsvarar i förekommande fall. I Figur 14.1.a, kliniker kan enkelt skilja individer med riskfaktorer för djup venös trombos från de utan. Om det är känt att det finns liten variation i baslinjerisken kan granskningsförfattare använda median jämförelsegruppsrisken över studier. Om typiska risker inte är kända är ett alternativ att välja risken från de inkluderade studierna, vilket ger den näst högsta för en hög och den näst lägsta för en lågriskpopulation.

14.1.6.4 Risk med intervention

för dikotoma resultat bör granskningsförfattare ge en motsvarande absolut risk för varje jämförelsegruppsrisk tillsammans med ett konfidensintervall. Denna absoluta risk med (experimentell) intervention kommer vanligtvis att härledas från metaanalysresultatet som presenteras i kolumnen relativ effekt (se avsnitt 14.1.6.6). Formler finns i avsnitt 14.1.5. Granskningsförfattare bör presentera den absoluta effekten i samma format som riskerna med jämförelseintervention (se avsnitt 14.1.6.3), till exempel som antalet personer som upplever händelsen per 1000 personer.

för kontinuerliga resultat bör en skillnad i medel eller standardiserad skillnad i medel presenteras med dess konfidensintervall. Dessa kommer vanligtvis att erhållas direkt från en metaanalys. Förklarande text bör användas för att klargöra betydelsen, som i figurerna 14.1.a och 14.1.b.

14.1.6.5 riskskillnad

för dikotoma resultat kan riskskillnaden tillhandahållas med hjälp av ett av Tabellformaten ’sammanfattning av resultat’ som ett ytterligare alternativ (se figur 14.1.h). Denna riskskillnad uttrycker skillnaden mellan experimentell och komparatorintervention och kommer vanligtvis att härledas från metaanalysresultatet som presenteras i kolumnen relativ effekt (se avsnitt 14.1.6.6). Formler finns i avsnitt 14.1.5. Granskningsförfattare bör presentera riskskillnaden i samma format som antagna och motsvarande risker med jämförelseintervention (se avsnitt 14.1.6.3); till exempel som antalet personer som upplever händelsen per 1000 personer eller som procentenheter om de antagna och motsvarande riskerna uttrycks i procent.

för kontinuerliga resultat, om tabellen ’sammanfattning av resultat’ innehåller detta alternativ, kan medelskillnaden presenteras här och kolumnen ’motsvarande risk’ lämnas tom (se figur 14.1.h).

14.1.6.6 relativ effekt (95% ki)

den relativa effekten kommer vanligtvis att vara ett riskförhållande eller oddsförhållande (eller ibland ett riskförhållande) med dess åtföljande 95% konfidensintervall, erhållet från en metaanalys utförd på grundval av samma effektmått. Riskförhållanden och oddsförhållanden är likartade när jämförelseinterventionsriskerna är låga och effekterna är små, men kan skilja sig avsevärt när jämförelsegruppens risker ökar. Metaanalysen kan innebära ett antagande om antingen fasta eller slumpmässiga effekter, beroende på vad granskningsförfattarna anser lämpliga, och antyder att den relativa effekten antingen är en uppskattning av effekten av interventionen, eller en uppskattning av den genomsnittliga effekten av interventionen över studier, respektive.

14.1.6.7 antal deltagare (studier)

denna kolumn ska innehålla antalet deltagare som bedömts i de inkluderade studierna för varje resultat och motsvarande antal studier som bidrog med dessa deltagare.

14.1.6.8 bevisets säkerhet (betyg)

granskningsförfattare bör kommentera bevisens säkerhet (även känd som bevisets kvalitet eller förtroende för effektberäkningarna). Granskningsförfattare bör använda det specifika betygssystemet för bevis som utvecklats av GRADE Working Group (Atkins et al 2004, Guyatt et al 2008, Guyatt et al 2011a), som beskrivs i detalj i avsnitt 14.2. GRADE-metoden kategoriserar säkerheten i en mängd bevis som ’hög’, ’måttlig’, ’låg’ eller ’mycket låg’ efter resultat. Detta är ett resultat av bedömning, men bedömningsprocessen fungerar inom en transparent struktur. Som ett exempel, säkerheten skulle vara ’ hög ’ om sammanfattningen var av flera randomiserade studier med låg risk för bias, men bedömningen av säkerhet blir lägre om det finns farhågor om risken för bias, inkonsekvens, indirectness, oprecision eller publicering bias. Andra bedömningar än med hög säkerhet bör göras transparenta med hjälp av förklarande fotnoter eller kolumnen kommentarer i tabellen sammanfattning av resultat (se avsnitt 14.1.6.10).

14.1.6.9 kommentarer

syftet med fältet ’Kommentarer’ är att hjälpa till att tolka den information eller data som identifieras i raden. Till exempel kan detta vara på giltigheten av utfallsmåttet eller närvaron av variabler som är associerade med effektens storlek. Viktiga varningar om resultaten bör flaggas här. Inte alla rader behöver kommentarer, och det är bäst att lämna ett tomt om det inte finns något som motiverar en kommentar.

14.1.6.10 förklaringar

detaljerade förklaringar bör ingå som fotnoter för att stödja bedömningarna i tabellen sammanfattning av resultat, till exempel den övergripande BETYGSBEDÖMNINGEN. Förklaringarna ska beskriva skälen för viktiga aspekter av innehållet. Tabell 14.1.en listar vägledning för användbara förklaringar. Förklaringar ska vara kortfattade, informativa, relevanta, lätta att förstå och korrekta. Om förklaringar inte kan beskrivas tillräckligt i fotnoter, bör granskningsförfattare ge ytterligare detaljer om frågorna i resultaten och Diskussionsavsnitten i granskningen.

tabell 14.1.en vägledning för att ge användbara förklaringar i Sof-tabeller (Summary of findings). Anpassad från Santesso et al (2016)

allmän vägledning

ange informationen för läsarna direkt i tabellen om möjligt (t.ex. information om uppföljningens varaktighet eller den skala som används).
ange i allmänhet inte hänvisningar i förklaringsavsnittet, såvida det inte finns särskilda skäl, till exempel för att tillhandahålla information om källor till baslinjerisker (se punkt 3).
ange källan till information om baslinjeriskerna som används för att beräkna absoluta effekter.
när tabellen har slutförts, granska alla förklaringar för att avgöra om vissa kan refereras flera gånger om de omformuleras eller kombineras.
ange skäl för uppgradering och nedgradering av bevisen (se domänspecifik vägledning nedan) och använd GRADEpro GDT-programvara för att följa GRADE-vägledning.
bevismaterialet för ett visst resultat kan bestämmas för att ha allvarliga eller mycket allvarliga problem för den drabbade domänen (eller kritiskt allvarlig för risk för bias när ROBINS-I används). Således kan det vara användbart att ange antalet nivåer för nedgradering (t.ex. nedgraderad med en nivå för risk för bias), men undvik upprepning av vad som finns i tabellen (och intrycket av formel eller algoritmisk rapportering). I bevisprofiler finns denna information redan i tabellens celler.
även om förklaringar om säkerheten i bevisen främst krävs när de ändrar säkerheten, överväg att lägga till en förklaring när säkerheten i bevisen inte har ändrats men när detta beslut kan ifrågasättas av andra. Detta kommer att hjälpa till med att förstå orsakerna till oenighet.
se till att tabellen inte används som en beskrivning av granskningsmetoderna (beskriv t.ex. inte orsakerna till den statistiska analysen).
ange resultat för resultat som inte kunde kombineras statistiskt i en metaanalys (dvs. berättande resultat) direkt i Sof-tabellen i resultatkolumnerna. En förklaring kanske inte är nödvändig för att kommunicera dessa resultat. Om det anses vara fördelaktigt för den avsedda publiken, Lägg till kompletterande uppskattningar av interventionseffekter (t.ex. antal som behövs för att behandla för nytta och skada, riskskillnad uttryckt i procent, kontinuerligt resultat uttryckt i minimala viktiga skillnadsenheter) i kommentarkolumnen.
använd informationen som presenteras i förklaringarna om BETYGSPROCESSEN för att informera andra viktiga delar av granskningen, inklusive sammanfattningsversioner och diskussionen.

domänspecifik vägledning för att skriva användbara förklaringar

risk för bias

beskriv antalet studier, eller mängden information som de tillhandahåller i metaanalysen, som hade hög risk för bias och för vilket kriterium.
1. använd termer som majoritet, minoritet, alla, några eller inga; eller antalet studier som X/X-studier.
2. för randomiserade studier, nämna de specifika kriterierna inklusive allokeringssekvens dölja, selektiv resultatrapportering, etc. För icke-randomiserade studier, beskriv kriteriet i det använda verktyget (t.ex. med ROBINS-i-verktyget).
3. ange om effekten av risken för bias undersöktes i en känslighetsanalys. När det är lämpligt, nämna bidraget från studierna med hög risk för bias till uppskattningarna.
Information om studiedesign kan ingå i förklaringarna, särskilt i SoF när olika studiedesigner ingår.

inkonsekvens

ange det mått som används för att bedöma inkonsekvens, såsom det statistiska testet eller måttet (I2, Chi2, Tau) eller överlappningen av konfidensintervall eller likhet med punktuppskattningar.
om inkonsekvens är baserad på I2, beskriv den som betydande, väsentlig, måttlig eller inte viktig.
om tillämpligt, nämna om heterogenitet undersöktes i subgruppsanalyser av PICO (patienter, intervention, jämförelse, resultat) och om det finns andra potentiella orsaker till heterogeniteten.
när det gäller en enda studie för ett resultat, säg att det finns ’ingen’ snarare än ’inte tillämplig’.

Inprecision

ange var provstorleken eller antalet händelser inte uppfyller den optimala informationsstorleken som beräknats, eller tumreglerna (t.ex. 400 händelser). Undvik hänvisning till antalet studier som en anledning till oprecision.
ange om konfidensintervallen inkluderar möjligheten till en liten eller ingen effekt och viktig fördel eller skada. Om det är känt, ange det numeriska värdet av tröskeln för viktig fördel.
Undvik att rapportera resultatet som statistiskt eller icke-statistiskt signifikant.

uppgradering

nämn orsaken till uppgradering: på grund av stor effekt; en dos-responsgradient; eller trovärdig kvarvarande motsatt förvirring ökar säkerheten för bevis.
för stora effekter, rapportera om den relativa effekten är >2 eller >5. För DOS-responsgradienter, ge nivån på intervention och effekt på resultatet. För domänen ’plausible resisting confounding’, beskriv effekten av confounding factor på uppskattningen.

14.2 bedömning av säkerheten eller kvaliteten på ett bevismaterial

14.2.1 GRADE-metoden

graderna för arbetsgruppen för rekommendation, bedömning, utveckling och utvärdering (GRADE Working Group) har utvecklat ett system för att betygsätta bevissäkerheten (Sch Jacobnemann et al 2003, Atkins et al 2004, Sch Jacobnemann et al 2006, Guyatt et al 2008, Guyatt et al 2011a). Över 100 organisationer inklusive Världshälsoorganisationen (WHO), American College of Physicians, American Society of Hematology (ASH), Canadian Agency for Drugs and Technology in Health (CADTH) och National Institutes of Health and Clinical Excellence (NICE) i Storbritannien har antagit betygssystemet (www.gradeworkinggroup.org).

Cochrane har också formellt antagit detta tillvägagångssätt, och alla Cochrane-recensioner bör använda GRADE för att utvärdera säkerheten för bevis för viktiga resultat (se MECIR-ruta 14.2.en).

Mecir fält 14.2.relevanta förväntningar på genomförandet av interventionsöversyn

C74: bedömning av bevismaterialets säkerhet (obligatorisk)
använd de fem Grade överväganden (risk för partiskhet, konsekvens av effekt, oprecision, indirectness och publicering partiskhet) för att bedöma säkerheten i kroppen av bevis för varje resultat, och att dra slutsatser om säkerheten för bevis i texten i översynen.	GRADE är det mest använda tillvägagångssättet för att sammanfatta förtroende för effekter av interventioner genom resultat över studier. Det är att föredra att använda online GRADEpro-verktyget och att använda det som beskrivs i programvarans hjälpsystem. Detta bör bidra till att säkerställa att författargrupper får tillgång till samma information för att informera sina bedömningar. Helst bör två personer som arbetar självständigt bedöma säkerheten i bevismaterialet och nå en konsensus om eventuella nedgraderingsbeslut. De fem betygssättningarna bör behandlas oberoende av om översynen innehåller en tabell över sammanfattande resultat. Det är bra att dra nytta av denna information i diskussionen, i författarnas slutsatser och att förmedla säkerheten i bevisen i abstrakt och vanligt språk sammanfattning.
C75: motiverande bedömningar av bevismaterialets säkerhet (obligatoriskt)
motivera och dokumentera alla bedömningar av bevismaterialets säkerhet (t.ex. nedgradering eller uppgradering med hjälp av betyg).	antagandet av ett strukturerat tillvägagångssätt säkerställer öppenhet när det gäller att formulera en tolkning av bevisen, och resultatet är mer informativt för användaren.

för systematiska granskningar definierar GRADE-metoden säkerheten för ett bevismaterial som i vilken utsträckning man kan vara säker på att en uppskattning av effekt eller associering ligger nära kvantiteten av specifikt intresse. Att bedöma säkerheten hos en mängd bevis innebär att man beaktar risken för bias inom och över studien (begränsningar i studiedesign och utförande eller metodologisk kvalitet), inkonsekvens (eller heterogenitet), indirekthet av bevis, oprecision av effektberäkningarna och risken för publiceringsbias (se avsnitt 14.2.2) samt domäner som kan öka vårt förtroende för effektberäkningen (som beskrivs i avsnitt 14.2.3). Betygssystemet innebär en bedömning av säkerheten för ett bevismaterial för varje enskilt resultat. Bedömningar om de domäner som bestämmer bevissäkerheten bör beskrivas i avsnittet Resultat eller diskussion och som en del av tabellen sammanfattning av resultaten.

GRADE-metoden anger fyra säkerhetsnivåer (figur 14.2.en). För interventioner, inklusive diagnostiska och andra tester som utvärderas som interventioner (Schubbiknemann et al 2008b, Schubbiknemann et al 2008a, Balshem et al 2011, Schubbiknemann et al 2012), utgångspunkten för att betygsätta bevissäkerheten kategoriseras i två typer:

randomiserade studier; och
icke-randomiserade studier av interventioner (NRSI), inklusive observationsstudier (inklusive men inte begränsat till kohortstudier och fallkontrollstudier, tvärsnittsstudier, fallserier och fallrapporter, även om inte alla dessa mönster vanligtvis ingår i Cochrane-recensioner).

det finns många fall där granskningsförfattare förlitar sig på information från NRSI, särskilt för att utvärdera potentiella skador (se kapitel 24). Dessutom kan granskningsförfattare få relevanta data från både randomiserade studier och NRSI, med varje typ av bevis som kompletterar den andra (Sch Askornemann et al 2013).

i GRADE börjar en mängd bevis från randomiserade studier med hög säkerhet medan en mängd bevis från NRSI börjar med låg säkerhet. Det lägre betyget med NRSI är resultatet av den potentiella bias som induceras av bristen på randomisering (dvs. förvirrande och urvalsförskjutning).

men när man använder den nya risken för Bias i icke-randomiserade studier av interventioner (ROBINS-i) – verktyget (Sterne et al 2016), ett bedömningsverktyg som täcker risken för bias på grund av brist på randomisering, kan alla studier Starta som hög säkerhet för bevisen (Sch Askorbinemann et al 2018). Tillvägagångssättet att starta alla studiedesigner (inklusive NRSI) som hög säkerhet strider inte mot den ursprungliga betygsättningen för att starta betyget för NRSI som bevis för låg säkerhet. Detta beror på att en mängd bevis från NRSI i allmänhet bör nedgraderas av två nivåer på grund av den inneboende risken för förspänning i samband med bristen på randomisering, nämligen förvirrande och urvalsförskjutning. Att inte nedgradera NRSI från hög till låg säkerhet behöver transparent och detaljerad motivering för vad som mildrar oro över förvirring och urvalsförskjutning (Sch Askornemann et al 2018). Mycket få exempel på var det inte är lämpligt att betygsätta ner med två nivåer finns för närvarande.

den högsta säkerhetsklassificeringen är en mängd bevis när det inte finns några problem i någon av de BETYGSFAKTORER som anges i Figur 14.2.a. granskningsförfattare nedgraderar ofta bevis till måttlig, låg eller till och med mycket låg säkerhet, beroende på förekomsten av de fem faktorerna i Figur 14.2.vanligtvis kommer säkerhetsklassificeringen att falla med en nivå för varje faktor, upp till högst tre nivåer för alla faktorer. Om det finns mycket allvarliga problem för någon domän (t. ex. vid bedömning av risk för bias var alla studier obeslutna, oblindade och förlorade över 50% av sina patienter för uppföljning), bevis kan falla med två nivåer på grund av den faktorn ensam. Det är inte möjligt att betygsätta lägre än ’mycket låg säkerhet’ bevis.

granskningsförfattare kommer i allmänhet att betygsätta bevis från ljud icke-randomiserade studier som låg säkerhet, även om ROBINS-I används. Om sådana studier emellertid ger stora effekter och det inte finns någon uppenbar bias som förklarar dessa effekter, kan granskningsförfattare bedöma bevisen som måttlig eller – om effekten är tillräckligt stor – även som hög säkerhet (figur 14.2.en). Den mycket låga säkerhetsnivån är lämplig för, men är inte begränsad till, studier med kritiska problem och osystematiska kliniska observationer (t.ex. fallserier eller fallrapporter).