Capitolo 14: il Completamento di 'Sintesi dei risultati' e tabelle di classificazione la certezza della prova | Cochrane Formazione

Holger J Schünemann, Julian PT Higgins, Gunn E Vist, Paul Glasziou, Elie Una Akl, Nicole Skoetz, Gordon H Guyatt; per conto della Cochrane GRADEing Metodi di Gruppo (precedentemente Applicabilità e Raccomandazioni Metodi di Gruppo) e la Cochrane Metodi Statistici Gruppo

Punti Chiave:
14.1 Tabelle “Sintesi dei risultati”
14.1.1 Introduzione alle tabelle “Sintesi dei risultati”
14.1.2 Selezione dei risultati per le tabelle “Sintesi dei risultati”
14.1.3 Modello generale per le tabelle “Sommario dei risultati”
14.1.4 Produzione di tabelle “Sintesi dei risultati”
14.1.5 Considerazioni statistiche nelle tabelle “Sintesi dei risultati”
14.1.5.1 Risultati dicotomici
14.1.5.2 Time-to-event outcomes
14.1.6 Contenuto dettagliato di una tabella “Sommario dei risultati”
14.1.6.1 Titolo e intestazione della tabella
14.1.6.2 Risultati
14.1.6.3 Migliore stima del rischio con l’intervento del comparatore
14.1.6.4 Rischio con intervento
14.1.6.5 Differenza di rischio
14.1.6.6 Effetto relativo (IC 95%)
14.1.6.7 Numero di partecipanti (studi)
14.1.6.8 Certezza delle prove (GRADO)
14.1.6.9 Commenti
14.1.6.10 Spiegazioni
14.2 Valutare la certezza o la qualità di un corpo di evidenze
14.2.1 L’approccio di GRADO

Punti Chiave:

Una tabella di “Sintesi dei risultati” per un dato confronto degli interventi fornisce informazioni chiave riguardanti le grandezze degli effetti relativi e assoluti degli interventi esaminati, la quantità di prove disponibili e la certezza (o la qualità) delle prove disponibili.
Le tabelle “Sintesi dei risultati” comprendono una riga per ciascun risultato importante (fino a un massimo di sette). I formati accettati delle tabelle “Sintesi dei risultati” e delle tabelle “Sintesi dei risultati” interattive possono essere prodotti utilizzando il software GRADEpro GDT di GRADE.
Cochrane ha adottato l’approccio GRADE (Classificazione delle raccomandazioni Valutazione, sviluppo e valutazione) per valutare la certezza (o la qualità) di un corpo di prove.
L’approccio del GRADO specifica quattro livelli di certezza per un corpo di prove per un dato risultato: alto, moderato, basso e molto basso.
Le valutazioni di grado di certezza sono determinate attraverso la considerazione di cinque domini: rischio di bias, incoerenza, indirectness, imprecisione e bias di pubblicazione. Per prove da studi non randomizzati e studi raramente randomizzati, le valutazioni possono quindi essere aggiornate attraverso la considerazione di tre ulteriori domini.

Citiamo questo capitolo come: Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Capitolo 14: Completamento delle tabelle “Sintesi dei risultati” e classificazione della certezza delle prove. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Pagina MJ, Welch VA (editori). Cochrane Handbook for Systematic Reviews of Interventions versione 6.2 (aggiornato a febbraio 2021). Cochrane, 2021. Disponibile da www.formazione.cochrane.org/handbook.

14.1 Tabelle “Sintesi dei risultati”

14.1.1 Introduzione alle tabelle “Sintesi dei risultati”

Le tabelle “Sintesi dei risultati” presentano i principali risultati di una revisione in un formato tabellare trasparente, strutturato e semplice. In particolare, essi forniscono informazioni chiave riguardanti la certezza o la qualità delle prove (cioè la fiducia o la certezza nell’intervallo di un effetto preventivo o un’associazione), l’entità dell’effetto degli interventi esaminati, e la somma dei dati disponibili sui principali risultati. Le revisioni di Cochrane dovrebbero includere tabelle “Sintesi dei risultati” durante la pianificazione e la pubblicazione e dovrebbero avere almeno una tabella “Sintesi dei risultati” chiave che rappresenta i confronti più importanti. Alcune revisioni possono includere più di una tabella “Sintesi dei risultati”, ad esempio se la revisione affronta più di un confronto importante, o include popolazioni sostanzialmente diverse che richiedono tabelle separate (ad esempio perché gli effetti differiscono o è importante mostrare i risultati separatamente). Nel Cochrane Database of Systematic Reviews (CDSR), la principale tabella “Summary of findings” di una revisione appare all’inizio, prima della sezione Background. Altre tabelle “Sintesi dei risultati” compaiono tra i Risultati e le sezioni di discussione.

14.1.2 Selezione dei risultati per le tabelle “Sintesi dei risultati”

La pianificazione della tabella “Sintesi dei risultati” inizia all’inizio della revisione sistematica, con la selezione dei risultati da includere in: i) la revisione; e ii) la tabella “Sintesi dei risultati”. Questo è un passo cruciale, e uno che gli autori di revisione devono affrontare con attenzione.

Per garantire la produzione di informazioni ottimamente utili, le recensioni di Cochrane iniziano sviluppando una domanda di revisione e elencando tutti i principali risultati che sono importanti per i pazienti e altri decisori (vedere Capitolo 2 e Capitolo 3). L’approccio GRADE per valutare la certezza delle prove (vedi Sezione 14.2) definisce e rende operativo un processo di valutazione che aiuta a separare i risultati in quelli che sono critici, importanti o non importanti per il processo decisionale. La consultazione e il feedback sul protocollo di revisione, anche da parte dei consumatori e di altri responsabili delle decisioni, possono migliorare questo processo.

È probabile che gli esiti critici includano endpoint chiaramente importanti; esempi tipici includono mortalità e morbilità maggiore (come ictus e infarto miocardico). Tuttavia, possono anche rappresentare frequenti effetti collaterali minori e rari, sintomi, qualità della vita, oneri associati al trattamento e problemi di risorse (costi). Gli oneri rappresentano l’impatto del carico di lavoro sanitario sulla funzione e sul benessere del paziente e includono le richieste di aderire a un intervento che i pazienti o gli operatori sanitari (ad esempio la famiglia) potrebbero non gradire, come dover sottoporsi a test più frequenti o le restrizioni sullo stile di vita che determinati interventi richiedono (Spencer-Bonilla et al 2017).

Spesso, quando si formulano domande che includono tutti i risultati importanti per il paziente per il processo decisionale, gli autori della revisione affronteranno i rapporti di studi che non hanno incluso tutti questi risultati. Ciò è particolarmente vero per gli esiti avversi. Per esempio, studi randomizzati potrebbero contribuire prove sugli effetti previsti, e su frequenti, effetti collaterali relativamente minori, ma non riferire su esiti avversi rari come tentativi di suicidio. Il capitolo 19 discute le strategie per affrontare gli effetti avversi. Per ottenere dati per tutti i risultati importanti potrebbe essere necessario esaminare i risultati di studi non randomizzati (vedi Capitolo 24). Cochrane, in collaborazione con altri, ha sviluppato una guida per gli autori di recensioni per supportare la loro decisione su quando cercare e includere studi non randomizzati (Schünemann et al 2013).

Se una revisione include solo studi randomizzati, questi studi potrebbero non affrontare tutti i risultati importanti e potrebbe quindi non essere possibile affrontare questi risultati entro i vincoli della revisione. Gli autori delle recensioni dovrebbero riconoscere queste limitazioni e renderle trasparenti per i lettori. Gli autori della revisione sono incoraggiati a includere studi non randomizzati per esaminare effetti avversi rari o a lungo termine che potrebbero non essere adeguatamente studiati in studi randomizzati. Ciò solleva la possibilità che i risultati del danno possano provenire da studi in cui i partecipanti differiscono da quelli negli studi utilizzati nell’analisi del beneficio. Gli autori delle revisioni dovranno quindi considerare quanto tali differenze possano avere un impatto sui risultati, e ciò influenzerà la certezza delle prove a causa delle preoccupazioni circa l’indirettività relativa alla popolazione (vedere la Sezione 14.2.2).

Gli studi non randomizzati possono fornire informazioni importanti non solo quando gli studi randomizzati non riportano un risultato o gli studi randomizzati soffrono di indirettamente, ma anche quando le prove da studi randomizzati sono valutate come studi molto bassi e non randomizzati forniscono prove di maggiore certezza. Ulteriori discussioni su questi temi appaiono anche nel capitolo 24.

14.1.3 Modello generale per le tabelle “Sommario dei risultati”

Diverse versioni standard alternative delle tabelle “Sommario dei risultati” sono state sviluppate per garantire la coerenza e la facilità d’uso tra le revisioni, l’inclusione delle informazioni più importanti necessarie ai responsabili delle decisioni e una presentazione ottimale (vedi esempi alle figure 14.1.a e 14.1.B). Questi formati sono supportati da ricerche incentrate su una migliore comprensione delle informazioni che intendono trasmettere (Carrasco-Labra et al 2016, Langendam et al 2016, Santesso et al 2016). Sono disponibili attraverso il pacchetto software ufficiale di GRADE sviluppato per supportare l’approccio GRADE: GRADEpro GDT (www.gradepro.org).

Le tabelle standard di Cochrane ‘Summary of findings’ includono i seguenti elementi utilizzando uno dei formati accettati. Ulteriori indicazioni su ciascuno di essi sono fornite nella Sezione 14.1.6.

Una breve descrizione della popolazione e dell’impostazione affrontata dalle prove disponibili (che possono essere leggermente diverse o più ristrette rispetto a quelle definite dalla domanda di riesame).
Una breve descrizione del confronto affrontato nella tabella “Sintesi dei risultati”, compresi sia gli interventi sperimentali che quelli di confronto.
Un elenco dei risultati di salute più critici e/o importanti, sia desiderabili che indesiderabili, limitati a sette o meno risultati.
Una misura del carico tipico di ciascun risultato (ad esempio rischio illustrativo, o media illustrativa, sull’intervento del comparatore).
La grandezza assoluta e relativa dell’effetto misurata per ciascuno (se entrambi sono appropriati).
Il numero di partecipanti e studi che contribuiscono all’analisi di ciascun risultato.
Una valutazione di GRADO della certezza complessiva del corpo di prove per ciascun risultato (che può variare in base all’esito).
Spazio per i commenti.
Spiegazioni (precedentemente note a piè di pagina).

Idealmente, le tabelle “Sintesi dei risultati” sono supportate da tabelle più dettagliate (note come “profili di prova”) a cui può essere collegato il riesame, che forniscono spiegazioni più dettagliate. I profili di evidenza includono gli stessi importanti risultati sanitari e forniscono maggiori dettagli rispetto alle tabelle “Sintesi dei risultati” di entrambe le considerazioni individuali che alimentano la classificazione della certezza e dei risultati degli studi (Guyatt et al 2011a). Assicurano che venga utilizzato un approccio strutturato per valutare la certezza delle prove. Anche se sono raramente pubblicati in recensioni Cochrane, profili di prova sono spesso utilizzati, ad esempio, dagli sviluppatori di linee guida nel considerare la certezza delle prove a sostegno delle raccomandazioni delle linee guida. Gli autori delle recensioni troveranno più facile sviluppare la tabella “Sintesi dei risultati” completando la valutazione della certezza delle prove nel profilo delle prove prima in GRADEpro GDT. Possono quindi convertire automaticamente questo in uno dei formati “Riepilogo dei risultati” in GRADEpro GDT, incluso un “Riepilogo dei risultati” interattivo per la pubblicazione.

Come misura dell’entità dell’effetto per i risultati dicotomici, la tabella “Sintesi dei risultati” dovrebbe fornire una misura relativa dell’effetto (ad esempio rapporto di rischio, odds ratio, pericolo) e misure del rischio assoluto. Per altri tipi di dati, una sola misura assoluta (ad esempio una differenza di mezzi per i dati continui) potrebbe essere sufficiente. È importante che l’entità dell’effetto sia presentata in modo significativo, il che può richiedere una certa trasformazione del risultato di una meta-analisi (vedere anche Capitolo 15, Sezione 15.4 e Sezione 15.5). Le revisioni con più di un confronto principale dovrebbero includere una tabella separata “Sintesi dei risultati” per ciascun confronto.

Figura 14.1.a fornisce un esempio di una tabella “Sintesi dei risultati”. Figura 15.1.b fornisce un formato alternativo che potrebbe facilitare ulteriormente la comprensione e l’interpretazione dei risultati del riesame da parte degli utenti. Le prove che valutano diversi formati suggeriscono che la tabella “Sintesi dei risultati” dovrebbe includere una differenza di rischio come misura dell’effetto assoluto e gli autori dovrebbero preferibilmente utilizzare un formato che includa una differenza di rischio .

Una descrizione dettagliata del contenuto di una tabella “Sintesi dei risultati” figura al punto 14.1.6.

Figura 14.1.un Esempio di una “Sintesi dei risultati” tabella

Sintesi dei risultati (per la versione interattiva, clicca qui)

calze a Compressione rispetto senza calze a compressione per le persone che prendono il volo
i Pazienti o popolazione: chiunque di prendere un volo lungo e persistente (durata più di 6 ore) Impostazioni: international air travel Intervento: compressione stockingsa Confronto: senza calze
Risultati	Illustrativo comparativa rischi* (95% CI)		effetto Relativo (95% CI)	Numero di partecipanti (studi)	Certezza delle prove (GRADO)
	Assume il rischio	rischio Corrispondente
	Senza calze	Con calze
Sintomatico di trombosi venosa profonda (TVP)	Vedere commento	si Veda il commento	Non stimabile	(9 studi)	si Veda il commento	0 i partecipanti hanno sviluppato TVP sintomatica in questi studi
TVP Asintomatiche	Basso rischio populationb		RR 0.10 (0.04 a 0.26)	(9 studi)	⊕⊕⊕⊕ Alta
	10 per 1000	1 per 1000 (da 0 a 3)
	Alto rischio populationb
	20 per 1000	2 per 1000 (1 8)
trombosi venosa Superficiale	13 per 1000	6 per 1000 (da 2 a 15)	RR 0.45 (0.18 per 1.13)	(8 studi)	⊕⊕⊕◯ Moderatec
Edema Post-volo valori misurati su una scala da 0, senza edema, di 10 e un massimo di edema	La media edema punteggio variava tra i gruppi di controllo da 6 9	La media edema punteggio nei gruppi di intervento è stata in media 4.7 inferiore (IC 95% -4.9 a -4.5)		(6 studi)	⊕⊕◯◯ Lowd
embolia Polmonare	si Veda il commento	Si veda il commento	Non stimabile	(9 studi)	si Veda il commento	0 i partecipanti hanno sviluppato embolia polmonare in questi studiese
Morte	si Veda il commento	si Veda il commento	Non stimabile	(9 studi)	si Veda il commento	0 i partecipanti sono morti in questi studi
gli effetti Negativi	si Veda il commento	si Veda il commento	Non stimabile	(4 studi)	si Veda il commento	La tollerabilità delle calze è stato descritto come molto buona, senza reclami di effetti collaterali in 4 studiesf
*La base per il rischio assunto è fornito in note in calce. Il rischio corrispondente (e il suo intervallo di confidenza del 95%) si basa sul rischio assunto nel gruppo di intervento e sull’effetto relativo dell’intervento (e il suo IC del 95%). CI: intervallo di confidenza; RR: rapporto di rischio; GRADO: GRADO di prove del gruppo di lavoro (vedere spiegazioni).

a Tutte le calze nei nove studi inclusi in questa recensione erano calze a compressione sotto il ginocchio. In quattro studi la resistenza a compressione era compresa tra 20 mmHg e 30 mmHg alla caviglia. Negli altri quattro studi era compreso tra 10 mmHg e 20 mmHg. Le calze sono disponibili in diverse dimensioni. Se una calza è troppo stretta intorno al ginocchio può impedire il ritorno venoso essenziale che causa il sangue alla piscina intorno al ginocchio. Le calze a compressione devono essere montate correttamente. Una calza troppo stretta potrebbe penetrare nella pelle durante un lungo volo e potenzialmente causare ulcerazioni e un aumento del rischio di TVP. Alcune calze possono essere leggermente più spesse del normale rivestimento delle gambe e possono essere potenzialmente restrittive con l’usura del piede stretto. È una buona idea indossare calze intorno alla casa prima del viaggio per garantire una buona vestibilità comoda. I partecipanti hanno messo le calze su due o tre ore prima del volo nella maggior parte degli studi. La disponibilità e il costo delle calze possono variare.

b Due studi hanno reclutato partecipanti ad alto rischio definiti come quelli con precedenti episodi di TVP, disturbi della coagulazione, obesità grave, mobilità limitata dovuta a problemi ossei o articolari, malattia neoplastica entro i due anni precedenti, grandi vene varicose o, in uno degli studi, partecipanti più alti di 190 cm e più pesanti di 90 kg. L’incidenza per i sette studi che hanno escluso i partecipanti ad alto rischio è stata 1.45% e l’incidenza per i due studi che hanno reclutato partecipanti ad alto rischio (con almeno un fattore di rischio) è stata del 2,43%. Abbiamo usato rispettivamente 10 e 30 per 1000 per esprimere diversi strati di rischio.

c L’intervallo di confidenza non attraversa alcuna differenza e non esclude un piccolo aumento.

d La misurazione dell ‘edema non è stata convalidata (indirettività dell’ esito) o accecata all ‘ intervento (rischio di bias).

e Se ci sono pochissimi o nessun evento e il numero dei partecipanti è elevato, il giudizio sulla certezza delle prove (in particolare i giudizi sull’imprecisione) può essere basato sull’effetto assoluto. Qui il grado di certezza può essere considerato ‘alto’ se il risultato è stato adeguatamente valutato e l’evento, infatti, non si è verificato in 2821 partecipanti studiati.

f Nessuno degli altri studi ha riportato effetti avversi, ad eccezione di quattro casi di trombosi venosa superficiale nelle vene varicose nella regione del ginocchio che sono stati compressi dal bordo superiore della calza in uno studio.

Figura 14.1.b Esempio di alternativa “Sintesi dei risultati” tabella

Sintesi dei risultati (per la versione interattiva, clicca qui):
Probiotici rispetto all’assenza di probiotici come coadiuvante di antibiotici nei bambini
Paziente o popolazione: bambini dato antibiotici Impostazioni: pazienti ricoverati e ambulatoriali Intervento: i probiotici Confronto: no probiotici
Risultati No di partecipanti (studi)	effetti (95% CI)	Anticipato assoluto effetti* (95% CI)			Certezza delle prove (GRADO)
Risultati No di partecipanti (studi)	effetti (95% CI)	Senza probiotici	Con i probiotici	Differenza	Certezza delle prove (GRADO)
l’Incidenza di diarrea: Probiotici dose di 5 miliardi di CFU/giorno Follow-up: 10 giorni a 3 mesi Bambini < 5 anni		Bambini < 5 anni			⊕⊕⊕⊝ moderateb a Causa del rischio di bias	Probabilmente diminuisce l’incidenza di diarrea.
1474 (7 studi)	RR 0,41 (0,29 a 0.55)	22.3%un	8.9% (6.5 per 12.2)	13.4% meno childrena (10,1 a 15.8 meno)	⊕⊕⊕⊝ moderateb a Causa del rischio di bias	Probabilmente diminuisce l’incidenza di diarrea.
Bambini > 5 anni		Bambini > 5 anni			⊕⊕⊝⊝ lowb, c a Causa del rischio di bias e l’imprecisione	Può diminuire l’incidenza di diarrea.
624 (4 studi)	RR 0.81 (0,53 a 1.21)	11.2%un	9% (5.9 per 13.6)	2.2% meno childrena (5.3 meno di 2.4 più)	⊕⊕⊝⊝ lowb, c a Causa del rischio di bias e l’imprecisione	Può diminuire l’incidenza di diarrea.
Negativi eventsd Follow-up: da 10 a 44 giorni 1575 (11 studi)		1.8%un	2.3% (0.8 per 3.8)	0.5% più avverse eventse (1 in meno di 2 più)	⊕⊕⊝⊝ lowf, g a Causa del rischio di bias e l’incoerenza	Ci può essere poca o nessuna differenza di eventi avversi.
Durata della diarrea Follow-up: 10 giorni a 3 mesi 897 (5 studi)		La durata media della diarrea senza probiotici è stata di 4 giorni.		0.6 meno giorni (da 1,18 a 0,02 giorni in meno)	⊕⊕⊝⊝ lowh, i A causa di imprecisione e incoerenza	Può ridurre la durata della diarrea.
Feci al giorno Follow-up: 10 giorni a 3 mesi 425 (4 studi)		Le feci medie al giorno senza probiotici erano 2,5 feci al giorno.		0.3 meno di feci al giorno (da 0,6 a 0 in meno)	⊕⊕⊝⊝ lowj, k a Causa di imprecisioni e incoerenze	Ci può essere poca o nessuna differenza nelle feci al giorno.
*La base del rischio nel gruppo di controllo (ad esempio il rischio mediano del gruppo di controllo tra gli studi) è fornita nelle note a piè di pagina. Il rischio nel gruppo di intervento (e il suo intervallo di confidenza al 95%) si basa sul rischio assunto nel gruppo di confronto e sull’effetto relativo dell’intervento (e il suo IC al 95%). CI: intervallo di confidenza; RR: rapporto di rischio.
SPIEGAZIONI a Le stime di rischio del gruppo di controllo provengono da stime raggruppate dei gruppi di controllo. Effetto relativo basato sull’analisi dei casi disponibili b Alto rischio di bias a causa dell’elevata perdita di follow-up. c L’imprecisione dovuta a pochi eventi e intervalli di confidenza include benefici o danni apprezzabili. d Effetti collaterali: eruzione cutanea, nausea, flatulenza, vomito, aumento del catarro, dolore toracico, stitichezza, disturbi del gusto e basso appetito. i rischi sono stati calcolati sulla base delle differenze di rischio raggruppate. f Alto rischio di bias. Solo 11 studi su 16 hanno riportato eventi avversi, suggerendo una polarizzazione selettiva della segnalazione. g Grave incoerenza. Numerosi agenti probiotici e dosi sono stati valutati tra un numero relativamente piccolo di studi, limitando la nostra capacità di trarre conclusioni sulla sicurezza dei molti agenti probiotici e dosi somministrate. h Grave incoerenza inspiegabile (grande eterogeneità I2 = 79%, valore P, stime puntuali e intervalli di confidenza variano considerevolmente). i Grave imprecisione. Il limite superiore di 0,02 giorni in meno di diarrea non è considerato importante per il paziente. j Grave incoerenza inspiegabile (grande eterogeneità I2 = 78%, valore P, stime puntuali e intervalli di confidenza variano considerevolmente). k Grave imprecisione. L’intervallo di confidenza del 95% non include alcun effetto e il limite inferiore di 0,60 feci al giorno è di dubbia importanza per il paziente.

14.1.4 Produzione di tabelle “Sintesi dei risultati”

Il software del Gruppo di lavoro GRADE, GRADEpro GDT (www.gradepro.org), incluso il manuale interattivo di GRADE, è disponibile per assistere gli autori di recensioni nella preparazione di tabelle di sintesi dei risultati. GRADEpro può utilizzare i dati sul rischio del gruppo di confronto e la stima dell’effetto (inseriti dagli autori della recensione o importati da file generati in RevMan) per produrre gli effetti relativi e i rischi assoluti associati agli interventi sperimentali. Inoltre, guida l’utente attraverso il processo di valutazione del GRADO e produce una tabella che può essere utilizzata come tabella autonoma in una revisione (inclusa l’importazione diretta in software come RevMan o l’integrazione con RevMan Web) o una tabella interattiva “Riepilogo dei risultati” (vedere risorse della guida in GRADEpro).

14.1.5 Considerazioni statistiche nelle tabelle “Sintesi dei risultati”

14.1.5.1 Risultati dicotomici

Le tabelle “Sintesi dei risultati” dovrebbero includere sia le misure di effetto assolute che quelle relative per i risultati dicotomici. I rapporti di rischio, i rapporti di probabilità e le differenze di rischio sono modi diversi di confrontare due gruppi con dati di risultato dicotomici (vedere Capitolo 6, Sezione 6.4.1). Inoltre, esistono due indici di rischio distinti, a seconda di quale evento (ad esempio ” sì ” o “no”) è al centro dell’analisi (cfr.Capitolo 6, sezione 6.4.1.5). In presenza di un effetto di intervento diverso da zero, qualsiasi variazione tra gli studi nel gruppo di confronto rischia (es. la variazione del rischio che l’evento si verifichi senza l’intervento di interesse, ad esempio in popolazioni diverse) rende impossibile che più di una di queste misure sia veramente la stessa in ogni studio.

È stato a lungo ipotizzato in epidemiologia che le misure relative di effetto siano più coerenti delle misure assolute di effetto da uno scenario all’altro. Esistono prove empiriche a sostegno di questa ipotesi (Engels et al 2000, Deeks e Altman 2001, Furukawa et al 2002). Per questo motivo, le meta-analisi dovrebbero generalmente utilizzare un rapporto di rischio o un odds ratio come misura dell’effetto (vedi Capitolo 10, Sezione 10.4.3). Di conseguenza, è probabile che una singola stima dell’effetto relativo sia una sintesi più appropriata di una singola stima dell’effetto assoluto. Se un effetto relativo è effettivamente coerente tra gli studi, i diversi rischi del gruppo di confronto avranno implicazioni diverse per il beneficio assoluto. Ad esempio, se il rapporto di rischio è costantemente 0.75, quindi l’intervento sperimentale ridurrebbe di un gruppo di confronto di rischio dell ‘ 80% al 60% nel gruppo di intervento (una riduzione del rischio assoluto di 20 punti percentuali), ma ridurrebbe anche un gruppo di confronto del rischio del 20% al 15% nel gruppo di intervento (una riduzione del rischio assoluto di 5 punti percentuali).

Le tabelle “Sintesi dei risultati” sono costruite attorno all’ipotesi di un effetto relativo coerente. È quindi importante considerare le implicazioni di questo effetto per i diversi rischi del gruppo di confronto (questi possono essere derivati o stimati da una serie di fonti, vedere Paragrafo 14.1.6.3), che può richiedere una valutazione della certezza delle prove per le prove prognostiche (Spencer et al 2012, Iorio et al 2015). Per qualsiasi rischio di gruppo di confronto, è possibile stimare un rischio di gruppo di intervento corrispondente (cioè il rischio assoluto con l’intervento) dal rapporto di rischio meta-analitico o odds ratio. Si noti che i numeri forniti nella colonna “Rischio corrispondente” sono specifici per i “rischi” nella colonna adiacente.

Per il rapporto di rischio meta-analitico (RR) e il rischio di confronto presunto (ACR) il rischio di intervento corrispondente è ottenuto come:

Ad esempio, nella Figura 14.1.a, il rapporto di rischio meta-analitico per la trombosi venosa profonda senza sintomi (TVP) è RR = 0,10 (IC 95% da 0,04 a 0,26). Supponendo un rischio di confronto di ACR = 10 per 1000 = 0,01, otteniamo:

Per l’odds ratio meta-analitico (OR) e il rischio di confronto presunto, ACR, il rischio di intervento corrispondente è ottenuto come:

I limiti di confidenza superiore e inferiore per il rischio di intervento corrispondente si ottengono sostituendo RR o O con i loro limiti di confidenza superiore e inferiore, rispettivamente (ad esempio sostituendo 0.10 con 0.04, quindi con 0.26, nell’esempio). Tali intervalli di confidenza non incorporano incertezza nei rischi di confronto ipotizzati.

Quando si tratta di rapporti di rischio, è fondamentale che venga utilizzata la stessa definizione di “evento” utilizzata per la meta-analisi. Ad esempio, se la meta-analisi si è concentrata sulla “morte” (anziché sulla sopravvivenza) come evento, i rischi corrispondenti nella tabella “Riepilogo dei risultati” devono anche riferirsi a “morte”.

In (rare) circostanze in cui vi è una chiara giustificazione per assumere una differenza di rischio coerente nella meta-analisi, in linea di principio è possibile presentare questa per i “rischi assunti” pertinenti e i relativi rischi corrispondenti e presentare i corrispondenti (diversi) effetti relativi per ciascun rischio assunto.

La differenza di rischio esprime la differenza tra l’ACR e il rischio di intervento corrispondente (o la differenza tra l’intervento sperimentale e l’intervento di confronto).

Per il rapporto di rischio meta-analitico (RR) e il rischio di confronto presunto (ACR) la differenza di rischio corrispondente è ottenuta come (si noti che i rischi possono essere espressi anche utilizzando percentuale o punti percentuali):

Ad esempio, in Figura 14.1.b il rapporto di rischio meta-analitico è 0,41 (IC al 95% da 0,29 a 0,55) per la diarrea nei bambini di età inferiore ai 5 anni. Supponendo un rischio di gruppo di confronto del 22,3% otteniamo:

Per la meta-analitica odds ratio (or) e assume il comparatore di rischio (ACR) l’assoluta differenza di rischio è ottenuta come (punti percentuali):

Superiore e inferiore limiti di confidenza per la differenza di rischio assoluto sono ottenuti eseguendo nuovamente il calcolo di cui sopra, mentre la sostituzione RR o O da un loro superiore e inferiore limiti di confidenza, rispettivamente (come ad esempio la sostituzione 0.41 con 0,28, quindi con 0.55, nell’esempio). Tali intervalli di confidenza non incorporano incertezza nei rischi di confronto ipotizzati.

14.1.5.2 Time-to-event outcomes

Time-to-event outcomes misura se e quando si verifica un particolare evento (ad esempio la morte) (van Dalen et al 2007). L’impatto dell’intervento sperimentale rispetto al gruppo di confronto sui risultati time-to-event viene solitamente misurato utilizzando un hazard ratio (HR) (vedere Capitolo 6, Paragrafo 6.8.1).

Un hazard ratio esprime una stima dell’effetto relativo. Può essere utilizzato in vari modi per ottenere rischi assoluti e altre quantità interpretabili per una popolazione specifica. Qui descriviamo come ri-esprimere i rapporti di rischio in termini di: (i) rischio assoluto di sopravvivenza libera da eventi entro un determinato periodo di tempo; (ii) rischio assoluto di un evento entro un particolare periodo di tempo; e (iii) tempo mediano per l’evento. Tutti i metodi sono basati su un’ipotesi di effetti relativi coerenti (cioè che l’hazard ratio non varia nel tempo).

i) Il rischio assoluto di sopravvivenza libera da eventi entro un determinato periodo di tempo La sopravvivenza libera da eventi(ad esempio la sopravvivenza globale) è comunemente riportata da studi individuali. Per ottenere effetti assoluti per gli outcomes time-to-event misurati come sopravvivenza libera da eventi, la HR di sintesi può essere utilizzata in combinazione con una percentuale presunta di pazienti che sono liberi da eventi nel gruppo di confronto (Tierney et al 2007). Questa percentuale di pazienti sarà specifica per un periodo di tempo di osservazione. Tuttavia, non è strettamente necessario specificare questo periodo di tempo. Ad esempio, una percentuale del 50% dei pazienti liberi da eventi potrebbe applicarsi a pazienti con un alto tasso di eventi osservato in 1 anno o a pazienti con un basso tasso di eventi osservato in 2 anni.

Ad esempio, supponiamo che l’hazard ratio meta-analitico sia 0,42 (95% CI da 0,25 a 0,72). Supponendo un rischio di gruppo di confronto di sopravvivenza libera da eventi (ad esempio per le persone in vita in sopravvivenza globale) a 2 anni di ACR = 900 per 1000 = 0,9 otteniamo:

in modo che 956 per 1000 persone saranno vivi con l’intervento sperimentale a 2 anni. La derivazione del rischio dovrebbe essere spiegata in un commento o in una nota a piè di pagina.

(ii) il rischio Assoluto di un evento in un determinato periodo di tempo Per ottenere questo effetto assoluto, di nuovo la sintesi HR può essere utilizzato (Tierney et al 2007):

Nell’esempio, supponiamo di assumere un gruppo di confronto di rischio di eventi (ad es. per la mortalità, le persone di essere morto) a 2 anni di ACR = 100 a 1000 = 0.1. Otteniamo:

in modo che che 44 ogni 1000 persone saranno morti con l’intervento sperimentale a 2 anni.

(iii) Tempo mediano all’evento Invece di numeri assoluti, il tempo all’evento nei gruppi di intervento e di confronto può essere espresso come tempo mediano di sopravvivenza in mesi o anni. Per ottenere il tempo di sopravvivenza mediano, l’HR aggregato può essere applicato a un tempo di sopravvivenza mediano presunto nel gruppo di confronto (Tierney et al 2007):

Nell’esempio, assumendo un tempo di sopravvivenza mediana del gruppo di confronto di 80 mesi, otteniamo:

Per tutte e tre queste opzioni di ri-esprimere i risultati delle analisi time-to-event, i limiti di confidenza superiore e inferiore per il rischio di intervento corrispondente si ottengono sostituendo HR con i suoi limiti di confidenza superiore e inferiore, rispettivamente (ad esempio sostituendo 0,42 con 0,25, quindi con 0,72, nell’esempio). Anche in questo caso, come per i risultati dicotomici, tali intervalli di confidenza non incorporano incertezza nei rischi ipotizzati del gruppo di confronto. Ciò è particolarmente preoccupante per la sopravvivenza a lungo termine con un tasso di mortalità basso o moderato e un corrispondente numero elevato di pazienti censurati (cioè un basso numero di pazienti a rischio e un alto tasso di censurazione).

14.1.6 Contenuto dettagliato di una tabella “Sommario dei risultati”

14.1.6.1 Titolo e intestazione della tabella

Il titolo di ogni tabella “Sommario dei risultati” dovrebbe specificare la questione sanitaria, inquadrata in termini di popolazione e chiarendo esattamente quale confronto degli interventi viene effettuato. Nella figura 14.1.a, la popolazione è persone che prendono lunghi voli aerei, l’intervento è calze a compressione e il controllo non è calze a compressione.

Le prime righe di ogni tabella “Riassunto dei risultati” dovrebbero fornire le seguenti informazioni “intestazione”:

Pazienti o popolazione Ciò chiarisce ulteriormente la popolazione (e possibilmente le sottopopolazioni) di interesse e idealmente l’entità del rischio dell’esito negativo più cruciale a cui è diretto un intervento. Per esempio, le persone su un volo a lungo raggio possono essere a diversi rischi per TVP; quelli che utilizzano inibitori selettivi della ricaptazione della serotonina (SSRI) potrebbero essere a diverso rischio di effetti collaterali; mentre quelli con fibrillazione atriale possono essere a basso (< 1%), moderato (1% a 4%) o alto (> 4%) rischio annuale di ictus.

Impostazione Questa dovrebbe indicare le caratteristiche specifiche delle impostazioni della questione sanitaria che potrebbero limitare l’applicabilità del riassunto dei risultati ad altre impostazioni (ad esempio cure primarie in Europa e Nord America).

Intervento L’intervento sperimentale.

Confronto L’intervento del comparatore (incluso nessun intervento specifico).

14.1.6.2 Risultati

Le righe di una tabella “Sintesi dei risultati” dovrebbero includere tutti i risultati di salute desiderabili e indesiderati (elencati in ordine di importanza) che sono essenziali per il processo decisionale, fino a un massimo di sette risultati. Se ci sono più risultati nella revisione, gli autori della revisione dovranno omettere i risultati meno importanti dalla tabella e la decisione di selezionare quali risultati sono critici o importanti per la revisione dovrebbe essere presa durante lo sviluppo del protocollo (vedere Capitolo 3). Gli autori della revisione dovrebbero fornire intervalli di tempo per la misurazione dei risultati (ad esempio 90 giorni o 12 mesi) e il tipo di punteggi strumentali (ad esempio da 0 a 100).

Si noti che gli autori delle revisioni dovrebbero includere i risultati critici e importanti pre-specificati nella tabella, indipendentemente dal fatto che i dati siano disponibili o meno. Tuttavia, essi dovrebbero prestare attenzione alla possibilità che l’importanza di un risultato (ad esempio un effetto negativo grave) possa diventare nota solo dopo la stesura del protocollo o l’analisi e dovrebbero adottare le misure appropriate per includerli nella tabella “Sintesi dei risultati”.

La tabella “Sintesi dei risultati” può includere separatamente gli effetti nei sottogruppi della popolazione per diversi rischi di confronto e dimensioni degli effetti. Ad esempio, nella Figura 14.1.gli effetti b sono presentati per i bambini più giovani e più vecchi di 5 anni separatamente. Gli autori della revisione possono anche scegliere di produrre tabelle separate “Sintesi dei risultati” per diverse popolazioni.

Gli autori delle recensioni dovrebbero includere eventi avversi gravi, ma potrebbe essere possibile combinare eventi avversi minori come un unico risultato e descriverlo in una nota esplicativa (si noti che non è appropriato aggiungere eventi insieme a meno che non siano indipendenti, cioè un partecipante che ha sperimentato un evento avverso ha una probabilità inalterata di sperimentare l’altro evento avverso).

I risultati misurati in più punti temporali rappresentano un problema particolare. In generale, per mantenere la tabella semplice, gli autori delle recensioni dovrebbero presentare più punti temporali solo per i risultati critici per il processo decisionale, in cui è probabile che il risultato o la decisione presa vari nel tempo. Il resto dovrebbe essere presentato in un momento comune, ove possibile.

Gli autori delle recensioni possono presentare misure di risultato continue nella tabella “Sintesi dei risultati” e dovrebbero cercare di renderle interpretabili al pubblico di destinazione. Ciò richiede che le unità siano chiare e facilmente interpretabili, ad esempio i giorni di dolore o la frequenza del mal di testa, e che sia indicato il nome e la scala degli strumenti di misurazione utilizzati (ad esempio una scala analogica visiva, compresa tra 0 e 100). Tuttavia, molti strumenti di misurazione non sono facilmente interpretabili da medici o pazienti non specializzati, ad esempio, punti su un inventario della depressione di Beck o un punteggio sulla qualità della vita. Per questi, una presentazione più interpretabile potrebbe comportare la conversione di un risultato continuo in un risultato dicotomico, come un miglioramento >50% (vedi Capitolo 15, Sezione 15.5).

14.1.6.3 Migliore stima del rischio con l’intervento del comparatore

Gli autori delle recensioni dovrebbero fornire fino a tre rischi tipici per i partecipanti che ricevono l’intervento del comparatore. Per i risultati dicotomici, raccomandiamo che questi siano presentati sotto forma del numero di persone che sperimentano l’evento per 100 o 1000 persone (frequenza naturale) a seconda della frequenza del risultato. Per i risultati continui, questo sarebbe indicato come un valore medio o mediano del risultato misurato.

Stima o assunto comparatore di intervento rischi potrebbero essere sulla base di valutazioni di rischi tipici in diversi gruppi di pazienti derivati dalla revisione stessa, rappresentante individuale studi in revisione, o rischi derivanti da una revisione sistematica di prognosi studi o altre fonti di prova che potrebbero a loro volta necessitano di una valutazione della sicurezza per la prognostico prove (Spencer et al 2012, Iorio et al 2015). Idealmente, i rischi rifletterebbero gruppi che i medici possono facilmente identificare sulla base delle loro caratteristiche di presentazione.

Una nota esplicativa dovrebbe specificare la fonte o la motivazione di ciascun rischio del gruppo di confronto, compreso il periodo di tempo a cui corrisponde, se del caso. Nella figura 14.1.a, i medici possono facilmente differenziare gli individui con fattori di rischio per trombosi venosa profonda da quelli senza. Se è noto che vi è una piccola variazione nel rischio basale, gli autori della revisione possono utilizzare il rischio mediano del gruppo di confronto tra gli studi. Se i rischi tipici non sono noti, un’opzione è quella di scegliere il rischio dagli studi inclusi, fornendo il secondo più alto per una popolazione ad alto e il secondo più basso per una popolazione a basso rischio.

14.1.6.4 Rischio con intervento

Per i risultati dicotomici, gli autori della revisione dovrebbero fornire un rischio assoluto corrispondente per ciascun rischio del gruppo di confronto, insieme a un intervallo di confidenza. Questo rischio assoluto con l’intervento (sperimentale) sarà di solito derivato dal risultato della meta-analisi presentato nella colonna effetto relativo (vedere Sezione 14.1.6.6). Le formule sono fornite nella Sezione 14.1.5. Gli autori della revisione dovrebbero presentare l’effetto assoluto nello stesso formato dei rischi con l’intervento del comparatore (vedere Sezione 14.1.6.3), ad esempio come numero di persone che sperimentano l’evento ogni 1000 persone.

Per risultati continui, una differenza di media o differenza standardizzata di media dovrebbe essere presentata con il suo intervallo di confidenza. Questi saranno in genere ottenuti direttamente da una meta-analisi. Il testo esplicativo dovrebbe essere usato per chiarire il significato, come nelle figure 14.1.a e 14.1.b.

14.1.6.5 Differenza di rischio

Per i risultati dicotomici, la differenza di rischio può essere fornita utilizzando uno dei formati di tabella “Sintesi dei risultati” come opzione aggiuntiva (cfr.Figura 14.1.B). Questa differenza di rischio esprime la differenza tra l’intervento sperimentale e quello di confronto e di solito è derivata dal risultato della meta-analisi presentato nella colonna relativo effetto (vedere Paragrafo 14.1.6.6). Le formule sono fornite al punto 14.1.5. Gli autori della revisione dovrebbero presentare la differenza di rischio nello stesso formato dei rischi assunti e corrispondenti con l’intervento del comparatore (vedere Sezione 14.1.6.3); ad esempio, come numero di persone che sperimentano l’evento per 1000 persone o come punti percentuali se i rischi assunti e corrispondenti sono espressi in percentuale.

Per i risultati continui, se la tabella “Sintesi dei risultati” include questa opzione, la differenza media può essere presentata qui e la colonna “rischio corrispondente” lasciata vuota (cfr.Figura 14.1.B).

14.1.6.6 Effetto relativo (IC 95%)

L’effetto relativo sarà tipicamente un rapporto di rischio o odds ratio (o occasionalmente un hazard ratio) con il relativo intervallo di confidenza del 95%, ottenuto da una meta-analisi eseguita sulla base della stessa misura di effetto. I rapporti di rischio e i rapporti di probabilità sono simili quando i rischi di intervento del comparatore sono bassi e gli effetti sono piccoli, ma possono differire considerevolmente quando i rischi del gruppo di confronto aumentano. La meta-analisi può comportare un’assunzione di effetti fissi o casuali, a seconda di ciò che gli autori della revisione considerano appropriato, e implicando che l’effetto relativo è una stima dell’effetto dell’intervento o una stima dell’effetto medio dell’intervento tra gli studi, rispettivamente.

14.1.6.7 Numero di partecipanti (studi)

Questa colonna dovrebbe includere il numero di partecipanti valutati negli studi inclusi per ciascun risultato e il numero corrispondente di studi che hanno contribuito a questi partecipanti.

14.1.6.8 Certezza delle prove (GRADO)

Gli autori delle recensioni dovrebbero commentare la certezza delle prove (nota anche come qualità del corpo delle prove o fiducia nelle stime degli effetti). Gli autori delle recensioni dovrebbero utilizzare il sistema di classificazione delle prove specifico sviluppato dal gruppo di lavoro GRADE (Atkins et al 2004, Guyatt et al 2008, Guyatt et al 2011a), che è descritto in dettaglio nella Sezione 14.2. L’approccio del GRADO categorizza la certezza in un corpo di prove come “alta”, “moderata”, “bassa” o “molto bassa” per risultato. Questo è il risultato del giudizio, ma il processo di giudizio opera all’interno di una struttura trasparente. Ad esempio, la certezza sarebbe “alta” se il riassunto fosse di diversi studi randomizzati con basso rischio di bias, ma la valutazione della certezza diventa più bassa se ci sono preoccupazioni sul rischio di bias, incoerenza, indirectness, imprecisione o bias di pubblicazione. I giudizi diversi da quelli di “alta” certezza dovrebbero essere resi trasparenti utilizzando note esplicative a piè di pagina o la colonna “Commenti” nella tabella “Sintesi dei risultati” (cfr.Sezione 14.1.6.10).

14.1.6.9 Commenti

Lo scopo del campo “Commenti” è quello di aiutare a interpretare le informazioni o i dati identificati nella riga. Ad esempio, questo può essere sulla validità della misura del risultato o sulla presenza di variabili associate alla grandezza dell’effetto. Avvertimenti importanti sui risultati dovrebbero essere contrassegnati qui. Non tutte le righe avranno bisogno di commenti, ed è meglio lasciare uno spazio vuoto se non c’è nulla che giustifichi un commento.

14.1.6.10 Spiegazioni

Spiegazioni dettagliate dovrebbero essere incluse come note a piè di pagina a sostegno dei giudizi nella tabella “Sintesi dei risultati”, come la valutazione complessiva del GRADO. Le spiegazioni dovrebbero descrivere la logica di importanti aspetti del contenuto. Tabella 14.1.a elenca una guida per spiegazioni utili. Le spiegazioni dovrebbero essere concise, informative, pertinenti, facili da capire e accurate. Se le spiegazioni non possono essere sufficientemente descritte nelle note a piè di pagina, gli autori della revisione dovrebbero fornire ulteriori dettagli sulle questioni nei Risultati e nelle sezioni di discussione della revisione.

Tabella 14.1.una guida per fornire spiegazioni utili nelle tabelle “Summary of findings” (SoF). Adattato da Santesso et al (2016)

Indicazioni generali

Inserire, se possibile, le informazioni per i lettori direttamente nella tabella (ad esempio, informazioni sulla durata del follow-up o sulla scala utilizzata).
In generale, non citare riferimenti nella sezione spiegazioni, a meno che non vi siano ragioni specifiche, ad esempio, per fornire informazioni sulle fonti dei rischi di base (cfr.punto 3).
Fornire la fonte di informazioni sui rischi di base utilizzati per calcolare gli effetti assoluti.
Al termine della tabella, rivedere tutte le spiegazioni per determinare se alcune potrebbero essere referenziate più volte se riformulate o combinate.
Fornire le ragioni per l’aggiornamento e il declassamento delle prove (vedere la guida specifica del dominio di seguito) e utilizzare il software GRADEpro GDT per aderire alla guida di GRADO.
Il corpo di prove per un particolare risultato può essere determinato per avere problemi gravi o molto gravi per il dominio interessato (o criticamente gravi per il rischio di pregiudizi quando viene utilizzato ROBINS-I). Pertanto, può essere utile indicare il numero di livelli per il declassamento (ad esempio declassato di un livello per il rischio di bias), ma evitare la ripetizione di ciò che è nella tabella (e l’impressione di reporting formulaico o algoritmico). Nei profili evidence, queste informazioni sono già nelle celle della tabella.
Sebbene le spiegazioni sulla certezza delle prove siano richieste principalmente quando alterano la certezza, prendere in considerazione l’aggiunta di una spiegazione quando la certezza delle prove non è stata modificata ma quando questa decisione può essere messa in discussione da altri. Questo aiuterà a comprendere le ragioni del disaccordo.
Accertarsi che la tabella non sia utilizzata come descrizione dei metodi del riesame (ad esempio, non descrivere i motivi dell’analisi statistica).
Immettere i risultati per i risultati che non possono essere combinati statisticamente in una meta-analisi (es. risultati narrativi) direttamente nella tabella SoF nelle colonne dei risultati. Una spiegazione potrebbe non essere necessaria per comunicare tali risultati. Se considerato vantaggioso per il pubblico previsto, aggiungere stime complementari degli effetti dell’intervento (ad esempio numero necessario per trattare per benefici e danni, differenza di rischio espressa in percentuale, risultato continuo espresso in unità minime di differenza importante) nella colonna Commenti.
Utilizzare le informazioni presentate nelle spiegazioni sul processo di valutazione per informare altre parti chiave della revisione, comprese le versioni riassuntive e la discussione.

Guida specifica del dominio per la scrittura di spiegazioni utili

Rischio di bias

Descrivere il numero di studi, o la quantità di informazioni che forniscono nella meta-analisi, che erano ad alto rischio di bias e per quale criterio.
1. Utilizzare termini come maggioranza, minoranza, tutti, alcuni o nessuno; o il numero di studi come X/X studi.
2. Per gli studi randomizzati, menzionare i criteri specifici tra cui l’occultamento della sequenza di allocazione,la segnalazione selettiva dei risultati, ecc. Per gli studi non randomizzati, descrivere il criterio nello strumento utilizzato (ad esempio utilizzando lo strumento ROBINS-I).
3. Indicare se l’effetto del rischio di bias è stato esaminato in un’analisi di sensibilità. Se del caso, menzionare il contributo degli studi ad alto rischio di pregiudizio alle stime.
Le informazioni sulla progettazione dello studio possono essere incluse nelle spiegazioni, in particolare in SoF quando sono inclusi diversi progetti di studio.

Incoerenza

Indica la misura utilizzata per giudicare l’incoerenza, come il test o la misura statistica (I2, Chi2, Tau), o la sovrapposizione degli intervalli di confidenza o la somiglianza delle stime puntuali.
Se l’incoerenza è basata su I2, descriverla come considerevole, sostanziale, moderata o non importante.
Se applicabile, menzionare se l’eterogeneità è stata esplorata nelle analisi dei sottogruppi da PICO (pazienti, intervento, confronto, esito) e se ci sono altre potenziali ragioni per l’eterogeneità.
Nel caso di un singolo studio per un risultato, dire che non c’è “nessuno” piuttosto che “non applicabile”.

Imprecisione

Indica dove la dimensione del campione o il numero di eventi non soddisfa la dimensione ottimale delle informazioni calcolate, o le “regole empiriche” (ad esempio 400 eventi). Evitare il riferimento al numero di studi come motivo di imprecisione.
Indicare se gli intervalli di confidenza includono la possibilità di un piccolo o nessun effetto E importanti benefici o danni. Se noto, fornire il valore numerico della soglia di beneficio importante.
Evitare di segnalare il risultato come statisticamente o non statisticamente significativo.

Aggiornamento

Menzionare il motivo dell’aggiornamento: a causa di un grande effetto; un gradiente dose-risposta; o un plausibile residuo di confusione opposta aumenta la certezza delle prove.
Per effetti di grandi dimensioni, segnalare se l’effetto relativo è > 2 o > 5. Per i gradienti dose-risposta, fornire il livello di intervento e l’effetto sul risultato. Per il dominio ‘plausibile confounding opponente residuo’, descrivere l’effetto del fattore di confondimento sulla stima.

14.2 Valutare la certezza o la qualità di un corpo di evidenze

14.2.1 L’approccio di GRADO

I Gradi di Raccomandazione, valutazione, Sviluppo e Valutazione del Gruppo di Lavoro (GRADE Working Group) ha sviluppato un sistema per la classificazione e la certezza delle prove (Schünemann et al 2003, Atkins et al 2004, Schünemann et al 2006, Guyatt et al 2008, Guyatt et al 2011a). Oltre 100 organizzazioni, tra cui l’Organizzazione Mondiale della Sanità (OMS), l’American College of Physicians, l’American Society of Hematology (ASH), l’Agenzia Canadese per la Droga e la Tecnologia in Sanità (CADTH) e il National Institutes of Health and Clinical Excellence (NICE), nel regno UNITO hanno adottato il sistema di qualità (www.gradeworkinggroup.org).

Cochrane ha formalmente adottato questo approccio, e tutte le Revisioni Cochrane dovrebbe utilizzare GRADO di valutare la certezza di prove per risultati importanti (vedi MECIR Casella 14.2.un).

Scatola MECIR 14.2.un Rilevante aspettative per il comportamento di intervento giudizi

C74: Valutare la certezza del corpo di prove (Obbligatorio)
Utilizzare i cinque GRADO considerazioni (rischio di bias, la coerenza dell’effetto, imprecisione, indiretti e bias di pubblicazione) per valutare la certezza del corpo di prove per ogni risultato, e per trarre conclusioni circa la certezza della prova all’interno del testo della recensione.	Il GRADO è l’approccio più utilizzato per riassumere la fiducia negli effetti degli interventi in base ai risultati degli studi. È preferibile utilizzare lo strumento GRADEpro online e utilizzarlo come descritto nel sistema di aiuto del software. Ciò dovrebbe contribuire a garantire che i team di autori accedano alle stesse informazioni per informare i loro giudizi. Idealmente, due persone che lavorano in modo indipendente dovrebbero valutare la certezza del corpo di prove e raggiungere una visione di consenso su eventuali decisioni di declassamento. Le considerazioni sui cinque gradi dovrebbero essere affrontate indipendentemente dal fatto che la revisione includa una tabella “Sintesi dei risultati”. È utile attingere a queste informazioni nella discussione, nelle conclusioni degli autori e trasmettere la certezza nelle prove nel riassunto astratto e semplice del linguaggio.
C75: Giustificare le valutazioni della certezza del corpo di prove (Obbligatorio)
Giustificare e documentare tutte le valutazioni della certezza del corpo di prove (ad esempio il downgrade o l’aggiornamento utilizzando il GRADO).	L’adozione di un approccio strutturato garantisce trasparenza nella formulazione di un’interpretazione delle prove e il risultato è più informativo per l’utente.

Per le revisioni sistematiche, l’approccio del GRADO definisce la certezza di un corpo di prove come la misura in cui si può essere sicuri che una stima dell’effetto o dell’associazione sia vicina alla quantità di interesse specifico. La valutazione e la certezza di un corpo di prova comporta la considerazione dell’interno – e attraverso-studio del rischio di bias (limitazioni in studio di progettazione e di esecuzione o di qualità metodologica), incoerenza (o eterogeneità), indirectness di prove, l’imprecisione delle stime di effetto e il rischio di bias di pubblicazione (vedere paragrafo 14.2.2), così come i domini che possono aumentare la nostra fiducia nell’effetto preventivo (come descritto nella Sezione 14.2.3). Il sistema di valutazione comporta una valutazione della certezza di un corpo di prove per ogni singolo risultato. I giudizi sui settori che determinano la certezza delle prove dovrebbero essere descritti nella sezione risultati o discussione e come parte della tabella “Sintesi dei risultati”.

L’approccio del GRADO specifica quattro livelli di certezza (figura 14.2.un). Per gli interventi, compresi i test diagnostici e altri che vengono valutati come interventi (Schünemann et al 2008b, Schünemann et al 2008a, Balshem et al 2011, Schünemann et al 2012), il punto di partenza per valutare la certezza delle prove è classificato in due tipi:

studi randomizzati; e
studi non randomizzati di interventi (NRSI), inclusi studi osservazionali (inclusi ma non limitati a studi di coorte e studi di caso-controllo, studi trasversali, serie di casi e casi report, sebbene non tutti questi disegni siano solitamente inclusi nelle revisioni di Cochrane).

Ci sono molti casi in cui gli autori di recensioni si affidano alle informazioni della NRSI, in particolare per valutare i potenziali danni (vedi Capitolo 24). Inoltre, gli autori delle revisioni possono ottenere dati rilevanti da studi randomizzati e NRSI, con ciascun tipo di evidenza che integra l’altro (Schünemann et al 2013).

In GRADO, un corpo di prove da studi randomizzati inizia con un punteggio ad alta certezza, mentre un corpo di prove da NRSI inizia con un punteggio a bassa certezza. La valutazione inferiore con NRSI è il risultato del potenziale bias indotto dalla mancanza di randomizzazione (cioè confusione e bias di selezione).

Tuttavia, quando si utilizza il nuovo rischio di bias In Studi non randomizzati di interventi (ROBINS-I) tool (Sterne et al 2016), uno strumento di valutazione che copre il rischio di bias a causa della mancanza di randomizzazione, tutti gli studi possono iniziare come alta certezza delle prove (Schünemann et al 2018). L’approccio di iniziare tutti i progetti di studio (incluso NRSI) come alta certezza non è in conflitto con l’approccio iniziale di iniziare la valutazione di NRSI come prova di bassa certezza. Questo perché un corpo di prove da NRSI dovrebbe generalmente essere declassato di due livelli a causa del rischio intrinseco di bias associato alla mancanza di randomizzazione, vale a dire confusione e bias di selezione. Non declassare la NRSI da alta a bassa certezza richiede una giustificazione trasparente e dettagliata per ciò che attenua le preoccupazioni sulla confusione e il pregiudizio di selezione (Schünemann et al 2018). Esistono attualmente pochissimi esempi di dove non è appropriato un rating inferiore di due livelli.

Il più alto grado di certezza è un insieme di prove quando non vi sono preoccupazioni in nessuno dei fattori di GRADO elencati nella Figura 14.2.a. Gli autori delle revisioni spesso declassano le prove a prove di certezza moderate, basse o addirittura molto basse, a seconda della presenza dei cinque fattori nella Figura 14.2.a. Di solito, la valutazione della certezza diminuirà di un livello per ciascun fattore, fino a un massimo di tre livelli per tutti i fattori. Se ci sono problemi molto gravi per qualsiasi dominio (ad es. quando si valuta il rischio di bias, tutti gli studi sono stati scoperti, non nascosti e hanno perso oltre il 50% dei loro pazienti al follow-up), le prove possono diminuire di due livelli a causa di questo fattore da solo. Non è possibile valutare prove inferiori alla “certezza molto bassa”.

Gli autori delle recensioni valuteranno generalmente le prove provenienti da studi non randomizzati come bassa certezza, anche se viene utilizzato ROBINS-I. Se, tuttavia, tali studi producono effetti di grandi dimensioni e non vi è alcun pregiudizio evidente che spieghi tali effetti, gli autori della revisione possono valutare l’evidenza come moderata o – se l’effetto è abbastanza grande – anche come alta certezza (Figura 14.2.un). Il livello di certezza molto basso è appropriato per, ma non è limitato a, studi con problemi critici e osservazioni cliniche non sistematiche (ad esempio serie di casi o relazioni di casi).