Entrenamiento Cochrane

Holger J Schünemann, Julian PT Higgins, Gunn E Vist, Paul Glasziou, Elie A Akl, Nicole Skoetz, Gordon H Guyatt; en nombre del Grupo de Métodos de Calificación Cochrane (anteriormente Grupo de Métodos de Aplicabilidad y Recomendaciones) y del Grupo de Métodos Estadísticos Cochrane

Puntos clave:
  • Un cuadro de «Resumen de resultados» para una comparación dada de intervenciones proporciona información clave sobre la magnitud de los efectos relativos y absolutos de las intervenciones examinadas, la cantidad de pruebas disponibles y la certeza (o calidad) de las pruebas disponibles.
  • Las tablas «Resumen de resultados» incluyen una fila para cada resultado importante (hasta un máximo de siete). Los formatos aceptados de tablas de «Resumen de hallazgos» y tablas interactivas de «Resumen de hallazgos» se pueden producir utilizando el software GRADEpro GDT de GRADE.
  • Cochrane ha adoptado el enfoque GRADE (Evaluación, Desarrollo y Evaluación de la Calificación de las Recomendaciones) para evaluar la certeza (o calidad) de un conjunto de pruebas.
  • El enfoque GRADE especifica cuatro niveles de certeza para un conjunto de pruebas para un resultado determinado: alto, moderado, bajo y muy bajo.
  • Las evaluaciones de grado de certeza se determinan a través de la consideración de cinco dominios: riesgo de sesgo, inconsistencia, imprecisión, imprecisión y sesgo de publicación. Para las pruebas de estudios no aleatorios y estudios raramente aleatorios, las evaluaciones se pueden actualizar a través de la consideración de otros tres dominios.

Cite este capítulo como: Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Capítulo 14: Completar las tablas de «Resumen de hallazgos» y calificar la certeza de la evidencia. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Manual Cochrane para Revisiones Sistemáticas de Intervenciones versión 6.2 (actualizado en febrero de 2021). Cochrane, 2021. Disponible en www.formación.cochrane.org/handbook.

14.1 Tablas de resumen de conclusiones

14.1.1 Introducción a las tablas de Resumen de conclusiones

Las tablas de resumen de conclusiones presentan las principales conclusiones de una revisión en un formato de tabla transparente, estructurado y sencillo. En particular, proporcionan información clave sobre la certeza o la calidad de la evidencia (es decir, la confianza o certeza en el rango de una estimación de efecto o una asociación), la magnitud del efecto de las intervenciones examinadas y la suma de los datos disponibles sobre los principales resultados. Las revisiones Cochrane deben incorporar tablas de «Resumen de hallazgos» durante la planificación y publicación, y deben tener al menos una tabla clave de «Resumen de hallazgos» que represente las comparaciones más importantes. Algunas revisiones pueden incluir más de una tabla de «Resumen de hallazgos», por ejemplo, si la revisión aborda más de una comparación importante, o incluye poblaciones sustancialmente diferentes que requieren tablas separadas (por ejemplo, porque los efectos difieren o es importante mostrar los resultados por separado). En la Base de Datos Cochrane de Revisiones Sistemáticas (CDSR), la tabla principal de «Resumen de hallazgos» de una revisión aparece al principio, antes de la sección de Antecedentes. Otras tablas de «Resumen de hallazgos» aparecen entre las secciones de Resultados y Discusión.

14.1.2 Selección de resultados para las tablas de «Resumen de resultados»

La planificación para la tabla de «Resumen de resultados» comienza al principio de la revisión sistemática, con la selección de los resultados que se incluirán en: (i) la revisión; y (ii) la tabla de «Resumen de resultados». Este es un paso crucial que los autores de las revisiones deben abordar con cuidado.

Para garantizar la producción de información de utilidad óptima, las revisiones Cochrane comienzan desarrollando una pregunta de revisión y enumerando todos los resultados principales que son importantes para los pacientes y otros tomadores de decisiones (ver Capítulo 2 y Capítulo 3). El enfoque de CALIFICACIÓN para evaluar la certeza de la evidencia (ver Sección 14.2) define y pone en práctica un proceso de calificación que ayuda a separar los resultados en aquellos que son críticos, importantes o no importantes para la toma de decisiones. La consulta y la retroalimentación sobre el protocolo de revisión, incluso de los consumidores y otros responsables de la toma de decisiones, pueden mejorar este proceso.

Es probable que los resultados críticos incluyan variables claramente importantes; los ejemplos típicos incluyen mortalidad y morbilidad mayor (como accidentes cerebrovasculares e infarto de miocardio). Sin embargo, también pueden representar efectos secundarios frecuentes, menores y raros, síntomas, calidad de vida, cargas asociadas con el tratamiento y problemas de recursos (costos). Las cargas representan el impacto de la carga de trabajo de atención médica en la función y el bienestar del paciente, e incluyen las demandas de adherirse a una intervención que los pacientes o cuidadores (por ejemplo, la familia) pueden disgustar, como tener que someterse a pruebas más frecuentes o las restricciones en el estilo de vida que requieren ciertas intervenciones (Spencer-Bonilla et al 2017).

Con frecuencia, al formular preguntas que incluyan todos los resultados importantes para el paciente para la toma de decisiones, los autores de las revisiones confrontarán los informes de los estudios que no han incluido todos estos resultados. Esto es particularmente cierto para los resultados adversos. Por ejemplo, los ensayos aleatorizados pueden aportar pruebas sobre los efectos previstos y sobre los efectos secundarios frecuentes y relativamente menores, pero no informan sobre los resultados adversos poco frecuentes, como los intentos de suicidio. En el capítulo 19 se examinan las estrategias para hacer frente a los efectos adversos. Para obtener datos de todos los resultados importantes, puede ser necesario examinar los resultados de los estudios no aleatorizados (véase el capítulo 24). Cochrane, en colaboración con otros, ha desarrollado una guía para que los autores de revisiones apoyen su decisión sobre cuándo buscar e incluir estudios no aleatorios (Schünemann et al 2013).

Si una revisión incluye solo ensayos aleatorizados, es posible que estos ensayos no aborden todos los resultados importantes y, por lo tanto, es posible que no sea posible abordar estos resultados dentro de las limitaciones de la revisión. Los autores de las revisiones deben reconocer estas limitaciones y hacerlas transparentes para los lectores. Autores de la revisión se anima a incluir los estudios no aleatorios para examinar raras o efectos adversos a largo plazo que no puede ser adecuadamente estudiado en ensayos aleatorios. Esto plantea la posibilidad de que los resultados de daño puedan provenir de estudios en los que los participantes difieren de los de los estudios utilizados en el análisis del beneficio. Los autores de la revisión tendrán que considerar en qué medida es probable que estas diferencias influyan en los hallazgos, y esto influirá en la certeza de la evidencia debido a las preocupaciones sobre la imprecisión relacionada con la población (consulte la Sección 14.2.2).

Los estudios no aleatorizados pueden proporcionar información importante no solo cuando los ensayos aleatorizados no informan sobre un resultado o los ensayos aleatorizados sufren de imprecisión, sino también cuando las pruebas de los ensayos aleatorizados se clasifican como muy bajas y los estudios no aleatorizados proporcionan pruebas de mayor certeza. En el capítulo 24 se examinan más a fondo estas cuestiones.

14.1.3 Plantilla general para cuadros de Resumen de conclusiones

Se han elaborado varias versiones estándar alternativas de cuadros de Resumen de conclusiones para garantizar la coherencia y la facilidad de uso en las revisiones, la inclusión de la información más importante que necesitan los encargados de adoptar decisiones y una presentación óptima (véanse ejemplos en las Figuras 14.1).a y 14.1.b). Estos formatos están respaldados por investigaciones que se centraron en mejorar la comprensión de la información que pretenden transmitir (Carrasco-Labra et al 2016, Langendam et al 2016, Santesso et al 2016). Están disponibles a través del paquete de software oficial de GRADE desarrollado para apoyar el enfoque de GRADE: GRADEpro GDT (www.gradepro.org

Las tablas estándar de «Resumen de hallazgos» de Cochrane incluyen los siguientes elementos utilizando uno de los formatos aceptados. En la sección 14.1.6 se proporciona más orientación sobre cada una de ellas.

  1. Una breve descripción de la población y el entorno abordados por la evidencia disponible (que puede ser ligeramente diferente o más estrecha que las definidas por la pregunta de revisión).
  2. Una breve descripción de la comparación abordada en el cuadro «Resumen de los resultados», incluidas las intervenciones experimentales y de comparación.
  3. Una lista de los resultados de salud más críticos y/o importantes, tanto deseables como indeseables, limitada a siete o menos resultados.
  4. Una medida de la carga típica de cada resultado (por ejemplo, riesgo ilustrativo, o media ilustrativa, en la intervención del comparador).
  5. La magnitud absoluta y relativa del efecto medida para cada uno de ellos (si ambos son apropiados).
  6. El número de participantes y estudios que contribuyen al análisis de cada resultado.
  7. Una evaluación de GRADO de la certeza general del conjunto de pruebas para cada resultado (que puede variar según el resultado).
  8. Espacio para comentarios.
  9. Explicaciones (antes conocidas como notas al pie de página).

Idealmente, los cuadros de «Resumen de resultados» están respaldados por cuadros más detallados (conocidos como «perfiles de pruebas») a los que puede vincularse la revisión, que proporcionan explicaciones más detalladas. Los perfiles de evidencia incluyen los mismos resultados de salud importantes y proporcionan más detalles que las tablas de «Resumen de hallazgos» de las consideraciones individuales que alimentan la calificación de certeza y de los resultados de los estudios (Guyatt et al 2011a). Aseguran que se utilice un enfoque estructurado para calificar la certeza de la evidencia. Aunque rara vez se publican en las Revisiones Cochrane, los perfiles de evidencia se utilizan a menudo, por ejemplo, por los desarrolladores de directrices al considerar la certeza de la evidencia para respaldar las recomendaciones de las directrices. A los autores de la revisión les resultará más fácil desarrollar la tabla de «Resumen de hallazgos» completando la calificación de la certeza de la evidencia en el perfil de evidencia primero en GRADEpro GDT. A continuación, pueden convertir esto automáticamente a uno de los formatos de «Resumen de hallazgos» en GRADEpro GDT, incluido un «Resumen de hallazgos» interactivo para su publicación.

Como medida de la magnitud del efecto para los resultados dicotómicos, la tabla «Resumen de hallazgos» debe proporcionar una medida relativa del efecto (por ejemplo, razón de riesgo, razón de probabilidades, peligro) y medidas del riesgo absoluto. Para otros tipos de datos, una medida absoluta por sí sola (como una diferencia de medias para datos continuos) podría ser suficiente. Es importante que la magnitud del efecto se presente de manera significativa, lo que puede requerir alguna transformación del resultado de un meta-análisis (véase también el Capítulo 15, Sección 15.4 y Sección 15.5). Las revisiones con más de una comparación principal deben incluir un cuadro separado de «Resumen de las conclusiones» para cada comparación.

Figura 14.1.a proporciona un ejemplo de tabla de «Resumen de resultados». Figura 15.1.b ofrece un formato alternativo que puede facilitar aún más a los usuarios la comprensión y la interpretación de las conclusiones del examen. La evidencia que evalúa diferentes formatos sugiere que la tabla de «Resumen de hallazgos» debe incluir una diferencia de riesgo como medida del efecto absoluto y los autores deben usar preferiblemente un formato que incluya una diferencia de riesgo .

En la sección 14.1.6 figura una descripción detallada del contenido de un cuadro de resumen de resultados.

Figura 14.1.un ejemplo de una tabla de «Resumen de hallazgos»

Resumen de hallazgos (para la versión interactiva, haga clic aquí)

Medias de compresión en comparación con medias sin compresión para personas que toman vuelos largos

Pacientes o población: cualquier persona que tome un vuelo largo (que dure más de 6 horas)

Ajustes: viajes aéreos internacionales

Intervención: almacenamiento de compresión

Comparación: sin medias

Resultados

Ilustrativo comparar los riesgos* (IC 95%)

efecto Relativo (IC 95%)

Número de participantes (estudios)

la Certeza de la evidencia (GRADO)

riesgo Asumido

riesgo Correspondiente

Sin medias

Con medias

Sintomático de la trombosis venosa profunda (TVP)

Ver comentario

Véase el comentario

No estimable

(9 estudios)

Véase el comentario

0 los participantes desarrollaron sintomático de la TVP en estos estudios

la TVP Asintomática

Bajo riesgo populationb

RR 0.10

(0.04 a 0.26)

(9 estudios)

⊕⊕⊕⊕

Alta

10 por 1000

1 por 1000

(de 0 a 3)

Alto riesgo populationb

20 por 1000

2 por 1000

(de 1 a 8)

Superficial de la trombosis de la vena

13 por 1000

6 por 1000

(2 a 15)

RR 0.45

(0.18 a 1.13)

(8 estudios)

⊕⊕⊕◯

Moderatec

Edema

Valores posteriores al vuelo medidos en una escala de 0, sin edema, a 10, edema máximo

La puntuación media del edema varió entre los grupos de control desde

6 hasta 9

La puntuación media de edema en los grupos de intervención fue en promedio

4,7 menor

(IC del 95% -4,9 a -4.5)

(6 estudios)

⊕⊕◯◯

Lowd

embolia Pulmonar

Véase el comentario

Véase el comentario

No estimable

(9 estudios)

Véase el comentario

0 los participantes desarrollaron embolia pulmonar en estos studiese

la Muerte

Véase el comentario

Véase el comentario

No estimable

(9 estudios)

Véase el comentario

0 los participantes murieron en estos estudios

los efectos Adversos

Véase el comentario

Véase el comentario

No estimable

(4 estudios)

Véase el comentario

La tolerabilidad de las medias fue descrito como muy bien sin quejas de efectos secundarios en 4 studiesf

*La base para el riesgo asumido se proporciona en notas a pie de página. El riesgo correspondiente (y su intervalo de confianza del 95%) se basa en el riesgo asumido en el grupo de intervención y el efecto relativo de la intervención (y su IC del 95%).

IC: intervalo de confianza; RR: razón de riesgo; GRADO: GRADO Grados de comprobación científica del Grupo de Trabajo (ver explicaciones).

a Todas las medias de los nueve estudios incluidos en esta revisión eran medias de compresión por debajo de la rodilla. En cuatro estudios, la fuerza de compresión fue de 20 mmHg a 30 mmHg en el tobillo. Fue de 10 mmHg a 20 mmHg en los otros cuatro estudios. Las medias vienen en diferentes tamaños. Si una media está demasiado apretada alrededor de la rodilla, puede evitar que el retorno venoso esencial haga que la sangre se acumule alrededor de la rodilla. Las medias de compresión deben estar bien ajustadas. Una media demasiado ajustada podría cortar la piel en un vuelo largo y potencialmente causar ulceración y un mayor riesgo de TVP. Algunas medias pueden ser un poco más gruesas que el revestimiento normal de las piernas y pueden ser potencialmente restrictivas con el uso apretado de los pies. Es una buena idea usar medias por toda la casa antes de viajar para garantizar un ajuste cómodo y adecuado. Los participantes se pusieron las medias dos o tres horas antes del vuelo en la mayoría de los estudios. La disponibilidad y el costo de las medias pueden variar.

b Dos estudios reclutaron participantes de alto riesgo definidos como aquellos con episodios previos de TVP, trastornos de coagulación, obesidad grave, movilidad limitada debido a problemas óseos o articulares, enfermedad neoplásica en los dos años anteriores, venas varicosas grandes o, en uno de los estudios, participantes de más de 190 cm y más de 90 kg. La incidencia de los siete estudios que excluyeron a los participantes de alto riesgo fue de 1.45% y la incidencia para los dos estudios que reclutaron participantes de alto riesgo (con al menos un factor de riesgo) fue de 2,43%. Hemos utilizado 10 y 30 por 1000 para expresar diferentes estratos de riesgo, respectivamente.

c El intervalo de confianza no cruza ninguna diferencia y no descarta un pequeño aumento.

d La medición del edema que no fue validado (indirectness de los resultados) o cegados a la intervención (riesgo de sesgo).

e Si hay muy pocos o ningún evento y el número de participantes es grande, el juicio sobre la certeza de las pruebas (en particular los juicios sobre imprecisiones) puede basarse en el efecto absoluto. En este caso, la calificación de certeza puede considerarse «alta» si el resultado se evaluó adecuadamente y el evento, de hecho, no ocurrió en 2.821 participantes estudiados.

f En ninguno de los otros estudios se notificaron efectos adversos, aparte de cuatro casos de trombosis venosa superficial en venas varicosas de la región de la rodilla comprimidas por el borde superior de la media en un estudio.

Figura 14.1.b Ejemplo de tabla alternativa de «Resumen de conclusiones»

Resumen de los hallazgos (para la versión interactiva, haga clic aquí):

Probióticos en comparación con ningún probiótico como complemento de los antibióticos en niños

Paciente o población: niños que recibieron antibióticos

Entornos: pacientes hospitalizados y ambulatorios

Intervención: probióticos

Comparación: sin probióticos

Resultados

No de los participantes (estudios)

efectos Relativos
(95% CI)

Previsto absoluta efectos* (IC 95%)

la Certeza de la evidencia
(GRADO)

Sin probióticos

Con probióticos

la Diferencia

Incidencia de la diarrea: Probióticos dosis de 5 mil millones de UFC/día

Seguimiento: De 10 días a 3 meses

Niños < 5 años

Niños < 5 años

⊕⊕⊕⊝

moderateb

Debido al riesgo de sesgo

Probablemente disminuye la incidencia de la diarrea.

1474 (7 estudios)

RR 0.41

(0.29 a 0.55)

22.3%un

8.9%

(6.5 a 12.2)

13.4% menos childrena

(10,1 a 15.8 menos)

Niños > 5 años

Niños > 5 años

⊕⊕⊝⊝

lowb, c

Debido al riesgo de sesgo y la imprecisión

Puede disminuir la incidencia de la diarrea.

624 (4 estudios)

RR 0.81

(0.53 a 1.21)

11.2%un

9%

(5.9 a 13.6)

2.2% menos childrena

(5.3 menos a 2.4 más)

Negativas eventsd

Seguimiento: de 10 a 44 días

1575 (11 estudios)

1.8%un

2.3%

(0.8 a 3.8)

0.5% más negativas eventse

(1 menos 2 más)

⊕⊕⊝⊝

lowf, g

Debido al riesgo de sesgo e inconsistencia de

puede haber poca o ninguna diferencia en los eventos adversos.

la Duración de la diarrea

Seguimiento: 10 días a 3 meses

897 (5 estudios)

La duración media de la diarrea sin probióticos fue de 4 días.

0.6 menos días

(1.18 a 0.02 menos días)

⊕⊕⊝⊝

lowh, i

Debido a la imprecisión y falta de coherencia

Puede disminuir la duración de la diarrea.

Heces por día

Seguimiento: 10 días a 3 meses

425 (4 estudios)

La media de deposiciones por día sin probióticos fue de 2,5 deposiciones por día.

0.3 menos deposiciones por día

(0,6 a 0 menos)

⊕⊕⊝⊝

lowj, k

Debido a la imprecisión y falta de coherencia

puede haber poca o ninguna diferencia en las heces por día.

*La base del riesgo en el grupo de control (por ejemplo, la mediana del riesgo del grupo de control en los estudios) se proporciona en notas a pie de página. El riesgo en el grupo de intervención (y su intervalo de confianza del 95%) se basa en el riesgo asumido en el grupo de comparación y el efecto relativo de la intervención (y su IC del 95%). IC: intervalo de confianza; RR: razón de riesgo.

EXPLICACIONES

a las estimaciones de riesgo de los grupos de control proceden de estimaciones conjuntas de los grupos de control. Efecto relativo basado en el análisis de casos disponible

b Alto riesgo de sesgo debido a la alta pérdida de seguimiento.

c Imprecisión debida a pocos eventos e intervalos de confianza que incluyen beneficios o daños apreciables.

d Efectos secundarios: erupción, náuseas, flatulencia, vómitos, aumento de la flema, dolor en el pecho, estreñimiento, alteración del gusto y apetito bajo.los riesgos

e se calcularon a partir de las diferencias de riesgo agrupadas.

f Alto riesgo de sesgo. Solo 11 de 16 ensayos notificaron acontecimientos adversos, lo que sugiere un sesgo selectivo de notificación.

g Inconsistencia grave. Se evaluaron numerosos agentes probióticos y dosis en un número relativamente pequeño de ensayos, lo que limitó nuestra capacidad de extraer conclusiones sobre la seguridad de los numerosos agentes probióticos y dosis administrados.

h Incoherencia grave inexplicable (gran heterogeneidad I2 = 79%, valor P, estimaciones puntuales e intervalos de confianza varían considerablemente).

i Imprecisión grave. El límite superior de 0,02 días menos de diarrea no se considera importante para el paciente.

j Incoherencia grave inexplicable (gran heterogeneidad I2 = 78%, valor P, estimaciones puntuales e intervalos de confianza varían considerablemente).

k Imprecisión grave. El intervalo de confianza del 95% no incluye ningún efecto y el límite inferior de 0,60 deposiciones por día es de dudosa importancia para el paciente.

14.1.4 Producción de tablas de «Resumen de resultados»

El software del Grupo de Trabajo GRADE, GRADEpro GDT (www.gradepro.org), incluido el manual interactivo de GRADE, está disponible para ayudar a los autores de revisiones en la preparación de tablas de «Resumen de hallazgos». GRADEpro puede utilizar datos sobre el riesgo del grupo de comparación y la estimación de efectos (introducidos por los autores de la revisión o importados de archivos generados en RevMan) para producir los efectos relativos y los riesgos absolutos asociados con las intervenciones experimentales. Además, guía al usuario a través del proceso de evaluación de CALIFICACIONES y produce una tabla que se puede usar como una tabla independiente en una revisión (incluso mediante importación directa a software como RevMan o integración con RevMan Web), o una tabla interactiva de «Resumen de hallazgos» (consulte recursos de ayuda en GRADEpro).

14.1.5 Consideraciones estadísticas en las tablas de «Resumen de resultados»

14.1.5.1 Resultados dicotómicos

Las tablas de «Resumen de resultados» deben incluir medidas de efecto absolutas y relativas para los resultados dicotómicos. Los coeficientes de riesgo, los coeficientes de probabilidades y las diferencias de riesgo son formas diferentes de comparar dos grupos con datos de resultados dicotómicos (ver capítulo 6, sección 6.4.1). Además, hay dos coeficientes de riesgo distintos, en función de qué acontecimiento (por ejemplo, » sí » o «no») es el objeto del análisis (véase el capítulo 6, sección 6.4.1.5). En presencia de un efecto de intervención distinto de cero, cualquier variación entre los estudios en el grupo de comparación conlleva riesgos (p. ej. variación en el riesgo de que el evento ocurra sin la intervención de interés, por ejemplo, en diferentes poblaciones) hace imposible que más de una de estas medidas sea realmente la misma en cada estudio.

Durante mucho tiempo se ha asumido en epidemiología que las medidas relativas de efecto son más consistentes que las medidas absolutas de efecto de un escenario a otro. Hay evidencia empírica que apoya esta suposición (Engels et al 2000, Deeks y Altman 2001, Furukawa et al 2002). Por esta razón, los metaanálisis generalmente deben utilizar una razón de riesgo o una razón de probabilidades como medida del efecto (véase el capítulo 10, sección 10.4.3). En consecuencia, es probable que una sola estimación del efecto relativo sea un resumen más apropiado que una sola estimación del efecto absoluto. Si un efecto relativo es de hecho consistente en todos los estudios, los diferentes riesgos del grupo de comparación tendrán diferentes implicaciones para el beneficio absoluto. Por ejemplo, si la relación de riesgo es consistentemente 0.75, la intervención experimental reduciría un riesgo del grupo de comparación del 80% al 60% en el grupo de intervención (una reducción absoluta del riesgo de 20 puntos porcentuales), pero también reduciría un riesgo del grupo de comparación del 20% al 15% en el grupo de intervención (una reducción absoluta del riesgo de 5 puntos porcentuales).

Las tablas de «Resumen de resultados» se basan en la suposición de un efecto relativo consistente. Por lo tanto, es importante considerar las implicaciones de este efecto para los diferentes riesgos del grupo de comparación (estos pueden derivarse o estimarse a partir de varias fuentes, ver sección 14.1.6.3), lo que puede requerir una evaluación de la certeza de la evidencia para la evidencia pronóstica (Spencer et al 2012, Iorio et al 2015). Para cualquier riesgo de grupo de comparación, es posible estimar un riesgo de grupo de intervención correspondiente (es decir, el riesgo absoluto con la intervención) a partir de la razón de riesgo metaanálisis o la razón de probabilidades. Obsérvese que los números que figuran en la columna «Riesgo correspondiente» son específicos de los «riesgos» de la columna adyacente.

Para la relación de riesgo metanalítico (RR) y el riesgo de comparación asumido (ACR), el riesgo de intervención correspondiente se obtiene como:

.

Como ejemplo, en la Figura 14.1.a, el cociente de riesgo metanalítico para trombosis venosa profunda (TVP) asintomática es RR = 0,10 (IC del 95%: 0,04 a 0,26). Suponiendo un riesgo comparador de ACR = 10 por 1000 = 0,01, obtenemos:

.

Para el odds ratio meta-analítico (OR) y el riesgo de comparación asumido, ACR, el riesgo de intervención correspondiente se obtiene como:

.

Los límites de confianza superior e inferior para el riesgo de intervención correspondiente se obtienen sustituyendo RR o por sus límites de confianza superior e inferior, respectivamente (por ejemplo, sustituyendo 0).10 con 0.04, luego con 0.26, en el ejemplo). Tales intervalos de confianza no incorporar la incertidumbre en el supuesto comparador de riesgos.

Cuando se trata de ratios de riesgo, es fundamental que se utilice la misma definición de «evento» que se utilizó para el metanálisis. Por ejemplo, si el metanálisis se centró en la «muerte» (en contraposición a la supervivencia) como evento, entonces los riesgos correspondientes en la tabla de «Resumen de hallazgos» también deben referirse a la «muerte».

En circunstancias (raras) en las que haya motivos claros para suponer una diferencia de riesgo coherente en el metanálisis, en principio es posible presentarla para los «riesgos asumidos» pertinentes y sus riesgos correspondientes, y presentar los efectos relativos (diferentes) correspondientes para cada riesgo asumido.

La diferencia de riesgo expresa la diferencia entre el ACR y el riesgo de intervención correspondiente (o la diferencia entre la intervención experimental y la de comparación).

Para el ratio de riesgo meta-analítico (RR) y el riesgo de comparación asumido (ACR), la diferencia de riesgo correspondiente se obtiene como (tenga en cuenta que los riesgos también se pueden expresar utilizando porcentaje o puntos porcentuales):

A modo de ejemplo, en la Figura 14.1.b el cociente de riesgo meta-analítico es de 0,41 (IC del 95%: 0,29 a 0,55) para diarrea en niños menores de 5 años de edad. Suponiendo un riesgo del grupo de comparación del 22,3%, obtenemos:

.

Para el odds ratio meta-analítico (OR) y el riesgo de comparación asumido (ACR), la diferencia de riesgo absoluta se obtiene como (puntos porcentuales):

Los límites de confianza superior e inferior para la diferencia de riesgo absoluta se obtienen volviendo a ejecutar el cálculo anterior y sustituyendo RR o O por sus límites de confianza superior e inferior, respectivamente (por ejemplo, sustituyendo 0,41 por 0,28 y, a continuación, por 0,55, en el ejemplo). Tales intervalos de confianza no incorporar la incertidumbre en el supuesto comparador de riesgos.

14.1.5.2 Resultados de tiempo hasta el evento

Los resultados de tiempo hasta el evento miden si se produce un evento en particular (por ejemplo, la muerte) y cuándo (van Dalen et al 2007). El impacto de la intervención experimental en relación con el grupo de comparación en los resultados del tiempo hasta el evento se mide normalmente utilizando un cociente de riesgos instantáneos (HR) (ver capítulo 6, sección 6.8.1).

Una razón de riesgos expresa una estimación del efecto relativo. Se puede utilizar de diversas maneras para obtener riesgos absolutos y otras cantidades interpretables para una población específica. Aquí describimos cómo volver a expresar los cocientes de riesgo en términos de: (i) riesgo absoluto de supervivencia libre de eventos dentro de un período de tiempo determinado; (ii) riesgo absoluto de un evento dentro de un período de tiempo determinado; y (iii) mediana de tiempo hasta el evento. Todos los métodos se basan en el supuesto de efectos relativos consistentes (es decir, que la razón de riesgo no varía con el tiempo).

i) El riesgo absoluto de supervivencia libre de acontecimientos dentro de un período de tiempo determinado La supervivencia libre de acontecimientos (p. ej., supervivencia global) se notifica con frecuencia en estudios individuales. Para obtener efectos absolutos de los resultados del tiempo hasta el acontecimiento medidos como supervivencia libre de acontecimientos, el resumen de la FC se puede utilizar junto con una proporción supuesta de pacientes que están libres de acontecimientos en el grupo comparador (Tierney et al 2007). Esta proporción de pacientes será específica para un período de observación. Sin embargo, no es estrictamente necesario especificar este período de tiempo. Por ejemplo, una proporción del 50% de los pacientes sin eventos podría aplicarse a pacientes con una tasa de eventos alta observada durante 1 año, o a pacientes con una tasa de eventos baja observada durante 2 años.


Por ejemplo, supongamos que el hazard ratio metanalítico es de 0,42 (IC del 95%: 0,25 a 0,72). Suponiendo un grupo comparador de riesgo de supervivencia libre de eventos (por ejemplo, para la supervivencia general de personas vivas) a 2 años de ACR = 900 por 1000 = 0,9, obtenemos:


para que 956 por 1000 personas estén vivas con la intervención experimental a los 2 años. La derivación del riesgo debe explicarse en un comentario o nota a pie de página.

(ii) Riesgo absoluto de un evento dentro de un período de tiempo determinado Para obtener este efecto absoluto, de nuevo se puede utilizar el resumen de la FC (Tierney et al. 2007):


En el ejemplo, supongamos que asumimos un riesgo de eventos del grupo comparador (por ejemplo, mortalidad, personas muertas) a 2 años de ACR = 100 por 1000 = 0.1. Nosotros obtenemos:


de modo que 44 de cada 1000 personas morirán con la intervención experimental a los 2 años.

(iii) Mediana de tiempo hasta el acontecimiento En lugar de números absolutos, el tiempo hasta el acontecimiento en los grupos de intervención y comparación se puede expresar como mediana de tiempo de supervivencia en meses o años. Para obtener la mediana del tiempo de supervivencia, la FC agrupada se puede aplicar a una mediana del tiempo de supervivencia asumido en el grupo comparador (Tierney et al. 2007):

En el ejemplo, suponiendo una mediana de supervivencia del grupo comparador de 80 meses, obtenemos:

Para las tres opciones de volver a expresar los resultados de los análisis del tiempo hasta el evento, los límites de confianza superior e inferior para el riesgo de intervención correspondiente se obtienen sustituyendo HR por sus límites de confianza superior e inferior, respectivamente (por ejemplo, sustituyendo 0,42 por 0,25, luego por 0,72, en el ejemplo). De nuevo, como para los resultados dicotómicos, tales intervalos de confianza no incorporar la incertidumbre en el supuesto comparador de riesgos del grupo. Esto es de especial preocupación para la supervivencia a largo plazo con una tasa de mortalidad baja o moderada y un número correspondiente elevado de pacientes censurados (es decir, un número bajo de pacientes en riesgo y una tasa de censura alta).

14.1.6 Contenido detallado de una tabla de «Resumen de hallazgos»

14.1.6.1 Título y cabecera de la tabla

El título de cada tabla de «Resumen de hallazgos» debe especificar la pregunta de atención a la salud, enmarcada en términos de población y dejando claro exactamente qué comparación de intervenciones se realizan. En La Figura 14.1.a, la población es gente que toma vuelos largos en avión, la intervención son medias de compresión, y el control no son medias de compresión.

Las primeras filas de cada tabla de «Resumen de hallazgos» deben proporcionar la siguiente información de cabecera:

Pacientes o población Esto aclara aún más la población (y posiblemente las subpoblaciones) de interés e idealmente la magnitud del riesgo del resultado adverso más crucial al que se dirige una intervención. Por ejemplo, las personas en un vuelo de larga distancia pueden tener diferentes riesgos de TVP; aquellos que usan inhibidores selectivos de la recaptación de serotonina (ISRS) pueden tener un riesgo diferente de efectos secundarios; mientras que aquellos con fibrilación auricular pueden tener un riesgo anual de accidente cerebrovascular bajo (< 1%), moderado (1% a 4%) o alto (> 4%).

Configuración Debe indicarse cualquier característica específica de los entornos de la cuestión sanitaria que pueda limitar la aplicabilidad del resumen de resultados a otros entornos (por ejemplo, atención primaria en Europa y América del Norte).

Intervención La intervención experimental.

Comparación La intervención del comparador (incluida ninguna intervención específica).

14.1.6.2 Resultados

Las filas de una tabla de «Resumen de resultados» deben incluir todos los resultados deseables e indeseables para la salud (enumerados en orden de importancia) que son esenciales para la toma de decisiones, hasta un máximo de siete resultados. Si hay más resultados en la revisión, los autores de la revisión tendrán que omitir los resultados menos importantes de la tabla, y la decisión de seleccionar qué resultados son críticos o importantes para la revisión se debe tomar durante el desarrollo del protocolo (ver Capítulo 3). Los autores de la revisión deben proporcionar marcos de tiempo para la medición de los resultados (por ejemplo, 90 días o 12 meses) y el tipo de puntajes del instrumento (por ejemplo, que van de 0 a 100).

Tenga en cuenta que los autores de la revisión deben incluir los resultados críticos e importantes preespecificados en la tabla, estén o no disponibles los datos. Sin embargo, deben estar atentos a la posibilidad de que la importancia de un resultado (por ejemplo, un efecto adverso grave) solo se conozca después de que se redactó el protocolo o se llevó a cabo el análisis, y deben tomar las medidas adecuadas para incluirlas en el cuadro «Resumen de resultados».

La tabla «Resumen de los resultados» puede incluir efectos en subgrupos de la población para diferentes riesgos comparativos y tamaños de efectos por separado. Por ejemplo, en la Figura 14.1.los efectos b se presentan para niños menores y mayores de 5 años por separado. Los autores de la revisión también pueden optar por producir tablas separadas de «Resumen de hallazgos» para diferentes poblaciones.

Los autores de la revisión deben incluir acontecimientos adversos graves, pero podría ser posible combinar acontecimientos adversos menores como un único resultado, y describirlo en una nota explicativa (tenga en cuenta que no es apropiado sumar acontecimientos a menos que sean independientes, es decir, un participante que ha experimentado un acontecimiento adverso tiene una probabilidad no afectada de experimentar el otro acontecimiento adverso).

Los resultados medidos en múltiples puntos de tiempo representan un problema particular. En general, para mantener la tabla simple, los autores de la revisión deben presentar múltiples puntos de tiempo solo para los resultados críticos para la toma de decisiones, donde es probable que el resultado o la decisión tomada varíen con el tiempo. El resto debe presentarse en un momento común siempre que sea posible.

Los autores de la revisión pueden presentar medidas de resultados continuas en la tabla «Resumen de hallazgos» y deben esforzarse por hacerlas interpretables para el público objetivo. Esto requiere que las unidades sean claras y fácilmente interpretables, por ejemplo, días de dolor o frecuencia de dolor de cabeza, y que se indique el nombre y la escala de cualquier herramienta de medición utilizada (por ejemplo, una Escala Analógica Visual, que varíe de 0 a 100). Sin embargo, muchos instrumentos de medición no son fácilmente interpretables por médicos o pacientes no especializados, por ejemplo, puntos en un Inventario de Depresión de Beck o puntuación de calidad de vida. Para estos, una presentación más interpretable podría implicar convertir un resultado continuo en un resultado dicotómico, como una mejora >50% (ver Capítulo 15, Sección 15.5).

14.1.6.3 Mejor estimación del riesgo con la intervención del comparador

Los autores de la revisión deben proporcionar hasta tres riesgos típicos para los participantes que reciben la intervención del comparador. Para los resultados dicotómicos, recomendamos que se presenten en forma de número de personas que experimentan el evento por cada 100 o 1000 personas (frecuencia natural) dependiendo de la frecuencia del resultado. Para los resultados continuos, esto se expresaría como un valor medio o mediano del resultado medido.

Los riesgos estimados o supuestos de intervención con comparador podrían basarse en evaluaciones de riesgos típicos en diferentes grupos de pacientes derivadas de la propia revisión, estudios representativos individuales en la revisión o riesgos derivados de una revisión sistemática de estudios de pronóstico u otras fuentes de evidencia que, a su vez, pueden requerir una evaluación de la certeza de la evidencia pronóstica (Spencer et al 2012, Iorio et al 2015). Idealmente, los riesgos reflejarían grupos que los médicos pueden identificar fácilmente sobre la base de sus características de presentación.

En una nota a pie de página explicativa debe especificarse la fuente o la justificación de cada riesgo del grupo de comparación, incluido el período de tiempo al que corresponde, cuando proceda. En La Figura 14.1.r: los médicos pueden diferenciar fácilmente a las personas con factores de riesgo de trombosis venosa profunda de las que no. Si se sabe que hay poca variación en el riesgo basal, los autores de la revisión pueden utilizar la mediana del riesgo del grupo comparador en todos los estudios. Si no se conocen los riesgos típicos, una opción es elegir el riesgo de los estudios incluidos, proporcionando el segundo más alto para una población de alto riesgo y el segundo más bajo para una población de bajo riesgo.

14.1.6.4 Riesgo con intervención

Para los resultados dicotómicos, los autores de la revisión deben proporcionar un riesgo absoluto correspondiente para cada grupo comparador de riesgo, junto con un intervalo de confianza. Este riesgo absoluto con la intervención (experimental) se derivará normalmente del resultado del metanálisis presentado en la columna de efectos relativos (véase la sección 14.1.6.6). Las fórmulas figuran en la sección 14.1.5. Los autores de la revisión deben presentar el efecto absoluto en el mismo formato que los riesgos con la intervención del comparador (ver sección 14.1.6.3), por ejemplo, como el número de personas que experimentan el evento por cada 1000 personas.

Para los resultados continuos, se debe presentar una diferencia de medias o una diferencia estandarizada de medias con su intervalo de confianza. Por lo general, se obtienen directamente de un metanálisis. Se debe utilizar un texto explicativo para aclarar el significado, como en las Figuras 14.1.a y 14.1.b.

14.1.6.5 Diferencia de riesgo

Para los resultados dicotómicos, la diferencia de riesgo se puede proporcionar utilizando uno de los formatos de tabla de «Resumen de hallazgos» como opción adicional (véase la Figura 14.1.b). Esta diferencia de riesgo expresa la diferencia entre la intervención experimental y la de comparación y, por lo general, se derivará del resultado del metanálisis presentado en la columna de efectos relativos (véase la sección 14.1.6.6). Las fórmulas figuran en la sección 14.1.5. Los autores de la revisión deben presentar la diferencia de riesgo en el mismo formato que los riesgos asumidos y correspondientes con la intervención del comparador (ver sección 14.1.6.3); por ejemplo, como el número de personas que experimentan el evento por cada 1000 personas o como puntos porcentuales si los riesgos asumidos y correspondientes se expresan en porcentaje.

Para los resultados continuos, si la tabla «Resumen de resultados» incluye esta opción, la diferencia de medias se puede presentar aquí y la columna «riesgo correspondiente» se deja en blanco (véase la Figura 14.1.b).

14.1.6.6 Efecto relativo (IC del 95%)

El efecto relativo suele ser una razón de riesgo o razón de probabilidades (u ocasionalmente una razón de riesgo) con su intervalo de confianza del 95%, obtenido de un metanálisis realizado sobre la base de la misma medida de efecto. Los coeficientes de riesgo y de probabilidades son similares cuando los riesgos de intervención del comparador son bajos y los efectos son pequeños, pero pueden diferir considerablemente cuando aumentan los riesgos del grupo de comparación. El metanálisis puede implicar una suposición de efectos fijos o aleatorios, dependiendo de lo que los autores de la revisión consideren apropiado, e implicar que el efecto relativo es una estimación del efecto de la intervención o una estimación del efecto promedio de la intervención en todos los estudios, respectivamente.

14.1.6.7 Número de participantes (estudios)

Esta columna debe incluir el número de participantes evaluados en los estudios incluidos para cada resultado y el número correspondiente de estudios que contribuyeron con estos participantes.

14.1.6.8 Certeza de la evidencia (GRADO)

Los autores de la revisión deben comentar sobre la certeza de la evidencia (también conocida como calidad del cuerpo de evidencia o confianza en las estimaciones de efectos). Los autores de la revisión deben utilizar el sistema de calificación de evidencia específico desarrollado por el Grupo de Trabajo de GRADE (Atkins et al 2004, Guyatt et al 2008, Guyatt et al 2011a), que se describe en detalle en la Sección 14.2. El enfoque GRADE categoriza la certeza en un conjunto de pruebas como «alta», «moderada», «baja» o «muy baja» por resultado. Esto es resultado del juicio, pero el proceso de juicio funciona dentro de una estructura transparente. Por ejemplo, la certeza sería «alta» si el resumen fuera de varios ensayos aleatorizados con bajo riesgo de sesgo, pero la calificación de certeza se vuelve más baja si hay preocupaciones sobre el riesgo de sesgo, inconsistencia, imprecisión, imprecisión o sesgo de publicación. Los juicios que no sean de «alta» certeza deben hacerse transparentes utilizando notas explicativas a pie de página o la columna de «Comentarios» en el cuadro de «Resumen de las conclusiones» (véase la sección 14.1.6.10).

14.1.6.9 Comentarios

El objetivo del campo ‘Comentarios’ es ayudar a interpretar la información o los datos identificados en la fila. Por ejemplo, esto puede ser sobre la validez de la medida de resultado o la presencia de variables que están asociadas con la magnitud del efecto. Las advertencias importantes sobre los resultados deben marcarse aquí. No todas las filas necesitarán comentarios, y es mejor dejar un espacio en blanco si no hay nada que justifique un comentario.

14.1.6.10 Explicaciones

Se incluirán explicaciones detalladas como notas a pie de página para apoyar los juicios en el cuadro «Resumen de resultados», como la evaluación general de calificaciones. Las explicaciones deben describir la razón de ser de los aspectos importantes del contenido. Tabla 14.1.a enumera una guía para explicaciones útiles. Las explicaciones deben ser concisas, informativas, relevantes, fáciles de entender y precisas. Si las explicaciones no pueden describirse suficientemente en las notas al pie de página, los autores de la revisión deben proporcionar más detalles de las cuestiones en las secciones de Resultados y Discusión de la revisión.

Cuadro 14.1.una guía para proporcionar explicaciones útiles en los cuadros de resumen de las conclusiones (SoF). Adaptado de Santesso et al (2016)

Orientación general

  1. Introduzca la información para los lectores directamente en el cuadro si es posible (por ejemplo, información sobre la duración del seguimiento o la escala utilizada).
  2. En general, no cite referencias en la sección de explicaciones, a menos que existan razones específicas, por ejemplo, para proporcionar información sobre las fuentes de los riesgos de referencia (véase el punto 3).
  3. Proporcionar la fuente de información sobre los riesgos de referencia utilizados para calcular los efectos absolutos.
  4. Al completar la tabla, revise todas las explicaciones para determinar si algunas se pueden referenciar varias veces si se vuelven a redactar o se combinan.
  5. Proporcione razones para actualizar y degradar la evidencia (consulte la guía específica del dominio a continuación) y use el software GRADEpro GDT para cumplir con la guía de calificación.
  6. Se puede determinar que el conjunto de pruebas de un resultado en particular tiene problemas graves o muy graves para el dominio afectado (o muy graves por riesgo de sesgo cuando se usa ROBINS-I). Por lo tanto, puede ser útil indicar el número de niveles para la degradación (por ejemplo, degradados en un nivel para el riesgo de sesgo), pero evitar la repetición de lo que está en la tabla (y la impresión de informes formulaicos o algorítmicos). En los perfiles de pruebas, esta información ya se encuentra en las celdas de la tabla.
  7. Aunque las explicaciones sobre la certeza en las pruebas se requieren principalmente cuando alteran la certeza, considere agregar una explicación cuando la certeza en las pruebas no se ha alterado, pero cuando esta decisión puede ser cuestionada por otros. Esto ayudará a comprender las razones del desacuerdo.
  8. Asegurarse de que el cuadro no se utilice como descripción de los métodos de revisión (por ejemplo, no describa los motivos del análisis estadístico).
  9. Ingrese los resultados para los resultados que no se pudieron combinar estadísticamente en un meta-análisis (p. ej. resultados narrativos) directamente en la tabla SoF en las columnas de resultados. Es posible que no sea necesaria una explicación para comunicar esos resultados. Si se considera beneficioso para el público al que va dirigido, agregue estimaciones complementarias de los efectos de la intervención (por ejemplo, número necesario para tratar por beneficio y daño, diferencia de riesgo expresada como porcentaje, resultado continuo expresado en unidades de diferencia mínima importante) en la columna de comentarios.
  10. Utilice la información presentada en las explicaciones sobre el proceso de CALIFICACIÓN para informar a otras partes clave de la revisión, incluidas las versiones resumidas y la discusión.

Guía específica del dominio para escribir explicaciones útiles

Riesgo de sesgo

  1. Describir el número de estudios, o la cantidad de información que proporcionan en el metanálisis, que tenían un alto riesgo de sesgo y para qué criterio.
    1. Utilice términos como mayoría, minoría, todos, algunos o ninguno; o el número de estudios como estudios X/X.
    2. Para ensayos aleatorizados, mencione los criterios específicos, incluida la ocultación de la secuencia de asignación, la notificación selectiva de resultados, etc. Para estudios no aleatorios, describa el criterio en la herramienta utilizada (por ejemplo, utilizando la herramienta ROBINS-I).
    3. Indicar si se examinó el efecto del riesgo de sesgo en un análisis de sensibilidad. Cuando proceda, mencione la contribución de los estudios con alto riesgo de sesgo a las estimaciones.
  2. La información sobre el diseño del estudio puede incluirse en las explicaciones, en particular, en el SoF cuando se incluyen diferentes diseños de estudio.

Inconsistencia

  1. Indique la medida utilizada para juzgar la inconsistencia, como la prueba o medida estadística (I2, Chi2, Tau), o la superposición de intervalos de confianza, o similitud de estimaciones puntuales.
  2. Si la inconsistencia se basa en I2, descríbala como considerable, sustancial, moderada o no importante.
  3. Si procede, mencionar si la heterogeneidad fue explorada en análisis de subgrupos por PICO (pacientes, intervención, comparación, resultado), y si existen otras razones potenciales para la heterogeneidad.
  4. En el caso de un solo estudio para un resultado, diga que no hay «ninguno» en lugar de «no aplicable».

Imprecisión

  1. Indique dónde el tamaño de la muestra o el número de eventos no cumplen el tamaño óptimo de información calculado, o las «reglas empíricas» (por ejemplo, 400 eventos). Evitar la referencia al número de estudios como motivo de imprecisión.
  2. Indique si los intervalos de confianza incluyen la posibilidad de un efecto pequeño o nulo Y un beneficio o daño importante. Si se conoce, proporcione el valor numérico del umbral de beneficio importante.
  3. Evite reportar el resultado como estadísticamente o no estadísticamente significativo.

Actualización

  1. Mencione la razón de la actualización: debido a un gran efecto, un gradiente de dosis-respuesta o una confusión residual plausible opuesta aumenta la certeza de la evidencia.
  2. Para efectos grandes, informe si el efecto relativo es >2 o >5. Para gradientes dosis-respuesta, proporcione el nivel de intervención y el efecto en el resultado. Para el dominio ‘confusión residual opuesta plausible’, describa el efecto del factor de confusión en la estimación.

14.2 Evaluación de la certeza o calidad de un conjunto de pruebas

14.2.1 El enfoque GRADE

El Grupo de Trabajo de Grados de Recomendación, Evaluación, Desarrollo y Evaluación (Grupo de Trabajo GRADE) ha desarrollado un sistema para calificar la certeza de las pruebas (Schünemann et al 2003, Atkins et al 2004, Schünemann et al 2006, Guyatt et al 2008, Guyatt et al 2011a). Más de 100 organizaciones, incluidas la Organización Mundial de la Salud( OMS), el Colegio Americano de Médicos, la Sociedad Americana de Hematología (ASH), la Agencia Canadiense de Medicamentos y Tecnología en Salud (CADTH) y los Institutos Nacionales de Salud y Excelencia Clínica (NICE) en el Reino Unido, han adoptado el sistema GRADE (www.gradeworkinggroup.org).

Cochrane también ha adoptado formalmente este enfoque, y todas las revisiones Cochrane deben utilizar GRADE para evaluar la certeza de la evidencia para resultados importantes (ver MECIR Recuadro 14.2.un).

MECIR Box 14.2.a Expectativas relevantes para la realización de revisiones de intervención

C74: Evaluación de la certeza del conjunto de pruebas (Obligatorio)

Utilice las cinco consideraciones de CALIFICACIÓN (riesgo de sesgo, consistencia del efecto, imprecisión, imprecisión y sesgo de publicación) para evaluar la certeza del conjunto de pruebas para cada resultado y para extraer conclusiones sobre la certeza de las pruebas en el texto de la revisión.

GRADE es el enfoque más utilizado para resumir la confianza en los efectos de las intervenciones por resultado en todos los estudios. Es preferible utilizar la herramienta GRADEpro en línea y usarla como se describe en el sistema de ayuda del software. Esto debería ayudar a garantizar que los equipos de autores accedan a la misma información para fundamentar sus juicios. Idealmente, dos personas que trabajen de forma independiente deberían evaluar la certeza del conjunto de pruebas y llegar a un consenso sobre cualquier decisión de degradación. Las consideraciones de cinco GRADOS deben abordarse independientemente de si la revisión incluye un cuadro de «Resumen de conclusiones». Es útil aprovechar esta información en la Discusión, en las conclusiones de los Autores y transmitir la certeza de la evidencia en el resumen en lenguaje Abstracto y Sencillo.

C75: Evaluación justificativa de la certeza del conjunto de pruebas (Obligatoria)

Justificar y documentar todas las evaluaciones de la certidumbre del conjunto de pruebas (por ejemplo, degradación o mejora utilizando una CALIFICACIÓN).

La adopción de un enfoque estructurado garantiza la transparencia en la formulación de una interpretación de las pruebas, y el resultado es más informativo para el usuario.

Para las revisiones sistemáticas, el enfoque GRADE define la certeza de un conjunto de pruebas como la medida en que uno puede estar seguro de que una estimación de efecto o asociación se acerca a la cantidad de interés específico. La evaluación de la certeza de un conjunto de pruebas implica considerar el riesgo de sesgo dentro y entre estudios (limitaciones en el diseño y ejecución del estudio o en la calidad metodológica), la inconsistencia (o heterogeneidad), la imprecisión de las pruebas, la imprecisión de las estimaciones de efectos y el riesgo de sesgo de publicación (consulte la Sección 14.2.2), así como los dominios que pueden aumentar nuestra confianza en la estimación de efectos (como se describe en la Sección 14.2.3). El sistema GRADE implica una evaluación de la certeza de un conjunto de pruebas para cada resultado individual. Los juicios sobre los dominios que determinan la certeza de la evidencia deben describirse en la sección de resultados o discusión y como parte de la tabla «Resumen de hallazgos».

El enfoque de CALIFICACIÓN especifica cuatro niveles de certeza (Figura 14.2.un). Para intervenciones, incluidas pruebas de diagnóstico y otras pruebas que se evalúan como intervenciones (Schünemann et al 2008b, Schünemann et al 2008a, Balshem et al 2011, Schünemann et al 2012), el punto de partida para calificar la certeza de la evidencia se clasifica en dos tipos:

  • ensayos aleatorizados; y
  • estudios no aleatorizados de intervenciones (NRSI), incluidos estudios observacionales (incluidos, entre otros, estudios de cohortes y estudios de casos y controles, estudios transversales, series de casos e informes de casos, aunque no todos estos diseños se suelen incluir en las revisiones Cochrane).

Hay muchos casos en los que los autores de las revisiones se basan en la información de NRSI, en particular para evaluar posibles daños (ver Capítulo 24). Además, los autores de la revisión pueden obtener datos relevantes tanto de ensayos aleatorizados como de NRSI, con cada tipo de evidencia complementando a la otra (Schünemann et al 2013).

En el GRADO, un cuerpo de pruebas de ensayos aleatorizados comienza con una calificación de certeza alta, mientras que un cuerpo de pruebas de NRSI comienza con una calificación de certeza baja. La calificación más baja con NRSI es el resultado del sesgo potencial inducido por la falta de aleatorización (es decir, sesgo de confusión y selección).

Sin embargo, cuando se utiliza la nueva herramienta de Riesgo de Sesgo En Estudios No aleatorios de Intervenciones (ROBINS-I) (Sterne et al 2016), una herramienta de evaluación que cubre el riesgo de sesgo debido a la falta de aleatorización, todos los estudios pueden comenzar como una alta certeza de la evidencia (Schünemann et al 2018). El enfoque de comenzar todos los diseños de estudio (incluido el NRSI) como alta certeza no entra en conflicto con el enfoque de GRADO inicial de comenzar la calificación del NRSI como evidencia de baja certeza. Esto se debe a que un conjunto de pruebas de NRSI generalmente debe ser degradado en dos niveles debido al riesgo inherente de sesgo asociado con la falta de aleatorización, a saber, el sesgo de confusión y selección. Para no degradar el NRSI de alta a baja certeza, se necesita una justificación transparente y detallada de lo que mitiga las preocupaciones sobre la confusión y el sesgo de selección (Schünemann et al 2018). En la actualidad existen muy pocos ejemplos de casos en los que no es apropiado reducir la calificación en dos niveles.

La calificación de certeza más alta es un conjunto de pruebas cuando no hay preocupaciones en ninguno de los factores de CALIFICACIÓN enumerados en la Figura 14.2.a. Los autores de revisiones a menudo degradan la evidencia a evidencia de certeza moderada, baja o incluso muy baja, dependiendo de la presencia de los cinco factores en la Figura 14.2.a. Por lo general, la calificación de certeza caerá en un nivel para cada factor, hasta un máximo de tres niveles para todos los factores. Si hay problemas muy graves para cualquier dominio (por ejemplo, al evaluar el riesgo de sesgo, todos los estudios no fueron ocultados, no fueron ciegos y perdieron más del 50% de sus pacientes para el seguimiento), la evidencia puede disminuir en dos niveles debido a ese factor solo. No es posible calificar por debajo de la evidencia de «muy baja certeza».

Los autores de la revisión generalmente calificarán la evidencia de estudios sólidos no aleatorios como de baja certeza, incluso si se usa ROBINS-I. Sin embargo, si tales estudios producen efectos grandes y no hay un sesgo obvio que explique esos efectos, los autores de la revisión pueden calificar la evidencia como moderada o, si el efecto es lo suficientemente grande, incluso con una certeza alta (Figura 14.2.un). El nivel de certeza muy bajo es apropiado para, pero no se limita a, estudios con problemas críticos y observaciones clínicas no sistemáticas (por ejemplo, series de casos o informes de casos).

Deja una respuesta

Tu dirección de correo electrónico no será publicada.