Este artículo muestra PASO a PASO cómo estimar la integridad y contaminación de Genomas Ensamblados de Metagenomas (MAGs) utilizando CheckM.
¿Cómo funciona CheckM?
Mi asesor de doctorado, Robert Edwards, explica a continuación cómo CheckM utiliza un modelo de Markov oculto para estimar la integridad y la contaminación de los contenedores (MAGs).
Paso a paso: Ejecutando CheckM
En primer lugar, como CheckM tiene muchas dependencias, usaré aquí una imagen de Docker que lleva todas las dependencias para ella. Todo lo que necesita hacer es asegurarse de que tiene Docker instalado en su máquina y extraer la imagen de Docker CheckM bioconda. Puede hacerlo utilizando el comando a continuación:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
Asegúrate de levantar la imagen de Docker para usar al menos 16 GB de RAM. Si no sabes cómo hacerlo, por favor aprende a hacerlo aquí.
El siguiente paso es descargar la base de datos CheckM que se puede descargar de:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
Atención: En este tutorial, asegúrese de que su base de datos viva en la misma carpeta que sus archivos de contenedores.
Ahora que extrae la imagen a su máquina, configura la cantidad correcta de memoria en la imagen de Docker y tiene la base de datos CheckM, puede ejecutarla (¡yay!)
Sin embargo, primero identifique su ID de imagen usando imágenes de docker
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
En mi caso, fue 04fa265258d1 como puedes ver arriba.
A continuación, ahora podemos ejecutar la imagen de Docker, pero llamar a docker run como se muestra a continuación {DIRECTORIO DE TRABAJO} es el directorio donde viven los contenedores
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
El siguiente paso es configurar la ubicación de la base de datos para que CheckM pueda encontrarla
$ checkm data setRoot db/
Finalmente, estamos listos y podemos ejecutar la herramienta usando el comando a continuación.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
Si su computadora tiene más de 16 GB de RAM, debe eliminar la bandera-reduced_tree. Esta bandera es para computadora con aproximadamente 16 GB de RAM y produce resultados subóptimos.
Atención: Asegúrese de que todos los archivos de {BIN_DIRECTORY} estén en el .extensión fna. Si están todos en el .extensión fasta, por favor, agregue la extensión de bandera .fasta.
Caso de estudio
Para probar CheckM, lo probé con algunos genomas microbianos de NCBI:
- Escherichia coli str. K-12 substr. MG1655, genoma completo
- Lactobacillus vini DSM 20605
Además, combiné ambos genomas para simular un contenedor mixto para comprobar si había contaminación, y eliminé algunos contiguos del conjunto Lactobacillus vini DSM 20605 para comprobar si estaba completo.
Por último, pero no menos importante, como puede ver a continuación, CheckM pudo clasificar los contenedores correctamente. Vemos una pequeña contaminación en los genomas de NCBI, esto podría ser un ruido de clasificación.
Más Recursos
Aquí hay tres de mis Libros favoritos de Bioinformática de Python en caso de que desee aprender más sobre él.
- Python para las Ciencias de la Vida: Una Introducción Suave a Python para Científicos de la Vida Libro de bolsillo de Alexander Lancaster
- Bioinformática con Python Libro de cocina de Tiago Antao
- Programación Bioinformática Usando Python: Programación Práctica para Datos Biológicos por Mitchell L. Modelo
Conclusión
En resumen, espero que ahora entienda que es importante verificar la Integridad y la contaminación de las revistas. Además, espero que este tutorial Paso a paso sea útil para usted.
- Trazado de Profundidad del Genoma sin dolor
- Trazado de Reclutamiento sin esfuerzo
- Perfil Taxonómico Metagenómico en Segundos