Étape par étape: Complétude et contamination des MAGs

Cet article montre ÉTAPE par ÉTAPE comment estimer l’exhaustivité et la contamination des Génomes assemblés par Métagénome (MAGs) à l’aide de CheckM.

Comment fonctionne CheckM ?

Mon conseiller en doctorat, Robert Edwards, explique ci-dessous comment CheckM utilise un modèle de Markov caché pour estimer l’exhaustivité et la contamination des bacs (MAG).

Étape par étape: En exécutant CheckM

Tout d’abord, comme CheckM a de nombreuses dépendances, j’utiliserai ici une image Docker qui porte toutes les dépendances pour elle. Tout ce que vous devez faire est de vous assurer que Docker est installé sur votre machine et de tirer l’image Docker CheckM bioconda. Vous pouvez le faire en utilisant la commande ci-dessous:

$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0

Assurez-vous d’obtenir votre image Docker pour utiliser au moins 16 Go de RAM. Si vous ne savez pas comment le faire, veuillez apprendre à le faire ici.

L’étape suivante consiste à télécharger la base de données CheckM qui peut être téléchargée à partir de:

# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/

Attention: Dans ce tutoriel, assurez-vous que votre base de données se trouve dans le même dossier que vos fichiers bins.

Maintenant que vous tirez l’image sur votre machine, configurez la bonne quantité de mémoire dans l’image Docker et disposez de la base de données CheckM, vous pouvez l’exécuter (oui!)

Cependant, identifiez d’abord votre ID d’image à l’aide d’images docker

$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB

Dans mon cas, c’était 04fa265258d1 comme vous pouvez le voir ci-dessus.

Ensuite, nous pouvons maintenant exécuter l’image Docker, mais appeler docker run comme indiqué ci-dessous {WORK_DIR} est le répertoire où vivent les bacs

# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/

L’étape suivante consiste à configurer l’emplacement de la base de données afin que CheckM puisse le trouver

$ checkm data setRoot db/

Enfin, nous sommes tous prêts et pouvons exécuter l’outil en utilisant la commande ci-dessous.

$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}

Si votre ordinateur a beaucoup plus de 16 Go de RAM, vous devez supprimer l’indicateur -reduced_tree. Cet indicateur est destiné à un ordinateur avec environ 16 Go de RAM et produit des résultats sous-optimaux.

Attention: Assurez-vous que tous vos fichiers dans le {BIN_DIRECTORY} sont sur le.extension fna. S’ils sont tous dans le.extension fasta, veuillez ajouter l’extension flag.fasta.

Cas d’étude

Afin de tester CheckM, je l’ai testé avec des génomes microbiens de NCBI:

  • Escherichia coli str. K-12 substr. MG1655, génome complet
  • Lactobacillus vini DSM 20605

De plus, j’ai combiné les deux génomes pour simuler un bac mixte afin de vérifier la contamination et j’ai retiré certains contigs de l’assemblage Lactobacillus vini DSM 20605 afin de vérifier l’exhaustivité.

Enfin et surtout, comme vous pouvez le voir ci-dessous, CheckM a pu classer correctement les bacs. Nous voyons une petite contamination sur les génomes du NCBI – cela pourrait être un bruit de classification.

Plus de ressources

Voici trois de mes livres de bioinformatique Python préférés au cas où vous voudriez en savoir plus à ce sujet.

  • Python pour les Sciences de la Vie: Une introduction en douceur à Python pour les scientifiques de la Vie Livre de poche par Alexander Lancaster
  • Bioinformatique avec Python Livre de recettes par Tiago Antao
  • Programmation Bioinformatique en utilisant Python: Programmation Pratique pour les Données biologiques par Mitchell L. Modèle

Conclusion

En résumé, j’espère que vous comprenez maintenant qu’il est important de vérifier l’exhaustivité et la contamination des MAGs. De plus, j’espère que ce tutoriel Étape par étape vous sera utile.

  • Tracé de la Profondeur du Génome sans douleur
  • Tracé du recrutement Sans effort
  • Profil Taxonomique Métagénomique en Quelques Secondes

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.