Questo articolo dimostra PASSO dopo passo come stimare la completezza e la contaminazione dei genomi assemblati Metagenome (MAGs) utilizzando CheckM.
Come funziona CheckM?
Il mio consulente di dottorato, Robert Edwards, spiega di seguito come CheckM utilizza un modello di Markov nascosto per stimare la completezza e la contaminazione dei bidoni (MAGs).
Passo dopo passo: Esecuzione di CheckM
Innanzitutto, poiché CheckM ha molte dipendenze, userò qui un’immagine Docker che trasporta tutte le dipendenze per esso. Tutto quello che devi fare è assicurarti di avere Docker installato nella tua macchina e tirare l’immagine CheckM bioconda Docker. Puoi farlo usando il comando qui sotto:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
Assicurati di alzare l’immagine Docker per utilizzare almeno 16 GB di RAM. Se non sai come farlo, per favore impara come farlo qui.
Il passo successivo è scaricare il database CheckM che può essere scaricato da:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
Attenzione: in questo tutorial, assicurati che il tuo database si trovi nella stessa cartella dei tuoi file bins.
Ora che si tira l’immagine sulla macchina, impostare la giusta quantità di memoria nell’immagine Docker e avere il database CheckM, è possibile eseguirlo (yay!)
Tuttavia, prima identifica il tuo ID immagine usando le immagini docker
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
Nel mio caso, era 04fa265258d1 come puoi vedere sopra.
Successivamente, ora possiamo eseguire l’immagine Docker ma chiamare docker run come mostrato di seguito {WORK_DIR} è la directory in cui vivono i bin
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
Il prossimo passo è impostare la posizione del database in modo che CheckM possa trovarlo
$ checkm data setRoot db/
Infine, siamo tutti a posto e possiamo eseguire lo strumento utilizzando il comando qui sotto.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
Se il tuo computer ha più di 16 GB di RAM, dovresti rimuovere il flag-reduced_tree. Questo flag è per computer con circa 16 GB di RAM e produce risultati non ottimali.
Attenzione: Assicurati che tutti i tuoi file in {BIN_DIRECTORY} siano sul .estensione fna. Se sono tutti nel .estensione fasta, si prega di aggiungere il flag-estensione .fasta.
Caso di studio
Per testare CheckM, l’ho testato con alcuni genomi microbici di NCBI:
- Escherichia coli str. K-12 substr. MG1655, genoma completo
- Lactobacillus vini DSM 20605
Inoltre, ho combinato entrambi i genomi per simulare un contenitore misto in modo da poter verificare la contaminazione e ho rimosso alcuni contig dal gruppo Lactobacillus vini DSM 20605 in modo da poter verificare la completezza.
Ultimo ma non meno importante, come puoi vedere qui sotto, CheckM è stato in grado di classificare correttamente i bin. Vediamo qualche piccola contaminazione sui genomi NCBI-questo potrebbe essere un rumore di classificazione.
Più risorse
Ecco tre dei miei libri preferiti di bioinformatica Python nel caso in cui tu voglia saperne di più.
- Python for the Life Sciences: A Gentle Introduction to Python for Life Scientists Brossura di Alexander Lancaster
- Bioinformatica con Python Cookbook di Tiago Antao
- Programmazione bioinformatica Utilizzando Python: Programmazione pratica per i dati biologici di Mitchell L. Modello
Conclusione
In sintesi, spero che ora capisci che è importante verificare la Completezza e la contaminazione delle riviste. Inoltre, spero che questo tutorial passo passo sia utile per te.
- Mappatura della profondità del genoma senza dolore
- Trama di reclutamento senza sforzo
- Profilo tassonomico metagenomico in secondi