tässä artikkelissa osoitetaan askel askeleelta, miten arvioidaan metagenomikokoonpanon genomien (MAGs) täydellisyys ja kontaminaatio CheckM: n avulla.
miten CheckM vaikuttaa?
tohtorin neuvonantajani Robert Edwards selittää alla, miten CheckM käyttää piilotettua Markovin mallia arvioidakseen astioiden täydellisyyttä ja saastumista (MAGs).
Step by Step: Running CheckM
ensinnäkin, koska Checkmillä on monia riippuvuuksia, käytän tässä Docker-kuvaa, joka sisältää kaikki riippuvuudet sille. Sinun tarvitsee vain varmistaa, että koneeseesi on asennettu Docker ja vedä CheckM bioconda Docker-Kuva. Voit tehdä sen alla olevalla komennolla:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
varmista, että nostat Docker-kuvaasi käyttääksesi vähintään 16 Gt RAM-muistia. Jos et tiedä, miten se tehdään, opettele tekemään se täällä.
seuraava vaihe on ladata CheckM-tietokanta, joka on ladattavissa:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
huomio: tässä opetusohjelmassa varmista, että tietokantasi elää samassa kansiossa kuin roskakorisi tiedostot.
nyt kun vedät kuvan koneeseesi, asetat oikean määrän muistia Docker-kuvaan ja sinulla on CheckM-tietokanta, voit suorittaa sen (JEE!)
kuitenkin, ensin tunnistat kuvan ID: si docker-kuvien avulla
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
minun tapauksessani, se oli 04fa265258d1 kuten näet edellä.
seuraavaksi voimme nyt ajaa Docker-levykuvan, mutta docker run-kutsuminen kuten alla {WORK_DIR} on hakemisto, jossa astiat elävät
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
seuraava askel on perustaa sijainti tietokannan niin CheckM voi löytää sen
$ checkm data setRoot db/
lopuksi, olemme kaikki asetettu ja voi suorittaa työkalun komennolla alla.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
jos tietokoneessasi on yli 16 Gt RAM-muistia, poista-reduced_tree-lippu. Tämä lippu on tarkoitettu tietokoneelle, jossa on noin 16 Gt RAM-muistia, ja tuottaa epäoptimaalisia tuloksia.
huomio: Varmista, että kaikki {BIN_DIRECTORY} – tiedostosi ovat kansiossa .Fna-laajennus. Jos ne ovat kaikki .fasta-laajennus, lisää Lippu-laajennus .fasta.
Tutkimustapaus
Testatakseni CheckM: ää testasin sitä joillakin NCBI: n mikrobigenomeilla:
- Escherichia coli str. K-12 alitr. Mg1655, täydellinen genomi
- Lactobacillus vini DSM 20605
lisäksi yhdistin molemmat genomit simuloimaan sekoitettua säiliötä, jotta voisin tarkistaa kontaminaation, ja poistin joitakin kontigeja Lactobacillus vini DSM 20605-kokoonpanosta, jotta voisin tarkistaa täydellisyyden.
viimeisenä mutta ei vähäisimpänä, kuten alla näkyy, CheckM osasi luokitella astiat oikein. Näemme pientä saastumista NCBI: n genomeissa – tämä voi olla luokittelumelua.
lisää resursseja
tässä on kolme suosikkiani Python bioinformatiikka-kirjoista, jos haluat oppia siitä lisää.
- Python for the Life Sciences: a Gentle Introduction to Python for Life Scientists Alexander Lancaster
- Bioinformatics with Python Cookbook, Tiago Antao
- Bioinformatics Programming Using Python: Practical Programming for Biological Data, Mitchell L. Malli
johtopäätös
yhteenvetona toivon teidän nyt ymmärtävän, että on tärkeää tarkistaa MAGs: n täydellisyys ja kontaminaatio. Lisäksi toivon, että tämä askel askeleelta opetusohjelma on hyödyllinen sinulle.
- kivuton genomin Syvyyskartoitus
- vaivaton Rekrytointikohta
- Metagenominen taksonominen profiili sekunneissa