Step by Step: täydellisyys ja kontaminaatio MAGs

tässä artikkelissa osoitetaan askel askeleelta, miten arvioidaan metagenomikokoonpanon genomien (MAGs) täydellisyys ja kontaminaatio CheckM: n avulla.

miten CheckM vaikuttaa?

tohtorin neuvonantajani Robert Edwards selittää alla, miten CheckM käyttää piilotettua Markovin mallia arvioidakseen astioiden täydellisyyttä ja saastumista (MAGs).

Step by Step: Running CheckM

ensinnäkin, koska Checkmillä on monia riippuvuuksia, käytän tässä Docker-kuvaa, joka sisältää kaikki riippuvuudet sille. Sinun tarvitsee vain varmistaa, että koneeseesi on asennettu Docker ja vedä CheckM bioconda Docker-Kuva. Voit tehdä sen alla olevalla komennolla:

$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0

varmista, että nostat Docker-kuvaasi käyttääksesi vähintään 16 Gt RAM-muistia. Jos et tiedä, miten se tehdään, opettele tekemään se täällä.

seuraava vaihe on ladata CheckM-tietokanta, joka on ladattavissa:

# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/

huomio: tässä opetusohjelmassa varmista, että tietokantasi elää samassa kansiossa kuin roskakorisi tiedostot.

nyt kun vedät kuvan koneeseesi, asetat oikean määrän muistia Docker-kuvaan ja sinulla on CheckM-tietokanta, voit suorittaa sen (JEE!)

kuitenkin, ensin tunnistat kuvan ID: si docker-kuvien avulla

$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB

minun tapauksessani, se oli 04fa265258d1 kuten näet edellä.

seuraavaksi voimme nyt ajaa Docker-levykuvan, mutta docker run-kutsuminen kuten alla {WORK_DIR} on hakemisto, jossa astiat elävät

# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/

seuraava askel on perustaa sijainti tietokannan niin CheckM voi löytää sen

$ checkm data setRoot db/

lopuksi, olemme kaikki asetettu ja voi suorittaa työkalun komennolla alla.

$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}

jos tietokoneessasi on yli 16 Gt RAM-muistia, poista-reduced_tree-lippu. Tämä lippu on tarkoitettu tietokoneelle, jossa on noin 16 Gt RAM-muistia, ja tuottaa epäoptimaalisia tuloksia.

huomio: Varmista, että kaikki {BIN_DIRECTORY} – tiedostosi ovat kansiossa .Fna-laajennus. Jos ne ovat kaikki .fasta-laajennus, lisää Lippu-laajennus .fasta.

Tutkimustapaus

Testatakseni CheckM: ää testasin sitä joillakin NCBI: n mikrobigenomeilla:

  • Escherichia coli str. K-12 alitr. Mg1655, täydellinen genomi
  • Lactobacillus vini DSM 20605

lisäksi yhdistin molemmat genomit simuloimaan sekoitettua säiliötä, jotta voisin tarkistaa kontaminaation, ja poistin joitakin kontigeja Lactobacillus vini DSM 20605-kokoonpanosta, jotta voisin tarkistaa täydellisyyden.

viimeisenä mutta ei vähäisimpänä, kuten alla näkyy, CheckM osasi luokitella astiat oikein. Näemme pientä saastumista NCBI: n genomeissa – tämä voi olla luokittelumelua.

lisää resursseja

tässä on kolme suosikkiani Python bioinformatiikka-kirjoista, jos haluat oppia siitä lisää.

  • Python for the Life Sciences: a Gentle Introduction to Python for Life Scientists Alexander Lancaster
  • Bioinformatics with Python Cookbook, Tiago Antao
  • Bioinformatics Programming Using Python: Practical Programming for Biological Data, Mitchell L. Malli

johtopäätös

yhteenvetona toivon teidän nyt ymmärtävän, että on tärkeää tarkistaa MAGs: n täydellisyys ja kontaminaatio. Lisäksi toivon, että tämä askel askeleelta opetusohjelma on hyödyllinen sinulle.

  • kivuton genomin Syvyyskartoitus
  • vaivaton Rekrytointikohta
  • Metagenominen taksonominen profiili sekunneissa

Vastaa

Sähköpostiosoitettasi ei julkaista.