denne artikkelen viser TRINN for TRINN hvordan man estimerer fullstendighet og forurensning Av Metagenome Assembled Genomes (MAGs) ved Hjelp Av CheckM.
hvordan Fungerer CheckM?
Min Ph. d. rådgiver, Robert Edwards, forklarer nedenfor hvordan CheckM bruker en skjult Markov-modell for å estimere fullstendigheten og forurensningen av hyller (MAGs).
Trinn For Trinn: Kjører CheckM
Først og fremst, Som CheckM har mange avhengigheter, vil jeg bruke her Et Docker-bilde som bærer alle avhengighetene for det. Alt du trenger å gjøre er å sørge For At Du Har Docker installert i maskinen og trekke CheckM bioconda Docker Bilde. Du kan gjøre det ved å bruke kommandoen nedenfor:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
Pass på at Du får Opp Docker-bildet for å bruke minst 16 GB RAM. Hvis du ikke vet hvordan du gjør det, kan du lære hvordan du gjør det her.
Neste trinn er å laste Ned CheckM-databasen som kan lastes ned fra:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
Obs: på denne opplæringen, må du sørge for at databasen bor i samme mappe som binger filer.
Nå som du trekker bildet til maskinen din, setter opp riktig mengde minne i Docker-bildet, og har CheckM-databasen, kan du kjøre den (yay!)
men først identitet din bilde-ID ved hjelp av docker-bilder
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
I mitt tilfelle var det 04fa265258d1 som du kan se ovenfor.
Deretter kan vi nå kjøre Docker-bildet, men kaller docker run som vist nedenfor {WORK_DIR} er katalogen der hyllene bor
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
Neste trinn er å sette opp plasseringen av databasen slik At CheckM kan finne den
$ checkm data setRoot db/
Til Slutt er vi alle satt og kan kjore verktoyet ved hjelp av kommandoen nedenfor.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
hvis datamaskinen har mye MER ENN 16 GB RAM, bør du fjerne-reduced_tree-flagget. Dette flagget er for datamaskin med ca 16 GB RAM, og produsere sub-optimale resultater.
Oppmerksomhet: Kontroller at alle filene i {BIN_DIRECTORY} er på .fna forlengelse. Hvis de er alle i den .fasta extension, vennligst legg til flagg-utvidelsen .fasta.
Study Case
for å teste CheckM, testet jeg det med noen mikrobielle genomer FRA NCBI:
- Escherichia coli str. K-12 substrr. MG1655, komplett genom
- Lactobacillus vini DSM 20605
Videre kombinerte jeg begge genomene for å simulere en blandet beholder slik at jeg kunne sjekke for forurensning, og fjernet noen contigs fra Lactobacillus vini DSM 20605-samlingen, slik at jeg kunne sjekke for fullstendighet.
Sist Men Ikke minst, som du kan se nedenfor, Var CheckM i stand til å klassifisere hyllene riktig. VI ser litt liten forurensning på NCBI-genomene-dette kan være en klassifiseringsstøy.
Flere Ressurser
her er tre av mine favoritt Python Bioinformatikkbøker hvis du vil lære mer om det.
- Python For Life Sciences: En Mild Introduksjon Til Python For Life Scientists Paperback Av Alexander Lancaster
- Bioinformatikk Med Python Cookbook Av Tiago Antao
- Bioinformatikk Programmering Ved Hjelp Av Python: Praktisk Programmering For Biologiske Data Av Mitchell L. Modell
Konklusjon
oppsummert, jeg håper du nå forstår det er viktig å sjekke For Fullstendighet Og Forurensning Av MAGs. Videre håper jeg at Denne Trinnvise opplæringen er nyttig for deg.
- Smertefritt Genomdybdeplotting
- Uanstrengt Rekrutteringsplot
- Metagenomisk Taksonomisk Profil på Sekunder