denne artikel viser trin for trin, hvordan man estimerer fuldstændighed og forurening af Metagenomsamlede genomer (MAGs) ved hjælp af CheckM.
Hvordan virker CheckM?
min ph.d. – rådgiver, Robert Edvard, forklarer nedenfor, hvordan CheckM bruger en skjult Markov-model til at estimere fuldstændigheden og forureningen af skraldespande (MAGs).
trin for trin: kører CheckM
først og fremmest, da CheckM har mange afhængigheder, vil jeg her bruge et Docker-billede, der bærer alle afhængigheder for det. Alt du skal gøre er at sikre dig, at du har Docker installeret i din maskine og trække CheckM bioconda Docker-billedet. Du kan gøre det ved at bruge kommandoen nedenfor:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
sørg for at få dit Docker-billede op for at bruge mindst 16 GB RAM. Hvis du ikke ved, hvordan du gør det, kan du lære at gøre det her.
næste skridt er at hente CheckM databasen, som kan hentes fra:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
OBS: på denne tutorial, skal du sørge for din database bor i samme mappe som dine skraldespande filer.
nu hvor du trækker billedet til din maskine, opsætter den rigtige mængde hukommelse i Docker-billedet og har CheckM-databasen, kan du køre det (yay!)
men først identitet dit billede ID ved hjælp af docker billeder
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
i mit tilfælde var det 04fa265258d1 som du kan se ovenfor.
dernæst kan vi nu køre Docker-billedet, men at kalde docker-kørsel som vist nedenfor {ARBEJD_DIR} er det bibliotek, hvor skraldespandene bor
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
næste trin er at oprette placeringen af databasen, så CheckM kan finde den
$ checkm data setRoot db/
endelig er vi alle indstillet og kan køre værktøjet ved hjælp af kommandoen nedenfor.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
hvis din computer har langt mere end 16 GB RAM, skal du fjerne-reduced_tree flag. Dette flag er for computer med omkring 16 GB RAM, og producere suboptimale resultater.
opmærksomhed: Sørg for, at alle dine filer i {BIN_DIRECTORY} er på .Fna udvidelse. Hvis de alle er i .fasta udvidelse, skal du tilføje flag-udvidelse .fasta.
Studiesag
for at teste CheckM testede jeg det med nogle mikrobielle genomer fra NCBI:
- Escherichia coli str. K-12 substr. MG1655, komplet genom
- Lactobacillus vini DSM 20605
desuden kombinerede jeg begge genomer for at simulere en blandet beholder, så jeg kunne kontrollere for forurening og fjernede nogle contigs fra Lactobacillus vini DSM 20605-samlingen, så jeg kunne kontrollere for fuldstændighed.
sidst men ikke mindst, som du kan se nedenfor, var CheckM i stand til at klassificere skraldespandene korrekt. Vi ser en lille forurening på NCBI – genomerne-dette kan være en klassificeringsstøj.
flere ressourcer
her er tre af mine foretrukne Python Bioinformatik bøger, hvis du ønsker at lære mere om det.
- Python for Life Sciences: en blid introduktion til Python for Life Scientists Paperback af Aleksandr Lancaster
- Bioinformatik med Python kogebog af Tiago Antao
- Bioinformatik programmering ved hjælp af Python: praktisk programmering for biologiske Data af Mitchell L. Model
konklusion
sammenfattende håber jeg, at du nu forstår, at det er vigtigt at kontrollere for fuldstændighed og forurening af MAGs. Desuden håber jeg, at denne trinvise vejledning er nyttig for dig.
- smertefri Genomdybdeplotning
- ubesværet Rekrutteringsplot
- Metagenomisk taksonomisk profil i sekunder