dit artikel laat stap voor stap zien hoe de volledigheid en contaminatie van Metagenoom geassembleerde genomen (MAGs) met behulp van CheckM kan worden geschat.
Hoe werkt CheckM?
mijn Ph. D. adviseur, Robert Edwards, legt hieronder uit hoe CheckM een verborgen Markov-model gebruikt om de volledigheid en verontreiniging van bakken (MAGs) te schatten.
stap voor stap: CheckM
eerst en vooral, omdat CheckM veel afhankelijkheden heeft, zal ik hier een Docker-image gebruiken die alle afhankelijkheden daarvoor bevat. Het enige wat je hoeft te doen is ervoor te zorgen dat je Docker geïnstalleerd hebt in je machine en het CheckM bioconda Docker Image te trekken. U kunt dit doen met het onderstaande commando:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
zorg ervoor dat u uw Docker-image omhoog krijgt om ten minste 16 GB RAM te gebruiken. Als je niet weet hoe je het moet doen, leer dan hier hoe je het moet doen.
de volgende stap is het downloaden van de CheckM-database die kan worden gedownload van:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
let op: zorg er in deze tutorial voor dat uw database in dezelfde map staat als uw bins-bestanden.
nu u de afbeelding naar uw machine trekt, de juiste hoeveelheid geheugen in de Docker-afbeelding instelt en de CheckM-database hebt, kunt u deze uitvoeren (yay!)
echter, eerste Identiteit uw afbeelding ID met behulp van docker images
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
in mijn geval was het 04fa265258d1 zoals je hierboven kunt zien.
vervolgens kunnen we nu de Docker-afbeelding uitvoeren, maar het aanroepen van docker run zoals hieronder getoond {WORK_DIR} is de map waar de bakken wonen
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
de volgende stap is om de locatie van de database in te stellen zodat CheckM deze kan vinden
$ checkm data setRoot db/
tot slot zijn we helemaal klaar en kunnen we de tool uitvoeren met behulp van het onderstaande commando.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
als uw computer veel meer dan 16 GB RAM heeft, moet u de vlag-reduced_tree verwijderen. Deze vlag is voor computer met ongeveer 16 GB RAM, en produceren suboptimale resultaten.
aandacht: Zorg ervoor dat al uw bestanden in de {BIN_DIRECTORY} op de .Fna uitbreiding. Als ze allemaal in de .fasta extension, voeg de flag-extension toe .fasta.
Studiegeval
om CheckM te testen, heb ik het Getest met enkele microbiële genomen van NCBI.:
- Escherichia coli str. K-12 substr. MG1655, volledig genoom
- Lactobacillus vini DSM 20605
verder combineerde ik beide genomen om een gemengde bak te simuleren, zodat ik kon controleren op besmetting, en verwijderde een aantal contigs uit de Lactobacillus vini DSM 20605 assemblage, zodat ik kon controleren op volledigheid.
Last but not least, zoals u hieronder kunt zien, was CheckM in staat om de bakken correct te classificeren. We zien wat kleine vervuiling op de NCBI genomen – dit kan een classificatie lawaai.
meer bronnen
hier zijn drie van mijn favoriete Python Bioinformatica boeken voor het geval je er meer over wilt weten.Python for the Life Sciences: a Gentle Introduction to Python for Life Scientists Paperback door Alexander Lancaster
conclusie
samenvattend hoop ik dat u nu begrijpt dat het belangrijk is om de volledigheid en contaminatie van MAGs te controleren. Bovendien hoop ik dat deze stap voor stap tutorial nuttig is voor u.
- pijnvrije Genoomdiepteplot
- moeiteloze Rekruteringsplot
- Metagenomisch taxonomisch profiel in seconden