ez a cikk lépésről lépésre bemutatja, hogyan lehet becsülni a Metagenom összeszerelt genomok (MAGs) teljességét és szennyeződését a CheckM segítségével.
hogyan működik a CheckM?
Ph.D. tanácsadóm, Robert Edwards az alábbiakban elmagyarázza, hogy a CheckM hogyan használ rejtett Markov-modellt a tartályok teljességének és szennyeződésének becslésére.
lépésről lépésre: futás CheckM
mindenekelőtt, mivel a CheckM-nek sok függősége van, itt egy Docker képet fogok használni, amely az összes függőséget hordozza. Mindössze annyit kell tennie, hogy győződjön meg arról, hogy a Docker telepítve van a gépben, és húzza ki a checkm bioconda Docker képet. Ezt az alábbi parancs használatával teheti meg:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
győződjön meg róla, hogy legalább 16 GB RAM-ot használ a Docker képéhez. Ha nem tudja, hogyan kell csinálni, kérjük, itt tanulja meg, hogyan kell csinálni.
a következő lépés a CheckM adatbázis letöltése, amely innen tölthető le:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
figyelem: ezen a bemutatón győződjön meg arról, hogy az adatbázis ugyanabban a mappában él, mint a kukák fájljai.
most, hogy húzza a képet a gépre, állítsa be a megfelelő mennyiségű memóriát a Docker képben, és rendelkezzen a CheckM adatbázissal, futtathatja (hurrá!)
azonban először azonosítsa a képazonosítót a docker képek használatával
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
az én esetemben 04fa265258d1 volt, amint fent láthatja.
ezután futtathatjuk a Docker képet, de a Docker run hívása az alábbiak szerint {WORK_DIR} az a könyvtár, ahol a tartályok élnek
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
a következő lépés az adatbázis helyének beállítása, hogy a CheckM megtalálja
$ checkm data setRoot db/
végül mindannyian készen állunk, és az alábbi parancs segítségével futtathatjuk az eszközt.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
ha a számítógép több mint 16 GB RAM-mal rendelkezik, távolítsa el a-reduced_tree zászlót. Ez a zászló körülbelül 16 GB RAM-mal rendelkező számítógépre vonatkozik, és nem optimális eredményeket produkál.
figyelem: Győződjön meg arról, hogy a {BIN_DIRECTORY} fájljai a.fna kiterjesztés. Ha mind a .fasta kiterjesztés, kérjük, adja hozzá a zászló-kiterjesztést .fasta.
vizsgálati eset
a CheckM teszteléséhez az NCBI néhány mikrobiális genomjával teszteltem:
- Escherichia coli str. K-12 substr. MG1655, teljes genom
- Lactobacillus vini DSM 20605
továbbá, kombináltam mindkét genomot, hogy szimuláljak egy vegyes tartályt, hogy ellenőrizhessem a szennyeződést, és eltávolítottam néhány kapcsolatot a Lactobacillus vini DSM 20605 szerelvényből, hogy ellenőrizhessem a teljességet.
végül, de nem utolsósorban, amint az alább látható, a CheckM helyesen tudta osztályozni a tartályokat. Látunk néhány apró szennyeződést az NCBI genomokon-ez osztályozási zaj lehet.
további források
itt van három kedvenc Python bioinformatikai könyvem, ha többet szeretne megtudni róla.
- Python az élettudományok számára: gyengéd Bevezetés a Pythonba az Élettudósok számára papírkötésben Alexander Lancaster
- bioinformatika Python szakácskönyvvel Tiago Antao
- bioinformatika programozás Python használatával: Mitchell L. gyakorlati programozás biológiai adatokhoz. Modell
következtetés
összefoglalva, remélem, most már értem, hogy fontos, hogy ellenőrizze a teljességét és szennyeződését MAGs. Sőt, remélem, hogy ez a lépésről lépésre bemutató hasznos az Ön számára.
- fájdalommentes Genom mélység ábrázolás
- könnyed toborzás telek
- Metagenomikai rendszertani profil másodpercben