Step by Step: A MAGs teljessége és szennyeződése

ez a cikk lépésről lépésre bemutatja, hogyan lehet becsülni a Metagenom összeszerelt genomok (MAGs) teljességét és szennyeződését a CheckM segítségével.

hogyan működik a CheckM?

Ph.D. tanácsadóm, Robert Edwards az alábbiakban elmagyarázza, hogy a CheckM hogyan használ rejtett Markov-modellt a tartályok teljességének és szennyeződésének becslésére.

lépésről lépésre: futás CheckM

mindenekelőtt, mivel a CheckM-nek sok függősége van, itt egy Docker képet fogok használni, amely az összes függőséget hordozza. Mindössze annyit kell tennie, hogy győződjön meg arról, hogy a Docker telepítve van a gépben, és húzza ki a checkm bioconda Docker képet. Ezt az alábbi parancs használatával teheti meg:

$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0

győződjön meg róla, hogy legalább 16 GB RAM-ot használ a Docker képéhez. Ha nem tudja, hogyan kell csinálni, kérjük, itt tanulja meg, hogyan kell csinálni.

a következő lépés a CheckM adatbázis letöltése, amely innen tölthető le:

# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/

figyelem: ezen a bemutatón győződjön meg arról, hogy az adatbázis ugyanabban a mappában él, mint a kukák fájljai.

most, hogy húzza a képet a gépre, állítsa be a megfelelő mennyiségű memóriát a Docker képben, és rendelkezzen a CheckM adatbázissal, futtathatja (hurrá!)

azonban először azonosítsa a képazonosítót a docker képek használatával

$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB

az én esetemben 04fa265258d1 volt, amint fent láthatja.

ezután futtathatjuk a Docker képet, de a Docker run hívása az alábbiak szerint {WORK_DIR} az a könyvtár, ahol a tartályok élnek

# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/

a következő lépés az adatbázis helyének beállítása, hogy a CheckM megtalálja

$ checkm data setRoot db/

végül mindannyian készen állunk, és az alábbi parancs segítségével futtathatjuk az eszközt.

$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}

ha a számítógép több mint 16 GB RAM-mal rendelkezik, távolítsa el a-reduced_tree zászlót. Ez a zászló körülbelül 16 GB RAM-mal rendelkező számítógépre vonatkozik, és nem optimális eredményeket produkál.

figyelem: Győződjön meg arról, hogy a {BIN_DIRECTORY} fájljai a.fna kiterjesztés. Ha mind a .fasta kiterjesztés, kérjük, adja hozzá a zászló-kiterjesztést .fasta.

vizsgálati eset

a CheckM teszteléséhez az NCBI néhány mikrobiális genomjával teszteltem:

  • Escherichia coli str. K-12 substr. MG1655, teljes genom
  • Lactobacillus vini DSM 20605

továbbá, kombináltam mindkét genomot, hogy szimuláljak egy vegyes tartályt, hogy ellenőrizhessem a szennyeződést, és eltávolítottam néhány kapcsolatot a Lactobacillus vini DSM 20605 szerelvényből, hogy ellenőrizhessem a teljességet.

végül, de nem utolsósorban, amint az alább látható, a CheckM helyesen tudta osztályozni a tartályokat. Látunk néhány apró szennyeződést az NCBI genomokon-ez osztályozási zaj lehet.

további források

itt van három kedvenc Python bioinformatikai könyvem, ha többet szeretne megtudni róla.

  • Python az élettudományok számára: gyengéd Bevezetés a Pythonba az Élettudósok számára papírkötésben Alexander Lancaster
  • bioinformatika Python szakácskönyvvel Tiago Antao
  • bioinformatika programozás Python használatával: Mitchell L. gyakorlati programozás biológiai adatokhoz. Modell

következtetés

összefoglalva, remélem, most már értem, hogy fontos, hogy ellenőrizze a teljességét és szennyeződését MAGs. Sőt, remélem, hogy ez a lépésről lépésre bemutató hasznos az Ön számára.

  • fájdalommentes Genom mélység ábrázolás
  • könnyed toborzás telek
  • Metagenomikai rendszertani profil másodpercben

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.