tento článek ukazuje krok za krokem, jak odhadnout úplnost a kontaminaci Metagenomů sestavených genomů (Mag) pomocí CheckM.
jak CheckM funguje?
Můj Ph.D. poradce, Robert Edwards, vysvětluje níže, jak CheckM používá skrytý Markovův model k odhadu úplnosti a kontaminace zásobníků (MAGs).
krok za krokem: spuštění CheckM
v první řadě, protože CheckM má mnoho závislostí, použiji zde obrázek Dockeru, který nese všechny závislosti. Vše,co musíte udělat, je ujistit se, že máte v počítači nainstalován Docker a vytáhněte obraz CheckM bioconda Docker. Můžete to udělat pomocí níže uvedeného příkazu:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
ujistěte se, že si svůj obrázek Docker používáte alespoň 16 GB paměti RAM. Pokud nevíte, jak to udělat, Naučte se, jak to udělat zde.
dalším krokem je stažení databáze CheckM, ze které lze stáhnout:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
pozor: v tomto tutoriálu se ujistěte, že vaše databáze žije ve stejné složce jako soubory koše.
Nyní, když vytáhnete obrázek do počítače, nastavíte správné množství paměti v obrázku Dockeru a máte databázi CheckM, můžete ji spustit (yay!)
nejprve však identifikujte své ID obrázku pomocí obrázků docker
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
v mém případě to bylo 04fa265258d1, jak vidíte výše.
dále můžeme spustit obrázek Dockeru, ale volání Docker run, jak je uvedeno níže {WORK_DIR} , je adresář, kde žijí koše
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
dalším krokem je nastavení umístění databáze, aby ji CheckM mohl najít
$ checkm data setRoot db/
nakonec jsme všichni nastaveni a nástroj můžeme spustit pomocí níže uvedeného příkazu.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
pokud má váš počítač více než 16 GB paměti RAM, měli byste odstranit příznak-reduced_tree. Tento příznak je určen pro počítač s přibližně 16 GB RAM a vytváří suboptimální výsledky.
pozor: Ujistěte se, že všechny soubory v {BIN_DIRECTORY} jsou na .rozšíření fna. Pokud jsou všichni v.fasta rozšíření, přidejte příznak-rozšíření .fasta.
studijní případ
za účelem testování CheckM jsem testoval s některými mikrobiálními genomy z NCBI:
- Escherichia coli str. K-12 substr. MG1655, kompletní genom
- Lactobacillus vini DSM 20605
kromě toho jsem kombinoval oba genomy, abych simuloval smíšený zásobník, abych mohl zkontrolovat kontaminaci, a odstranil některé souvislosti ze sestavy Lactobacillus vini DSM 20605, abych mohl zkontrolovat úplnost.
v neposlední řadě, jak vidíte níže, CheckM dokázal správně klasifikovat koše. Na genomech NCBI vidíme malou kontaminaci – mohlo by to být klasifikační šum.
další zdroje
zde jsou tři z mých oblíbených knih Python Bioinformatics pro případ, že se o tom chcete dozvědět více.
- Python Pro Life Sciences: jemný úvod do Python Pro Life sciences Paperback Alexander Lancaster
- Bioinformatics with Python Cookbook by Tiago Antao
- Bioinformatics Programming Using Python: Practical Programming for Biological Data by Mitchell L. Model
závěr
v souhrnu doufám, že nyní chápete, že je důležité zkontrolovat úplnost a kontaminaci časopisů. Navíc doufám, že tento krok za krokem tutoriál je užitečné pro vás.
- bezbolestné Vykreslování hloubky genomu
- bez námahy nábor Plot
- Metagenomický taxonomický profil v sekundách