Pas cu pas: completitudinea și contaminarea MAGs

acest articol demonstrează pas cu pas cum să estimați completitudinea și contaminarea Genomurilor asamblate Metagenome (MAGs) folosind CheckM.

cum funcționează CheckM?

consilierul meu de doctorat, Robert Edwards, explică mai jos cum CheckM folosește un model Markov ascuns pentru a estima completitudinea și contaminarea coșurilor (MAGs).

pas cu pas: rularea CheckM

în primul rând, deoarece CheckM are multe dependențe, voi folosi aici o imagine Docker care poartă toate dependențele pentru aceasta. Tot ce trebuie să faceți este să vă asigurați că aveți Docker instalat în mașină și trageți imaginea checkm bioconda Docker. Puteți face acest lucru folosind comanda de mai jos:

$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0

asigurați-vă că vă ridicați imaginea Docker pentru a utiliza cel puțin 16 GB RAM. Dacă nu știți cum să o faceți, vă rugăm să învățați cum să o faceți aici.

următorul pas este să descărcați baza de date CheckM care poate fi descărcată de pe:

# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/

atenție: în acest tutorial, asigurați-vă că baza dvs. de date locuiește în același folder cu fișierele dvs.

acum că trageți imaginea pe mașină, configurați cantitatea potrivită de memorie în imaginea Docker și aveți baza de date CheckM, o puteți rula (yay!)

cu toate acestea, prima identitate ID-ul de imagine folosind imagini docker

$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB

în cazul meu, a fost 04fa265258d1 după cum puteți vedea mai sus.

apoi, putem rula acum imaginea Docker, dar apelarea Docker run așa cum se arată mai jos {WORK_DIR} este directorul în care trăiesc coșurile

# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/

următorul pas este să configurați locația bazei de date, astfel încât CheckM să o poată găsi

$ checkm data setRoot db/

în cele din urmă, suntem cu toții setați și putem rula instrumentul folosind comanda de mai jos.

$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}

dacă computerul dvs. are mai mult de 16 GB RAM, ar trebui să eliminați steagul-reduced_tree. Acest steag este pentru calculator cu aproximativ 16 GB de RAM, și să producă rezultate sub-optime.

atenție: Asigurați-vă că toate fișierele din {BIN_DIRECTORY} sunt pe .extensie fna. În cazul în care acestea sunt toate în .fasta extensie, vă rugăm să adăugați pavilion-extensie .fasta.

studiu de caz

pentru a testa CheckM, l-am testat cu niște genomi microbieni de la NCBI:

  • Escherichia coli str. K-12 substr. MG1655, genom complet
  • Lactobacillus vini DSM 20605

în plus, am combinat ambele genomuri pentru a simula un coș mixt, astfel încât să pot verifica contaminarea și am îndepărtat câteva contiguri din ansamblul Lactobacillus vini DSM 20605, astfel încât să pot verifica completitudinea.

nu în ultimul rând, după cum puteți vedea mai jos, CheckM a reușit să clasifice corect coșurile. Vedem o mică contaminare pe genomii NCBI – acesta ar putea fi un zgomot de clasificare.

mai multe resurse

iată trei dintre cărțile mele preferate de Bioinformatică Python în cazul în care doriți să aflați mai multe despre aceasta.

  • Python pentru științele vieții: o introducere blândă în Python pentru oamenii de știință de viață broșată de Alexander Lancaster
  • bioinformatică cu carte de bucate Python de Tiago Antao
  • programare bioinformatică folosind Python: Programare practică pentru date biologice de Mitchell L. Model

concluzie

pe scurt, sper să înțelegeți acum că este important să verificați completitudinea și contaminarea MAGs. Mai mult decât atât, sper că acest pas cu pas tutorial este util pentru tine.

  • plotarea adâncimii genomului fără durere
  • complot de recrutare fără efort
  • profil Taxonomic Metagenomic în câteva secunde

Lasă un răspuns

Adresa ta de email nu va fi publicată.