Steg för steg: fullständighet och förorening av MAGs

denna artikel visar steg för steg Hur man uppskattar fullständighet och förorening av Metagenomsammansatta genomer (MAGs) med CheckM.

hur fungerar CheckM?

min Ph.D. rådgivare, Robert Edwards, förklarar nedan hur CheckM använder en dold Markov-modell för att uppskatta fullständigheten och föroreningen av fack (MAGs).

steg för steg: kör CheckM

först och främst, eftersom CheckM har många beroenden, kommer jag att använda här en Docker-bild som bär alla beroenden för den. Allt du behöver göra är att se till att du har Docker installerad i din maskin och dra CheckM bioconda Docker-bilden. Du kan göra det genom att använda kommandot nedan:

$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0

se till att du får upp din Docker-bild för att använda minst 16 GB RAM. Om du inte vet hur du gör det, vänligen lära dig hur du gör det här.

nästa steg är att ladda ner CheckM-databasen som kan laddas ner från:

# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/

Obs: på denna handledning, se till att din databas bor i samma mapp som dina papperskorgar filer.

nu när du drar bilden till din maskin, ställer in rätt mängd minne i Docker-bilden och har CheckM-databasen kan du köra den (yay!)

men först identiteten ditt bild-ID med docker-bilder

$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB

i mitt fall var det 04fa265258d1 som du kan se ovan.

därefter kan vi nu köra Docker-bilden men att ringa docker run som visas nedan {WORK_DIR} är katalogen där facken bor

# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/

nästa steg är att ställa in platsen för databasen så att CheckM kan hitta den

$ checkm data setRoot db/

slutligen är vi alla inställda och kan köra verktyget med kommandot nedan.

$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}

om din dator har mycket mer än 16 GB RAM bör du ta bort flaggan-reduced_tree. Denna flagga är för dator med ca 16 GB RAM, och producera suboptimala resultat.

uppmärksamhet: Se till att alla dina filer i {BIN_DIRECTORY} är på .Fna förlängning. Om de är alla i .fasta förlängning, Lägg till flaggan-förlängning .fasta.

Studiefall

för att testa CheckM testade jag det med några mikrobiella genom från NCBI:

  • Escherichia coli str. K – 12 substr. MG1655, fullständigt genom
  • Lactobacillus vini DSM 20605

dessutom kombinerade jag båda genomerna för att simulera en blandad behållare så att jag kunde kontrollera kontaminering och tog bort några contigs från Lactobacillus vini DSM 20605-enheten så att jag kunde kontrollera fullständighet.

sist men inte minst, som du kan se nedan, kunde CheckM klassificera facken korrekt. Vi ser lite liten förorening på NCBI – genomen-det här kan vara ett klassificeringsbuller.

fler resurser

här är tre av mina favorit Python Bioinformatikböcker om du vill lära dig mer om det.

  • Python för Biovetenskaperna: en mild introduktion till Python for Life Scientists pocketbok av Alexander Lancaster
  • bioinformatik med Python kokbok av Tiago Antao
  • bioinformatik programmering med Python: praktisk programmering för biologiska Data av Mitchell L. Modell

slutsats

Sammanfattningsvis hoppas jag att du nu förstår att det är viktigt att kontrollera fullständigheten och föroreningen av MAGs. Dessutom hoppas jag att denna steg för steg handledning är till hjälp för dig.

  • smärtfri Genomdjup plottning
  • enkel rekrytering tomt
  • Metagenomic taxonomisk profil i sekunder

Lämna ett svar

Din e-postadress kommer inte publiceras.