This article demonstrate STEP by STEP how to estimate Completude and contamination of Metagenome Assembled Genomes (MAGs) using Chechm.Como funciona o CheckM?
my Ph. D. advisor, Robert Edwards, explains below how Chechm uses a hidden Markov model to estimate the completeness and contamination of bins (MAGs).
passo a Passo: Execução CheckM
em Primeiro lugar, como CheckM tem muitas dependências, vou usar aqui uma janela de Encaixe imagem que carrega todas as dependências para ele. Tudo que você precisa fazer é se certificar de que você tem o Docker instalado em sua máquina e puxar a imagem do Docker CheckM bioconda. Você pode fazê-lo usando o comando abaixo:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
certifique-se de obter a sua imagem de Docker para usar pelo menos 16 GB de RAM. Se não sabe como fazê-lo, por favor, Aprenda a fazê-lo aqui.
o próximo passo é transferir a base de dados CheckM que pode ser obtida a partir de:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
atenção: neste tutorial, certifique-se que a sua base de dados vive na mesma pasta que os seus ficheiros de caixas.
agora que você puxa a imagem para a sua máquina, configure a quantidade certa de memória na imagem Docker, e tenha a base de dados CheckM, você pode executá-la (yay!)
no entanto, primeiro identifique o seu ID da imagem usando imagens do acoplador
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
no meu caso, foi 04fa265258d1, como pode ver acima.
Seguinte, agora podemos executar a janela de Encaixe imagem, mas de chamar a janela de encaixe executar como mostrado abaixo {WORK_DIR} é o diretório onde os escaninhos ao vivo
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
o passo Seguinte é configurar o local do banco de dados para CheckM pode encontrá-lo
$ checkm data setRoot db/
Finalmente, estamos a todo o conjunto e pode executar a ferramenta usando o comando abaixo.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
se o seu computador tem muito mais de 16 GB de RAM você deve remover a bandeira-reduced_tree. Esta bandeira é para computador com cerca de 16 GB de RAM, e produzir resultados sub-ótimos.Atenção: Certifique-se que todos os seus arquivos no {BIN_DIRECTORY} estão no .extensão fna. Se estiverem todos no … extensão fasta, por favor adicione a extensão da bandeira .fasta.
caso de estudo
para testar o CheckM, testei-o com alguns genomas microbianos do NCBI.:
- Escherichia coli str. K-12 substr. MG1655, o genoma completo
- Lactobacillus vini DSM 20605
Além disso, eu combinada de ambos os genomas para simular um misto de bin para que eu pudesse verificar a contaminação, e removido alguns contigs de Lactobacillus vini DSM 20605 assembleia para que eu pudesse verificar sua integridade.
por último, mas não menos importante, como você pode ver abaixo, CheckM foi capaz de classificar as celas corretamente. Vemos uma pequena contaminação nos genomas NCBI – isto pode ser um ruído de classificação.
mais recursos
Aqui estão três dos meus livros favoritos de Bioinformática Python, no caso de você querer saber mais sobre ele.
- Python for the Life Sciences: a Gentle Introduction to Python for Life Scientists Paperback by Alexander Lancaster
- Bioinformatics with Python Cookbook by Tiago Antao
- Bioinformatics Programming Using Python: Practical Programming for Biological Data by Mitchell L. Modelo
conclusão
em resumo, espero que compreendam agora que é importante verificar a exaustividade e a contaminação dos MAGs. Além disso, espero que este tutorial passo a passo seja útil para você.
- profundidade do genoma sem dor plotagem
- parcela de recrutamento sem esforço
- perfil taxonómico Metagenómico em segundos