Ten artykuł pokazuje krok po kroku, jak oszacować kompletność i zanieczyszczenie zmontowanych genomów Metagenomu (magów) za pomocą CheckM.
jak działa CheckM?
mój doradca Ph. d., Robert Edwards, wyjaśnia poniżej, w jaki sposób CheckM wykorzystuje Ukryty model Markowa do oszacowania kompletności i zanieczyszczenia pojemników (MAGs).
krok po kroku: uruchamiając CheckM
przede wszystkim, ponieważ CheckM ma wiele zależności, użyję tutaj obrazu dokera, który przenosi wszystkie zależności dla niego. Wszystko, co musisz zrobić, to upewnić się, że masz zainstalowany Docker w maszynie i wyciągnąć obraz Checkm bioconda Docker. Możesz to zrobić za pomocą poniższego polecenia:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
upewnij się, że masz obraz dokera, aby użyć co najmniej 16 GB PAMIĘCI RAM. Jeśli nie wiesz, jak to zrobić, dowiedz się, jak to zrobić tutaj.
następnym krokiem jest pobranie bazy danych CheckM, którą można pobrać z:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
Uwaga: w tym samouczku upewnij się, że Twoja baza danych znajduje się w tym samym folderze co pliki bins.
teraz, gdy pociągniesz obraz do komputera, skonfigurujesz odpowiednią ilość pamięci w obrazie dokera i masz bazę danych CheckM, możesz go uruchomić (yay!)
jednak najpierw zidentyfikuj swój identyfikator obrazu za pomocą obrazów docker
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
w moim przypadku był to 04fa265258d1, jak widać powyżej.
następnie możemy uruchomić obraz Dockera, ale wywołanie docker run jak pokazano poniżej {WORK_DIR} jest katalogiem, w którym znajdują się kosze
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
następnym krokiem jest skonfigurowanie lokalizacji bazy danych, aby CheckM mógł ją znaleźć
$ checkm data setRoot db/
wreszcie, wszyscy jesteśmy ustawieni i możemy uruchomić narzędzie za pomocą poniższego polecenia.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
jeśli twój komputer ma więcej niż 16 GB PAMIĘCI RAM, powinieneś usunąć znacznik-reduced_tree. Ta flaga jest dla komputera z około 16 GB PAMIĘCI RAM, i produkować nieoptymalne wyniki.
Uwaga: Upewnij się, że wszystkie pliki w {BIN_DIRECTORY} są włączone .rozszerzenie fna. Jeśli wszystkie są w .FASTA extension, proszę dodać flagę-extension .fasta.
Study Case
aby przetestować CheckM, Przetestowałem go z niektórymi genomami mikrobiologicznymi z NCBI:
- Escherichia coli str. Podst.K-12 MG1655, kompletny Genom
- Lactobacillus vini DSM 20605
ponadto połączyłem oba genomy, aby zasymulować mieszany Pojemnik, abym mógł sprawdzić zanieczyszczenie,i usunąłem niektóre stożki z zespołu Lactobacillus vini DSM 20605, abym mógł sprawdzić kompletność.
wreszcie, jak widać poniżej, CheckM był w stanie poprawnie sklasyfikować pojemniki. Widzimy niewielkie zanieczyszczenia na genomach NCBI-może to być szum klasyfikacyjny.
więcej zasobów
oto trzy Moje Ulubione Książki bioinformatyczne Pythona, jeśli chcesz dowiedzieć się więcej na ten temat.
- Python dla nauk przyrodniczych: delikatne Wprowadzenie do Pythona dla naukowców życiowych Miękka Okładka Alexander Lancaster
- Bioinformatics with Python Cookbook by Tiago Antao
- Bioinformatics Programming Using Python: Practical Programming for Biological Data by Mitchell L. Model
wniosek
podsumowując, mam nadzieję, że teraz rozumiesz, że ważne jest sprawdzenie kompletności i zanieczyszczenia magów. Co więcej, mam nadzieję, że ten samouczek krok po kroku jest dla Ciebie pomocny.
- bezbolesne wykresy głębokości genomu
- bezproblemowe wykresy rekrutacyjne
- Metagenomiczny profil taksonomiczny w sekundach