Dieser Artikel zeigt SCHRITT für SCHRITT, wie die Vollständigkeit und Kontamination von metagenomassemblierten Genomen (MAGs) mit CheckM abgeschätzt werden kann.
Wie funktioniert CheckM?
Mein Doktorandenberater Robert Edwards erklärt im Folgenden, wie CheckM ein Hidden-Markov-Modell verwendet, um die Vollständigkeit und Kontamination von Behältern (MAGs) abzuschätzen.
Schritt für Schritt: Ausführen von CheckM
Da CheckM viele Abhängigkeiten hat, werde ich hier in erster Linie ein Docker-Image verwenden, das alle Abhängigkeiten dafür enthält. Alles, was Sie tun müssen, ist sicherzustellen, dass Docker auf Ihrem Computer installiert ist, und das Checkmyconda-Docker-Image abzurufen. Sie können dies mit dem folgenden Befehl tun:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
Stellen Sie sicher, dass Sie Ihr Docker-Image so einrichten, dass mindestens 16 GB RAM verwendet werden. Wenn Sie nicht wissen, wie es geht, erfahren Sie hier, wie es geht.
Der nächste Schritt ist das Herunterladen der CheckM-Datenbank, die von:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
Achtung: Stellen Sie in diesem Tutorial sicher, dass sich Ihre Datenbank im selben Ordner wie Ihre bins-Dateien befindet.
Nachdem Sie das Image auf Ihren Computer gezogen, die richtige Menge an Speicher im Docker-Image eingerichtet und über die CheckM-Datenbank verfügen, können Sie es ausführen (yay!)
Identifizieren Sie jedoch zuerst Ihre Image-ID mithilfe von Docker-Images
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
In meinem Fall war es 04fa265258d1, wie Sie oben sehen können.
Als nächstes können wir jetzt das Docker-Image ausführen, aber docker run aufrufen, wie unten gezeigt {WORK_DIR} ist das Verzeichnis, in dem sich die Bins befinden
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
Der nächste Schritt besteht darin, den Speicherort der Datenbank einzurichten, damit CheckM sie finden kann
$ checkm data setRoot db/
Schließlich sind wir fertig und können das Tool mit dem folgenden Befehl ausführen.
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
Wenn Ihr Computer über mehr als 16 GB RAM verfügt, sollten Sie das Flag -reduced_tree entfernen. Dieses Flag ist für Computer mit etwa 16 GB RAM, und produzieren suboptimale Ergebnisse.
Achtung: Stellen Sie sicher, dass sich alle Ihre Dateien im {BIN_DIRECTORY} auf dem befinden .fna-Erweiterung. Wenn sie alle in der .fasta-Erweiterung, bitte fügen Sie die Flag –Erweiterung hinzu.fasta.
Studienfall
Um CheckM zu testen, habe ich es mit einigen mikrobiellen Genomen von NCBI getestet:
- Escherichia coli str. K-12 substr. MG1655, komplettes Genom
- Lactobacillus vini DSM 20605
Außerdem kombinierte ich beide Genome, um einen gemischten Behälter zu simulieren, damit ich auf Kontamination prüfen konnte, und entfernte einige Verbindungen aus der Lactobacillus vini DSM 20605-Baugruppe, um die Vollständigkeit zu überprüfen.
Last but not least konnte CheckM, wie Sie unten sehen können, die Behälter korrekt klassifizieren. Wir sehen einige kleine Verunreinigungen auf den NCBI-Genomen – dies könnte ein Klassifizierungsrauschen sein.
Weitere Ressourcen
Hier sind drei meiner Lieblings-Python-Bioinformatik-Bücher, falls Sie mehr darüber erfahren möchten.
- Python für die Lebenswissenschaften: Eine sanfte Einführung in Python für Lebenswissenschaftler Taschenbuch von Alexander Lancaster
- Bioinformatik mit Python Kochbuch von Tiago Antao
- Bioinformatik-Programmierung mit Python: Praktische Programmierung für biologische Daten von Mitchell L. Modell
Fazit
Zusammenfassend hoffe ich, dass Sie jetzt verstehen, dass es wichtig ist, die Vollständigkeit und Kontamination von MAGs zu überprüfen. Außerdem hoffe ich, dass dieses Schritt-für-Schritt-Tutorial für Sie hilfreich ist.
- Schmerzfreies Plotten der Genomtiefe
- Müheloses Rekrutierungsdiagramm
- Metagenomisches Taxonomisches Profil in Sekunden