この記事では、CheckMを使用してメタゲノムアッセンブリーゲノム(MAGs)の完全性と汚染を推定する方法を段階的に
CheckMはどのように機能しますか?
私の博士号アドバイザー、Robert Edwardsは、CheckMが隠されたマルコフモデルを使用してビン(MAGs)の完全性と汚染を推定する方法を以下に説明します。
ステップバイステップ:Checkm
を実行するまず第一に、CheckMには多くの依存関係があるため、ここではすべての依存関係を運ぶDockerイメージを使用します。 あなたがする必要があるのは、あなたのマシンにDockerがインストールされていることを確認し、CheckM bioconda Dockerイメージを引き出すことだけです。 以下のコマンドを使用してそれを行うことができます:
$ docker pull quay.io/biocontainers/checkm-genome:1.1.2--py_0
少なくとも16GBのRAMを使用するようにDockerイメージを取得してください。 あなたがそれを行う方法がわからない場合は、ここでそれを行う方法を学んでください。
次のステップは、からダウンロードできるCheckMデータベースをダウンロードすることです:
# download database$ wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz# create folder and uncompress db into database folder$ mkdir -p db/$ tar xzf checkm_data_2015_01_16.tar.gz -C db/
注意:このチュートリアルでは、データベースがbinsファイルと同じフォルダにあることを確認してください。イメージをマシンにプルし、Dockerイメージに適切な量のメモリを設定し、CheckMデータベースを作成したので、それを実行できます(yay!)
ただし、最初にdocker imagesを使用してイメージIDを識別します
$ docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEquay.io/biocontainers/checkm-genome 1.1.2--py_0 04fa265258d1 3 weeks ago 1.1GB
私の場合、上で見ることができるように、それは04fa265258d1でした。
次に、Dockerイメージを実行できるようになりましたが、以下に示すようにdocker runを呼び出すと{WORK_DIR}ビンが存在するディレクトリになります
# run docker image with CheckM and its dependencies$ docker run -i -t -v {WORK_DIR}:/checkm_docker --entrypoint /bin/bash {IMAGE_ID}# in the docker image, it enters the working directory $ cd checkm_docker/
次のステップは、データベースの場所を設定して、CheckMがそれを見つけることができるようにすることです
$ checkm data setRoot db/
最後に、我々はすべて設定されており、以下のコマンドを使用してツールを実行することができます。
$ checkm lineage_wf {BIN_DIRECTORY} {OUTPUT_DIRECTORY} --reduced_tree -t {NUMBER_THREADS}
お使いのコンピュータが16GB以上のRAMを持っている場合は、-reduced_treeフラグを削除する必要があります。 このフラグは、約16GBのRAMを搭載したコンピュータ用であり、最適ではない結果を生成します。
: {BIN_DIRECTORY}内のすべてのファイルが上にあることを確認してください。fna拡張子。 彼らはすべての場合.fasta拡張機能は、フラグ拡張機能を追加してください。ファスタ
スタディケース
CheckMをテストするために、NCBIの微生物ゲノムでテストしました:
- エシェリヒア・コリヒア属str. K-12サブスト MG1655、完全ゲノム
- ラクトバチルス-ビニDSM20605
さらに、両方のゲノムを組み合わせて混合ビンをシミュレートし、汚染を確認し、Lactobacillus vini DSM20605アセンブリからいくつかの連続体を削除して、完全性を確認で
最後に、以下に示すように、checkmはビンを正しく分類することができました。 私たちは、NCBIゲノム上のいくつかの小さな汚染を参照してください–これは分類ノイズである可能性があります。
その他のリソース
あなたがそれについてもっと知りたい場合に備えて、私のお気に入りのPython Bioinformaticsの本の三つがあります。
- Python for The Life Sciences:A Gentle Introduction to Python for Life Sciences Paperback By Alexander Lancaster
- Bioinformatics with Python Cookbook by Tiago Antao
- Pythonを使用したBioinformatics Programming:Practical Programming for Biological Data by Mitchell L. モデル
結論
要約すると、MAGsの完全性と汚染を確認することが重要であることを理解していただければ幸いです。 また、私はステップバイステップのチュートリアルでは、このステップがあなたのために有用であることを願っています。
- 痛みのないゲノム深度プロット
- 楽な募集プロット
- 秒単位のメタゲノム分類学的プロファイル