GitHub-baliga-lab/cmonkey2 : Port Python de cMonkey, une méthode basée sur l'apprentissage automatique pour le clustering

Logo cMonkey2

Port cMonkey2-Python de l’algorithme de biclustering cMonkey

Description

Il s’agit de l’implémentation Python de l’algorithme cMonkey basé sur l’implémentation originale de R par David J. Reiss, Institute for Systems Biology.

Documentation

Un ensemble complet de documentation pour l’installation et l’exécution de cMonkey se trouve sur les pages Github du projet.

Il existe également des groupes de discussion de développeurs et d’utilisateurs.

Contact

Veuillez signaler tous les bogues ou autres problèmes à l’aide du suivi des problèmes. Veuillez adresser toutes vos questions aux groupes de discussion des développeurs ou des utilisateurs.

Installation

La méthode recommandée consiste à installer cmonkey2 via pip

pip install cmonkey2

Cela installera les outils cmonkey2 et cm2view dans votre environnement python. Veuillez noter que vous devrez installer MEME manuellement à partir de http://meme-suite.org/

En exécutant cmonkey2

Le moyen le plus simple d’exécuter l’outil (si toutes les données sont disponibles en RSAT et STRING):

$ cmonkey2 --organism <organism-code> <tab separated file of gene expressions>

Pour afficher les options disponibles:

bin/cmonkey2.sh --help

Pour exécuter l’exemple d’organisme:

bin/cmonkey2.sh --organism hal --rsat_base_url http://networks.systemsbiology.net/rsat example_data/hal/halo_ratios5.tsv

Utilisation directement depuis le référentiel source

Voici les instructions pour utiliser cmonkey2 directement dans le référentiel source

Utilisation d’une image Docker

PreCyte a rendu une image Docker basée sur cmonkey2 disponible sur son compte github

https://github.com/PreCyte/cMonkey2-docker/

Configuration système requise

cMonkey2 a été testé et fonctionne sur toutes les versions récentes testées de Linux (y compris celles basées sur Debian et RPM) et les versions récentes de Mac OS X. Les dépendances supplémentaires incluent:

Développé et testé avec Python 2.7.x et Python 3.x
scipy >= 0.9.0
numpy >= 1.6.0
biopython >= 1.63
Belle Soupe >= 4
D >= 2.14.1
rpy2 >= 2.2.1
MÈME 4.3.0 ou > = 4.8.1 (4.12.0 non encore pris en charge, actuellement travaillé)
csh (pour exécuter MÈME)
pandas
sqlalchemy et sqlalchemy-utils
svgwrite

pour le MEME 4.3.0 ou > = 4.8.1 (4.12.0 non encore pris en charge, actuellement travaillé)

configuration humaine, Weeder 1.4.2 est nécessaire

pour exécuter les tests unitaires (facultatif):

python-xmlrunner

pour exécuter l’application Web de surveillance et de visualisation interactive (en option):

CherryPy 3
Jinja2
python-routes

Exécution des tests unitaires

bin/run_tests.sh

Exécution de cmonkey2

En général, vous devriez pouvoir exécuter cmonkey2 sur des rapports d’expression génétique microbienne avec

bin/cmonkey2.sh --organism <organism-code> <tab separated file of gene expressions>

Le fichier peut être dans votre système de fichiers ou une URL Web.

Après le démarrage du programme, un fichier journal sera écrit dans cmonkey.journal. Vous pouvez voir toutes les options disponibles avec

bin/cmonkey2.sh --help

Test exécuté avec Halobacterium Salinarum

Il existe un script de démarrage pour que cMonkey exécute le système intégré actuel

bin/cmonkey2.sh --organism hal example_data/hal/halo_ratios5.tsv

Démarrer l’application de surveillance basée sur python

bin/cm2view.sh ]

Une autre façon d’exécuter Halobacterium est de spécifier la base de données RSAT

bin/cmonkey2.sh --organism hal --rsat_organism Halobacterium_NRC_1_uid57769 --rsat_base_url http://pedagogix-tagc.univ-mrs.fr/rsat --rsat_features gene --nooperons --use_BSCM example_data/hal/halo_ratios5.tsv

Exécution de cMonkey sur un humain

Pour exécuter cMonkey sur des données humaines, exécutez le code suivant avec votre propre fichier <ratios.tsv>

bin/cmonkey2.sh --organism hsa --string <stringFile> --rsat_organism Homo_sapiens_GRCh37 --rsat_URL http://rsat.sb-roscoff.fr/ --rsat_features protein_coding --nooperons <ratios.tsv>

Plus de détails pour exécuter cMonkey sur des données humaines

L’exécution de cMonkey sur des données humaines est quelque peu difficile parce que ni la base de données de chaînes ni la base de données RSAT ne contiennent de données humaines proprement entrées. Voici les étapes pour une cMonkey python réussie exécutée sur un humain

Créer un fichier d’interaction génétique. L’exemple de fichier de données mentionné ci-dessus a été généré à partir de Biogrid vers le 10/6/14.
Trouvez un miroir RSAT qui a .fichiers chromose bruts et fichiers de fonctionnalités. Dans l’exemple ci-dessus, nous utilisons Homo_sapiens_ensembl_74_GRCh37 de la base de données RSAT principale. Pour les annoter, nous utilisons ‘protein_coding.tab’et ‘protein_coding_names.tab’. En principe, d’autres fichiers d’annotation tels que ‘processed_transcript’ fonctionneraient tout aussi bien.
Ajustez la région en amont recherchée, et peut-être modifiez le code pour rechercher des motifs de TF et de miARN connus plutôt que des motifs de novo. REMARQUE: Modifier l’étape de recherche de motif n’est pas trivial.

Responsables de paquets

Général

La distribution est construite à l’aide de setuptools et du format de roue

setup.py contient toutes les informations nécessaires pour construire la distributionaugmenter le numéro de version avant de faire une distribution
enregistrer les modifications pertinentes pour l’utilisateur dans le JOURNAL des MODIFICATIONS.rst

Distribution de construction

python3 setup.py sdist bdist_wheel

Téléchargement sur PyPI

téléchargement de ficelle -r pypi dist/cmonkey2-*

Port baliga-lab/cmonkey2