GitHub - baliga-lab/cmonkey2: Port Pythona dla cmonkey, opartej na uczeniu maszynowym metody klastrowania

Logo cMonkey2

cmonkey2-Port Pythona dla algorytmu biklusterowania cMonkey

opis

jest to implementacja algorytmu cmonkey w języku Python oparta na oryginalnej implementacji r autorstwa Davida J. Reissa, Institute for Systems Biology.

dokumentacja

kompletny zestaw dokumentacji do instalacji i uruchomienia cMonkey znajduje się na stronach Github projektu.

istnieją również grupy dyskusyjne programistów i użytkowników.

kontakt

prosimy o zgłaszanie wszystkich błędów lub innych problemów za pomocą narzędzia issue tracker. Wszelkie pytania prosimy kierować do programistów lub grup dyskusyjnych użytkowników.

instalacja

zalecanym sposobem jest zainstalowanie cmonkey2 przez pip

pip install cmonkey2

spowoduje to zainstalowanie narzędzi cmonkey2 i cm2view w środowisku Pythona. Pamiętaj, że będziesz musiał zainstalować MEME ręcznie z http://meme-suite.org/

uruchamiając cmonkey2

najprostszy sposób uruchomienia narzędzia (jeśli wszystkie dane dostępne w RSAT i STRING):

$ cmonkey2 --organism <organism-code> <tab separated file of gene expressions>

aby wyświetlić dostępne opcje:

bin/cmonkey2.sh --help

aby uruchomić przykładowy organizm:

bin/cmonkey2.sh --organism hal --rsat_base_url http://networks.systemsbiology.net/rsat example_data/hal/halo_ratios5.tsv

używając bezpośrednio z repozytorium źródłowego

poniżej znajdują się instrukcje, aby użyć cmonkey2 bezpośrednio w repozytorium źródłowym

używając obrazu Dockera

Precite udostępnił obraz Dockera oparty na cmonkey2 na swoim koncie github

https://github.com/PreCyte/cMonkey2-docker/

wymagania systemowe

cMonkey2 został przetestowany i działa na wszystkich przetestowanych najnowszych wersjach systemu Linux (w tym opartych na Debianie i opartych na RPM ) oraz najnowszych wersjach systemu Mac OS X. dodatkowe zależności obejmują:

opracowany i przetestowany z Pythonem 2.7.x i Python 3.x
scipy >= 0.9.0
numpy >= 1.6.0
biopython >= 1.63
BeautifulSoup >= 4
R >= 2.14.1
rpy2 >= 2.2.1
MEME 4.3.0 lub >= 4.8.1 (4.12.0 nie jest jeszcze obsługiwany, obecnie działa)
csh (do uruchamiania MEME)
pandas
SQLAlchemy i SQLAlchemy-utils
svgwrite

dla instalacja ludzka, Weeder 1.4.2 jest potrzebny

do uruchomienia testów jednostkowych (opcjonalnie):

python-xmlrunner

do uruchamiania interaktywnej aplikacji internetowej do monitorowania i wizualizacji (opcjonalnie):

CherryPy 3
Jinja2
python-routes

Uruchamianie testów jednostkowych

bin/run_tests.sh

uruchamianie cmonkey2

ogólnie rzecz biorąc, powinieneś być w stanie uruchomić cmonkey2 na współczynnikach ekspresji genu drobnoustrojów z

bin/cmonkey2.sh --organism <organism-code> <tab separated file of gene expressions>

plik może znajdować się w systemie plików lub w adresie URL.

po uruchomieniu programu plik dziennika zostanie zapisany w cmonkey.dziennik. Możesz zobaczyć wszystkie dostępne opcje z

bin/cmonkey2.sh --help

Uruchom Test z Halobacterium Salinarum

istnieje skrypt startowy dla cMonkey, aby uruchomić bieżący zintegrowany system

bin/cmonkey2.sh --organism hal example_data/hal/halo_ratios5.tsv

Uruchom aplikację monitorującą opartą na Pythonie

bin/cm2view.sh ]

innym sposobem jest uruchomienie Halobacterium jest określenie bazy danych RSAT

bin/cmonkey2.sh --organism hal --rsat_organism Halobacterium_NRC_1_uid57769 --rsat_base_url http://pedagogix-tagc.univ-mrs.fr/rsat --rsat_features gene --nooperons --use_BSCM example_data/hal/halo_ratios5.tsv

uruchamianie cmonkey na ludziach

aby uruchomić Cmonkey na ludzkich danych, uruchom następujący kod z własnym plikiem <ratios.tsv>

bin/cmonkey2.sh --organism hsa --string <stringFile> --rsat_organism Homo_sapiens_GRCh37 --rsat_URL http://rsat.sb-roscoff.fr/ --rsat_features protein_coding --nooperons <ratios.tsv>

więcej szczegółów dotyczących uruchamiania cmonkey na ludzkich danych

uruchamianie cmonkey na ludzkich danych jest nieco trudne ponieważ ani baza danych string, ani baza danych RSAT nie zawierają danych ludzkich w sposób czysty. Oto kroki dla udanego cMonkey Pythona uruchomionego na ludzkim

Stwórz plik interakcji genowej. Przykładowy plik danych, o którym mowa powyżej, został wygenerowany z Biogrid około 10/6/14.
Znajdź lustro RSAT, które ma .surowe pliki chromozy i pliki funkcji. W powyższym przykładzie używamy Homo_sapiens_ensembl_74_GRCh37 z głównej bazy danych RSAT. Aby je adnotować, używamy ’ protein_coding.tab ’ and ’ protein_coding_names.tab”. Zasadniczo inne pliki adnotacji, takie jak’ processed_transcript’, działałyby równie dobrze.
Dostosuj wyszukiwany region upstream, a być może zmodyfikuj kod, aby wyszukać znane motywy TF i miRNA, a nie motywy de-novo. Uwaga: modyfikowanie kroku wyszukiwania motywu nie jest trywialne.

opiekunowie pakietów

ogólne

dystrybucja jest zbudowana przy użyciu setuptools i formatu koła

konfiguracja.py zawiera wszystkie informacje potrzebne do zbudowania dystrybucji zwiększ numer wersji przed dokonaniem dystrybucji
Zapisz zmiany istotne dla użytkownika w changelogu.rst

Build distribution

python3 setup.py sdist_wheel

Uploading to PyPI

upload-r pypi dist / cmonkey2 – *

baliga-lab / cmonkey2