Chemoinformatika: perspektiva z akademického prostředí v Latinské Americe

podobně jako u jiných akademických skupin pracujících na chemoinformatice mohou být výzkumné činnosti prováděné v DIFACQUIMU organizovány do dvou hlavních skupin schematicky uvedených na obr. 1: (1) vývoj nebo zdokonalení konceptů a (2) Aplikace metod vyvinutých interně nebo jinými skupinami.

vyvinuté koncepty a metody lze dále rozdělit takto: (1) metody pro vztahy mezi strukturou a aktivitou( SAR), zejména s využitím konceptu modelování krajiny aktivit (ALM); (2) Vývoj aplikací s otevřeným přístupem k prozkoumání chemických databází (v současné době shromážděných v D-Tools, vide infra); a (3) analýza chemického prostoru a rozmanitost chemických knihoven.

obr. 2
číslo2

D-nástroje: konsensuální diversity plot; B aktivita Krajina plotr; c platforma pro jednotnou molekulární analýzu (PUMA)

aplikace jsou zaměřeny na pět hlavních oblastí: (1) epi-Informatika, tj. chemické informační metody aplikované na epigenetiku; (2) výpočetní metody aplikované na infekční nemoci; (3) na bázi peptidů; (4) objev léků na bázi přírodních produktů; a (5) foodinformatika, tj. chemické informační přístupy pro chemii potravin, které byly rozšířeny na chuť a vůně (obr. 1). Následující podsekce diskutují o těchto oblastech.

SAR použití konceptu modelování krajiny aktivity

ALM je užitečné při objevování drog pro posouzení, zda se princip podobnosti účinně vztahuje na daný datový soubor. Princip podobnosti uvádí, že sloučeniny, které jsou strukturálně podobné, by měly více podobných vlastností. To je silný předpoklad, na kterém se spoléhají prediktivní modely založené na chemické struktuře . Poznatky z prostředí aktivity lze využít v léčivé chemii k nalezení strukturálních motivů relevantních pro aktivitu sloučeniny vůči jednomu nebo více cílům . Teorie a aplikace ALM byla rozsáhle vyvinuta DIFACQUIMEM a dalšími výzkumnými skupinami . Přínosem DIFACQUIMU v ALM byl především další vývoj map podobnosti struktury a aktivity (SAS), které navrhli Shanmugasundaram a Maggiora k vizuální detekci útesů aktivity a vyhodnocení SAR . Příklady nedávného vývoje v této oblasti jsou mapy hustoty SAS a zametání krajiny aktivit, které jsou diskutovány dále.

mapy hustoty SAS

za předpokladu, že mapy SAS zobrazují každé spárované srovnání struktury a aktivity v chemickém datovém souboru, může ohromný počet datových bodů (každý datový bod představující párové srovnání), dokonce i pro relativně malé datové sady, ztížit vizuální hodnocení pro určení oblastí v mapě. Za tímto účelem byly vyvinuty mapy hustoty SAS, kde jsou malé plochy stejného povrchu zbarveny na základě počtu datových bodů (tj. Tento přístup byl později zaveden a implementován v online serveru (viz sekce“ Activity landscape plotter (ALP)“).

aktivita Krajina zametání

zajímavé je, že v některých datových sadách je příspěvek útesů aktivity neúměrně vysoký v některých substrukturálních klastrech. Tyto výsledky ukazují na oblasti s hladším SAR (tj. podobné sloučeniny mají podobnou aktivitu) v chemickém prostoru, což by mohlo být vhodnější pro prediktivní modelování . Myšlenkou zametání krajiny aktivit je analyzovat shluky sloučenin definovaných strukturální podobností, za účelem individuálního studia SAR těchto shluků a jejich příspěvku k celkovému SAR knihovny. Příklad činnosti zametání krajiny je uveden v sekci“ příklad: aktivita krajina a rozmanitost inhibitorů AKT“.

online nástroje: DIFACQUIM nástroje pro chemoinformatiku (D-TOOLS)

veřejně přístupné nástroje vyvinuté společností DIFACQUIM byly souhrnně pojmenovány „D-Tools“. Obecným účelem D-Tools je poskytovat volně dostupné online zdroje pro výpočet molekulárních vlastností a molekulárních otisků prstů, analyzovat pokrytí a rozmanitost chemického prostoru, a prozkoumat SAR screeningových datových sad pomocí principů modelování krajiny aktivity. Všechny aplikace dostupné v D-Tools jsou určeny pro akademické použití a stejně jako mnoho jiných veřejných serverů je jejich použití a interpretace výsledků odpovědností uživatele. Další podrobnosti jsou uvedeny v příslušných publikacích . V poslední době bylo do D-nástrojů přidáno mnoho zdrojů pro analýzu SAR, ALM a rozmanitosti chemických knihoven. D-nástroje, zatímco v neustálém vývoji, v současné době sestávají ze tří aplikací: (1) konsensus Diversity Plot (CDP), (2) aktivita Krajina plotr (ALP), a (3) platforma pro jednotnou molekulární analýzu (PUMA) (obr. 2). Hlavní rysy a použití každé aplikace, včetně publikovaných použití, jsou diskutovány v následujících částech.

konsensus diversity plots (CDPs)

CDPs byly vyvinuty za účelem dosažení integračního Vykreslování několika metrik diverzity chemických knihoven . CDP jsou nízkorozměrné-typicky 2D-reprezentace „celkové “ nebo“ globální “ rozmanitosti složených databází zvažujících více kritérií současně, jmenovitě: molekulární otisky prstů, lešení, fyzikálně-chemické vlastnosti a počet sloučenin (velikost knihovny). Lze však implementovat další metriky rozmanitosti. V CDP (obr. 2a), každá datová sada je reprezentována datovým bodem. Osa X představuje chemickou rozmanitost založenou na molekulárních otiscích prstů, zatímco osa Y představuje rozmanitost lešení, barva tečky představuje rozmanitost fyzikálně chemických vlastností pomocí spojité stupnice, a jeho velikost představuje relativní velikost datové sady. Další podrobnosti o CDP jsou uvedeny v. Jeden konkrétní příklad je uveden v části“ příklad: aktivita krajiny a rozmanitost inhibitorů AKT “ a je znázorněn na obr. 4. Jak již bylo uvedeno, v D-Tools je k dispozici online aplikace pro generování konsensů rozmanitosti.

activity landscape plotter (ALP)

s cílem analyzovat SARs pomocí konceptu modelování krajiny aktivity umožňuje server ALP uživateli generovat mapy podobné SAS a SAS pomocí vlastních screeningových dat. Obecně tyto mapy zobrazují vztah mezi chemickou podobností (měřeno molekulárními otisky prstů) a rozdílem účinnosti párů sloučenin . Mapa SAS může být generována pro analýzu SAR datových sad sloučenin s biologickým koncovým bodem, např. hodnota aktivity pro jeden molekulární cíl . Mapy SAS generované pomocí ALP představují strukturální podobnost na ose X a rozdíl aktivity na ose Y. SAR složených datových sad se dvěma biologickými koncovými parametry lze analyzovat pomocí map dad (dual-activity difference), které vykreslují rozdíly aktivity pro dva biologické koncové body na osách X a Y . V obou grafech barvy přidávají do grafů informace, například maximální účinnost sloučeniny v páru a počet datových bodů. Je třeba poznamenat, že výsledky analýz jsou také volně ke stažení, včetně všech nezpracovaných dat s informacemi o struktuře a aktivitě v páru (v případě, že uživatel chce provést další analýzu pomocí jiných nástrojů).

platforma pro jednotnou molekulární analýzu (PUMA)

PUMA je bezplatná online aplikace pro chemoinformatickou analýzu rozmanitosti a vizualizaci chemického prostoru uživatelských datových sad. PUMA integruje metriky pro charakterizaci složených databází (např. obsah lešení), analýzu chemické rozmanitosti a vizualizaci chemického prostoru . PUMA má výhody, jako je otevřený přístup a nemusí být stažen a nainstalován. V zájmu zachování důvěrnosti uživatele, datové sady nejsou vedeny vývojáři po spuštění aplikace. PUMA integruje ALP a CDP, které byly stručně popsány v sekci“ Consensus diversity plotry (CDPs) „a“ Activity landscape plotter (ALP)“.

analýza chemického prostoru a rozmanitosti

Chemografie, označovaná také jako chemická vesmírná navigace, se stává stále důležitější při objevování a klasifikaci léčiv . Ačkoli byl původně navržen pro charakterizaci knihoven kombinatorické chemie, jeho potenciál v jiných oblastech léčivé chemie byl uznán . Zmapování chemického prostoru pro danou datovou sadu by mohlo poskytnout významné poznatky o rozmanitosti datové sady a identifikovat shluky příbuzných sloučenin. V kombinaci s údaji o aktivitě se chemický prostor stává mocným nástrojem pro analýzu SAR. Je třeba poznamenat, že existuje celá řada molekulárních deskriptorů, které by mohly být použity pro mapování chemického prostoru .

chemické mapování prostoru v epigenetice

Toto je jedna z hlavních výzkumných linií výzkumné skupiny DIFACQUIM. V roce 2015 naše skupina oznámila komplexní charakterizaci inhibitorů DNA-methyltransferázy 1 (DNMT1), včetně chemického prostoru, diverzity, SAR a lešení. O rok později byla studie rozšířena na inhibitory bet bromodomain a Histon deacetylázy, diskutující o proveditelnosti racionálního návrhu inhibitorů duální aktivity . V následné práci Naše skupina navrhla, jak „získat SMARt“ při navrhování chemických sloučenin působících proti více epigenetickým cílům zkoumáním strukturních vztahů s více aktivitami (SMARt). Naše současné úsilí se zaměřuje na CHEMOINFORMATICKOU analýzu DNMT3A a DNMT3B. Očekáváme, že tyto studie poskytnou relevantní poznatky pro racionální návrh léků proti těmto cílům.

obr. 3
číslo3

příklad aktivity zametání krajiny aplikovaného na knihovnu inhibitorů AKT. mapa Obecné hustoty struktura-aktivita podobnost (SAS) pro celou knihovnu; B chemický prostor celé knihovny získaný analýzou hlavních komponent (PCA) a zbarvený shlukem získaným shlukováním k-znamená; C hustota SAS mapa clusteru 2; D hustota SAS mapa clusteru 5

DIFACQUIM nedávno vyvinul dvě nové obecné metody k prozkoumání a reprezentaci chemického prostoru: databázové otisky prstů a Chemmapy.

databázové otisky prstů

databázové otisky jsou založeny na konceptu Shannon entropie . V podstatě jsou databázové otisky prstů navrženy tak, aby v jediném otisku prstu shrnuly nejvíce zastoupené chemické vlastnosti v dané datové sadě . Dvě jsou nejpřímější aplikace databázových otisků prstů: (1) vizuální reprezentace chemického prostoru velkých knihoven a (2) Virtuální screening. Například, otisky prstů databáze byly nedávno použity k reprezentaci chemického prostoru 52 epigenetické cíle .

ChemMaps

vizuální reprezentace chemického prostoru na základě konstrukčních prvků je považována za výpočetně nákladnou. Stručně vysvětlit problém, mnoho z těchto přístupů vyžaduje výpočet matice párové podobnosti, která rychle vede k kombinatorické explozi, jak roste počet sloučenin, které mají být mapovány. K řešení tohoto problému byly v naší skupině vyvinuty Chemmapy . Na první pohled tato metoda využívá koncept „chemických satelitů“ , což jsou molekuly, které se používají jako reference. Nakonec jsou pro každou molekulu vypočteny párové podobnosti proti snížené sadě satelitů, čímž se výrazně snižuje složitost úkolu. ChemMaps je podle našeho nejlepšího vědomí prvním algoritmem, který vybírá satelity z chemické knihovny, která je mapována, a proto poskytuje vyšší přizpůsobivost než předchozí metody.

příklad: aktivita krajiny a rozmanitost inhibitorů AKT

pro ilustraci některých metod uvedených v sekci“ SAR využívající koncept modelování krajiny aktivity „a“ chemický prostor a analýza rozmanitosti “ se podívejme na datovou sadu inhibitorů AKT získaných z ChEMBL . AKT je slibným cílem ve vývoji protinádorových léčiv a naše skupina již dříve přispěla k identifikaci nových chemických lešení pomocí virtuálního screeningu založeného na struktuře . Mapa hustoty SAS datové sady inhibitorů AKT získaných z ChEMBL je znázorněna na obr. 3a. barva zásobníků v mapě hustoty SAS představuje počet párů sloučenin, které spadají do příslušné oblasti pozemku . Všimněte si v pravé horní části grafu útesy aktivity, tj. páry sloučenin s vysokou strukturní podobností, ale také vysoké rozdíly v účinnosti.Obrázek 3b zobrazuje chemický prostor stejné knihovny. Chemický prostor datové sady inhibitorů AKT získaných z ChEMBL byl mapován pomocí dvou prvních vlastních vektorů analýzy hlavních složek matrice podobnosti. Shluky sloučenin byly identifikovány shlukováním k-prostředků na prvních šesti vlastních vektorech, které shromáždily kolem 40% celkového rozptylu. Porovnejte mapy SAS clusterů 2 a 5 na obr. 3c, D, resp. Hvězdokupa 5 má menší podíl útesů aktivity a celkově hladší SAR než hvězdokupa 2. Proto před použitím některých prediktivních modelů lze uvažovat o odstranění sloučenin v klastrech s nepravidelnějším SAR (jako je cluster 2). Takový přístup se nazývá „zametání krajiny činností“ a je dále popsán v.

obr. 4
číslo4

konsensus diversity plot (CDP) aplikován na pět datových sad (klastrů) v knihovně inhibitorů AKT. Rozmanitost otisků prstů (osa x) se vypočítá pomocí střední hodnoty matrice maccs keys/Tanimoto similarity, zatímco rozmanitost lešení (osa y) představuje oblast pod křivkou křivky obnovy cyklických systémů. Pro obě metriky jsou nižší hodnoty spojeny s větší rozmanitostí. CDP je rozdělen do kvadrantů s ohledem na odpovídající střední hodnotu šesti datových souborů pro každou osu. Velikost datových bodů představuje jejich relativní počet sloučenin, zatímco barva představuje průměr euklidovské vzdálenosti fyzikálně-chemických vlastností (červená barva představuje menší rozmanitost a zelená představuje větší rozmanitost). (Barevný obrázek online)

podívejme se nyní na celkovou rozmanitost pěti klastrů na obr. 3 pomocí CDP. S PUMA vypočítáme pro každý klastr euklidovské vzdálenosti fyzikálně-chemických vlastností (PCP), medián podobnosti párových otisků prstů (pomocí klíčů MACCS a koeficientu Tanimoto) a oblast pod křivkou obnovy lešení. Pomocí těchto údajů můžeme vyplnit šablonu CDP dostupnou na webových stránkách aplikace. Nakonec vykreslíme CDP a přizpůsobíme graf. Výsledek je znázorněn na obr. 4, kde každá tečka představuje shluk, velikost tečky je úměrná počtu sloučenin v shluku, barva je relativní k střední euklidovské vzdálenosti uvnitř databáze PCP, osa X představuje medián MACCS párové podobnosti a osa Y představuje oblast pod křivkou obnovy lešení. To je vidět na obr. 4 Tento klastr 5 je také nejméně rozmanitý, což by mohlo alespoň částečně vysvětlit menší podíl útesů aktivity. Naproti tomu cluster 1 je nejrozmanitější. Zvážením výsledků na obr. 2 a 3 mohlo by být doporučeno získat experimentální výsledky rozmanitějších sloučenin souvisejících s molekulami v klastru 5. Sloučeniny v klastru 5 by však byly vhodnější pro prediktivní přístupy, vzhledem k jeho hladkému SAR.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.