Chemoinformatics: a perspective from an academic setting in Latin America

podobnie jak w przypadku innych grup akademickich zajmujących się chemoinformatyką, działania badawcze prowadzone w DIFACQUIM mogą być zorganizowane w dwie główne grupy schematycznie przedstawione na Fig. 1: (1) Rozwój lub udoskonalenie koncepcji oraz (2) zastosowania metod opracowanych we własnym zakresie lub przez inne grupy.

z kolei opracowane koncepcje i metody można podzielić w następujący sposób: (1) Metody relacji struktura-aktywność( SAR), w szczególności z wykorzystaniem koncepcji modelowania krajobrazu aktywności (Alm); (2) rozwój aplikacji otwartego dostępu do eksploracji chemicznych baz danych (obecnie gromadzonych w D-Tools, vide infra); oraz (3) Analiza przestrzeni chemicznej i różnorodności bibliotek chemicznych.

Aplikacje koncentrują się na pięciu głównych obszarach: (1) epi-Informatyka, czyli chemiczne metody informacyjne stosowane do epigenetyki; (2) Metody obliczeniowe stosowane do chorób zakaźnych; (3) peptydowe oparte; (4) naturalne produkty oparte odkrycie leków; i (5) foodinformatics, czyli podejścia informacji chemicznej dla chemii żywności, które zostały rozszerzone na smak i zapachy podobne (Fig. 1). Kolejne podrozdziały omawiają te obszary.

SAR korzystanie z koncepcji modelowania krajobrazu aktywności
Mapy gęstości SAS
zamiatanie krajobrazu aktywności
narzędzia Online: narzędzia DIFACQUIM dla chemoinformatyki (D-TOOLS)
wykresy różnorodności konsensusu (Cdps)
activity landscape plotter (ALP)
Platform for unified molecular analysis (PUMA)
Analiza przestrzeni chemicznej i różnorodności
wykresy przestrzeni chemicznej w epigenetyce
odciski palców w bazie danych
ChemMaps
przykład: krajobraz aktywności i różnorodność inhibitorów AKT

SAR korzystanie z koncepcji modelowania krajobrazu aktywności

ALM jest pomocne w odkryciu leku do oceny, czy zasada podobieństwa skutecznie odnosi się do danego zbioru danych. Zasada podobieństwa mówi, że związki, które są strukturalnie podobne, mają bardziej podobne właściwości. Jest to silne założenie, na którym opierają się modele predykcyjne oparte na strukturze chemicznej . Spostrzeżenia z krajobrazu aktywności mogą być wykorzystane w chemii medycznej w celu znalezienia motywów strukturalnych istotnych dla aktywności związku w kierunku jednego lub więcej celów . Teoria i zastosowanie ALM zostały szeroko opracowane przez DIFACQUIM i innych grup badawczych . Głównie wkład DIFACQUIM w ALM był dalszym rozwojem map podobieństwa struktury i aktywności (SAS), które zostały zaproponowane przez Shanmugasundaram i Maggiora do wizualnego wykrywania klifów aktywności i oceny SAR . Przykładami ostatnich zmian w tym obszarze są mapy gęstości SAS i zamiatanie krajobrazu aktywności, które są omawiane dalej.

Mapy gęstości SAS

pod warunkiem, że mapy SAS przedstawiają każde sparowane porównanie struktury i aktywności w chemicznym zbiorze danych, przytłaczająca liczba punktów danych (każdy punkt danych reprezentujący porównanie par), nawet w przypadku stosunkowo małych zbiorów danych, może utrudnić wizualną ocenę dla określenia regionów na mapie. W tym celu opracowano mapy gęstości SAS, w których małe obszary tej samej powierzchni są barwione na podstawie liczby punktów danych (np. porównań par), które zawierają . Podejście to zostało później wprowadzone i zaimplementowane na serwerze online (patrz sekcja „activity landscape plotter (ALP)”).

zamiatanie krajobrazu aktywności

co ciekawe, w niektórych zestawach danych udział klifów aktywności jest nieproporcjonalnie wysoki w niektórych klastrach substrukturalnych. Wyniki te wskazują na obszary o gładszym SAR (tj. podobne związki mają podobną aktywność) w przestrzeni chemicznej, co może być bardziej odpowiednie do modelowania predykcyjnego . Ideą zamiatania krajobrazu aktywności jest analiza klastrów związków zdefiniowanych poprzez podobieństwo strukturalne, w celu indywidualnego zbadania SAR tych klastrów i ich wkładu w ogólny SAR biblioteki. Przykład zamiatania krajobrazu aktywności przedstawiono w sekcji „przykład: krajobraz aktywności i różnorodność krajobrazu czynnościowego”.

narzędzia Online: narzędzia DIFACQUIM dla chemoinformatyki (D-TOOLS)

publicznie dostępne narzędzia opracowane przez DIFACQUIM zostały zbiorczo nazwane „D-Tools”. Ogólnym celem D-Tools jest zapewnienie swobodnie dostępnych zasobów online do obliczania właściwości molekularnych i odcisków palców molekularnych, analizy zasięgu i różnorodności przestrzeni chemicznej oraz badania SAR zestawów danych przesiewowych z wykorzystaniem zasad modelowania krajobrazu aktywności. Wszystkie aplikacje dostępne w D-Tools są przeznaczone do użytku akademickiego i, podobnie jak wiele innych serwerów publicznych, ich wykorzystanie i interpretacja wyników jest obowiązkiem użytkownika. Dalsze szczegóły są ujawniane w odpowiednich publikacjach . Ostatnio wiele zasobów do analizy SAR, ALM i różnorodności bibliotek chemicznych zostało dodanych do D-Tools. D-Tools, będąc w ciągłym rozwoju, składa się obecnie z trzech aplikacji: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP) oraz (3) Platform for Unified Molecular Analysis (Puma) (rys. 2). Główne cechy i zastosowania każdej aplikacji, w tym Opublikowane zastosowania, są omówione w następnych sekcjach.

wykresy różnorodności konsensusu (Cdps)

CDPs zostały opracowane w celu osiągnięcia integracyjnego renderowania kilku metryk różnorodności bibliotek chemicznych . CDP to niskowymiarowe—zazwyczaj dwuwymiarowe-reprezentacje” całkowitej „lub” globalnej ” różnorodności złożonych baz danych, biorąc pod uwagę wiele kryteriów jednocześnie, a mianowicie: molekularne odciski palców, rusztowania, właściwości fizykochemiczne i liczbę związków (rozmiar biblioteki). Można jednak zaimplementować inne wskaźniki różnorodności. W CDP (rys. 2a), każdy zbiór danych jest reprezentowany przez punkt danych. Oś X reprezentuje różnorodność chemiczną na podstawie odcisków palców molekularnych, podczas gdy oś Y reprezentuje różnorodność rusztowania, kolor kropki reprezentuje różnorodność właściwości fizykochemicznych przy użyciu ciągłej skali, a jej rozmiar reprezentuje względną wielkość zbioru danych. Więcej szczegółów na temat CDP znajduje się w . Jeden konkretny przykład przedstawiono w sekcji „przykład: krajobraz aktywności i różnorodność inhibitorów AKT” i zilustrowano na Fig. 4. Jak wcześniej wspomniano, aplikacja online do generowania wykresów różnorodności konsensusu jest dostępna w D-Tools.

activity landscape plotter (ALP)

w celu analizy SARs przy użyciu koncepcji modelowania krajobrazu aktywności serwer ALP umożliwia użytkownikowi generowanie map SAS i podobnych do SAS przy użyciu własnych danych przesiewowych. Ogólnie rzecz biorąc, mapy te przedstawiają zależność między podobieństwem chemicznym (mierzonym za pomocą odcisków molekularnych) a różnicą siły par związków . Mapa SAS może być wygenerowana w celu analizy SAR zbiorów danych związków z biologicznym punktem końcowym, np. wartością aktywności dla jednego celu molekularnego . Mapy SAS generowane za pomocą ALP reprezentują strukturalne podobieństwo na osi X i różnicę aktywności na osi Y. SAR złożonych zestawów danych z dwoma biologicznymi punktami końcowymi można analizować za pomocą map różnicy podwójnej aktywności (DAD), które wykreślają różnice aktywności dla dwóch biologicznych punktów końcowych na osi X i Y, odpowiednio . Na obu wykresach kolory dodają do Wykresów informacje, takie jak maksymalna moc związku w parze i liczba punktów danych. Warto zauważyć, że wyniki analiz są również bezpłatne do pobrania, w tym wszystkie surowe dane z parami struktura-informacja o aktywności (ta ostatnia w przypadku, gdy użytkownik chce wykonać dodatkową analizę za pomocą innych narzędzi).

Platform for unified molecular analysis (PUMA)

PUMA to darmowa aplikacja online do analizy różnorodności opartej na chemoinformatyce i wizualizacji przestrzeni chemicznej dostarczanych przez użytkownika zbiorów danych. PUMA integruje metryki w celu scharakteryzowania złożonych baz danych (np. zawartości rusztowań), analizy różnorodności chemicznej i wizualizacji przestrzeni chemicznej . PUMA ma takie zalety, jak otwarty dostęp i brak konieczności pobierania i instalowania. W celu zachowania poufności użytkownika, zestawy danych nie są przechowywane przez programistów po uruchomieniu aplikacji. PUMA integruje ALP i CDP, które zostały krótko opisane w sekcji” Consensus diversity plotes (CDPs)” i sekcji” activity landscape plotter (ALP)”.

Analiza przestrzeni chemicznej i różnorodności

Chemografia, zwana również chemiczną nawigacją Kosmiczną, staje się coraz bardziej istotna w odkrywaniu i klasyfikacji leków . Chociaż początkowo opracowano charakterystykę bibliotek chemii kombinatorycznej, uznano jej potencjał w innych dziedzinach chemii medycznej . Wykresy przestrzeni chemicznej dla danego zbioru danych może dostarczyć istotnych spostrzeżeń dotyczących różnorodności zbioru danych i zidentyfikować klastry powiązanych związków. W połączeniu z danymi o aktywności, przestrzeń chemiczna staje się potężnym narzędziem do analizy SAR. Należy zauważyć, że istnieje wiele deskryptorów molekularnych, które można wykorzystać do Wykresów przestrzeni chemicznej .

wykresy przestrzeni chemicznej w epigenetyce

jest to jedna z głównych linii badawczych grupy badawczej DIFACQUIM. W 2015 r. nasza grupa zgłosiła kompleksową charakterystykę inhibitorów metylotransferazy 1 DNA (DNMT1), w tym analizę przestrzeni chemicznej, różnorodności, SAR i rusztowania . Rok później badanie zostało rozszerzone na inhibitory bromodomainy i deacetylazy histonowej, omawiając wykonalność racjonalnego projektowania inhibitorów o podwójnej aktywności . W dalszych pracach nasza grupa zaproponowała, jak „stać się inteligentnym” w projektowaniu związków chemicznych działających przeciwko wielu celom epigenetycznym poprzez zbadanie struktury relacji wielu aktywności (SMARt) . Nasze obecne działania koncentrują się na analizie chemoinformatycznej DNMT3A i DNMT3B. Spodziewamy się, że badania te dostarczą istotnych spostrzeżeń dla racjonalnego projektowania leków w odniesieniu do tych celów.

ostatnio DIFACQUIM opracował dwie nowe ogólne metody eksploracji i reprezentowania przestrzeni chemicznej: odciski palców w bazie danych i Chemmapy.

odciski palców w bazie danych

odciski palców w bazie danych opierają się na koncepcji entropii Shannona . Zasadniczo odciski palców bazy danych mają na celu podsumowanie w jednym odcisku palca najbardziej reprezentowanych cech chemicznych w danym zbiorze danych . Dwa z nich to najprostsze zastosowania odcisków palców bazy danych: (1) wizualna reprezentacja przestrzeni chemicznej dużych bibliotek oraz (2) Wirtualne przesiewanie. Na przykład odciski palców w bazie danych zostały ostatnio zastosowane do reprezentowania przestrzeni chemicznej 52 celów epigenetycznych .

ChemMaps

wizualna reprezentacja przestrzeni chemicznej na podstawie cech strukturalnych jest uważana za kosztowną obliczeniowo. Aby krótko wyjaśnić problem, wiele z tych podejść wymaga obliczenia macierzy podobieństwa par, która szybko prowadzi do eksplozji kombinatorycznej, gdy liczba związków do Wykresów rośnie. Aby rozwiązać ten problem, w naszej grupie opracowano Chemmapy . Na pierwszy rzut oka metoda ta wykorzystuje pojęcie „satelitów chemicznych”, które są cząsteczkami używanymi jako odniesienia. Wreszcie, podobieństwa par są obliczane dla każdej cząsteczki w porównaniu ze zmniejszonym zestawem satelitów, co znacznie zmniejsza złożoność zadania. ChemMaps jest, zgodnie z naszą najlepszą wiedzą, pierwszym algorytmem, który wybiera satelity z biblioteki chemicznej, która jest na mapach, zapewniając tym samym większą zdolność adaptacji niż poprzednie metody.

przykład: krajobraz aktywności i różnorodność inhibitorów AKT

aby zilustrować niektóre z metod wymienionych w sekcji „SAR using the concept of activity landscape modeling” i sekcji „Analiza przestrzeni chemicznej i różnorodności”, rozważmy zbiór danych inhibitorów AKT uzyskanych z ChEMBL . AKT jest obiecującym celem w rozwoju leków przeciwnowotworowych, a nasza grupa wcześniej przyczyniła się do identyfikacji nowych rusztowań chemicznych za pomocą wirtualnego przesiewania opartego na strukturze . Mapę gęstości SAS zbioru danych inhibitorów AKT uzyskanych z ChEMBL przedstawiono na Fig. 3A. kolor pojemników na mapie gęstości reprezentuje liczbę par związków, które mieszczą się w danym obszarze wykresu . Zwróć uwagę w prawym górnym obszarze działki na aktywność, tj. pary związków o dużym podobieństwie strukturalnym, ale także duże różnice w sile działania.Rysunek 3b przedstawia przestrzeń chemiczną tej samej biblioteki. Przestrzeń chemiczną zbioru danych inhibitorów AKT uzyskanych z ChEMBL odwzorowano za pomocą dwóch pierwszych wektorów własnych analizy głównych składników macierzy podobieństwa. Klastry związków zidentyfikowano za pomocą klastrów k-means na pierwszych sześciu wektorach własnych, które zgromadziły około 40% całkowitej wariancji. Porównaj mapy SAS klastrów 2 i 5 na Fig. Odpowiednio 3c, D. Klaster 5 ma mniejszy udział aktywności i, ogólnie rzecz biorąc, gładszy SAR niż klaster 2. Dlatego przed zastosowaniem niektórych modeli predykcyjnych można rozważyć usunięcie związków w klastrach o bardziej nieregularnym SAR (takich jak klaster 2). Takie podejście nazywa się „zamiataniem krajobrazu aktywności” i jest dalej opisane w .

zbadajmy teraz całkowitą różnorodność pięciu klastrów na Fig. 3 Korzystanie z CDP. Za pomocą PUMA obliczamy dla każdego klastra Euklidesowe odległości właściwości fizykochemicznych (PCP), medianę podobieństwa parami linii papilarnych (za pomocą kluczy MACCS i współczynnika Tanimoto) oraz obszar pod krzywą odzyskiwania rusztowania. Tymi danymi możemy wypełnić szablon CDP dostępny na stronie internetowej aplikacji. Na koniec renderujemy CDP i dostosowujemy fabułę. Wynik pokazano na Fig. 4, gdzie każda kropka reprezentuje klaster, rozmiar kropki jest proporcjonalny do liczby związków w klastrze, kolor jest względny do średniej odległości euklidesowej wewnątrz bazy danych PCP, oś X reprezentuje medianę podobieństwa par maccs, a oś Y reprezentuje obszar pod krzywą odzyskiwania rusztowania. Widać to na Fig. 4, że klaster 5 jest również najmniej zróżnicowany, co może wyjaśnić, przynajmniej częściowo, mniejszy udział klifów aktywności. Natomiast klaster 1 jest najbardziej zróżnicowany. Biorąc pod uwagę wyniki w figach. 2 i 3 można zalecić uzyskanie wyników eksperymentalnych bardziej zróżnicowanych związków związanych z cząsteczkami w klastrze 5. Jednak związki w klastrze 5 byłyby bardziej odpowiednie dla podejść predykcyjnych, biorąc pod uwagę jego gładki SAR.