Chemoinformatică: o perspectivă dintr-un cadru academic din America Latină

Similar cu alte grupuri academice care lucrează în chemoinformatică, activitățile de cercetare efectuate la DIFACQUIM pot fi organizate în două grupuri majore prezentate schematic în Fig. 1: (1) dezvoltarea sau perfecționarea conceptelor și (2) aplicații ale metodelor dezvoltate intern sau de alte grupuri.

la rândul lor, conceptele și metodele dezvoltate pot fi subdivizate după cum urmează: (1) metode pentru relațiile structură–activitate (SAR), în special folosind conceptul de modelare a peisajului activității (ALM); (2) Dezvoltarea aplicațiilor cu acces deschis pentru explorarea bazelor de date chimice (colectate în prezent în D-Tools, vide infra); și (3) analiza spațiului chimic și a diversității bibliotecilor chimice.

Fig. 2
figura2

D-Instrumente: un complot diversitate consens; B activitate peisaj plotter; platforma c pentru analiza moleculară unificată (PUMA)

aplicațiile se concentrează pe cinci domenii principale: (1) epi-informatică, adică metode de informare chimică aplicate epigeneticii; (2) Metode computaționale aplicate bolilor infecțioase; (3) pe bază de peptide; (4) descoperirea medicamentelor pe bază de produse naturale; și (5) Informații alimentare, adică abordări de informare chimică pentru chimia alimentelor care au fost extinse atât la aromă, cât și la parfumuri (Fig. 1). Următoarele subsecțiuni discută aceste domenii.

SAR utilizarea conceptului de modelare a peisajului de activitate

ALM este utilă în descoperirea medicamentelor pentru a evalua dacă principiul similarității se aplică sau nu în mod eficient unui set de date dat. Principiul similitudinii afirmă că compușii care sunt similari din punct de vedere structural ar avea proprietăți mai similare. Aceasta este o presupunere puternică pe care se bazează modelele predictive bazate pe structura chimică . Perspectivele din peisajul activității pot fi exploatate în chimia medicală pentru a găsi motive structurale relevante pentru activitatea unui compus către una sau mai multe ținte . Teoria și aplicarea ALM a fost dezvoltată pe scară largă de DIFACQUIM și alte grupuri de cercetare . În cea mai mare parte, contribuția DIFACQUIM în ALM a fost dezvoltarea în continuare a hărților de similitudine structură–activitate (SAS), care au fost propuse de Shanmugasundaram și Maggiora pentru a detecta vizual stâncile de activitate și a evalua SAR . Exemple de evoluții recente în acest domeniu sunt densitatea SAS hărți și activitate peisaj zdrobitoare, care sunt discutate în continuare.

densitate hărți Sas

cu condiția ca hărțile SAS să descrie fiecare comparație structură–activitate pereche într-un set de date chimice, numărul copleșitor de puncte de date (fiecare punct de date reprezentând o comparație în perechi), chiar și pentru seturi de date relativ mici, poate face dificilă o evaluare vizuală pentru determinarea Regiunilor din hartă. În acest scop, au fost dezvoltate hărți SAS de densitate, unde zonele mici ale aceleiași suprafețe sunt colorate pe baza numărului de puncte de date (adică comparații în perechi) pe care le conțin . Această abordare a fost ulterior introdusă și implementată într-un server online (a se vedea secțiunea „Activity landscape plotter (ALP)”).

activity landscape zdrobitoare

interesant, în unele seturi de date, contribuția cliffs activitate este disproporționat de mare în cadrul unor clustere substructurale. Aceste rezultate indică zone cu un SAR mai lin (adică compuși similari au activitate similară) în spațiul chimic, care ar putea fi mai potrivite pentru modelarea predictivă . Ideea din spatele activity landscape zdrobitoare este de a analiza clustere de compuși definite prin similitudine structurală, în scopul de a studia individual SAR acestor clustere și contribuția lor la SAR generală a unei biblioteci. Un exemplu de activitate peisaj zdrobitoare este prezentat în secțiunea” exemplu: activitate peisaj și diversitatea inhibitorilor AKT”.

instrumente online: DIFACQUIM tools for chemoinformatics (D-TOOLS)

instrumentele accesibile publicului dezvoltate de DIFACQUIM au fost denumite colectiv „D-Tools” . Scopul general al D-Tools este de a oferi resurse online disponibile gratuit pentru a calcula proprietățile moleculare și amprentele moleculare, analiza acoperirea și diversitatea spațiului chimic și explorarea SAR a seturilor de date de screening folosind principiile modelării peisajului activității. Toate aplicațiile disponibile în D-Tools sunt destinate utilizării academice și, ca multe alte servere publice, utilizarea lor și interpretarea rezultatelor este responsabilitatea utilizatorului. Detalii suplimentare sunt prezentate în publicațiile respective . În ultimul timp, multe resurse pentru analiza SAR, ALM și diversitatea bibliotecilor chimice au fost adăugate la D-Tools. Instrumentele D, în timp ce sunt în continuă dezvoltare, constau în prezent din trei aplicații: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP) și (3) Platform for Unified Molecular Analysis (PUMA) (Fig. 2). Principalele caracteristici și utilizări ale fiecărei aplicații, inclusiv utilizările publicate, sunt discutate în secțiunile următoare.

parcele de diversitate consensuală (CDP)

CDP au fost dezvoltate pentru a realiza o redare integrativă a mai multor metrici de diversitate a bibliotecilor chimice . CDP-urile sunt reprezentări cu dimensiuni reduse—de obicei 2D—ale diversității „totale” sau „globale” a bazelor de date compuse luând în considerare simultan mai multe criterii, și anume: amprente moleculare, schele, proprietăți fizico-chimice și numărul de compuși (dimensiunea bibliotecii). Cu toate acestea, pot fi implementate și alte valori de diversitate. Într-un CDP (Fig. 2a), fiecare set de date este reprezentat cu un punct de date. Axa X reprezintă diversitatea chimică bazată pe amprentele moleculare, în timp ce axa Y reprezintă diversitatea schelei, culoarea punctului reprezintă diversitatea proprietăților fizico-chimice folosind o scară continuă, iar dimensiunea sa reprezintă dimensiunea relativă a setului de date. Mai multe detalii despre CDP sunt furnizate în . Un exemplu specific este prezentat în secțiunea” exemplu: peisajul activității și diversitatea inhibitorilor AKT ” și ilustrat în Fig. 4. După cum sa menționat anterior, o aplicație online pentru generarea de parcele de diversitate consensuală este disponibilă în D-Tools.

activity landscape plotter (ALP)

cu scopul de a analiza SARs folosind conceptul de modelare a peisajului de activitate, serverul ALP permite utilizatorului să genereze hărți SAS și SAS folosind propriile date de screening. În general, aceste hărți descriu relația dintre similitudinea chimică (măsurată cu amprentele moleculare) și diferența de potență a perechilor de compuși . O hartă SAS poate fi generată pentru a analiza SAR a seturilor de date ale compușilor cu un punct final biologic, de exemplu, valoarea activității pentru o țintă moleculară . Hărțile SAS generate cu ALP reprezintă similitudinea structurală pe axa X și diferența de activitate pe axa Y. SAR al seturilor de date compuse cu două obiective biologice poate fi analizat folosind hărți cu diferență de activitate dublă (DAD), care trasează diferențele de activitate pentru două obiective biologice pe axele X și respectiv Y. În ambele grafice, culorile adaugă informații parcelelor, cum ar fi potența maximă a compusului într-o pereche și numărul de puncte de date. De remarcat, rezultatele analizelor sunt, de asemenea, gratuite pentru descărcare, inclusiv toate datele brute cu informații despre structură–activitate pereche (acestea din urmă în cazul în care utilizatorul dorește să efectueze analize suplimentare cu alte instrumente).

platforma pentru analiza moleculară unificată (PUMA)

PUMA este o aplicație online gratuită pentru analiza diversității bazate pe chemoinformatică și vizualizarea spațiului chimic al seturilor de date furnizate de utilizator. PUMA integrează metrici pentru a caracteriza bazele de date compuse (de exemplu, conținutul schelei), pentru a analiza diversitatea chimică și pentru a vizualiza spațiul chimic . PUMA are avantaje precum accesul deschis și nu trebuie să fie descărcat și instalat. Pentru a păstra confidențialitatea utilizatorului, seturile de date nu sunt păstrate de dezvoltatori după ce aplicația a fost rulată. PUMA integrează ALP și CDP, care au fost descrise pe scurt în secțiunea „consensus diversity plots (CDP)” și secțiunea „Activity landscape plotter (ALP)”.

analiza spațiului chimic și a diversității

Chemografia, denumită și navigație spațială chimică, a devenit din ce în ce mai relevantă în descoperirea și clasificarea medicamentelor . Deși inițial conceput pentru caracterizarea bibliotecilor de chimie combinatorie, potențialul său în alte domenii ale chimiei medicinale a fost recunoscut . Cartografierea spațiului chimic pentru un anumit set de date ar putea oferi informații semnificative cu privire la diversitatea setului de date și ar putea identifica grupuri de compuși înrudiți. Atunci când este combinat cu date de activitate, spațiul chimic devine un instrument puternic pentru analiza SAR. Trebuie remarcat faptul că există o varietate de descriptori moleculari care ar putea fi utilizați pentru cartografierea spațiului chimic .

diagrame spațiale chimice în epigenetică

aceasta este una dintre principalele linii de cercetare ale grupului de cercetare DIFACQUIM. În 2015, grupul nostru a raportat o caracterizare cuprinzătoare a inhibitorilor ADN-metiltransferazei 1 (DNMT1), incluzând spațiul chimic, diversitatea, SAR și analiza schelei . Un an mai târziu, studiul a fost extins la inhibitorii bet bromodomain și histone deacetilase, discutând fezabilitatea proiectării raționale a inhibitorilor cu dublă activitate . Într-o lucrare ulterioară, grupul nostru a propus cum să „devenim inteligenți” în proiectarea compușilor chimici care acționează împotriva mai multor ținte epigenetice prin explorarea structurii relații multiple de activitate (SMARt) . Eforturile noastre actuale se concentrează pe analiza chimioinformatică DNMT3A și DNMT3B. Ne așteptăm ca aceste studii să ofere informații relevante pentru proiectarea rațională a medicamentelor împotriva acestor obiective.

Fig. 3
figura3

exemplu de activitate peisaj zdrobitoare aplicat la o bibliotecă de inhibitori AKT. o hartă generală de similitudine structură–activitate de densitate (SAS) pentru întreaga bibliotecă; B spațiul chimic al întregii biblioteci obținut prin analiza componentelor principale (PCA) și colorat de cluster așa cum este obținut prin K-înseamnă clustering; C Densitate SAS harta clusterului 2; D densitate SAS harta clusterului 5

recent, două noi metode generale au fost dezvoltate de DIFACQUIM pentru a explora și reprezenta spațiul chimic: amprentele bazei de date și ChemMaps.

amprentele bazei de date

amprentele bazei de date se bazează pe conceptul de entropie Shannon . În esență, amprentele bazei de date sunt concepute pentru a rezuma într-o singură amprentă cele mai reprezentate caracteristici chimice dintr-un set de date dat . Două sunt cele mai simple aplicații ale amprentelor bazei de date: (1) Reprezentarea vizuală a spațiului chimic al bibliotecilor mari și (2) screeningul virtual. De exemplu, amprentele bazei de date au fost aplicate recent pentru a reprezenta spațiul chimic a 52 de ținte epigenetice .

ChemMaps

reprezentarea vizuală a spațiului chimic pe baza caracteristicilor structurale este considerată costisitoare din punct de vedere al calculului. Pentru a explica pe scurt problema, multe dintre aceste abordări necesită calcularea unei matrice de similitudine pereche care duce rapid la o explozie combinatorie pe măsură ce numărul compușilor care urmează să fie cartografiați crește. Pentru a rezolva problema, ChemMaps au fost dezvoltate în grupul nostru . Pe scurt , această metodă exploatează conceptul de „sateliți chimici”, care sunt molecule care sunt folosite ca referință. În cele din urmă, asemănările pereche sunt calculate pentru fiecare moleculă împotriva unui set redus de sateliți, reducând astfel foarte mult complexitatea sarcinii. ChemMaps este, din câte știm, primul algoritm care selectează sateliții din biblioteca chimică care este cartografiată, oferind astfel o adaptabilitate mai mare decât metodele anterioare.

exemplu: peisajul activității și diversitatea inhibitorilor AKT

pentru a ilustra unele dintre metodele menționate în secțiunea „SAR folosind conceptul de modelare a peisajului activității” și secțiunea „analiza spațiului chimic și a diversității”, să luăm în considerare un set de date al inhibitorilor AKT obținuți din ChEMBL . AKT este o țintă promițătoare în dezvoltarea medicamentelor anticanceroase, iar grupul nostru a contribuit anterior la identificarea de noi schele chimice folosind screeningul virtual bazat pe structură . Harta densității SAS a setului de date al inhibitorilor AKT obținuți din ChEMBL este prezentată în Fig. 3a. culoarea coșurilor într-o hartă de densitate SAS reprezintă numărul de perechi de compuși care se încadrează în zona respectivă a parcelei . Rețineți în regiunea din dreapta sus a parcelei stâncile de activitate, adică perechi de compuși cu similitudine structurală ridicată, dar și diferențe mari de potență.Figura 3b descrie spațiul chimic al aceleiași biblioteci. Spațiul chimic al setului de date al inhibitorilor AKT obținut din ChEMBL a fost cartografiat folosind primii doi vectori proprii ai unei analize a componentelor principale a matricei de similitudine. Clusterele de compuși au fost identificate prin gruparea mijloacelor k pe primele șase vectori proprii, care au adunat aproximativ 40% din varianța totală. Comparați hărțile SAS ale clusterelor 2 și 5 din Fig. 3c, respectiv D. Cluster 5 are o proporție mai mică de stânci de activitate și, în general, un SAR mai lin decât cluster 2. Prin urmare, înainte de aplicarea unor modele predictive s-ar putea lua în considerare eliminarea compușilor din clustere cu un SAR mai neregulat (cum ar fi clusterul 2). O astfel de abordare se numește „activitate peisaj zdrobitoare” și este descrisă în continuare în .

Fig. 4
figura4

consensus diversity plot (CDP) aplicat la cinci seturi de date (clustere) într-o bibliotecă de inhibitori AKT. Diversitatea amprentelor digitale (axa x) se calculează prin valoarea mediană a tastelor MACCS/matricea de similitudine Tanimoto, în timp ce diversitatea schelelor (axa y) reprezintă aria de sub curba curbei de recuperare a sistemelor ciclice. Pentru ambele valori, valorile mai mici sunt asociate cu o mai mare diversitate. CDP este împărțit în cadrane luând în considerare valoarea medie corespunzătoare a celor șase seturi de date pentru fiecare axă. Dimensiunea punctelor de date reprezintă numărul lor relativ de compuși, în timp ce culoarea reprezintă media distanței euclidiene a proprietăților fizico-chimice (culoarea roșie reprezintă mai puțină diversitate și verde reprezintă mai multă diversitate). (Figura de culoare online)

să explorăm acum diversitatea totală a celor cinci clustere din Fig. 3 Utilizarea CDP. Cu PUMA, calculăm pentru fiecare cluster distanțele euclidiene ale proprietăților fizico-chimice (PCP), mediana asemănării amprentelor pereche (folosind tastele MACCS și coeficientul Tanimoto) și aria de sub curba de recuperare a schelei. Cu aceste date, putem completa șablonul CDP disponibil pe site-ul web al aplicației. În cele din urmă, redăm CDP și personalizăm complotul. Rezultatul este prezentat în Fig. 4, unde fiecare punct reprezintă un cluster, dimensiunea punctului este proporțională cu numărul de compuși dintr-un cluster, culoarea este relativă la distanța euclidiană medie PCP intra-bază de date, axa X reprezintă mediana asemănării perechilor MACC și axa Y reprezintă aria de sub curba de recuperare a schelei. Poate fi văzut în Fig. 4 acel grup 5 este, de asemenea, cel mai puțin divers, ceea ce ar putea explica, cel puțin parțial, proporția mai mică de stânci de activitate. În schimb, clusterul 1 este cel mai divers. Luând în considerare rezultatele din Fig. 2 și 3 s-ar putea recomanda obținerea rezultatelor experimentale ale compușilor mai diversi legați de moleculele din clusterul 5. Cu toate acestea, compușii din clusterul 5 ar fi mai potriviți pentru abordările predictive, având în vedere SAR-ul său neted.

Lasă un răspuns

Adresa ta de email nu va fi publicată.