Kemoinformatik: ett perspektiv från en akademisk miljö i Latinamerika

i likhet med andra akademiska grupper som arbetar med kemoinformatik kan de forskningsaktiviteter som utförs vid DIFACQUIM organiseras i två huvudgrupper schematiskt skisserade i Fig. 1: (1) utveckling eller förfining av begrepp, och (2) tillämpningar av metoder som utvecklats internt eller av andra grupper.

i sin tur kan de utvecklade koncepten och metoderna delas upp enligt följande: (1) metoder för struktur–aktivitetsrelationer (Sar), särskilt med hjälp av begreppet aktivitetslandskapsmodellering (Alm); (2) utveckling av applikationer med öppen åtkomst för att utforska kemiska databaser (för närvarande samlade i D-Tools, vide infra); och (3) analys av kemiskt utrymme och mångfald av kemiska bibliotek.

tillämpningar är inriktade på fem huvudområden: (1) epi-informatik, dvs kemiska informationsmetoder som tillämpas på epigenetik; (2) beräkningsmetoder som tillämpas på infektionssjukdomar; (3) peptidbaserad; (4) naturlig produktbaserad läkemedelsupptäckt; och (5) livsmedelsinformatik, dvs kemiska informationsmetoder för livsmedelskemi som har utvidgats till både smak och dofter (Fig. 1). Nästa underavsnitt diskuterar dessa områden.

SAR använder begreppet aktivitetslandskapsmodellering
densitet SAS kartor
Activity landscape sweeping
onlineverktyg: DIFACQUIM tools for chemoinformatics (D-TOOLS)
Konsensusdiversitetstomter (CDP)
Activity landscape plotter (ALP)
Platform for unified molecular analysis (PUMA)
kemisk rymd-och mångfaldsanalys
kemisk rymdkarta i epigenetik
databas fingeravtryck
ChemMaps
exempel: aktivitetslandskap och mångfald av AKT-hämmare

SAR använder begreppet aktivitetslandskapsmodellering

ALM är till hjälp vid läkemedelsupptäckt för att bedöma huruvida likhetsprincipen effektivt gäller för en given dataset. Likhetsprincipen säger att föreningar som är strukturellt lika skulle ha mer liknande egenskaper. Detta är ett starkt antagande på vilka prediktiva modeller baserade på kemisk struktur är beroende . Insikter från aktivitetslandskap kan utnyttjas i medicinsk kemi för att hitta strukturella motiv som är relevanta för en förenings aktivitet mot ett eller flera mål . Teorin och tillämpningen av ALM har utvecklats i stor utsträckning av DIFACQUIM och andra forskargrupper . För det mesta har bidraget från DIFACQUIM i ALM varit den fortsatta utvecklingen av SAS–kartor (structure-activity similarity), som föreslogs av Shanmugasundaram och Maggiora för att visuellt upptäcka aktivitetsklippor och utvärdera SAR . Exempel på den senaste utvecklingen inom detta område är density SAS-kartor och activity landscape sweeping, som diskuteras nästa.

densitet SAS kartor

förutsatt att SAS kartor visar varje parad struktur–aktivitet jämförelse i en kemisk dataset, det överväldigande antalet datapunkter (varje datapunkt som representerar en parvis jämförelse), även för relativt små dataset, kan göra svårt en visuell bedömning för att bestämma regioner i kartan. För detta ändamål utvecklades density SAS-kartor, där små områden av samma yta färgas baserat på antalet datapunkter (dvs. parvisa jämförelser) de innehåller . Detta tillvägagångssätt introducerades senare och implementerades i en onlineserver (se avsnittet ”Aktivitetslandskapsplotter (ALP)”).

Activity landscape sweeping

intressant, i vissa dataset är bidraget från activity cliffs oproportionerligt högt inom vissa substrukturella kluster. Dessa resultat pekar mot områden med en mjukare SAR (dvs liknande föreningar har liknande aktivitet) i det kemiska utrymmet, vilket kan vara mer lämpligt för prediktiv modellering . Tanken bakom activity landscape sweeping är att analysera kluster av föreningar definierade genom strukturell likhet, för att individuellt studera SAR för dessa kluster och deras bidrag till bibliotekets övergripande Sar. Ett exempel på aktivitetslandskapssvepning presenteras i avsnittet” exempel: aktivitetslandskap och mångfald av AKT-hämmare”.

onlineverktyg: DIFACQUIM tools for chemoinformatics (D-TOOLS)

de offentligt tillgängliga verktygen som utvecklats av DIFACQUIM har kollektivt fått namnet ”D-Tools” . Det allmänna syftet med D-Tools är att tillhandahålla fritt tillgängliga online-resurser för att beräkna molekylära egenskaper och molekylära fingeravtryck, analysera täckningen och mångfalden av kemiska rymden, och utforska Sar av screening datamängder med hjälp av principerna för aktivitetslandskapsmodellering. Alla applikationer som finns i D-Tools är avsedda för akademisk användning och, som många andra offentliga servrar, deras användning och tolkningen av resultaten är användarens ansvar. Ytterligare detaljer redovisas i respektive publikationer . På senare tid har många resurser för analys av SAR, ALM och mångfald av kemiska bibliotek lagts till D-Tools. D-Tools, medan de är i ständig utveckling, består för närvarande av tre applikationer: (1) konsensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP) och (3) Platform for Unified Molecular Analysis (PUMA) (Fig. 2). Huvudfunktionerna och användningarna för varje applikation, inklusive publicerade användningar, diskuteras i nästa avsnitt.

Konsensusdiversitetstomter (CDP)

CDP utvecklades för att uppnå en integrerad återgivning av flera kemiska bibliotek mångfaldsmått . CDP: er är lågdimensionella-vanligtvis 2D-representationer av den ”totala” eller ”globala” mångfalden av sammansatta databaser med tanke på flera kriterier samtidigt, nämligen: molekylära fingeravtryck, byggnadsställningar, fysikalisk-kemiska egenskaper och antal föreningar (biblioteksstorlek). Andra mångfaldsmått kan dock implementeras. I en CDP (Fig. 2a) representeras varje datamängd med en datapunkt. X-axeln representerar kemisk mångfald baserad på molekylära fingeravtryck, medan Y-axeln representerar ställningsdiversitet, färgen på punkten representerar fysikalisk-kemiska egenskaper mångfald med användning av en kontinuerlig skala, och dess storlek representerar den relativa storleken på datamängden. Ytterligare detaljer om CDP finns i . Ett specifikt exempel presenteras i avsnittet” exempel: aktivitetslandskap och mångfald av akt-hämmare ” och illustreras i Fig. 4. Som tidigare nämnts finns en onlineapplikation för att generera konsensusdiversitetsplaner i D-Tools.

Activity landscape plotter (ALP)

med målet att analysera SARs med hjälp av begreppet activity landscape modeling gör ALP-servern det möjligt för användaren att generera SAS och SAS-liknande kartor med egna screeningdata. I allmänhet visar dessa kartor förhållandet mellan kemisk likhet (mätt med molekylära fingeravtryck) och potensskillnad mellan par av föreningar . En SAS-karta kan genereras för att analysera SAR för föreningsdatauppsättningar med en biologisk slutpunkt, t .ex. aktivitetsvärde för ett molekylärt mål. SAS-kartorna som genereras med ALP representerar den strukturella likheten på X-axeln och aktivitetsskillnaden på Y-axeln. SAR för sammansatta datamängder med två biologiska slutpunkter kan analyseras med hjälp av DAD-kartor (dual-activity difference), som plottar aktivitetsskillnaderna för två biologiska slutpunkter på X – respektive Y-axlarna . I båda graferna lägger färger till information till tomterna, såsom den maximala styrkan hos föreningen i ett par och antalet datapunkter. Observera att analysresultaten också görs gratis att ladda ner, inklusive alla rådata med parvis strukturaktivitetsinformation (den senare om användaren vill utföra ytterligare analys med andra verktyg).

Platform for unified molecular analysis (PUMA)

PUMA är en gratis onlineapplikation för kemoinformatisk baserad mångfaldsanalys och visualisering av kemiskt utrymme för användarlevererade dataset. PUMA integrerar mätvärden för att karakterisera sammansatta databaser (t .ex. byggnadsinnehåll), analysera kemisk mångfald och visualisera kemiskt utrymme. PUMA har fördelar som att vara öppen åtkomst och inte behöva laddas ner och installeras. För att upprätthålla användarens konfidentialitet hålls inte datauppsättningar av utvecklarna efter att applikationen har körts. PUMA integrerar ALP och CDP , som kort beskrevs i avsnittet ”Consensus diversity plots (CDP)” och avsnittet ”Activity landscape plotter (ALP)”.

kemisk rymd-och mångfaldsanalys

Kemografi, även kallad kemisk rymdnavigering, har blivit alltmer relevant vid läkemedelsupptäckt och klassificering . Även om det ursprungligen utformades för karakterisering av kombinatoriska kemibibliotek, dess potential inom andra områden av medicinsk kemi har erkänts . Kartläggning av det kemiska utrymmet för en given dataset kan ge betydande insikter om mångfalden i dataset och identifiera kluster av relaterade föreningar. I kombination med aktivitetsdata blir chemical space ett kraftfullt verktyg för SAR-analys. Det bör noteras att det finns en mängd olika molekylära deskriptorer som kan användas för att kartlägga kemiskt utrymme .

kemisk rymdkarta i epigenetik

Detta är en av de viktigaste forskningslinjerna i difacquim-forskargruppen. I 2015 rapporterade vår grupp en omfattande karakterisering av DNA-metyltransferas 1 (DNMT1) – hämmare, inklusive kemisk rymd, mångfald, SAR och ställningsanalys . Ett år senare utvidgades studien till BET bromodomain-och histondeacetylashämmare och diskuterade genomförbarheten av rationell design av dubbelaktivitetshämmare . I ett uppföljningsarbete föreslog vår grupp hur man ”blir SMARt” i utformningen av kemiska föreningar som verkar mot flera epigenetiska mål genom att utforska struktur flera aktivitetsrelationer (SMARt) . Våra nuvarande ansträngningar fokuserar på DNMT3A och DNMT3B kemoinformatisk analys. Vi förväntar oss att dessa studier kommer att ge relevanta insikter för rationell läkemedelsdesign mot dessa mål.

nyligen utvecklades två nya allmänna metoder av DIFACQUIM för att utforska och representera kemiskt utrymme: databas fingeravtryck och ChemMaps.

databas fingeravtryck

databas fingeravtryck är baserade på begreppet Shannon entropi . I huvudsak är databasfingeravtryck utformade för att sammanfatta i ett enda fingeravtryck de mest representerade kemiska egenskaperna i en given datamängd . Två är de enklaste tillämpningarna av databasfingeravtryck: (1) visuell representation av stora biblioteks kemiska utrymme och (2) virtuell screening. Till exempel, databas fingeravtryck har nyligen tillämpats för att representera det kemiska utrymmet för 52 epigenetiska mål .

ChemMaps

visuell representation av kemiskt utrymme baserat på strukturella egenskaper betraktas som beräkningsmässigt dyrt. För att kortfattat förklara problemet kräver många av dessa tillvägagångssätt att man beräknar en parvis likhetsmatris som snabbt leder till en kombinatorisk explosion när antalet föreningar som ska kartläggas växer. För att lösa problemet utvecklades ChemMaps i vår grupp . I en överblick utnyttjar denna metod begreppet” kemiska satelliter”, vilka är molekyler som används som referens. Slutligen beräknas de parvisa likheterna för varje molekyl mot en reducerad uppsättning satelliter, vilket kraftigt minskar uppgiftens komplexitet. ChemMaps är, så vitt vi vet, den första algoritmen som väljer satelliterna från det kemiska biblioteket som kartläggs, vilket ger högre anpassningsförmåga än tidigare metoder.

exempel: aktivitetslandskap och mångfald av AKT-hämmare

för att illustrera några av de metoder som nämns i avsnittet ”sar med begreppet aktivitetslandskapsmodellering” och avsnittet ”kemisk rymd-och mångfaldsanalys”, låt oss betrakta en dataset av AKT-hämmare erhållna från ChEMBL . AKT är ett lovande mål i utvecklingen av cancerläkemedel, och vår grupp har tidigare bidragit till identifieringen av nya kemiska ställningar med hjälp av strukturbaserad virtuell screening . Täthets SAS-kartan för datamängden AKT-hämmare erhållna från ChEMBL visas i Fig. 3A. färgen på facken i en densitet SAS karta representerar antalet par av föreningar som faller inom respektive område av tomten . Notera i det övre högra området av tomten aktivitetsklipporna, dvs par av föreningar med hög strukturell likhet men höga skillnader i styrka också.Figur 3b visar det kemiska utrymmet i samma bibliotek. Det kemiska utrymmet för datamängden AKT-hämmare erhållna från ChEMBL kartlades med användning av de två första egenvektorerna i en huvudkomponentanalys av likhetsmatrisen. Kluster av föreningar identifierades genom k-means clustering på de första sex egenvektorerna, som samlade omkring 40% av den totala variansen. Jämför SAS kartor över kluster 2 och 5 i Fig. 3c, d, respektive. Kluster 5 har en mindre andel aktivitetsklippor och totalt sett en mjukare SAR än kluster 2. Därför kan man, innan man applicerar vissa prediktiva modeller, överväga att ta bort föreningar i kluster med en mer oregelbunden SAR (såsom kluster 2). Ett sådant tillvägagångssätt kallas ”aktivitet landskap svepande” och beskrivs vidare i .

Låt oss nu utforska den totala mångfalden av de fem kluster i Fig. 3 Använda CDP. Med PUMA beräknar vi för varje kluster de euklidiska avstånden för fysikalisk-kemiska egenskaper (PCP), medianen för parvis fingeravtryckslikhet (med MACCS-nycklar och Tanimoto-koefficienten) och området under ställningskurvan. Med dessa data kan vi fylla CDP-mallen som finns på applikationens webbplats. Slutligen gör vi CDP och anpassar tomten. Resultatet visas i Fig. 4, där varje punkt representerar ett kluster, är storleken på punkten proportionell mot antalet föreningar i ett kluster, färgen är relativt det intra-databas PCP-genomsnittliga euklidiska avståndet, X-axeln representerar medianen för MACCS parvis likhet och Y-axeln representerar området under ställningsåtervinningskurvan. Det kan ses i Fig. 4 det kluster 5 är också det minst olika, vilket kan förklara, åtminstone delvis, den mindre andelen aktivitetsklippor. Däremot är kluster 1 den mest mångsidiga. Genom att överväga resultaten i fikon. 2 och 3 Det kan rekommenderas att erhålla experimentella resultat av mer olika föreningar relaterade till molekyler i kluster 5. Föreningar i kluster 5 skulle emellertid vara mer lämpliga för prediktiva tillvägagångssätt, med tanke på dess släta SAR.