Chemoinformatics: et perspektiv Fra en akademisk setting I Latin-Amerika

I Likhet med andre faggrupper som arbeider med chemoinformatics, kan forskningsaktiviteter utført VED DIFACQUIM organiseres i to hovedgrupper skjematisk skissert I Fig. 1: (1) utvikling eller forfining av konsepter, og (2) anvendelser av metoder utviklet internt eller av andre grupper.

i sin tur kan konseptene og metodene som utvikles, deles inn som følger: (1) metoder for struktur–aktivitet relasjoner (SAR), særlig ved hjelp av begrepet aktivitet landskapsmodellering (ALM); (2) utvikling av åpen tilgang applikasjoner for å utforske kjemiske databaser (for tiden samlet I D-Tools, vide infra); og (3) analyse av kjemisk plass og mangfold av kjemiske biblioteker.

Fig. 2
figur2

D-Verktøy: en konsensus mangfold plot; b aktivitet landskap plotter; c-plattform for enhetlig molekylær analyse (PUMA)

Programmene er fokusert på fem hovedområder: (1) epi-informatikk, dvs.kjemiske informasjonsmetoder som brukes på epigenetikk; (2) beregningsmetoder som brukes på smittsomme sykdommer; (3) peptidbasert; (4) naturlig produktbasert legemiddeloppdagelse; og (5) foodinformatics, dvs. kjemiske informasjonsmetoder for matkjemi som har blitt utvidet til smak og dufter likt (Fig. 1). De neste avsnittene diskuterer disse områdene.

SAR ved hjelp av begrepet aktivitetslandskapsmodellering

ALM er nyttig i narkotikaforskning for å vurdere om likhetsprinsippet effektivt gjelder for et gitt datasett. Likhetsprinsippet sier at forbindelser som er strukturelt like, vil ha flere lignende egenskaper. Dette er en sterk antagelse som prediktive modeller basert på kjemisk struktur stole på . Innsikt fra aktivitetslandskap kan utnyttes i medisinsk kjemi for å finne strukturelle motiver som er relevante for en sammensatt aktivitet mot ett eller flere mål . Teorien OG anvendelsen AV ALM har blitt omfattende utviklet av DIFACQUIM og andre forskningsgrupper . FOR det meste har DIFACQUIMS bidrag i ALM vært videreutvikling av STRUKTUR–aktivitet likhet (SAS) kart, som ble foreslått Av Shanmugasundaram Og Maggiora for å visuelt oppdage aktivitetsklipper og evaluere SAR . Eksempler på den siste utviklingen på dette området er tetthet SAS kart og aktivitetslandskap feiing, som diskuteres neste.

TETTHET SAS kart

Forutsatt AT SAS kart skildre hver sammenkoblede struktur–aktivitet sammenligning i et kjemisk datasett, det overveldende antall datapunkter (hvert datapunkt representerer en parvis sammenligning), selv for relativt små datasett, kan gjøre vanskelig en visuell vurdering for å bestemme regioner i kartet. Til dette formål ble tetthet SAS kart utviklet, hvor små områder av samme overflate er farget basert på antall datapunkter (dvs. parvise sammenligninger) de inneholder . Denne tilnærmingen ble senere introdusert og implementert i en online server (se» Activity landscape plotter (ALP) » – delen).

aktivitet landskap feiing

Interessant, i noen datasett, bidraget av aktivitet klipper er uforholdsmessig høy innenfor noen substructural klynger. Disse resultatene peker mot områder med en jevnere SAR (dvs. lignende forbindelser har lignende aktivitet) i det kjemiske rommet, noe som kan være mer egnet for prediktiv modellering . Ideen bak activity landscape sweeping er å analysere klynger av forbindelser definert gjennom strukturell likhet, for å individuelt studere SAR av disse klyngene og deres bidrag til den samlede sar av et bibliotek. Et eksempel på aktivitetslandskapsfeiing er presentert i avsnittet» Eksempel: aktivitetslandskap og mangfold AV akt-hemmere».

Online tools: DIFACQUIM tools for chemoinformatics (D-TOOLS)

de offentlig tilgjengelige verktøyene utviklet AV DIFACQUIM har samlet blitt kalt «D-Tools». Det generelle formålet Med D-Tools er å gi fritt tilgjengelige elektroniske ressurser for å beregne molekylære egenskaper og molekylære fingeravtrykk, analysere dekning og mangfold av kjemisk rom, og utforske SAR av screening datasett ved hjelp av prinsippene for aktivitetslandskapsmodellering. Alle applikasjoner som er tilgjengelige I D-Tools er ment for akademisk bruk, og som mange andre offentlige servere er deres bruk og tolkning av resultatene brukerens ansvar. Ytterligere detaljer er beskrevet i de respektive publikasjonene . I det siste har Mange ressurser for analyse AV SAR, ALM og mangfold av kjemiske biblioteker blitt lagt Til D-Tools. D-Verktøy, mens de er i konstant utvikling, består for tiden av tre applikasjoner: (1) Konsensusdiversitetsplott (CDP), (2) Aktivitetslandskapsplotter (ALP) og (3) Plattform for Enhetlig Molekylær Analyse (Puma) (Fig. 2). Hovedtrekkene og bruken av hvert program, inkludert publiserte bruksområder, diskuteres i de neste avsnittene.

Consensus diversity plots (CDPs)

CDPs ble utviklet for å oppnå en integrerende gjengivelse av flere kjemiske biblioteker mangfold beregninger . Cdp-er er lavdimensjonale—typisk 2D—representasjoner av det «totale» eller «globale» mangfoldet av sammensatte databaser som vurderer flere kriterier samtidig, nemlig: molekylære fingeravtrykk, stillas, fysisk-kjemiske egenskaper og antall forbindelser (biblioteksstørrelse). Imidlertid kan andre mangfoldsmålinger implementeres. I EN CDP (Fig. 2a), er hvert datasett representert med et datapunkt. X-aksen representerer kjemisk mangfold basert på molekylære fingeravtrykk, Mens Y-aksen representerer stillasdiversitet, fargen på prikken representerer det fysisk-kjemiske egenskapene mangfoldet ved hjelp av en kontinuerlig skala, og størrelsen representerer den relative størrelsen på datasettet. Ytterligere detaljer Om CDPs er gitt i. Et konkret eksempel er presentert i avsnittet» Eksempel: aktivitetslandskap og mangfold AV akt-hemmere » og illustrert I Fig. 4. Som tidligere nevnt, er en online søknad om å generere konsensusmangfoldsplott tilgjengelig I D-Tools.

Aktivitetslandskapsplotter (ALP)

MED målet om å analysere SARs ved hjelp av begrepet aktivitetslandskapsmodellering, gjør alp-serveren det mulig for brukeren å generere SAS og SAS-lignende kart ved hjelp av egne screeningdata. Generelt viser disse kartene forholdet mellom kjemisk likhet (målt med molekylære fingeravtrykk) og potensforskjell mellom par av forbindelser . ET SAS-kart kan genereres for å analysere SAR av sammensatte datasett med et biologisk endepunkt, for eksempel aktivitetsverdi for ett molekylært mål . SAS-kartene generert MED ALP representerer den strukturelle likheten På X-aksen og aktivitetsforskjellen På Y-aksen. SAR av sammensatte datasett med to biologiske endepunkter kan analyseres ved hjelp av DUAL-activity difference (DAD) kart, som plotter aktivitetsforskjellene for to biologiske endepunkter på Henholdsvis x – og Y-aksene . I begge grafer legger farger til informasjon i tomtene, for eksempel maksimal styrke av forbindelsen i et par og antall datapunkter. Av notatet er resultatene av analysene også gjort gratis å laste ned, inkludert alle rådata med parvis strukturaktivitetsinformasjon(sistnevnte hvis brukeren ønsker å utføre ytterligere analyse med andre verktøy).

Platform for unified molecular analysis (PUMA)

PUMA ER en gratis online applikasjon FOR kjemoinformatisk-basert mangfoldsanalyse og visualisering av kjemisk plass av brukerleverte datasett. PUMA integrerer beregninger for å karakterisere sammensatte databaser( for eksempel stillasinnhold), analysere kjemisk mangfold og visualisere kjemisk rom . PUMA har fordeler som å være åpen tilgang og ikke å måtte lastes ned og installeres. For å opprettholde brukerens konfidensialitet, er datasett ikke holdt av utviklerne etter at programmet er kjørt. PUMA integrerer ALP og CDP, som ble kort beskrevet i» Consensus diversity plots (CDPs) «- delen og» Activity landscape plotter (ALP) » – delen.

Kjemisk rom-og mangfoldsanalyse

Kjemografi, også referert til som kjemisk romnavigasjon, har blitt stadig mer relevant i narkotikaoppdagelse og klassifisering . Selv om utgangspunktet utviklet for karakterisering av kombinatoriske kjemi biblioteker, sitt potensial i andre områder av medisinsk kjemi har blitt anerkjent . Kartlegging av kjemisk plass for et gitt datasett kan gi betydelig innsikt om mangfoldet av datasettet og identifisere klynger av relaterte forbindelser. Kombinert med aktivitetsdata blir kjemisk rom et kraftig verktøy for SAR-analyse. Det skal bemerkes at det finnes en rekke molekylære beskrivere som kan brukes til å kartlegge kjemisk plass .

Kjemisk romkartlegging i epigenetikk

DETTE er en av DE viktigste forskningslinjene I DIFACQUIM research group. I 2015 rapporterte vår gruppe en omfattende karakterisering AV dna-metyltransferase 1 (DNMT1) hemmere, inkludert kjemisk rom, mangfold, SAR og stillasanalyse . Et år senere ble studien utvidet TIL BET bromodomain og histondeacetylasehemmere, og diskuterte muligheten for rasjonell utforming av dobbeltaktivitetshemmere . I et oppfølgingsarbeid foreslo vår gruppe hvordan man «blir SMARt» i utformingen av kjemiske forbindelser som virker mot flere epigenetiske mål ved å utforske struktur flere aktivitetsforhold (SMARt) . Vår nåværende innsats fokuserer PÅ DNMT3A og DNMT3B kjemoinformatisk analyse. Vi forventer at disse studiene vil gi relevant innsikt for rasjonell narkotikadesign mot disse målene.

Fig. 3
figur3

Eksempel på aktivitet landskap feiing brukes til et bibliotek AV AKT hemmere. A General density structure–activity similarity (SAS) kart for hele biblioteket; b kjemisk rom for hele biblioteket oppnådd gjennom hovedkomponentanalyse (PCA) og farget av klynge som oppnådd gjennom k-means clustering; c tetthet SAS kart over klynge 2; d tetthet SAS kart over klynge 5

NYLIG ble TO nye generelle metoder utviklet AV DIFACQUIM for å utforske og representere kjemisk rom: database fingeravtrykk og ChemMaps.

Database fingeravtrykk

Database fingeravtrykk er basert På konseptet Shannon entropi . I hovedsak er database fingeravtrykk utformet for å oppsummere i et enkelt fingeravtrykk de mest representerte kjemiske funksjonene i et gitt datasett . To er de mest enkle anvendelser av database fingeravtrykk: (1) visuell representasjon av den kjemiske plass av store biblioteker, og (2) virtuell screening. For eksempel, database fingeravtrykk har nylig blitt brukt til å representere den kjemiske plass av 52 epigenetiske mål .

ChemMaps

Visuell representasjon av kjemisk rom basert på strukturelle egenskaper anses som beregningsmessig dyrt. For å kort forklare problemet, krever mange av disse tilnærmingene å beregne en parvis likhetsmatrise som raskt fører til en kombinatorisk eksplosjon ettersom antall forbindelser som skal kartlegges, vokser. For å løse problemet ble ChemMaps utviklet i vår gruppe . På et øyeblikk utnytter denne metoden begrepet «kjemiske satellitter», som er molekyler som brukes som referanse. Til slutt beregnes de parvise likhetene for hvert molekyl mot et redusert sett med satellitter, og reduserer dermed oppgavens kompleksitet sterkt. ChemMaps er, så vidt vi vet, den første algoritmen som velger satellittene fra det kjemiske biblioteket som blir kartlagt, og gir derfor høyere tilpasningsevne enn tidligere metoder.

Eksempel: aktivitetslandskap og mangfold av akt-hemmere

for å illustrere noen av metodene nevnt i avsnittet «SAR ved hjelp av begrepet aktivitetslandskapsmodellering» og» Kjemisk rom-og mangfoldsanalyse», la oss se på et datasett AV AKT-hemmere hentet fra ChEMBL . AKT er et lovende mål i utviklingen av kreftmedisiner, og vår gruppe har tidligere bidratt til identifisering av nye kjemiske stillaser ved hjelp av strukturbasert virtuell screening . Tettheten SAS-kart over datasettet AV AKT-hemmere oppnådd fra ChEMBL er vist I Fig. 3a. fargen på hyllene i et TETTHET SAS-kart representerer antall par forbindelser som faller innenfor det respektive området av plottet . Legg merke til i øvre høyre del av plottet aktivitetsklippene, dvs. par av forbindelser med høy strukturell likhet, men også høye forskjeller i potens.Figur 3b viser kjemisk plass i samme bibliotek. Det kjemiske rommet til datasettet AV akt-hemmere oppnådd fra ChEMBL ble kartlagt ved hjelp av de to første egenvektorer av en hovedkomponentanalyse av likhetsmatrisen. Klynger av forbindelser ble identifisert ved k-betyr clustering på de første seks egenvektorer, som samlet rundt 40% av den totale variansen. Sammenlign SAS kart over klynger 2 og 5 I Fig. 3c, d, henholdsvis. Klynge 5 har en mindre andel av aktivitetsklipper og generelt en jevnere SAR enn klynge 2. Derfor, før du bruker noen prediktive modeller kan det anses å fjerne forbindelser i klynger med en mer uregelmessig SAR (for eksempel klynge 2). En slik tilnærming kalles «aktivitet landskap feiing» og er nærmere beskrevet i .

Fig. 4
figur4

Consensus diversity plot (CDP) brukes på fem datasett (klynger) i et bibliotek AV akt-hemmere. Fingeravtrykksdiversitet (x-akse) beregnes gjennom medianverdien AV MACCS-tastene/Tanimoto likhetsmatrisen, mens stillasdiversitet (y-akse) representerer området under kurven til den sykliske systemgjenvinningskurven. For begge beregninger er lavere verdier forbundet med mer mangfold. CDP er delt i kvadranter med tanke på den tilsvarende middelverdien av de seks datasettene for hver akse. Størrelsen på datapunktene representerer deres relative antall forbindelser, mens farge representerer gjennomsnittet Av Den Euklidiske avstanden til fysisk-kjemiske egenskaper (rød farge representerer mindre mangfold og grønn representerer mer mangfold). (Farge figur online)

La oss nå utforske det totale mangfoldet av De fem klyngene I Fig. 3 bruke CDP. MED PUMA beregner vi For hver klynge De Euklidiske avstandene til fysisk-kjemiske egenskaper( PCP), medianen for parvis fingeravtrykkslikhet (VED HJELP AV MACCS-nøkler og Tanimoto-koeffisienten) og området under stillasgjenvinningskurven. Med disse dataene kan vi fylle CDP-malen som er tilgjengelig på applikasjonens nettside. Til SLUTT gjengir VI CDP og tilpasser plottet. Resultatet er vist I Fig. 4, hvor hver prikk representerer en klynge, er størrelsen på prikken proporsjonal med antall forbindelser i en klynge, fargen er i forhold til DEN intra-database PCP middel Euklidsk avstand, X-aksen representerer median AV MACCS parvis likhet og Y-aksen representerer området under stillasgjenvinningskurven. Det kan ses I Fig. 4 den klyngen 5 er også den minst varierte, noe som kan forklare, i det minste delvis, den mindre andelen aktivitetsklipper. I motsetning er klynge 1 den mest varierte. Ved å vurdere resultatene I Fiken. 2 og 3 det kan anbefales å oppnå eksperimentelle resultater av mer varierte forbindelser relatert til molekyler i klynge 5. Imidlertid vil forbindelser i klynge 5 være mer egnet for prediktive tilnærminger, gitt sin glatte SAR.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.