Kemoinformatik: et perspektiv fra en akademisk indstilling i Latinamerika

i lighed med andre akademiske grupper, der arbejder med kemoinformatik, kan forskningsaktiviteterne, der udføres på DIFAKVIM, organiseres i to hovedgrupper skematisk skitseret i Fig. 1: (1) Udvikling eller forfining af begreber og (2) anvendelser af metoder udviklet internt eller af andre grupper.

til gengæld kan de udviklede begreber og metoder opdeles som følger: (1) metoder til struktur–aktivitetsforhold (SAR), især ved hjælp af begrebet aktivitetslandskabsmodellering (ALM); (2) udvikling af Open access-applikationer til at udforske kemiske databaser (i øjeblikket indsamlet i d-Tools, vide infra); og (3) analyse af kemisk rum og mangfoldighed af kemiske biblioteker.

Fig. 2
figur2

D-værktøjer: en konsensus mangfoldighed plot; B aktivitet landskab plotter; C platform for unified molecular analysis (PUMA)

applikationer er fokuseret på fem hovedområder: (1) epi-Informatik, dvs.kemiske informationsmetoder anvendt på epigenetik; (2) beregningsmetoder anvendt på infektionssygdomme; (3) peptidbaseret; (4) opdagelse af naturligt produktbaseret lægemiddel; og (5) fødevareinformatik, dvs. kemiske informationsmetoder til fødevarekemi, der er blevet udvidet til både smag og duftstoffer (Fig. 1). De næste underafsnit diskuterer disse områder.

SAR brug af begrebet aktivitetslandskabsmodellering

ALM er nyttigt i lægemiddelopdagelse til vurdering af, om lighedsprincippet effektivt gælder for et givet datasæt. Lighedsprincippet siger, at forbindelser, der er strukturelt ens, ville have mere lignende egenskaber. Dette er en stærk antagelse, som forudsigelige modeller baseret på kemisk struktur er afhængige af . Indsigt fra aktivitetslandskab kan udnyttes i medicinsk kemi til at finde strukturelle motiver, der er relevante for en forbindelses aktivitet mod et eller flere mål . Teorien og anvendelsen af ALM er blevet udviklet i vid udstrækning af DIFAKVIM og andre forskningsgrupper . For det meste har DIFAKVIMS bidrag i ALM været den videre udvikling af SAS–kort (structure-activity similarity), som blev foreslået af Shanmugasundaram og Maggiora for visuelt at opdage aktivitetsklipper og evaluere SAR . Eksempler på den seneste udvikling på dette område er tæthed SAS kort og aktivitet landskab fejer, som diskuteres næste.

densitet SAS–kort

forudsat at SAS-kort viser hver parret struktur-aktivitetssammenligning i et kemisk datasæt, kan det overvældende antal datapunkter (hvert datapunkt repræsenterer en parvis sammenligning), selv for relativt små datasæt, vanskeliggøre en visuel vurdering til bestemmelse af regioner på kortet. Til dette formål blev density SAS-kort udviklet, hvor små områder af samme overflade er farvet baseret på antallet af datapunkter (dvs .parvise sammenligninger), de indeholder. Denne tilgang blev senere introduceret og implementeret i en online server (se afsnittet “Aktivitetslandskabsplotter (ALP)”).

aktivitetslandskab fejer

interessant nok er bidraget fra aktivitetsklipper i nogle datasæt uforholdsmæssigt højt inden for nogle underliggende klynger. Disse resultater peger mod områder med en glattere SAR (dvs .lignende forbindelser har lignende aktivitet) i det kemiske rum, hvilket kunne være mere egnet til forudsigelig modellering. Ideen bag aktivitetslandskabsfejning er at analysere klynger af forbindelser defineret gennem strukturel lighed, for individuelt at studere SAR for disse klynger og deres bidrag til det samlede SAR i et bibliotek. Et eksempel på fejning af aktivitetslandskab præsenteres i afsnittet” eksempel: aktivitetslandskab og mangfoldighed af AKT-hæmmere”.

onlineværktøjer: DIFAKVIM-værktøjer til kemoinformatik (D-TOOLS)

de offentligt tilgængelige værktøjer, der er udviklet af DIFAKVIM, er samlet navngivet “D-Tools” . Det generelle formål med D-Tools er at levere frit tilgængelige online ressourcer til beregning af molekylære egenskaber og molekylære fingeraftryk, analysere dækningen og mangfoldigheden af kemisk rum, og udforske SAR af screeningsdatasæt ved hjælp af principperne for aktivitetslandskabsmodellering. Alle applikationer, der er tilgængelige i D-Tools, er beregnet til akademisk brug, og som mange andre offentlige servere er deres brug og fortolkningen af resultaterne brugerens ansvar. Yderligere detaljer er beskrevet i de respektive publikationer . På det seneste er mange ressourcer til analyse af SAR, ALM og mangfoldighed af kemiske biblioteker blevet tilføjet til d-Tools. D-værktøjer, mens de er i konstant udvikling, består i øjeblikket af tre applikationer: (1) Konsensusdiversitetsplot (CDP), (2) Aktivitetslandskabsplotter (ALP) og (3) Platform for samlet molekylær analyse (PUMA) (Fig. 2). De vigtigste funktioner og anvendelser af hver applikation, inklusive offentliggjorte anvendelser, diskuteres i de næste afsnit.

Konsensusdiversitetsplotter (CDP ‘er)

CDP’ er blev udviklet for at opnå en integrerende gengivelse af flere kemiske biblioteker mangfoldighedsmålinger . CDP ‘ er er lavdimensionelle-typisk 2D—repræsentationer af den “samlede” eller “globale” mangfoldighed af sammensatte databaser, der overvejer flere kriterier samtidigt, nemlig: molekylære fingeraftryk, stilladser, fysisk—kemiske egenskaber og antal forbindelser (biblioteksstørrelse). Imidlertid kan andre mangfoldighedsmålinger implementeres. I en CDP (Fig. 2a), er hvert datasæt repræsenteret med et datapunkt. Y-aksen repræsenterer den kemiske mangfoldighed baseret på molekylære fingeraftryk, mens Y-aksen repræsenterer stilladsdiversitet, farven på prikken repræsenterer den fysisk-kemiske egenskabsdiversitet ved hjælp af en kontinuerlig skala, og dens størrelse repræsenterer den relative størrelse af datasættet. Yderligere oplysninger om CDP ‘ er findes i . Et specifikt eksempel er præsenteret i afsnittet” eksempel: aktivitetslandskab og mangfoldighed af AKT-hæmmere ” og illustreret i Fig. 4. Som tidligere nævnt er en online ansøgning om generering af konsensusdiversitetsplotter tilgængelig i d-Tools.

Aktivitetslandskabsplotter (ALP)

med det mål at analysere SARs ved hjælp af begrebet aktivitetslandskabsmodellering gør ALP-serveren det muligt for brugeren at generere SAS og SAS-lignende kort ved hjælp af sine egne screeningsdata. Generelt viser disse kort forholdet mellem kemisk lighed (målt med molekylære fingeraftryk) og styrkeforskel mellem par af forbindelser . Et SAS-kort kan genereres for at analysere SAR af forbindelser datasæt med et biologisk endepunkt, f .eks. aktivitetsværdi for et molekylært mål. SAS-kortene, der genereres med ALP, repræsenterer den strukturelle lighed på H-aksen og aktivitetsforskellen på Y-aksen. SAR af sammensatte datasæt med to biologiske endepunkter kan analyseres ved hjælp af dual-activity difference (DAD) kort, som plotter aktivitetsforskellene for to biologiske endepunkter på hhv . I begge grafer tilføjer farver information til plottene, såsom den maksimale styrke af forbindelsen i et par og antallet af datapunkter. Det bemærkes, at resultaterne af analyserne også gøres gratis at hente, inklusive alle rådata med parvis strukturaktivitetsinformation (sidstnævnte, hvis brugeren ønsker at udføre yderligere analyse med andre værktøjer).

Platform for unified molecular analysis (PUMA)

PUMA er en gratis online applikation til kemoinformatisk baseret mangfoldighedsanalyse og visualisering af kemisk rum af brugerleverede datasæt. PUMA integrerer metrics for at karakterisere sammensatte databaser (f .eks. stilladsindhold), analysere kemisk mangfoldighed og visualisere kemisk rum. PUMA har fordele som at være åben adgang og ikke at skulle hentes og installeres. For at opretholde brugerens fortrolighed opbevares datasæt ikke af udviklerne, efter at applikationen er kørt. PUMA integrerer ALP og CDP , som kort blev beskrevet i afsnittet “Konsensusdiversitetsplotter (CDP’ er)” og afsnittet “Aktivitetslandskabsplotter (ALP)”.

kemisk rum-og mangfoldighedsanalyse

Kemografi, også kaldet kemisk rumnavigation, er blevet mere og mere relevant inden for lægemiddelopdagelse og klassificering . Selvom det oprindeligt blev udtænkt til karakterisering af kombinatoriske kemibiblioteker, dets potentiale inden for andre områder af medicinsk kemi er blevet anerkendt . Kortlægning af det kemiske rum for et givet datasæt kan give betydelig indsigt i datasætets mangfoldighed og identificere klynger af relaterede forbindelser. Når det kombineres med aktivitetsdata, bliver kemisk rum et kraftfuldt værktøj til SAR-analyse. Det skal bemærkes, at der er en række molekylære deskriptorer, der kan bruges til kortlægning af kemisk rum .

kemisk rumkortlægning i epigenetik

dette er en af de vigtigste forskningslinjer i difakvim-forskningsgruppen. I 2015 rapporterede vores gruppe en omfattende karakterisering af DNA-methyltransferase 1 (DNMT1) hæmmere, herunder kemisk rum, mangfoldighed, SAR og stilladsanalyse . Et år senere blev undersøgelsen udvidet til BET bromodomain og histondeacetylase-hæmmere, hvor man diskuterede muligheden for rationelt design af dobbeltaktivitetsinhibitorer . I et opfølgningsarbejde foreslog vores gruppe, hvordan man “bliver SMARt” i designet af kemiske forbindelser, der virker mod flere epigenetiske mål ved at udforske struktur multiple-activity relationships (SMARt) . Vores nuværende indsats fokuserer på DNMT3A og DNMT3B kemoinformatisk analyse. Vi forventer, at disse undersøgelser vil give relevant indsigt i rationelt lægemiddeldesign mod disse mål.

Fig. 3
figur3

eksempel på aktivitetslandskabsfejning anvendt på et bibliotek med AKT-hæmmere. en generel tæthed struktur–aktivitet lighed (SAS) kort for hele biblioteket; B kemisk rum af hele biblioteket opnået gennem principal component analysis (PCA) og farvet af klynge som opnået gennem k-betyder klyngedannelse; C densitet SAS kort over klynge 2; D densitet SAS kort over klynge 5

for nylig blev to nye generelle metoder udviklet til at udforske og repræsentere kemiske rum: database fingeraftryk og ChemMaps.

Database fingeraftryk

Database fingeraftryk er baseret på begrebet Shannon entropi . I det væsentlige er databasefingeraftryk designet til i et enkelt fingeraftryk at opsummere de mest repræsenterede kemiske træk i et givet datasæt . To er de mest enkle anvendelser af databasefingeraftryk: (1) visuel repræsentation af det kemiske rum i store biblioteker og (2) Virtuel screening. For eksempel er databasefingeraftryk for nylig blevet anvendt til at repræsentere det kemiske rum for 52 epigenetiske mål .

ChemMaps

visuel repræsentation af kemisk rum baseret på strukturelle træk betragtes som beregningsmæssigt dyrt. For kort at forklare problemet kræver mange af disse tilgange beregning af en parvis lighedsmatrice, der hurtigt fører til en kombinatorisk eksplosion, da antallet af forbindelser, der skal kortlægges, vokser. For at løse problemet blev ChemMaps udviklet i vores gruppe . På et øjeblik udnytter denne metode begrebet” kemiske satellitter”, som er molekyler, der bruges som reference. Endelig beregnes de parvise ligheder for hvert molekyle mod et reduceret sæt satellitter, hvilket i høj grad reducerer opgavens kompleksitet. ChemMaps er efter vores bedste viden den første algoritme, der vælger satellitterne inden for det kemiske bibliotek, der kortlægges, hvilket giver højere tilpasningsevne end tidligere metoder.

eksempel: aktivitetslandskab og mangfoldighed af AKT-hæmmere

for at illustrere nogle af de metoder, der er nævnt i afsnittet “SAR ved hjælp af begrebet aktivitetslandskabsmodellering” og afsnittet “kemisk rum-og mangfoldighedsanalyse”, lad os overveje et datasæt af AKT-hæmmere opnået fra ChEMBL . AKT er et lovende mål i udviklingen af kræftlægemidler, og vores gruppe har tidligere bidraget til identifikation af nye kemiske stilladser ved hjælp af strukturbaseret virtuel screening . Density SAS-kortet over datasættet af AKT-hæmmere opnået fra ChEMBL er vist i Fig. 3a. farven på beholderne i en tæthed SAS kort repræsenterer antallet af par af forbindelser, der falder inden for det respektive område af plottet . Bemærk i det øverste højre område af plottet aktivitetsklipperne, dvs.par af forbindelser med høj strukturel lighed, men også høje forskelle i styrke.Figur 3b viser det kemiske rum i det samme bibliotek. Det kemiske rum i datasættet af AKT-hæmmere opnået fra ChEMBL blev kortlagt under anvendelse af de to første egenvektorer af en hovedkomponentanalyse af lighedsmatricen. Klynger af forbindelser blev identificeret ved k-midler klyngedannelse på de første seks egenvektorer, som samlet omkring 40% af den samlede varians. Sammenlign SAS-kort over klynger 2 og 5 i Fig. 3c, d, henholdsvis. Klynge 5 har en mindre andel af aktivitetsklipper og, samlet set, en glattere SAR end klynge 2. Derfor kunne det forud for anvendelse af nogle forudsigelige modeller overvejes at fjerne forbindelser i klynger med en mere uregelmæssig SAR (såsom klynge 2). En sådan tilgang kaldes “aktivitet landskab fejer” og er yderligere beskrevet i .

Fig. 4
figur4

Konsensusdiversitetsplot (CDP) anvendt på fem datasæt (klynger) i et bibliotek med AKT-hæmmere. Fingeraftryksdiversitet beregnes ved hjælp af medianværdien af MACCS-tasterne / Tanimoto-lighedsmatricen, mens stilladsdiversitet (y-akse) repræsenterer området under kurven for den cykliske systemgendannelseskurve. For begge målinger er lavere værdier forbundet med mere mangfoldighed. CDP er opdelt i kvadranter under hensyntagen til den tilsvarende middelværdi af de seks datasæt for hver akse. Størrelsen på datapunkterne repræsenterer deres relative antal forbindelser, mens farve repræsenterer gennemsnittet af den euklidiske afstand af fysisk-kemiske egenskaber (rød farve repræsenterer mindre mangfoldighed og grøn repræsenterer mere mangfoldighed). (Farve figur online)

lad os nu undersøge den samlede mangfoldighed af de fem klynger i Fig. 3 Brug af CDP. Med PUMA beregner vi for hver klynge de euklidiske afstande af fysisk-kemiske egenskaber (PCP), medianen for parvis fingeraftrykslighed (ved hjælp af MACCS-nøgler og Tanimoto-koefficienten) og området under stilladsgenvindingskurven. Med disse data kan vi udfylde CDP-skabelonen, der er tilgængelig på applikationens hjemmeside. Endelig gør vi CDP ‘ en og tilpasser plottet. Resultatet er vist i Fig. 4, hvor hver prik repræsenterer en klynge, er størrelsen på prikken proportional med antallet af forbindelser i en klynge, farven er i forhold til den intra-database PCP-gennemsnitlige euklidiske afstand, h-aksen repræsenterer medianen af MACCS parvis lighed, og Y-aksen repræsenterer området under stilladsgenvindingskurven. Det kan ses i Fig. 4 denne klynge 5 er også den mindst forskelligartede, hvilket i det mindste delvist kunne forklare den mindre andel af aktivitetsklipper. I modsætning hertil er klynge 1 den mest forskelligartede. Ved at overveje resultaterne i fig. 2 og 3 det kunne anbefales at opnå eksperimentelle resultater af mere forskellige forbindelser relateret til molekyler i klynge 5. Forbindelser i klynge 5 ville imidlertid være mere egnede til forudsigelige tilgange i betragtning af dens glatte SAR.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.