Chemoinformatica: een perspectief vanuit een academische setting in Latijns-Amerika

net als andere academische groepen die aan chemoinformatica werken, kunnen de onderzoeksactiviteiten in DIFACQUIM worden georganiseerd in twee grote groepen die schematisch in Fig. 1: (1) Ontwikkeling of verfijning van concepten, en (2) toepassingen van methoden ontwikkeld in-house of door andere groepen.

op hun beurt kunnen de ontwikkelde concepten en methoden als volgt worden onderverdeeld:: (1) methoden voor structuur–activiteitsrelaties (Sar), in het bijzonder met behulp van het concept activity landscape modeling (ALM); (2) ontwikkeling van open-access toepassingen om chemische databases te verkennen (momenteel verzameld in D-Tools, vide infra); en (3) analyse van chemische ruimte en diversiteit van chemische bibliotheken.

Fig. 2
figuur 2

D-Tools: een consensus diversiteit plot; b activiteit landschap plotter; c-platform voor unified moleculaire analyse (PUMA)

Toepassingen zijn gericht op de vijf belangrijkste gebieden: (1) epi-informatica, ofwel, chemische informatie methoden toegepast op de epigenetica; (2) computationele methoden toegepast op de besmettelijke ziekten; (3) peptide-gebaseerde; (4) natuurlijke product-based drug discovery; en (5) foodinformatics, ofwel, chemische informatie benaderingen voor food chemistry die is uitgebreid om de smaak-en geurstoffen gelijk (Fig. 1). De volgende subsecties bespreken deze gebieden.

SAR gebruikmakend van het concept van activiteitslandschapsmodellering

ALM is nuttig bij het ontdekken van geneesmiddelen om te beoordelen of het gelijkvormigheidsprincipe effectief van toepassing is op een gegeven dataset. Het gelijkvormigheidsprincipe stelt dat verbindingen die structureel gelijkaardig zijn, meer vergelijkbare eigenschappen zouden hebben. Dit is een sterke veronderstelling waarop voorspellende modellen gebaseerd op chemische structuur steunen . Inzichten uit het activiteitslandschap kunnen worden benut in medicinale chemie om structurele motieven te vinden die relevant zijn voor de activiteit van een compound in de richting van een of meer doelen . De theorie en toepassing van ALM is uitgebreid ontwikkeld door DIFACQUIM en andere onderzoeksgroepen . Meestal is de bijdrage van DIFACQUIM in ALM de verdere ontwikkeling van structuur–activiteit gelijkenis (SAS) kaarten, die werden voorgesteld door Shanmugasundaram en Maggiora om activiteit kliffen visueel te detecteren en evalueren SAR . Voorbeelden van recente ontwikkelingen op dit gebied zijn density SAS kaarten en activity landscape sweeping, die hierna worden besproken.

dichtheid SAS-kaarten

mits SAS-kaarten elke gepaarde structuur–activiteit-vergelijking in een chemische dataset weergeven, kan het overweldigende aantal gegevenspunten (elk gegevenspunt dat een paarsgewijze vergelijking vertegenwoordigt), zelfs voor relatief kleine datasets, een visuele beoordeling voor het bepalen van regio ‘ s in de kaart moeilijk maken. Hiertoe werden density SAS-kaarten ontwikkeld, waarbij kleine gebieden van hetzelfde oppervlak worden gekleurd op basis van het aantal datapunten (dat wil zeggen, paarsgewijze vergelijkingen) die ze bevatten . Deze aanpak werd later geïntroduceerd en geïmplementeerd in een online server (zie “Activity landscape plotter (ALP)” sectie).

Activiteitslandschap vegen

interessant is dat in sommige datasets de bijdrage van activiteitskliffen onevenredig hoog is binnen sommige substructurele clusters. Deze resultaten wijzen naar gebieden met een gladder SAR (d.w.z., gelijkaardige samenstellingen hebben gelijkaardige activiteit) in de chemische ruimte, die geschikter voor voorspellende modellering zou kunnen zijn . Het idee achter het vegen van het activiteitslandschap is om clusters van samenstellingen te analyseren die door structurele gelijkenis worden gedefinieerd, om individueel de SAR van deze clusters en hun bijdrage aan de Algemene SAR van een bibliotheek te bestuderen. Een voorbeeld van activiteit landschap vegen wordt gepresenteerd in” Voorbeeld: activiteit landschap en diversiteit van AKT remmers ” sectie.

Online tools: DIFACQUIM tools for chemoinformatics (D-TOOLS)

de door DIFACQUIM ontwikkelde voor het publiek toegankelijke tools worden gezamenlijk “D-Tools” genoemd . Het algemene doel van D-Tools is om vrij beschikbare online bronnen te bieden om moleculaire eigenschappen en moleculaire vingerafdrukken te berekenen, de dekking en diversiteit van chemische ruimte te analyseren en SAR van screeningsdatasets te verkennen met behulp van de principes van activity landscape modeling. Alle toepassingen die beschikbaar zijn in D-Tools zijn bedoeld voor academisch gebruik en, zoals veel andere publieke servers, is het gebruik en de interpretatie van de resultaten de verantwoordelijkheid van de gebruiker. Nadere bijzonderheden worden vermeld in de desbetreffende publicaties . De laatste tijd zijn veel bronnen voor de analyse van SAR, ALM en diversiteit van chemische bibliotheken toegevoegd aan D-Tools. D-Tools, terwijl in constante ontwikkeling, bestaan momenteel uit drie toepassingen: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP), en (3) Platform for Unified Molecular Analysis (PUMA) (Fig. 2). De belangrijkste kenmerken en toepassingen van elke toepassing, met inbegrip van gepubliceerde toepassingen, worden besproken in de volgende paragrafen.

Consensus diversity plots (CDP ‘s)

CDP’ s werden ontwikkeld om een integratieve weergave van verschillende chemische bibliotheken diversiteitsmetrics te bereiken . CDP ‘ s zijn laag-dimensionale—typisch 2D—representaties van de “totale” of “globale” diversiteit van samengestelde databases die meerdere criteria tegelijkertijd overwegen, namelijk: moleculaire vingerafdrukken, steigers, fysicochemische eigenschappen, en aantal verbindingen (bibliotheekgrootte). Echter, andere diversiteit metrics kunnen worden geïmplementeerd. In CDP (vijg. 2a), wordt elke gegevensverzameling weergegeven met een gegevenspunt. De X-as vertegenwoordigt chemische diversiteit die op moleculaire vingerafdrukken wordt gebaseerd, terwijl de Y-as steigerdiversiteit vertegenwoordigt, vertegenwoordigt de kleur van de punt de fysisch-chemische eigenschappen diversiteit gebruikend een ononderbroken schaal, en zijn grootte vertegenwoordigt de relatieve grootte van de gegevensset. Nadere bijzonderheden over CDP ‘ s zijn te vinden in . Een specifiek voorbeeld wordt gepresenteerd in” Voorbeeld: activiteitslandschap en diversiteit van AKT-remmers ” sectie en geïllustreerd in Fig. 4. Zoals eerder vermeld, is een online applicatie voor het genereren van consensus diversity plots beschikbaar in D-Tools.

Activity landscape plotter (ALP)

met het doel SARs te analyseren met behulp van het concept van activity landscape modeling, stelt de ALP-server de gebruiker in staat SAS en SAS-achtige kaarten te genereren met behulp van zijn eigen screeninggegevens. In het algemeen geven deze kaarten de relatie weer tussen chemische gelijkenis (gemeten met moleculaire vingerafdrukken) en potentieverschil van paren van verbindingen . Een SAS-kaart kan worden gegenereerd om SAR van samenstellingengegevensreeksen met een biologisch eindpunt, b .v., activiteitswaarde voor één moleculair doel te analyseren. De SAS-kaarten gegenereerd met ALP vertegenwoordigen de structurele gelijkenis op de X-as en het activiteitsverschil op de Y-as. De SAR van samengestelde gegevensreeksen met twee biologische eindpunten kan worden geanalyseerd gebruikend dual – activity difference (DAD) kaarten, die de activiteitsverschillen voor twee biologische eindpunten op de x-en Y-assen, respectievelijk plotten . In beide grafieken voegen kleuren informatie toe aan de plots, zoals de maximale potentie van de verbinding in een paar en het aantal gegevenspunten. De resultaten van de analyses zijn ook gratis te downloaden, met inbegrip van alle ruwe gegevens met pairwise structuur–activiteit informatie (de laatste in het geval dat de gebruiker wil aanvullende analyse uit te voeren met andere tools).Platform for unified molecular analysis (PUMA)

Puma is een gratis online applicatie voor chemo-formatic-based diversity analysis and visualization of chemical space of user-supplyed data sets. PUMA integreert metrics om samengestelde databases te karakteriseren (bijvoorbeeld steigerinhoud), chemische diversiteit te analyseren en chemische ruimte te visualiseren . PUMA heeft voordelen zoals open access en hoeft niet gedownload en geïnstalleerd te worden. Om de vertrouwelijkheid van de gebruiker te behouden, worden datasets niet bewaard door de ontwikkelaars nadat de toepassing is uitgevoerd. PUMA integreert ALP en CDP, die kort werden beschreven in” Consensus diversity plots (CDPs) “sectie en” Activity landscape plotter (ALP) ” sectie.

Chemical space and diversity analysis

Chemografie, ook wel aangeduid als chemical space navigation, is steeds relevanter geworden in de ontdekking en classificatie van geneesmiddelen . Hoewel aanvankelijk bedacht voor de karakterisering van combinatorische chemie bibliotheken, zijn potentieel op andere gebieden van de medicinale chemie is erkend . Het in kaart brengen van de chemische ruimte voor een bepaalde dataset zou significante inzichten betreffende de diversiteit van de dataset kunnen verstrekken en clusters van verwante samenstellingen identificeren. In combinatie met activiteitsgegevens wordt chemische ruimte een krachtig instrument voor SAR-analyse. Opgemerkt moet worden dat er een verscheidenheid van moleculaire descriptoren die kunnen worden gebruikt voor het in kaart brengen van chemische ruimte.

Chemical space charting in epigenetica

Dit is een van de belangrijkste onderzoekslijnen van de DIFACQUIM research group. In 2015 rapporteerde onze groep een uitgebreide karakterisering van DNA-methyltransferase 1 (DNMT1) – remmers, waaronder chemische ruimte -, diversiteit -, Sar-en steigeranalyse . Een jaar later, werd de studie uitgebreid tot bromodomain en histone deacetylase inhibitors BET, het bespreken van de haalbaarheid van rationeel ontwerp van dual-activity inhibitors . In een follow-up werk, onze groep voorgesteld hoe “Get SMARt” in het ontwerp van chemische verbindingen werken tegen meerdere epigenetische doelen door het verkennen van structuur multiple-activity relaties (SMARt) . Onze huidige inspanningen richten zich op dnmt3a en dnmt3b chemoinformatische analyse. We verwachten dat deze studies relevante inzichten zullen opleveren voor het rationeel ontwerpen van geneesmiddelen tegen deze doelen.

Fig. 3
figuur 3

voorbeeld van activiteit landschap vegen toegepast op een bibliotheek van AKT remmers. a general density structure–activity similarity (SAS) map for the whole library; B chemical space of the whole library obtained through principal component analysis (PCA) and colored by cluster as obtained through k-means clustering; C density SAS map of cluster 2; d density SAS map of cluster 5

onlangs werden twee nieuwe algemene methoden ontwikkeld door DIFACQUIM om de chemische ruimte te verkennen en te representeren: database fingerprints en ChemMaps.

Database-vingerafdrukken

Database-vingerafdrukken zijn gebaseerd op het concept Shannon entropie . In wezen zijn de vingerafdrukken van de database ontworpen om in één enkele vingerafdruk de meest vertegenwoordigde chemische kenmerken in een gegeven gegevensverzameling samen te vatten . Twee zijn de meest eenvoudige toepassingen van database vingerafdrukken: (1) visuele weergave van de chemische ruimte van grote bibliotheken, en (2) virtuele screening. Zo zijn onlangs vingerafdrukken in de database toegepast om de chemische ruimte van 52 epigenetische doelwitten weer te geven .

ChemMaps

visuele representatie van chemische ruimte op basis van structurele kenmerken wordt als berekenend duur beschouwd. Om het probleem kort uit te leggen, vereisen veel van deze benaderingen het berekenen van een paarsgewijze gelijkvormigheidsmatrix die snel leidt tot een combinatorische explosie als het aantal in kaart te brengen samenstellingen groeit. Om het probleem aan te pakken, werden ChemMaps ontwikkeld in onze groep . In een oogopslag, deze methode maakt gebruik van het concept van “chemische satellieten” , dat zijn moleculen die worden gebruikt als referentie. Ten slotte worden de paarsgewijze gelijkenissen berekend voor elk molecuul tegen een gereduceerde reeks satellieten, waardoor de complexiteit van de taak aanzienlijk wordt verminderd. ChemMaps is, voor zover wij weten, het eerste algoritme dat de satellieten selecteert vanuit de chemische bibliotheek die in kaart wordt gebracht, waardoor een hoger aanpassingsvermogen wordt geboden dan eerdere methoden.

voorbeeld: activiteitslandschap en diversiteit van AKT-remmers

om enkele van de methoden te illustreren die worden genoemd in de sectie “SAR met behulp van het concept activiteitslandschapsmodellering” en de sectie “Chemical space and diversity analysis”, laten we een dataset van AKT-remmers uit ChEMBL overwegen . AKT is een veelbelovend doel in de ontwikkeling van geneesmiddelen tegen kanker, en onze groep heeft eerder bijgedragen aan de identificatie van nieuwe chemische steigers met behulp van structuurgebaseerde virtuele screening . De dichtheid SAS kaart van de dataset van AKT remmers verkregen uit ChEMBL is weergegeven in Fig. 3a. de kleur van de bakken in een dichtheid SAS kaart vertegenwoordigt het aantal paren van verbindingen die binnen het respectieve gebied van de plot vallen . Noteer in de rechterbovenhoek van de plot de activiteit kliffen, dat wil zeggen paren van verbindingen met een hoge structurele gelijkenis, maar ook hoge verschillen in potentie.Figuur 3b toont de chemische ruimte van dezelfde bibliotheek. De chemische ruimte van de dataset van AKT-remmers verkregen uit ChEMBL werd in kaart gebracht met behulp van de twee eerste eigenvectoren van een principal components analyse van de similarity matrix. Clusters van samenstellingen werden geà dentificeerd door K-middelen te clusteren op de eerste zes eigenvectoren, die rond 40% van de totale variantie verzamelden. Vergelijk de SAS-kaarten van clusters 2 en 5 in Fig. 3c, d, respectievelijk. Cluster 5 heeft een kleiner deel van de activiteit kliffen en, over het algemeen, een gladder SAR dan cluster 2. Daarom, alvorens sommige voorspellende modellen toe te passen zou het kunnen worden overwogen om samenstellingen in clusters met een onregelmatiger SAR (zoals cluster 2) te verwijderen. Een dergelijke aanpak wordt “activity landscape sweeping” genoemd en wordt verder beschreven in .

Fig. 4
figuur 4

Consensus diversity plot (CDP) toegepast op vijf datasets (clusters) in een bibliotheek van AKT-remmers. Vingerafdrukdiversiteit (x-as) wordt berekend door middel van de mediaanwaarde van de maccs-toetsen/Tanimoto-similarity matrix, terwijl scaffold diversity (y-as) het gebied onder de curve van de cyclische systeemherstelcurve vertegenwoordigt. Voor beide statistieken worden lagere waarden geassocieerd met meer diversiteit. CDP is verdeeld in kwadranten, waarbij de corresponderende gemiddelde waarde van de zes datasets voor elke as in aanmerking wordt genomen. De grootte van de datapunten vertegenwoordigt hun relatieve aantal verbindingen, terwijl kleur Het gemiddelde van de Euclidische afstand van fysisch-chemische eigenschappen vertegenwoordigt (rode kleur vertegenwoordigt minder diversiteit en groen vertegenwoordigt meer diversiteit). (Kleur figuur online)

laten we nu de totale diversiteit van de vijf clusters in Fig. 3 met behulp van CDP. Met PUMA berekenen we voor elke cluster de Euclidische afstanden van fysisch-chemische eigenschappen (PCP), de mediaan van paarsgewijze gelijkenis van vingerafdrukken (met behulp van MACCS-toetsen en de Tanimoto-coëfficiënt) en het gebied onder de steigerherstelcurve. Met deze gegevens kunnen we het CDP-sjabloon invullen dat beschikbaar is op de website van de applicatie. Tot slot maken we de CDP en passen de plot aan. Het resultaat is weergegeven in Fig. 4, waar elke punt een cluster vertegenwoordigt, de grootte van de punt evenredig is met het aantal samenstellingen in een cluster, de kleur is relatief aan de intra-database PCP gemiddelde Euclidische afstand, de X-as vertegenwoordigt de mediaan van MACCS paarsgewijze gelijkenis en de Y-as vertegenwoordigt het gebied onder de steigerterugwinningscurve. Het is te zien in Fig. 4 dat cluster 5 ook het minst divers is, wat, althans gedeeltelijk, het kleinere deel van de activiteit kliffen zou kunnen verklaren. Cluster 1 daarentegen is het meest divers. Door de resultaten in vijgen te beschouwen. 2 en 3 Het zou kunnen worden geadviseerd om experimentele resultaten van meer diverse samenstellingen met betrekking tot molecules in cluster 5 te verkrijgen. Nochtans, zouden de samenstellingen in cluster 5 geschikter zijn voor voorspellende benaderingen, gezien zijn vlotte SAR.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.