Chemioinformatica: una prospettiva da un ambiente accademico in America Latina

Analogamente ad altri gruppi accademici che lavorano sulla chemioinformatica, le attività di ricerca svolte a DIFACQUIM possono essere organizzate in due gruppi principali schematicamente delineati in Fig. 1: (1) sviluppo o perfezionamento di concetti e (2) applicazioni di metodi sviluppati internamente o da altri gruppi.

A loro volta, i concetti e i metodi sviluppati possono essere suddivisi come segue: (1) metodi per le relazioni struttura–attività (SAR), in particolare utilizzando il concetto di activity landscape modeling (ALM); (2) sviluppo di applicazioni ad accesso aperto per esplorare database chimici (attualmente raccolti in D-Tools, vide infra); e (3) analisi dello spazio chimico e diversità delle librerie chimiche.

Fig. 2
figura2

D-Strumenti: una trama di diversità di consenso; b plotter di paesaggio di attività; c piattaforma unificata per l’analisi molecolare (PUMA)

le Applicazioni sono focalizzate su cinque aree principali: (1) epi-informatica, cioè, di informazioni chimiche metodi applicati per l’epigenetica; (2) metodi computazionali applicate alle malattie infettive; (3) il peptide-based; (4) prodotto naturale a base di scoperta della droga; e (5) foodinformatics, cioè, informazioni chimiche approcci di chimica degli alimenti, che sono state estese anche al sapore e profumi uguali (Fig. 1). Le prossime sottosezioni discutono queste aree.

SAR utilizzando il concetto di activity landscape modeling

ALM è utile nella scoperta di farmaci per valutare se il principio di somiglianza si applica efficacemente a un determinato set di dati. Il principio di somiglianza afferma che i composti strutturalmente simili avrebbero proprietà più simili. Questa è una forte ipotesi su cui si basano i modelli predittivi basati sulla struttura chimica . Le intuizioni del panorama delle attività possono essere sfruttate in chimica medicinale per trovare motivi strutturali rilevanti per l’attività di un composto verso uno o più obiettivi . La teoria e l’applicazione di ALM è stata ampiamente sviluppata da DIFACQUIM e da altri gruppi di ricerca . Principalmente, il contributo di DIFACQUIM in ALM è stato l’ulteriore sviluppo di mappe di somiglianza struttura–attività (SAS), che sono state proposte da Shanmugasundaram e Maggiora per rilevare visivamente le scogliere di attività e valutare la SAR . Esempi di recenti sviluppi in questo settore sono le mappe SAS di densità e lo spazzamento del paesaggio di attività, che vengono discussi di seguito.

Densità Mappe SAS

A condizione che le mappe SAS rappresentino ogni confronto struttura–attività associato in un set di dati chimici, il numero schiacciante di punti dati (ogni punto dati che rappresenta un confronto a coppie), anche per set di dati relativamente piccoli, può rendere difficile una valutazione visiva per determinare le regioni nella mappa. A tal fine, sono state sviluppate mappe SAS di densità, in cui piccole aree della stessa superficie sono colorate in base al numero di punti dati (ad esempio, confronti a coppie) che contengono . Questo approccio è stato successivamente introdotto e implementato in un server online (vedere la sezione” Activity landscape plotter (ALP)”).

Activity landscape sweeping

È interessante notare che, in alcuni set di dati, il contributo delle scogliere di attività è sproporzionatamente alto all’interno di alcuni cluster sottostrutturali. Questi risultati puntano verso aree con un SAR più fluido (cioè composti simili hanno attività simile) nello spazio chimico, che potrebbe essere più adatto per la modellazione predittiva . L’idea alla base di activity landscape sweeping è quella di analizzare cluster di composti definiti attraverso la somiglianza strutturale, al fine di studiare individualmente la SAR di questi cluster e il loro contributo alla SAR complessiva di una libreria. Un esempio di spazzamento del paesaggio di attività è presentato nella sezione” Esempio: paesaggio di attività e diversità degli inibitori di AKT”.

Strumenti online: DIFACQUIM tools for chemoinformatics (D-TOOLS)

Gli strumenti accessibili al pubblico sviluppati da DIFACQUIM sono stati collettivamente denominati “D-Tools” . Lo scopo generale di D-Tools è quello di fornire risorse online liberamente disponibili per calcolare le proprietà molecolari e le impronte digitali molecolari, analizzare la copertura e la diversità dello spazio chimico ed esplorare SAR di set di dati di screening utilizzando i principi della modellazione del paesaggio di attività. Tutte le applicazioni disponibili in D-Tools sono destinate all’uso accademico e, come molti altri server pubblici, il loro uso e l’interpretazione dei risultati è responsabilità dell’utente. Ulteriori dettagli sono riportati nelle rispettive pubblicazioni . Ultimamente, molte risorse per l’analisi di SAR, ALM e diversità di librerie chimiche sono state aggiunte a D-Tools. D-Tools, mentre in costante sviluppo, attualmente sono costituiti da tre applicazioni: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP) e (3) Platform for Unified Molecular Analysis (PUMA) (Fig. 2). Le caratteristiche principali e gli usi di ogni applicazione, compresi gli usi pubblicati, sono discussi nelle prossime sezioni.

Consensus diversity plots (CDPS)

I CDPS sono stati sviluppati al fine di ottenere un rendering integrativo di diverse metriche di diversità delle librerie chimiche . I CDP sono rappresentazioni a bassa dimensione-tipicamente 2D-della diversità “totale” o “globale” dei database composti che considerano più criteri contemporaneamente, vale a dire: impronte digitali molecolari, scaffold, proprietà fisico-chimiche e numero di composti (dimensione della libreria). Tuttavia, altre metriche di diversità possono essere implementate. In un CDP (Fig. 2a), ogni set di dati è rappresentato con un punto dati. L’asse X rappresenta la diversità chimica basata sulle impronte digitali molecolari, mentre l’asse Y rappresenta la diversità dello scaffold, il colore del punto rappresenta la diversità delle proprietà fisico-chimiche utilizzando una scala continua e la sua dimensione rappresenta la dimensione relativa del set di dati. Ulteriori dettagli di CDPS sono forniti in . Un esempio specifico è presentato nella sezione” Esempio: paesaggio di attività e diversità degli inibitori AKT ” e illustrato in Fig. 4. Come affermato in precedenza, un’applicazione online per la generazione di trame di diversità di consenso è disponibile in D-Tools.

Activity landscape plotter (ALP)

Con l’obiettivo di analizzare la SARs utilizzando il concetto di activity landscape modeling, il server ALP consente all’utente di generare mappe SAS e simili a SAS utilizzando i propri dati di screening. In generale, queste mappe descrivono la relazione tra somiglianza chimica (misurata con impronte digitali molecolari) e differenza di potenza di coppie di composti . Una mappa SAS può essere generata per analizzare il SAR di insiemi di dati composti con un endpoint biologico, ad esempio, valore di attività per un bersaglio molecolare . Le mappe SAS generate con ALP rappresentano la somiglianza strutturale sull’asse X e la differenza di attività sull’asse Y. Il SAR dei set di dati composti con due endpoint biologici può essere analizzato utilizzando mappe DAD (Dual-Activity Difference), che tracciano le differenze di attività per due endpoint biologici sugli assi X e Y, rispettivamente . In entrambi i grafici, i colori aggiungono informazioni ai grafici, come la potenza massima del composto in una coppia e il numero di punti dati. Da notare che i risultati delle analisi sono anche resi scaricabili gratuitamente, inclusi tutti i dati grezzi con informazioni struttura–attività a coppie (quest’ultima nel caso in cui l’utente desideri eseguire ulteriori analisi con altri strumenti).

Piattaforma per l’analisi molecolare unificata(PUMA)

PUMA è un’applicazione online gratuita per l’analisi della diversità basata su chemioinformatica e la visualizzazione dello spazio chimico dei set di dati forniti dall’utente. PUMA integra le metriche per caratterizzare i database composti (ad esempio, il contenuto dello scaffold), analizzare la diversità chimica e visualizzare lo spazio chimico . PUMA ha vantaggi come l’accesso aperto e non dover essere scaricato e installato. Al fine di mantenere la riservatezza dell’utente, i set di dati non vengono conservati dagli sviluppatori dopo l’esecuzione dell’applicazione. PUMA integra ALP e CDP, che sono stati brevemente descritti nella sezione” Consensus diversity plots (CDPS) “e nella sezione” Activity Landscape plotter (ALP)”.

Analisi chimica dello spazio e della diversità

La chemografia, indicata anche come navigazione spaziale chimica, è diventata sempre più rilevante nella scoperta e nella classificazione dei farmaci . Sebbene inizialmente concepito per la caratterizzazione di librerie di chimica combinatoria, il suo potenziale in altre aree della chimica medicinale è stato riconosciuto . Tracciare lo spazio chimico per un dato set di dati potrebbe fornire informazioni significative sulla diversità del set di dati e identificare cluster di composti correlati. Quando combinato con i dati di attività, lo spazio chimico diventa un potente strumento per l’analisi SAR. Va notato che esiste una varietà di descrittori molecolari che potrebbero essere utilizzati per tracciare lo spazio chimico .

Chemical space charting in epigenetics

Questa è una delle principali linee di ricerca del gruppo di ricerca DIFACQUIM. Nel 2015, il nostro gruppo ha riportato una caratterizzazione completa degli inibitori della DNA-metiltransferasi 1 (DNMT1), inclusa l’analisi dello spazio chimico, della diversità, della SAR e dello scaffold . Un anno dopo, lo studio è stato esteso a BET bromodomain e inibitori dell’istone deacetilasi, discutendo la fattibilità della progettazione razionale degli inibitori della doppia attività . In un lavoro di follow-up, il nostro gruppo ha proposto come “diventare intelligenti” nella progettazione di composti chimici che agiscono contro bersagli epigenetici multipli esplorando le relazioni di attività multiple della struttura (SMARt) . I nostri sforzi attuali si concentrano sull’analisi chemioinformatica DNMT3A e DNMT3B. Ci aspettiamo che questi studi forniscano informazioni pertinenti per la progettazione razionale dei farmaci contro questi obiettivi.

Fig. 3
figura3

Esempio di spazzamento del paesaggio di attività applicato a una libreria di inibitori AKT. Generale la densità di struttura–attività somiglianza (SAS) mappa per l’intera biblioteca; b chimica spazio di tutta la libreria ottenuti attraverso l’analisi delle componenti principali (PCA) e colorato da cluster ottenuti tramite k-means clustering; c densità SAS sulla mappa di cluster 2; d densità SAS sulla mappa di cluster 5

Recentemente, due nuovi metodi generali sono stati sviluppati da DIFACQUIM per esplorare e rappresentare spazio chimico: database di impronte digitali e ChemMaps.

Impronte digitali del database

Le impronte digitali del database si basano sul concetto di entropia di Shannon . Essenzialmente, le impronte digitali del database sono progettate per riassumere in una singola impronta le caratteristiche chimiche più rappresentate in un dato set di dati . Due sono le applicazioni più semplici delle impronte digitali del database: (1) rappresentazione visiva dello spazio chimico di grandi librerie e (2) screening virtuale. Ad esempio, le impronte digitali del database sono state recentemente applicate per rappresentare lo spazio chimico di 52 bersagli epigenetici .

ChemMaps

La rappresentazione visiva dello spazio chimico basata su caratteristiche strutturali è considerata computazionalmente costosa. Per spiegare brevemente il problema, molti di questi approcci richiedono il calcolo di una matrice di similarità a coppie che porta rapidamente a un’esplosione combinatoria man mano che cresce il numero di composti da tracciare. Per risolvere il problema, nel nostro gruppo sono state sviluppate ChemMaps . A colpo d’occhio, questo metodo sfrutta il concetto di “satelliti chimici” , che sono molecole che vengono utilizzate come riferimento. Infine, le somiglianze a coppie sono calcolate per ogni molecola rispetto a un insieme ridotto di satelliti, riducendo così notevolmente la complessità del compito. ChemMaps è, al meglio delle nostre conoscenze, il primo algoritmo che seleziona i satelliti all’interno della libreria chimica che viene tracciato, fornendo quindi una maggiore adattabilità rispetto ai metodi precedenti.

Esempio: paesaggio di attività e diversità degli inibitori AKT

Per illustrare alcuni dei metodi menzionati nella sezione “SAR using the concept of activity landscape modeling” e nella sezione “Chemical space and diversity analysis”, consideriamo un set di dati di inibitori AKT ottenuti da ChEMBL . AKT è un obiettivo promettente nello sviluppo di farmaci antitumorali e il nostro gruppo ha già contribuito all’identificazione di nuovi scaffold chimici utilizzando lo screening virtuale basato sulla struttura . La mappa SAS densità del set di dati di inibitori AKT ottenuti da ChEMBL è mostrato in Fig. 3a. Il colore dei contenitori in una mappa SAS densità rappresenta il numero di coppie di composti che rientrano nella rispettiva area della trama . Nota nella regione in alto a destra della trama le scogliere di attività, cioè coppie di composti con elevata somiglianza strutturale ma anche alte differenze di potenza.La figura 3b descrive lo spazio chimico della stessa libreria. Lo spazio chimico del set di dati di inibitori AKT ottenuti da ChEMBL è stato mappato utilizzando i due primi autovettori di un’analisi dei componenti principali della matrice di similarità. I cluster di composti sono stati identificati mediante clustering k-means sui primi sei autovettori, che hanno raccolto circa il 40% della varianza totale. Confrontare le mappe SAS dei cluster 2 e 5 in Fig. 3c, d, rispettivamente. Il cluster 5 ha una percentuale minore di scogliere di attività e, nel complesso, un SAR più fluido rispetto al cluster 2. Pertanto, prima di applicare alcuni modelli predittivi si potrebbe considerare di rimuovere composti in cluster con un SAR più irregolare (come il cluster 2). Tale approccio è chiamato “attività paesaggio spazzare” ed è ulteriormente descritto in .

Fig. 4
figura4

Consensus Diversity plot (CDP) applicato a cinque set di dati (cluster) in una libreria di inibitori AKT. La diversità delle impronte digitali (asse x) è calcolata attraverso il valore mediano della matrice di similarità MACS keys/Tanimoto, mentre la diversità dello scaffold (asse y) rappresenta l’area sotto la curva della curva di recupero dei sistemi ciclici. Per entrambe le metriche, valori più bassi sono associati a una maggiore diversità. CDP è diviso in quadranti considerando il corrispondente valore medio dei sei set di dati per ciascun asse. La dimensione dei punti dati rappresenta il loro numero relativo di composti, mentre il colore rappresenta la media della distanza euclidea delle proprietà fisico-chimiche (il colore rosso rappresenta meno diversità e il verde rappresenta più diversità). (Figura di colore online)

Esaminiamo ora la diversità totale dei cinque cluster in Fig. 3 utilizzando CDP. Con PUMA, calcoliamo per ogni cluster le distanze euclidee delle proprietà fisico-chimiche (PCP), la mediana della somiglianza delle impronte digitali a coppie (usando le chiavi MACCS e il coefficiente Tanimoto) e l’area sotto la curva di recupero dello scaffold. Con questi dati, possiamo compilare il modello CDP disponibile sul sito web dell’applicazione. Infine, rendiamo il CDP e personalizziamo la trama. Il risultato è mostrato in Fig. 4, dove ogni punto rappresenta un cluster, la dimensione del punto è proporzionale al numero di composti in un cluster, il colore è relativo alla distanza euclidea media PCP intra-database, l’asse X rappresenta la mediana della somiglianza a coppie di MACCS e l’asse Y rappresenta l’area sotto la curva di recupero dello scaffold. Può essere visto in Fig. 4 che cluster 5 è anche il meno diversificata, che potrebbe spiegare, almeno in parte, la minore percentuale di scogliere di attività. Al contrario, il cluster 1 è il più vario. Considerando i risultati in Fichi. 2 e 3 si potrebbe raccomandare di ottenere risultati sperimentali di composti più diversi relativi alle molecole nel cluster 5. Tuttavia, i composti nel cluster 5 sarebbero più adatti per gli approcci predittivi, data la sua SAR liscia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.