Chemoinformatics: uma perspectiva a partir de um ambiente acadêmico na América latina

Semelhante à de outros grupos acadêmicos trabalhando em chemoinformatics, as atividades de pesquisa realizadas no DIFACQUIM podem ser organizadas em dois grandes grupos, esquematicamente descritas na Fig. 1: (1) desenvolvimento ou aperfeiçoamento de conceitos, e (2) aplicações de métodos desenvolvidos internamente ou por outros grupos.Por sua vez, os conceitos e métodos desenvolvidos podem ser subdivididos da seguinte forma:: (1) métodos para as relações estrutura–actividade (SAR), em especial utilizando o conceito de modelagem da paisagem de actividade (ALM); (2) Desenvolvimento de aplicações de acesso aberto para explorar bases de dados químicas (actualmente recolhidas em D-Tools, vide infra); e (3) Análise do espaço químico e da diversidade das bibliotecas químicas.

Fig. 2
Figura 2

D-Ferramentas: Uma parcela de diversidade consensual; B Activity landscape plotter; c plataforma para a unificação de análise molecular (PUMA)

as Aplicações estão agrupadas em cinco áreas principais: (1) epi-informática, por exemplo, de informações químicas métodos aplicados para epigenética; (2) métodos computacionais aplicados a doenças infecciosas; (3) peptídeo-base; (4) natural com base no produto de descoberta de drogas; e (5) foodinformatics, i.é., informações químicas abordagens para alimentar a química que tem sido estendida para dar sabor e fragrâncias iguais (Fig. 1). As subsecções seguintes discutem estas áreas.

SAR usando o conceito de modelagem da paisagem de atividade

ALM é útil na descoberta de drogas para avaliar se o princípio de similaridade efetivamente se aplica a um dado conjunto de dados. O princípio da similaridade afirma que compostos estruturalmente semelhantes teriam propriedades mais similares. Esta é uma forte suposição sobre a qual os modelos preditivos baseados na estrutura química dependem . Insights from activity landscape can be exploited in medicinal chemistry to find structural motifs relevant to a compound’s activity toward one or more targets . A teoria e aplicação da ALM tem sido amplamente desenvolvida por DIFACQUIM e outros grupos de pesquisa . Principalmente, a contribuição de DIFACQUIM na ALM tem sido o desenvolvimento adicional de mapas de similaridade estrutura–atividade (SAS), que foram propostos por Shanmugasundaram e Maggiora para detectar visualmente falésias de atividade e avaliar SAR . Exemplos de desenvolvimentos recentes nesta área são mapas de densidade SAS e paisagem de atividade varredura, que são discutidos em seguida.

Density SAS maps

desde que os mapas SAS retratem cada comparação estrutura–atividade emparelhada em um conjunto de dados químicos, o número esmagador de pontos de dados (cada ponto de dados representa uma comparação emparelhada), mesmo para conjuntos de dados relativamente pequenos, pode tornar difícil uma avaliação visual para determinar as regiões no mapa. Para este fim, mapas de densidade SAS foram desenvolvidos, onde pequenas áreas da mesma superfície são coloridas com base no número de pontos de dados (i.e., comparações emparelhadas) que eles contêm . Esta abordagem foi mais tarde introduzida e implementada em um servidor online (veja a seção “Activity landscape plotter (ALP)”).

paisagem de actividade varrendo

curiosamente, em alguns conjuntos de dados, a contribuição dos penhascos de actividade é desproporcionalmente elevada dentro de alguns clusters subestruturais. Estes resultados apontam para áreas com uma SAR mais suave (ou seja, compostos similares têm atividade similar) no espaço químico, que poderia ser mais adequado para modelagem preditiva . A idéia por trás da varredura da paisagem de atividade é analisar aglomerados de compostos definidos através de similaridade estrutural, a fim de estudar individualmente a SAR desses aglomerados e sua contribuição para a SAR geral de uma biblioteca. Um exemplo de varredura da paisagem de atividade é apresentado na seção “exemplo: paisagem de atividade e diversidade de inibidores da AKT”.

on-line tools: DIFACQUIM tools for chemoinformatics (D-TOOLS)

The publicly accessible tools developed by DIFACQUIM have been collectively named “D-Tools” . O objetivo geral das D-Tools é fornecer recursos online livremente disponíveis para computar propriedades moleculares e impressões moleculares, analisar a cobertura e diversidade do espaço químico, e explorar o SAR de rastreamento de conjuntos de dados usando os princípios de modelagem da paisagem de atividade. Todas as aplicações disponíveis Em D-Tools são destinadas a uso acadêmico e, como muitos outros servidores públicos, a sua utilização e interpretação dos resultados é da responsabilidade do Usuário. As publicações correspondentes fornecem informações mais pormenorizadas . Ultimamente, muitos recursos para a análise de SAR, ALM e diversidade de bibliotecas químicas foram adicionados a D-Tools. D-Tools, while in constant development, currently consist of three applications: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP), and (3) Platform for Unified Molecular Analysis (PUMA) (Fig. 2). As principais características e usos de cada aplicação, incluindo usos publicados, são discutidos nas próximas seções.

parcelas de diversidade consensual (CDPs)

CDPs foram desenvolvidos a fim de alcançar uma renderização integrativa de várias métricas de diversidade de bibliotecas químicas . CDPs são representações bidimensionais-tipicamente 2D – da diversidade” total “ou” global ” de bases de dados compostas considerando vários critérios simultaneamente, nomeadamente: impressões moleculares, Andaimes, propriedades físico-químicas e número de compostos (tamanho da biblioteca). No entanto, outras métricas de diversidade podem ser implementadas. In a CDP (Fig. 2a), cada conjunto de dados é representado com um ponto de dados. O eixo X representa a diversidade química de base molecular impressões digitais, enquanto o eixo Y representa o andaime diversidade, a cor do ponto representa as propriedades físico-químicas diversidade, utilizando uma escala contínua, e seu tamanho representa o tamanho relativo do conjunto de dados. São fornecidos mais pormenores sobre os CDPs . Um exemplo específico é apresentado na secção” exemplo: paisagem de actividade e diversidade de inibidores da AKT” e ilustrado na Fig. 4. Como já foi dito, uma aplicação online para gerar gráficos de diversidade consensual está disponível em D-Tools.

Activity landscape plotter (ALP)

com o objectivo de analisar SARs usando o conceito de actividade de modelagem paisagística, o servidor ALP permite ao utilizador gerar mapas SAS e SAS com base nos seus próprios dados de triagem. Em geral, estes mapas retratam a relação entre similaridade química (medida com impressões digitais moleculares) e diferença de potência de pares de compostos . Um mapa SAS pode ser gerado para analisar o SAR de conjuntos de dados de compostos com um endpoint biológico, por exemplo, valor de atividade para um alvo molecular . Os mapas SAS gerados com ALP representam a similaridade estrutural no eixo X e a diferença de atividade no eixo Y. O SAR de conjuntos de dados compostos com dois parâmetros biológicos pode ser analisado usando mapas de diferença de atividade dupla (DAD), que plotam as diferenças de atividade para dois parâmetros biológicos nos eixos X e Y, respectivamente . Em ambos os grafos, as cores adicionam informações aos gráficos, como a potência máxima do composto em um par, e o número de pontos de dados. De notar, os resultados das análises também são feitos gratuitamente para download, incluindo todos os dados brutos com informações de estrutura–atividade emparelhada (este último caso o usuário quer realizar análises adicionais com outras ferramentas).

Platform for unified molecular analysis (puma)

PUMA is a free online application for chemoinformatic-based diversity analysis and visualization of chemical space of user-suppled data sets. PUMA integra métricas para caracterizar bancos de dados compostos (por exemplo, conteúdo de andaimes), analisar a diversidade química e visualizar o espaço químico . O PUMA tem vantagens como ser de acesso aberto e não ter que ser baixado e instalado. A fim de manter a confidencialidade do usuário, os conjuntos de dados não são mantidos pelos desenvolvedores após a aplicação ter sido executada. PUMA integra ALP e CDP, que foram brevemente descritos na seção “Consensus diversity plots (CDPs)” e na seção “Activity landscape plotter (ALP)”.

a análise química do espaço e da diversidade

a Quimiografia, também conhecida como navegação espacial química, tornou-se cada vez mais relevante na descoberta e classificação de drogas . Embora inicialmente concebido para a caracterização de bibliotecas de química combinatória, seu potencial em outras áreas da química medicinal tem sido reconhecido . Cartografar o espaço químico para um dado conjunto de dados poderia fornecer insights significativos sobre a diversidade do conjunto de dados e identificar aglomerados de compostos relacionados. Quando combinado com dados de atividade, o espaço químico torna-se uma ferramenta poderosa para a análise SAR. Note-se que existe uma variedade de descritores moleculares que podem ser usados para mapear o espaço químico .Esta é uma das principais linhas de pesquisa do grupo de pesquisa DIFACQUIM. Em 2015, nosso grupo relatou uma caracterização abrangente de inibidores da DNA-metiltransferase 1 (DNMT1), incluindo espaço químico, diversidade, SAR e análise de andaimes . Um ano depois, o estudo foi estendido para Bet bromodomain e inibidores da histona deacetilase, discutindo a viabilidade do design racional de inibidores de dupla atividade . Em um trabalho de acompanhamento, nosso grupo propôs como “ficar inteligente” no projeto de compostos químicos atuando contra múltiplos alvos epigenéticos, explorando a estrutura de relações de atividade múltipla (SMARt) . Nossos esforços atuais se concentram na análise quimioinformática DNMT3A e DNMT3B. Esperamos que esses estudos proporcionem insights relevantes para a concepção racional de drogas contra esses objetivos.

Fig. 3
Figura 3

exemplo de varrimento paisagístico da atividade aplicado a uma biblioteca de inibidores da AKT. Geral a densidade de estrutura–atividade de similaridade (SAS) mapa para a biblioteca; b químicos espaço da biblioteca inteira obtidos através de análise de componentes principais (PCA) e colorido por cluster como obtido através de k-means clustering; c densidade SAS mapa do cluster 2; d densidade SAS mapa do cluster 5

Recentemente, dois novos métodos gerais foram desenvolvidos por DIFACQUIM para explorar e representar químicos espaço: banco de dados de impressões digitais e ChemMaps.As impressões digitais das bases de dados são baseadas no conceito de Shannon entropy . Essencialmente, as impressões digitais de banco de dados são projetadas para resumir em uma única impressão digital as características químicas mais representadas em um determinado conjunto de dados . Duas são as aplicações mais simples das impressões digitais de banco de dados: (1) representação visual do espaço químico de grandes bibliotecas, e (2) triagem virtual. Por exemplo, as impressões digitais de banco de dados foram recentemente aplicadas para representar o espaço químico de 52 alvos epigenéticos .

ChemMaps

a representação Visual do espaço químico com base em características estruturais é considerada como computacionalmente cara. Para explicar brevemente a questão, muitas dessas abordagens requerem o cálculo de uma matriz de similaridade emparelhada que rapidamente leva a uma explosão combinatória à medida que o número de compostos a serem mapeados cresce. Para resolver o problema, Quimmaps foram desenvolvidos em nosso grupo . Num relance, este método explora o conceito de” satélites químicos”, que são moléculas que são usadas como referência. Finalmente, as semelhanças emparelhadas são calculadas para cada molécula contra um conjunto reduzido de satélites, reduzindo assim muito a complexidade da tarefa. ChemMaps é, tanto quanto sabemos, o primeiro algoritmo que seleciona os satélites dentro da biblioteca química que está sendo mapeada, proporcionando, portanto, maior adaptabilidade do que os métodos anteriores.Exemplo: paisagem de actividade e diversidade de inibidores da AKT

para ilustrar alguns dos métodos mencionados na secção” SAR usando o conceito de modelagem da paisagem de actividade “e na secção” análise do espaço químico e da diversidade”, consideremos um conjunto de dados de inibidores da AKT obtidos de ChEMBL . A AKT é um alvo promissor no desenvolvimento de medicamentos anticancerígenos, e o nosso grupo já contribuiu anteriormente para a identificação de novos Andaimes químicos utilizando um rastreio virtual baseado em estruturas . O mapa da densidade SAS do conjunto de dados de inibidores da AKT obtidos a partir de ChEMBL é apresentado na Fig. 3a. a cor dos contentores num mapa de densidade SAS representa o número de pares de compostos que se inserem na respectiva área da parcela . Note-se que na região direita superior da parcela os penhascos de atividade, ou seja, pares de compostos com alta similaridade estrutural, mas também grandes diferenças de potência.A figura 3b mostra o espaço químico da mesma biblioteca. O espaço químico do conjunto de dados de inibidores AKT obtidos a partir de ChEMBL foi mapeado usando os dois primeiros autovetores de uma análise de componentes principais da matriz de similaridade. Clusters of compounds were identified by k-means clustering on the first six eigenvectors, which gathered around 40% of the total variance. Compare os mapas SAS dos aglomerados 2 e 5 na Fig. 3c, d, respectivamente. O Cluster 5 tem uma proporção menor de falésias de atividade e, no geral, uma SAR mais suave do que o cluster 2. Portanto, antes de aplicar alguns modelos preditivos, poderia ser considerado remover compostos em aglomerados com uma SAR mais irregular (como o cluster 2). Tal abordagem é chamada de “paisagem de atividade varredura” e é descrito mais adiante .

Fig. 4
Figura 4

Consensus diversity plot (CDP) applied to five data sets (clusters) in a library of AKT inhibitors. A diversidade de impressões digitais (eixo x) é calculada através do valor mediano das chaves MACCS/matriz de similaridade Tanimoto, enquanto a diversidade de andaimes (eixo y) representa a área sob a curva da curva de recuperação de sistemas cíclicos. Para ambas as métricas, valores mais baixos estão associados com mais diversidade. A CDP é dividida em quadrantes, considerando o valor médio correspondente dos seis conjuntos de dados para cada eixo. O tamanho dos pontos de dados representa seu número relativo de compostos, enquanto a cor representa a média da distância Euclidiana das propriedades físico-químicas (a cor vermelha representa menos diversidade e o verde representa mais diversidade). (Figura de cores em linha)

exploremos agora a diversidade total dos cinco aglomerados da Figo. 3 usando CDP. Com PUMA, calculamos para cada aglomerado as distâncias euclidianas das propriedades físico-químicas (PCP), a mediana da semelhança de impressões digitais em pares (usando chaves MACCS e o coeficiente Tanimoto) e a área sob a curva de recuperação do andaime. Com estes dados, podemos preencher o modelo CDP disponível no site da aplicação. Finalmente, rendemos a CDP e personalizamos o enredo. O resultado é mostrado na Fig. 4, onde cada ponto representa um cluster, o tamanho do ponto é proporcional ao número de compostos em um cluster, a cor é relativa intra-banco de dados de PCP média distância Euclidiana, o eixo X representa a mediana do MACCS par de similaridade e o eixo Y representa a área sob o andaime de recuperação de curva. Pode ser visto na Fig. 4 esse grupo 5 é também o menos diversificado, o que poderia explicar, pelo menos parcialmente, a menor proporção de falésias de atividade. Em contraste, o cluster 1 é o mais diversificado. Considerando os resultados em figos. 2 e 3 recomenda-se a obtenção de resultados experimentais de compostos mais diversos relacionados com moléculas do agregado 5. No entanto, compostos no cluster 5 seriam mais adequados para abordagens preditivas, dado o seu SAR suave.

Deixe uma resposta

O seu endereço de email não será publicado.