Quimioinformática: una perspectiva desde un entorno académico en América Latina

Al igual que otros grupos académicos que trabajan en quimioinformática, las actividades de investigación realizadas en DIFACQUIM se pueden organizar en dos grupos principales esbozados esquemáticamente en la Fig. 1: (1) desarrollo o refinamiento de conceptos, y (2) aplicaciones de métodos desarrollados internamente o por otros grupos.

A su vez, los conceptos y métodos desarrollados se pueden subdividir de la siguiente manera: (1) métodos para las relaciones estructura-actividad (SAR), en particular utilizando el concepto de modelado del paisaje de actividades (ALM); (2) desarrollo de aplicaciones de acceso abierto para explorar bases de datos químicos (actualmente recogidas en D-Tools, vide infra); y (3) análisis del espacio químico y la diversidad de bibliotecas químicas.

Fig. 2
figura 2

D-Herramientas: a gráfica de diversidad de consenso; b trazador de paisaje de actividad; plataforma c para análisis molecular unificado (PUMA)

Las aplicaciones se centran en cinco áreas principales: (1) epi-informática, es decir, métodos de información química aplicados a la epigenética; (2) métodos computacionales aplicados a enfermedades infecciosas; (3) basados en péptidos; (4) descubrimiento de fármacos basados en productos naturales; y (5) información alimentaria, es decir, enfoques de información química para la química de los alimentos que se han extendido a sabores y fragancias por igual (Fig. 1). En las siguientes subsecciones se tratan estas áreas.

SAR utilizando el concepto de modelado de paisaje de actividad

ALM es útil en el descubrimiento de fármacos para evaluar si el principio de similitud se aplica efectivamente a un conjunto de datos dado. El principio de similitud establece que los compuestos que son estructuralmente similares tendrían propiedades más similares. Esta es una fuerte suposición en la que se basan los modelos predictivos basados en la estructura química . Los conocimientos del paisaje de actividades se pueden aprovechar en química medicinal para encontrar motivos estructurales relevantes para la actividad de un compuesto hacia uno o más objetivos . La teoría y aplicación de ALM ha sido ampliamente desarrollada por DIFACQUIM y otros grupos de investigación . Principalmente, la contribución de DIFACQUIM en ALM ha sido el desarrollo de mapas de similitud estructura–actividad (SAS), que fueron propuestos por Shanmugasundaram y Maggiora para detectar visualmente los acantilados de actividad y evaluar el SAR . Ejemplos de desarrollos recientes en esta área son los mapas SAS de densidad y el barrido del paisaje de actividades, que se discuten a continuación.

Mapas SAS de densidad

Siempre que los mapas SAS representen cada comparación de estructura y actividad emparejada en un conjunto de datos químicos, el abrumador número de puntos de datos (cada punto de datos representa una comparación de pares), incluso para conjuntos de datos relativamente pequeños, puede dificultar una evaluación visual para determinar regiones en el mapa. Con este fin, se desarrollaron mapas SAS de densidad, donde pequeñas áreas de la misma superficie se colorean en función del número de puntos de datos (es decir, comparaciones en pares) que contienen . Este enfoque se introdujo e implementó más tarde en un servidor en línea (consulte la sección «Trazador de paisajes de actividad (ALP)»).

Barrido del paisaje de actividad

Curiosamente, en algunos conjuntos de datos, la contribución de los acantilados de actividad es desproporcionadamente alta dentro de algunos grupos subestructurales. Estos resultados apuntan hacia áreas con un SAR más suave (es decir, compuestos similares tienen actividad similar) en el espacio químico, lo que podría ser más adecuado para el modelado predictivo . La idea detrás del barrido del paisaje de actividades es analizar grupos de compuestos definidos a través de la similitud estructural, con el fin de estudiar individualmente el SAR de estos grupos y su contribución al SAR general de una biblioteca. Un ejemplo de barrido de paisaje de actividad se presenta en la sección «Ejemplo: paisaje de actividad y diversidad de inhibidores de AKT».

Herramientas en línea: Herramientas DIFACQUIM para quimioinformática (HERRAMIENTAS D)

Las herramientas de acceso público desarrolladas por DIFACQUIM se han denominado colectivamente «Herramientas D». El propósito general de D-Tools es proporcionar recursos en línea disponibles de forma gratuita para calcular las propiedades moleculares y las huellas moleculares, analizar la cobertura y la diversidad del espacio químico y explorar el SAR de los conjuntos de datos de cribado utilizando los principios del modelado de paisajes de actividad. Todas las aplicaciones disponibles en D-Tools están destinadas al uso académico y, como muchos otros servidores públicos, su uso y la interpretación de los resultados es responsabilidad del usuario. En las publicaciones respectivas se dan más detalles al respecto . Últimamente, se han agregado muchos recursos para el análisis de SAR, ALM y diversidad de bibliotecas químicas a D-Tools. D-Tools, aunque está en constante desarrollo, actualmente consta de tres aplicaciones: (1) Gráfica de Diversidad de Consenso (CDP), (2) Trazador de Paisaje de Actividad (ALP) y (3) Plataforma para Análisis Molecular Unificado (PUMA) (Fig. 2). Las principales características y usos de cada aplicación, incluidos los usos publicados, se discuten en las siguientes secciones.

Gráficas de diversidad de consenso (CDP)

Se desarrollaron CDP con el fin de lograr una representación integradora de varias métricas de diversidad de bibliotecas químicas . Los CDP son representaciones de baja dimensión, típicamente 2D, de la diversidad «total» o «global» de bases de datos de compuestos que consideran múltiples criterios simultáneamente, a saber: huellas moleculares, andamios, propiedades fisicoquímicas y número de compuestos (tamaño de biblioteca). Sin embargo, se pueden implementar otras métricas de diversidad. En un CDP (Fig. 2a), cada conjunto de datos se representa con un punto de datos. El eje X representa la diversidad química basada en huellas moleculares, mientras que el eje Y representa la diversidad de andamios, el color del punto representa la diversidad de propiedades fisicoquímicas utilizando una escala continua, y su tamaño representa el tamaño relativo del conjunto de datos. Más detalles sobre los CDP se proporcionan en . Un ejemplo específico se presenta en la sección «Ejemplo: paisaje de actividad y diversidad de inhibidores de AKT» y se ilustra en la Fig. 4. Como se indicó anteriormente, una aplicación en línea para generar gráficas de diversidad de consenso está disponible en D-Tools.

Trazador de paisajes de actividad (ALP)

Con el objetivo de analizar el SARs utilizando el concepto de modelado de paisajes de actividad, el servidor ALP permite al usuario generar SAS y mapas similares a SAS utilizando sus propios datos de detección. En general, estos mapas representan la relación entre la similitud química (medida con huellas moleculares) y la diferencia de potencia de pares de compuestos . Se puede generar un mapa SAS para analizar el SAR de conjuntos de datos de compuestos con un punto final biológico, por ejemplo, el valor de actividad de un objetivo molecular . Los mapas SAS generados con ALP representan la similitud estructural en el eje X y la diferencia de actividad en el eje Y. El SAR de conjuntos de datos compuestos con dos puntos finales biológicos se puede analizar utilizando mapas de diferencia de doble actividad (DAD), que trazan las diferencias de actividad para dos puntos finales biológicos en los ejes X e Y, respectivamente . En ambos gráficos, los colores agregan información a los gráficos, como la potencia máxima del compuesto en un par y el número de puntos de datos. Cabe destacar que los resultados de los análisis también se pueden descargar de forma gratuita, incluidos todos los datos sin procesar con información de actividad de estructura en pares (esta última en caso de que el usuario quiera realizar análisis adicionales con otras herramientas).

Plataforma para el análisis molecular unificado (PUMA)

PUMA es una aplicación en línea gratuita para el análisis de diversidad basado en quimioinformática y la visualización del espacio químico de conjuntos de datos suministrados por el usuario. PUMA integra métricas para caracterizar bases de datos compuestas (por ejemplo, contenido de andamios), analizar la diversidad química y visualizar el espacio químico . PUMA tiene ventajas como ser de acceso abierto y no tener que ser descargado e instalado. Con el fin de mantener la confidencialidad del usuario, los conjuntos de datos no son guardados por los desarrolladores después de que se ha ejecutado la aplicación. PUMA integra ALP y CDP , que se describieron brevemente en la sección «Gráficas de diversidad de consenso (CDP)» y en la sección «Trazador de paisaje de actividad (ALP)».

Análisis químico del espacio y la diversidad

La quimiografía, también conocida como navegación espacial química, se ha vuelto cada vez más relevante en el descubrimiento y la clasificación de medicamentos . Aunque inicialmente fue diseñado para la caracterización de bibliotecas de química combinatoria, su potencial en otras áreas de la química medicinal ha sido reconocido . Trazar el espacio químico para un conjunto de datos determinado podría proporcionar información significativa sobre la diversidad del conjunto de datos e identificar grupos de compuestos relacionados. Cuando se combina con datos de actividad, el espacio químico se convierte en una poderosa herramienta para el análisis de SAR. Cabe señalar que existe una variedad de descriptores moleculares que podrían utilizarse para trazar el espacio químico .

Chemical space charting en epigenética

Esta es una de las principales líneas de investigación del grupo de investigación DIFACQUIM. En 2015, nuestro grupo informó de una caracterización exhaustiva de los inhibidores de la ADN-metiltransferasa 1 (DNMT1), que incluía análisis de espacio químico, diversidad, SAR y armazones . Un año más tarde, el estudio se extendió a los inhibidores de bromodominio e histona deacetilasa, discutiendo la viabilidad del diseño racional de inhibidores de doble actividad . En un trabajo de seguimiento, nuestro grupo propuso cómo «volverse inteligente» en el diseño de compuestos químicos que actúan contra múltiples objetivos epigenéticos explorando relaciones de estructura de actividad múltiple (SMARt) . Nuestros esfuerzos actuales se centran en el análisis quimioinformático DNMT3A y DNMT3B. Esperamos que estos estudios proporcionen información relevante para el diseño racional de medicamentos contra estos objetivos.

Fig. 3
figura 3

Ejemplo de barrido de paisaje de actividad aplicado a una biblioteca de inhibidores de AKT. a Mapa de similitud estructura–actividad de densidad general (SAS) para toda la biblioteca; b espacio químico de toda la biblioteca obtenido a través del análisis de componentes principales (PCA) y coloreado por clúster tal como se obtiene a través de la agrupación de k-means; mapa SAS de densidad c del clúster 2; mapa SAS de densidad d del clúster 5

Recientemente, DIFACQUIM desarrolló dos nuevos métodos generales para explorar y representar el espacio químico: huellas dactilares de bases de datos y mapas químicos.

Huellas dactilares de base de datos

Las huellas dactilares de base de datos se basan en el concepto de entropía de Shannon . Esencialmente, las huellas dactilares de la base de datos están diseñadas para resumir en una sola huella las características químicas más representadas en un conjunto de datos dado . Dos son las aplicaciones más sencillas de huellas dactilares de bases de datos: (1) representación visual del espacio químico de grandes bibliotecas, y (2) cribado virtual. Por ejemplo, las huellas dactilares de la base de datos se han aplicado recientemente para representar el espacio químico de 52 blancos epigenéticos .

ChemMaps

La representación visual del espacio químico basada en características estructurales se considera computacionalmente costosa. Para explicar brevemente el problema, muchos de estos enfoques requieren el cálculo de una matriz de similitud en pares que conduce rápidamente a una explosión combinatoria a medida que aumenta el número de compuestos a trazar. Para abordar el problema, se desarrollaron mapas químicos en nuestro grupo . De un vistazo, este método explota el concepto de «satélites químicos», que son moléculas que se utilizan como referencia. Finalmente, las similitudes en pares se calculan para cada molécula contra un conjunto reducido de satélites, lo que reduce en gran medida la complejidad de la tarea. ChemMaps es, hasta donde sabemos, el primer algoritmo que selecciona los satélites de la biblioteca química que se está trazando, por lo que proporciona una mayor adaptabilidad que los métodos anteriores.

Ejemplo: paisaje de actividad y diversidad de inhibidores de AKT

Para ilustrar algunos de los métodos mencionados en la sección «SAR usando el concepto de modelado de paisaje de actividad «y en la sección» Análisis de espacio químico y diversidad», consideremos un conjunto de datos de inhibidores de AKT obtenidos de ChEMBL . AKT es un objetivo prometedor en el desarrollo de medicamentos contra el cáncer, y nuestro grupo ha contribuido previamente a la identificación de nuevos andamios químicos mediante el cribado virtual basado en estructuras . El mapa de densidad SAS del conjunto de datos de inhibidores de AKT obtenidos de ChEMBL se muestra en la Fig. 3a. El color de los contenedores en un mapa SAS de densidad representa el número de pares de compuestos que caen dentro del área respectiva de la gráfica . Observe en la región superior derecha de la gráfica los acantilados de actividad, es decir, pares de compuestos con alta similitud estructural pero también grandes diferencias en potencia.La Figura 3b muestra el espacio químico de la misma biblioteca. El espacio químico del conjunto de datos de inhibidores de AKT obtenidos de ChEMBL se mapeó utilizando los dos primeros vectores propios de un análisis de componentes principales de la matriz de similitud. Los grupos de compuestos se identificaron por agrupamiento de k-means en los primeros seis vectores propios, que reunieron alrededor del 40% de la varianza total. Compare los mapas SAS de los grupos 2 y 5 en la Fig. 3c, d, respectivamente. El cúmulo 5 tiene una menor proporción de acantilados de actividad y, en general, un SAR más suave que el cúmulo 2. Por lo tanto, antes de aplicar algunos modelos predictivos, se podría considerar eliminar compuestos en grupos con un SAR más irregular (como el grupo 2). Este enfoque se denomina «barrido del paisaje de actividades» y se describe con más detalle en .

Fig. 4
figura 4

Gráfico de diversidad de consenso (CDP) aplicado a cinco conjuntos de datos (clústeres) en una biblioteca de inhibidores de AKT. La diversidad de huellas dactilares (eje x) se calcula a través del valor medio de la matriz de similitud de claves MACCS/Tanimoto, mientras que la diversidad de andamios (eje y) representa el área bajo la curva de la curva de recuperación de sistemas cíclicos. Para ambas métricas, los valores más bajos se asocian con más diversidad. CDP se divide en cuadrantes teniendo en cuenta el valor medio correspondiente de los seis conjuntos de datos para cada eje. El tamaño de los puntos de datos representa su número relativo de compuestos, mientras que el color representa la media de la distancia euclidiana de las propiedades fisicoquímicas (el color rojo representa menos diversidad y el verde representa más diversidad). (Figura de color en línea)

Exploremos ahora la diversidad total de los cinco grupos de la Fig. 3 usando CDP. Con PUMA, calculamos para cada grupo las distancias euclidianas de propiedades fisicoquímicas( PCP), la mediana de similitud de huellas dactilares en pares (utilizando claves MACCS y el coeficiente de Tanimoto) y el área bajo la curva de recuperación de andamios. Con estos datos, podemos rellenar la plantilla CDP disponible en el sitio web de la aplicación. Finalmente, renderizamos el CDP y personalizamos la trama. El resultado se muestra en la Fig. 4, donde cada punto representa un clúster, el tamaño del punto es proporcional al número de compuestos en un clúster, el color es relativo a la distancia euclidiana media de PCP dentro de la base de datos, el eje X representa la mediana de la similitud en pares de MACCS y el eje Y representa el área bajo la curva de recuperación de andamios. Se puede ver en la Fig. 4 ese grupo 5 es también el menos diverso, lo que podría explicar, al menos parcialmente, la menor proporción de acantilados de actividad. Por el contrario, el grupo 1 es el más diverso. Considerando los resultados en Figs. 2 y 3 se podría recomendar obtener resultados experimentales de compuestos más diversos relacionados con moléculas en el cluster 5. Sin embargo, los compuestos del grupo 5 serían más adecuados para los enfoques predictivos, dado su SAR suave.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.