Chimioinformatique: une perspective d’un milieu universitaire en Amérique latine

À l’instar d’autres groupes universitaires travaillant sur la chimioinformatique, les activités de recherche menées à DIFACQUIM peuvent être organisées en deux grands groupes schématiquement décrits à la Fig. 1: (1) développement ou raffinement de concepts, et (2) applications de méthodes développées en interne ou par d’autres groupes.

À leur tour, les concepts et méthodes développés peuvent être subdivisés comme suit: (1) méthodes de relations structure–activité (SAR), en particulier en utilisant le concept de modélisation du paysage d’activité (ALM); (2) développement d’applications en libre accès pour explorer les bases de données chimiques (actuellement collectées dans D-Tools, vide infra); et (3) analyse de l’espace chimique et de la diversité des bibliothèques chimiques.

Fig. 2
 figure2

D- Outils : un diagramme de diversité consensuel; b traceur de paysage d’activité; plateforme c pour l’analyse moléculaire unifiée (PUMA)

Les applications se concentrent sur cinq domaines principaux: (1) l’épi-informatique, c’est-à-dire les méthodes d’information chimique appliquées à l’épigénétique; (2) les méthodes de calcul appliquées aux maladies infectieuses; (3) à base de peptides; (4) la découverte de médicaments à base de produits naturels; et (5) l’informatique alimentaire, c’est-à-dire les approches d’information chimique pour la chimie des aliments qui ont été étendues aux arômes et aux parfums (Fig. 1). Les sous-sections suivantes traitent de ces domaines.

SAR utilisant le concept de modélisation du paysage d’activité

ALM est utile dans la découverte de médicaments pour évaluer si le principe de similarité s’applique effectivement à un ensemble de données donné. Le principe de similitude stipule que les composés structurellement similaires auraient des propriétés plus similaires. C’est une hypothèse forte sur laquelle reposent les modèles prédictifs basés sur la structure chimique. Les informations du paysage d’activité peuvent être exploitées en chimie médicinale pour trouver des motifs structurels pertinents à l’activité d’un composé vers une ou plusieurs cibles. La théorie et l’application de l’ALM ont été largement développées par DIFACQUIM et d’autres groupes de recherche. Principalement, la contribution de DIFACQUIM dans ALM a été le développement ultérieur de cartes de similarité structure–activité (SAS), qui ont été proposées par Shanmugasundaram et Maggiora pour détecter visuellement les falaises d’activité et évaluer le DAS. Des exemples de développements récents dans ce domaine sont les cartes SAS de densité et le balayage du paysage d’activité, qui sont discutés ensuite.

Cartes SAS de densité

À condition que les cartes SAS représentent chaque comparaison structure–activité appariée dans un ensemble de données chimiques, le nombre écrasant de points de données (chaque point de données représentant une comparaison par paires), même pour des ensembles de données relativement petits, peut rendre difficile une évaluation visuelle pour déterminer les régions de la carte. À cette fin, des cartes SAS de densité ont été développées, où de petites zones d’une même surface sont colorées en fonction du nombre de points de données (c.-à-d. des comparaisons par paires) qu’elles contiennent. Cette approche a ensuite été introduite et implémentée dans un serveur en ligne (voir la section « Traceur de paysage d’activité (ALP) »).

Balayage du paysage d’activité

Fait intéressant, dans certains ensembles de données, la contribution des falaises d’activité est disproportionnellement élevée dans certains amas sous-structuraux. Ces résultats indiquent des zones avec un DAS plus lisse (c.-à-d. que des composés similaires ont une activité similaire) dans l’espace chimique, ce qui pourrait être plus approprié pour la modélisation prédictive. L’idée derrière le balayage de paysage d’activité est d’analyser des groupes de composés définis par similarité structurelle, afin d’étudier individuellement le DAS de ces groupes et leur contribution au DAS global d’une bibliothèque. Un exemple de balayage de paysage d’activité est présenté dans la section « Exemple: paysage d’activité et diversité des inhibiteurs de l’AKT ».

Outils en ligne: Outils DIFACQUIM pour la chimioinformatique (OUTILS D)

Les outils accessibles au public développés par DIFACQUIM ont été collectivement nommés « Outils D ». L’objectif général de D-Tools est de fournir des ressources en ligne disponibles gratuitement pour calculer les propriétés moléculaires et les empreintes moléculaires, analyser la couverture et la diversité de l’espace chimique et explorer le DAS des ensembles de données de criblage en utilisant les principes de la modélisation du paysage d’activité. Toutes les applications disponibles dans D-Tools sont destinées à un usage académique et, comme de nombreux autres serveurs publics, leur utilisation et l’interprétation des résultats sont de la responsabilité de l’utilisateur. De plus amples détails sont divulgués dans les publications respectives. Dernièrement, de nombreuses ressources pour l’analyse du DAS, de l’ALM et de la diversité des bibliothèques chimiques ont été ajoutées à D-Tools. Les outils D, bien qu’en développement constant, se composent actuellement de trois applications: (1) Diagramme de Diversité Consensuelle (CDP), (2) Traceur de Paysage d’activité (ALP) et (3) Plate-forme d’Analyse Moléculaire Unifiée (PUMA) (Fig. 2). Les principales caractéristiques et utilisations de chaque application, y compris les utilisations publiées, sont discutées dans les sections suivantes.

Diagrammes de diversité consensuels (CDP)

Des CDP ont été développés afin d’obtenir un rendu intégratif de plusieurs métriques de diversité de bibliothèques chimiques. Les CDP sont des représentations de faible dimension – généralement en 2D – de la diversité « totale » ou « globale » des bases de données de composés prenant en compte plusieurs critères simultanément, à savoir : empreintes moléculaires, échafaudages, propriétés physico-chimiques et nombre de composés (taille de la bibliothèque). Cependant, d’autres mesures de diversité peuvent être mises en œuvre. Dans un CDP (Fig. 2a), chaque ensemble de données est représenté par un point de données. L’axe des abscisses représente la diversité chimique basée sur les empreintes moléculaires, tandis que l’axe des ordonnées représente la diversité de l’échafaudage, la couleur du point représente la diversité des propriétés physico-chimiques à l’aide d’une échelle continue et sa taille représente la taille relative de l’ensemble de données. De plus amples détails sur les CDP sont fournis dans. Un exemple spécifique est présenté dans la section « Exemple: paysage d’activité et diversité des inhibiteurs de l’AKT » et illustré à la Fig. 4. Comme indiqué précédemment, une application en ligne pour générer des tracés de diversité consensuels est disponible dans D-Tools.

Traceur de paysage d’activité (ALP)

Dans le but d’analyser le SRAS en utilisant le concept de modélisation de paysage d’activité, le serveur ALP permet à l’utilisateur de générer des cartes SAS et de type SAS en utilisant ses propres données de criblage. En général, ces cartes représentent la relation entre la similitude chimique (mesurée avec des empreintes moléculaires) et la différence de puissance des paires de composés. Une carte SAS peut être générée pour analyser le DAS d’ensembles de données de composés avec un paramètre biologique, par exemple une valeur d’activité pour une cible moléculaire. Les cartes SAS générées avec ALP représentent la similarité structurelle sur l’axe des abscisses et la différence d’activité sur l’axe des ordonnées. Le DAS des ensembles de données composés avec deux paramètres biologiques peut être analysé à l’aide de cartes de différence de double activité (DAD), qui tracent les différences d’activité pour deux paramètres biologiques sur les axes X et Y, respectivement. Dans les deux graphiques, les couleurs ajoutent des informations aux graphiques, telles que la puissance maximale du composé dans une paire et le nombre de points de données. Il est à noter que les résultats des analyses sont également téléchargeables gratuitement, y compris toutes les données brutes avec des informations structure–activité par paires (ces dernières dans le cas où l’utilisateur souhaite effectuer une analyse supplémentaire avec d’autres outils).

Plate-forme d’analyse moléculaire unifiée (PUMA)

PUMA est une application en ligne gratuite pour l’analyse de la diversité basée sur la chimioinformatique et la visualisation de l’espace chimique des ensembles de données fournis par l’utilisateur. PUMA intègre des métriques pour caractériser les bases de données de composés (par exemple, le contenu de l’échafaudage), analyser la diversité chimique et visualiser l’espace chimique. PUMA présente des avantages tels que le libre accès et l’absence de téléchargement et d’installation. Afin de préserver la confidentialité de l’utilisateur, les jeux de données ne sont pas conservés par les développeurs après l’exécution de l’application. PUMA intègre ALP et CDP, qui ont été brièvement décrits dans la section « Parcelles de diversité consensuelle (CDP) » et la section « Traceur de paysage d’activité (ALP) ».

Analyse chimique de l’espace et de la diversité

La chimiographie, également appelée navigation spatiale chimique, est devenue de plus en plus pertinente dans la découverte et la classification des médicaments. Bien qu’initialement conçu pour la caractérisation de bibliothèques de chimie combinatoire, son potentiel dans d’autres domaines de la chimie médicinale a été reconnu. La cartographie de l’espace chimique pour un ensemble de données donné pourrait fournir des informations significatives sur la diversité de l’ensemble de données et identifier des groupes de composés apparentés. Lorsqu’il est combiné avec des données d’activité, l’espace chimique devient un outil puissant pour l’analyse SAR. Il convient de noter qu’il existe une variété de descripteurs moléculaires qui pourraient être utilisés pour cartographier l’espace chimique.

Cartographie de l’espace chimique en épigénétique

C’est l’une des principales lignes de recherche du groupe de recherche DIFACQUIM. En 2015, notre groupe a fait état d’une caractérisation complète des inhibiteurs de l’ADN-méthyltransférase 1 (DNMT1), y compris l’analyse de l’espace chimique, de la diversité, du DAS et de l’échafaudage. Un an plus tard, l’étude a été étendue aux inhibiteurs de la bromodomaine et de l’histone désacétylase, discutant de la faisabilité d’une conception rationnelle des inhibiteurs de la double activité. Dans un travail de suivi, notre groupe a proposé comment « devenir intelligent » dans la conception de composés chimiques agissant contre de multiples cibles épigénétiques en explorant les relations de structure à activités multiples (SMARt). Nos efforts actuels se concentrent sur l’analyse chimioinformatique DNMT3A et DNMT3B. Nous nous attendons à ce que ces études fournissent des informations pertinentes pour la conception rationnelle des médicaments par rapport à ces cibles.

Fig. 3
 figure3

Exemple de balayage de paysage d’activité appliqué à une bibliothèque d’inhibiteurs de l’AKT. une carte de similarité structure–activité de densité générale (SAS) pour l’ensemble de la bibliothèque; b espace chimique de l’ensemble de la bibliothèque obtenu par analyse en composantes principales (PCA) et coloré par cluster tel qu’obtenu par regroupement des moyennes k; c carte SAS de densité du cluster 2; d carte SAS de densité du cluster 5

Récemment, deux nouvelles méthodes générales ont été développées par DIFACQUIM pour explorer et représenter l’espace chimique: les empreintes digitales des bases de données et les ChemMaps.

Empreintes digitales de base de données

Les empreintes digitales de base de données sont basées sur le concept d’entropie de Shannon. Essentiellement, les empreintes digitales des bases de données sont conçues pour résumer en une seule empreinte les caractéristiques chimiques les plus représentées dans un ensemble de données donné. Deux sont les applications les plus simples des empreintes digitales de base de données: (1) représentation visuelle de l’espace chimique des grandes bibliothèques et (2) criblage virtuel. Par exemple, des empreintes digitales de base de données ont été récemment appliquées pour représenter l’espace chimique de 52 cibles épigénétiques.

ChemMaps

La représentation visuelle de l’espace chimique basée sur des caractéristiques structurelles est considérée comme coûteuse en calcul. Pour expliquer brièvement le problème, bon nombre de ces approches nécessitent le calcul d’une matrice de similarité par paires qui conduit rapidement à une explosion combinatoire à mesure que le nombre de composés à cartographier augmente. Pour résoudre le problème, des ChemMaps ont été développés dans notre groupe. En un coup d’œil, cette méthode exploite le concept de « satellites chimiques », qui sont des molécules qui servent de référence. Enfin, les similitudes par paires sont calculées pour chaque molécule par rapport à un ensemble réduit de satellites, réduisant ainsi considérablement la complexité de la tâche. ChemMaps est, à notre connaissance, le premier algorithme qui sélectionne les satellites à partir de la bibliothèque chimique en cours de cartographie, offrant ainsi une plus grande adaptabilité que les méthodes précédentes.

Exemple: paysage d’activité et diversité des inhibiteurs de l’AKT

Pour illustrer certaines des méthodes mentionnées dans la section « SAR using the concept of activity landscape modeling » et la section « Analyse de l’espace chimique et de la diversité », considérons un ensemble de données d’inhibiteurs de l’AKT obtenus à partir de ChEMBL. L’AKT est une cible prometteuse dans le développement de médicaments anticancéreux, et notre groupe a déjà contribué à l’identification de nouveaux échafaudages chimiques à l’aide d’un criblage virtuel basé sur la structure. La carte SAS de densité de l’ensemble de données d’inhibiteurs d’AKT obtenus à partir de ChEMBL est représentée à la Fig. 3a. La couleur des bacs dans une carte SAS de densité représente le nombre de paires de composés qui se trouvent dans la zone respective de la parcelle. Notez dans la région supérieure droite de la parcelle les falaises d’activité, c’est-à-dire des paires de composés présentant une similitude structurelle élevée mais des différences de puissance élevées.La figure 3b représente l’espace chimique de la même bibliothèque. L’espace chimique de l’ensemble de données d’inhibiteurs d’AKT obtenus à partir de ChEMBL a été cartographié à l’aide des deux premiers vecteurs propres d’une analyse en composantes principales de la matrice de similarité. Des groupes de composés ont été identifiés par regroupement des moyennes-k sur les six premiers vecteurs propres, qui ont recueilli environ 40 % de la variance totale. Comparer les cartes SAS des clusters 2 et 5 de la Fig. 3c, d, respectivement. Le groupe 5 présente une plus faible proportion de falaises d’activité et, dans l’ensemble, un SAR plus lisse que le groupe 2. Par conséquent, avant d’appliquer certains modèles prédictifs, il pourrait être envisagé d’éliminer les composés en grappes présentant un DAS plus irrégulier (comme le grappe 2). Une telle approche est appelée « balayage du paysage d’activité » et est décrite plus en détail dans .

Fig. 4
 figure4

Diagramme de diversité de consensus (CDP) appliqué à cinq ensembles de données (clusters) dans une bibliothèque d’inhibiteurs de l’AKT. La diversité des empreintes digitales (axe x) est calculée à partir de la valeur médiane de la matrice de similarité des clés MACCS/Tanimoto, tandis que la diversité d’échafaudage (axe y) représente l’aire sous la courbe de la courbe de récupération des systèmes cycliques. Pour les deux métriques, des valeurs plus faibles sont associées à une plus grande diversité. CDP est divisé en quadrants en tenant compte de la valeur moyenne correspondante des six ensembles de données pour chaque axe. La taille des points de données représente leur nombre relatif de composés, tandis que la couleur représente la moyenne de la distance euclidienne des propriétés physico-chimiques (la couleur rouge représente moins de diversité et le vert représente plus de diversité). (Figure de couleur en ligne)

Explorons maintenant la diversité totale des cinq groupes de la Fig. 3 en utilisant CDP. Avec PUMA, nous calculons pour chaque cluster les distances euclidiennes des propriétés physico-chimiques (PCP), la médiane de la similitude d’empreintes digitales par paire (en utilisant les clés MACCS et le coefficient de Tanimoto) et l’aire sous la courbe de récupération d’échafaudage. Avec ces données, nous pouvons remplir le modèle CDP disponible sur le site Web de l’application. Enfin, nous rendons le CDP et personnalisons le tracé. Le résultat est illustré à la Fig. 4, où chaque point représente un groupe, la taille du point est proportionnelle au nombre de composés dans un groupe, la couleur est relative à la distance euclidienne moyenne PCP intra-base de données, l’axe des abscisses représente la médiane de la similitude par paires des MACC et l’axe des ordonnées représente l’aire sous la courbe de récupération d’échafaudage. On peut le voir sur la Fig. 4 ce groupe 5 est également le moins diversifié, ce qui pourrait expliquer, au moins partiellement, la moindre proportion de falaises d’activité. En revanche, le groupe 1 est le plus diversifié. En considérant les résultats des Fig. 2 et 3 il pourrait être recommandé d’obtenir des résultats expérimentaux de composés plus divers liés aux molécules du groupe 5. Cependant, les composés du groupe 5 conviendraient mieux aux approches prédictives, étant donné son DAS lisse.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.