Chemoinformatik: eine Perspektive aus einem akademischen Umfeld in Lateinamerika

Ähnlich wie bei anderen akademischen Gruppen, die sich mit Chemoinformatik befassen, können die am DIFACQUIM durchgeführten Forschungsaktivitäten in zwei Hauptgruppen organisiert werden, die in Abb. 1: (1) Entwicklung oder Verfeinerung von Konzepten und (2) Anwendung von Methoden, die intern oder von anderen Gruppen entwickelt wurden.

Die entwickelten Konzepte und Methoden lassen sich wiederum wie folgt unterteilen: (1) Methoden für Struktur–Aktivitätsbeziehungen (SAR), insbesondere unter Verwendung des Konzepts der Aktivitätslandschaftsmodellierung (ALM); (2) Entwicklung von Open-Access-Anwendungen zur Erforschung chemischer Datenbanken (derzeit in D-Tools, vide infra gesammelt); und (3) Analyse des chemischen Raums und der Vielfalt chemischer Bibliotheken.

Abb. 2
 abbildung2

D-Tools: ein Konsens Vielfalt Grundstück; b Aktivität Landschaft Plotter; c Plattform für Unified Molecular Analysis (PUMA)

Die Anwendungen konzentrieren sich auf fünf Hauptbereiche: (1) Epiinformatik, d. h. Chemische Informationsmethoden für die Epigenetik; (2) Berechnungsmethoden für Infektionskrankheiten; (3) peptidbasierte; (4) naturstoffbasierte Wirkstoffentdeckung; und (5) Foodinformatik, d. H. Chemische Informationsansätze für die Lebensmittelchemie, die gleichermaßen auf Aroma und Duftstoffe erweitert wurden (Abb. 1). Die nächsten Unterabschnitte behandeln diese Bereiche.

SAR unter Verwendung des Konzepts der Aktivitätslandschaftsmodellierung

ALM ist hilfreich bei der Wirkstoffentdeckung, um zu beurteilen, ob das Ähnlichkeitsprinzip für einen bestimmten Datensatz effektiv gilt oder nicht. Das Ähnlichkeitsprinzip besagt, dass Verbindungen, die strukturell ähnlich sind, ähnlichere Eigenschaften haben würden. Dies ist eine starke Annahme, auf die sich Vorhersagemodelle stützen, die auf der chemischen Struktur basieren . Erkenntnisse aus der Aktivitätslandschaft können in der medizinischen Chemie genutzt werden, um strukturelle Motive zu finden, die für die Aktivität einer Verbindung gegenüber einem oder mehreren Zielen relevant sind . Die Theorie und Anwendung von ALM wurde von DIFACQUIM und anderen Forschungsgruppen umfassend entwickelt. Der Beitrag von DIFACQUIM in ALM war hauptsächlich die Weiterentwicklung von Struktur-Aktivitäts-Ähnlichkeitskarten (SAS), die von Shanmugasundaram und Maggiora vorgeschlagen wurden, um Aktivitätsklippen visuell zu erkennen und SAR zu bewerten. Beispiele für jüngste Entwicklungen in diesem Bereich sind Dichtekarten und Aktivitätslandschaftskarten, die als nächstes diskutiert werden.

Dichte–SAS-Karten

Vorausgesetzt, dass SAS-Karten jeden gepaarten Struktur-Aktivitäts-Vergleich in einem chemischen Datensatz darstellen, kann die überwältigende Anzahl von Datenpunkten (jeder Datenpunkt repräsentiert einen paarweisen Vergleich) selbst für relativ kleine Datensätze eine visuelle Beurteilung zur Bestimmung von Regionen in der Karte erschweren. Zu diesem Zweck wurden Dichtekarten entwickelt, bei denen kleine Bereiche derselben Oberfläche basierend auf der Anzahl der darin enthaltenen Datenpunkte (d. H. paarweise Vergleiche) eingefärbt werden . Dieser Ansatz wurde später eingeführt und in einem Online-Server implementiert (siehe Abschnitt „Activity Landscape Plotter (ALP)“).

Aktivitätslandschaft >

Interessanterweise ist in einigen Datensätzen der Beitrag von Aktivitätsklippen innerhalb einiger substruktureller Cluster überproportional hoch. Diese Ergebnisse weisen auf Bereiche mit einer glatteren SAR (d. h. Ähnliche Verbindungen haben eine ähnliche Aktivität) im chemischen Raum hin, die für die Vorhersagemodellierung besser geeignet sein könnten . Die Idee hinter Activity Landscape Sweeping ist es, Cluster von Verbindungen zu analysieren, die durch strukturelle Ähnlichkeit definiert sind, um die SAR dieser Cluster und ihren Beitrag zur Gesamt-SAR einer Bibliothek individuell zu untersuchen. Ein Beispiel für das Kehren von Aktivitätslandschaften wird im Abschnitt „Beispiel: Aktivitätslandschaft und Diversität von AKT-Inhibitoren“ vorgestellt.

Online-Tools: DIFACQUIM Tools for chemoinformatics (D-TOOLS)

Die von DIFACQUIM entwickelten öffentlich zugänglichen Tools wurden gemeinsam als „D-Tools“ bezeichnet. Der allgemeine Zweck von D-Tools besteht darin, frei verfügbare Online-Ressourcen bereitzustellen, um molekulare Eigenschaften und molekulare Fingerabdrücke zu berechnen, die Abdeckung und Vielfalt des chemischen Raums zu analysieren und die SAR von Screening-Datensätzen unter Verwendung der Prinzipien der Aktivitätslandschaftsmodellierung zu untersuchen. Alle in D-Tools verfügbaren Anwendungen sind für den akademischen Gebrauch bestimmt, und wie viele andere öffentliche Server liegt ihre Verwendung und Interpretation der Ergebnisse in der Verantwortung des Benutzers. Weitere Einzelheiten sind den jeweiligen Veröffentlichungen zu entnehmen. In letzter Zeit wurden viele Ressourcen für die Analyse von SAR, ALM und der Vielfalt chemischer Bibliotheken zu D-Tools hinzugefügt. D-Tools, die sich in ständiger Entwicklung befinden, bestehen derzeit aus drei Anwendungen: (1) Consensus Diversity Plot (CDP), (2) Activity Landscape Plotter (ALP) und (3) Platform for Unified Molecular Analysis (PUMA) (Abb. 2). Die wichtigsten Funktionen und Verwendungen jeder Anwendung, einschließlich der veröffentlichten Verwendungen, werden in den nächsten Abschnitten erläutert.

Consensus Diversity Plots (CDPs)

CDPs wurden entwickelt, um eine integrative Darstellung mehrerer chemischer Bibliotheken Diversity Metriken zu erreichen. CDPs sind niedrigdimensionale — typischerweise 2D – Darstellungen der „gesamten“ oder „globalen“ Vielfalt von Verbindungsdatenbanken, die mehrere Kriterien gleichzeitig berücksichtigen, nämlich: molekulare Fingerabdrücke, Gerüste, physikochemische Eigenschaften und Anzahl der Verbindungen (Bibliotheksgröße). Es können jedoch auch andere Diversity-Metriken implementiert werden. In einem CDP (Fig. 2a) wird jeder Datensatz mit einem Datenpunkt dargestellt. Die X-Achse repräsentiert die chemische Vielfalt basierend auf molekularen Fingerabdrücken, während die Y-Achse die Gerüstvielfalt darstellt, die Farbe des Punktes die physikalisch-chemische Eigenschaftsvielfalt unter Verwendung einer kontinuierlichen Skala darstellt und seine Größe die relative Größe des Datensatzes darstellt. Weitere Einzelheiten zu CDPs finden Sie in . Ein konkretes Beispiel ist im Abschnitt „Beispiel: Aktivitätslandschaft und Diversität von AKT-Inhibitoren“ dargestellt und in Abb. 4. Wie bereits erwähnt, ist in D-Tools eine Online-Anwendung zur Generierung von Konsensus-Diversity-Plots verfügbar.

Activity Landscape Plotter (ALP)

Mit dem Ziel, SARs unter Verwendung des Konzepts der Aktivitätslandschaftsmodellierung zu analysieren, ermöglicht der ALP-Server dem Benutzer, SAS und SAS-ähnliche Karten unter Verwendung seiner eigenen Screening-Daten zu generieren. Im Allgemeinen zeigen diese Karten die Beziehung zwischen chemischer Ähnlichkeit (gemessen mit molekularen Fingerabdrücken) und Potenzdifferenz von Verbindungspaaren . Eine SAS-Karte kann erzeugt werden, um die SAR von Verbindungsdatensätzen mit einem biologischen Endpunkt, z. B. Aktivitätswert für ein molekulares Ziel, zu analysieren. Die mit ALP erzeugten SAS-Karten repräsentieren die strukturelle Ähnlichkeit auf der X-Achse und die Aktivitätsdifferenz auf der Y-Achse. Die SAR von Zusammensetzungsdatensätzen mit zwei biologischen Endpunkten kann mithilfe von DAD-Karten (Dual Activity Difference) analysiert werden, die die Aktivitätsunterschiede für zwei biologische Endpunkte auf der X- bzw. Y-Achse darstellen. In beiden Diagrammen fügen Farben den Diagrammen Informationen hinzu, z. B. die maximale Wirksamkeit der Verbindung in einem Paar und die Anzahl der Datenpunkte. Bemerkenswert ist, dass die Ergebnisse der Analysen auch kostenlos zum Download zur Verfügung gestellt werden, einschließlich aller Rohdaten mit paarweisen Struktur–Aktivitätsinformationen (letztere, falls der Benutzer zusätzliche Analysen mit anderen Tools durchführen möchte).

Platform for Unified molecular analysis (PUMA)

PUMA ist eine kostenlose Online-Anwendung zur chemoinformatischen Diversitätsanalyse und Visualisierung des chemischen Raums von vom Benutzer bereitgestellten Datensätzen. PUMA integriert Metriken zur Charakterisierung von Verbunddatenbanken (z. B. Gerüstinhalt), zur Analyse der chemischen Vielfalt und zur Visualisierung des chemischen Raums . PUMA hat Vorteile wie Open Access und muss nicht heruntergeladen und installiert werden. Um die Vertraulichkeit des Benutzers zu wahren, werden Datensätze nach der Ausführung der Anwendung nicht von den Entwicklern aufbewahrt. PUMA integriert ALP und CDP, die im Abschnitt „Consensus Diversity Plots (CDPs)“ und im Abschnitt „Activity Landscape Plotter (ALP)“ kurz beschrieben wurden.

Chemische Raum- und Diversitätsanalyse

Die Chemographie, auch als chemische Raumnavigation bezeichnet, hat in der Wirkstoffforschung und -klassifikation zunehmend an Bedeutung gewonnen . Obwohl ursprünglich für die Charakterisierung kombinatorischer chemischer Bibliotheken entwickelt, Sein Potenzial in anderen Bereichen der medizinischen Chemie wurde anerkannt . Die Darstellung des chemischen Raums für einen bestimmten Datensatz könnte wichtige Erkenntnisse über die Vielfalt des Datensatzes liefern und Cluster verwandter Verbindungen identifizieren. In Kombination mit Aktivitätsdaten wird Chemical Space zu einem leistungsstarken Werkzeug für die SAR-Analyse. Es sollte angemerkt werden, dass es eine Vielzahl von molekularen Deskriptoren gibt, die zur Kartierung des chemischen Raums verwendet werden könnten .

Chemical space charting in epigenetics

Dies ist eine der Hauptforschungslinien der DIFACQUIM-Forschungsgruppe. Im Jahr 2015 berichtete unsere Gruppe über eine umfassende Charakterisierung von DNA-Methyltransferase 1 (DNMT1) -Inhibitoren, einschließlich chemischer Raum-, Diversitäts-, SAR- und Gerüstanalysen . Ein Jahr später wurde die Studie auf Bromodomain- und Histon-Deacetylase-Inhibitoren ausgeweitet, um die Machbarkeit eines rationalen Designs von Dual-Activity-Inhibitoren zu diskutieren . In einer Folgearbeit schlug unsere Gruppe vor, wie man beim Design chemischer Verbindungen, die gegen mehrere epigenetische Ziele wirken, „schlau wird“, indem man strukturelle Multiple-Aktivitäts-Beziehungen (SMARt) untersucht . Unsere aktuellen Bemühungen konzentrieren sich auf die chemoinformatische Analyse von DNMT3A und DNMT3B. Wir erwarten, dass diese Studien relevante Erkenntnisse für ein rationales Wirkstoffdesign gegen diese Ziele liefern werden.

Abb. 3
 abbildung3

Beispiel für Activity Landscape Sweeping angewendet auf eine Bibliothek von AKT-Inhibitoren. a Allgemeine Dichtestruktur-Aktivitäts-Ähnlichkeitskarte (SAS) für die gesamte Bibliothek; b chemischer Raum der gesamten Bibliothek, erhalten durch Hauptkomponentenanalyse (PCA) und gefärbt durch Cluster, wie durch k-Means-Clustering erhalten; c Dichte-SAS-Karte von Cluster 2; d Dichte-SAS-Karte von Cluster 5

Kürzlich wurden von DIFACQUIM zwei neue allgemeine Methoden entwickelt, um den chemischen Raum zu erforschen und darzustellen: Datenbank-Fingerabdrücke und ChemMaps.

Datenbank-Fingerabdrücke

Datenbank-Fingerabdrücke basieren auf dem Konzept der Shannon-Entropie . Im Wesentlichen sind Datenbank-Fingerabdrücke so konzipiert, dass sie die am häufigsten dargestellten chemischen Merkmale in einem bestimmten Datensatz in einem einzigen Fingerabdruck zusammenfassen . Zwei sind die einfachsten Anwendungen von Datenbank-Fingerabdrücken: (1) visuelle Darstellung des chemischen Raums großer Bibliotheken und (2) virtuelles Screening. So wurden kürzlich Datenbank-Fingerabdrücke verwendet, um den chemischen Raum von 52 epigenetischen Targets darzustellen .

ChemMaps

Die visuelle Darstellung des chemischen Raums anhand von Strukturmerkmalen wird als rechenintensiv angesehen. Um das Problem kurz zu erklären, erfordern viele dieser Ansätze die Berechnung einer paarweisen Ähnlichkeitsmatrix, die schnell zu einer kombinatorischen Explosion führt, wenn die Anzahl der zu kartierenden Verbindungen zunimmt. Um das Problem anzugehen, wurden in unserer Gruppe ChemMaps entwickelt . Auf einen Blick nutzt diese Methode das Konzept der „chemischen Satelliten“ , bei denen es sich um Moleküle handelt, die als Referenz verwendet werden. Schließlich werden die paarweisen Ähnlichkeiten für jedes Molekül gegen einen reduzierten Satz von Satelliten berechnet, wodurch die Komplexität der Aufgabe erheblich reduziert wird. ChemMaps ist nach unserem besten Wissen der erste Algorithmus, der die Satelliten aus der zu kartierenden chemischen Bibliothek auswählt und somit eine höhere Anpassungsfähigkeit als frühere Methoden bietet.

Beispiel: Aktivitätslandschaft und Diversität von AKT-Inhibitoren

Um einige der im Abschnitt „SAR using the concept of activity landscape modeling“ und im Abschnitt „Chemical space and diversity analysis“ genannten Methoden zu veranschaulichen, betrachten wir einen Datensatz von AKT-Inhibitoren aus ChEMBL . AKT ist ein vielversprechendes Ziel bei der Entwicklung von Krebsmedikamenten, und unsere Gruppe hat bereits zur Identifizierung neuer chemischer Gerüste mittels strukturbasiertem virtuellem Screening beigetragen . Die Dichte-SAS-Karte des aus ChEMBL erhaltenen Datensatzes von AKT-Inhibitoren ist in Abb. 3a. Die Farbe der Behälter in einer Dichte-SAS-Karte repräsentiert die Anzahl der Paare von Verbindungen, die in den jeweiligen Bereich des Diagramms fallen . Beachten Sie im oberen rechten Bereich des Diagramms die Aktivitätsklippen, d. H. Paare von Verbindungen mit hoher struktureller Ähnlichkeit, aber auch hohen Potenzunterschieden.Abbildung 3b zeigt den chemischen Raum derselben Bibliothek. Der chemische Raum des aus ChEMBL gewonnenen Datensatzes von AKT-Inhibitoren wurde unter Verwendung der beiden ersten Eigenvektoren einer Hauptkomponentenanalyse der Ähnlichkeitsmatrix abgebildet. Cluster von Verbindungen wurden durch k-Means-Clustering auf den ersten sechs Eigenvektoren identifiziert, die etwa 40% der Gesamtvarianz sammelten. Vergleichen Sie die SAS-Karten der Cluster 2 und 5 in Abb. 3c bzw. d dargestellt. Cluster 5 hat einen geringeren Anteil an Aktivitätsklippen und insgesamt eine glattere SAR als Cluster 2. Daher könnte vor der Anwendung einiger Vorhersagemodelle in Betracht gezogen werden, Verbindungen in Clustern mit einer unregelmäßigeren SAR (wie Cluster 2) zu entfernen. Ein solcher Ansatz wird als „Activity Landscape Sweeping“ bezeichnet und ist weiter beschrieben in .

Abb. 4
 abbildung4

Consensus Diversity Plot (CDP) angewendet auf fünf Datensätze (Cluster) in einer Bibliothek von AKT-Inhibitoren. Die Fingerabdruckdiversität (x-Achse) wird durch den Medianwert der MACCS Keys / Tanimoto-Ähnlichkeitsmatrix berechnet, während die Gerüstdiversität (y-Achse) die Fläche unter der Kurve der zyklischen Systemwiederherstellungskurve darstellt. Für beide Metriken sind niedrigere Werte mit mehr Vielfalt verbunden. CDP wird in Quadranten unterteilt, wobei der entsprechende Mittelwert der sechs Datensätze für jede Achse berücksichtigt wird. Die Größe der Datenpunkte repräsentiert ihre relative Anzahl von Verbindungen, während die Farbe den Mittelwert des euklidischen Abstands der physikochemischen Eigenschaften darstellt (rote Farbe repräsentiert weniger Vielfalt und Grün repräsentiert mehr Vielfalt). (Farbe abbildung online)

Lassen Sie uns nun die Gesamtvielfalt der fünf Cluster in Abb. 3 mit CDP. Mit PUMA berechnen wir für jeden Cluster die euklidischen Abstände der physikochemischen Eigenschaften (PCP), den Median der paarweisen Fingerabdruckähnlichkeit (unter Verwendung von MACCS-Schlüsseln und dem Tanimoto-Koeffizienten) und die Fläche unter der Gerüstregenerationskurve. Mit diesen Daten können wir die auf der Website der Anwendung verfügbare CDP-Vorlage ausfüllen. Schließlich rendern wir das CDP und passen das Diagramm an. Das Ergebnis ist in Fig. 4, wobei jeder Punkt einen Cluster darstellt, die Größe des Punktes proportional zur Anzahl der Verbindungen in einem Cluster ist, die Farbe relativ zum Intra-Datenbank-PCP-Mittelwert der euklidischen Entfernung ist, die X-Achse den Median der MACCS-paarweisen Ähnlichkeit darstellt und die Y-Achse den Bereich unter der Gerüstwiederherstellungskurve darstellt. Es ist in Fig. 4, dass der Cluster 5 auch am wenigsten vielfältig ist, was zumindest teilweise den geringeren Anteil der Aktivitätsklippen erklären könnte. Im Gegensatz dazu ist Cluster 1 am vielfältigsten. Betrachtet man die Ergebnisse der Fig. 2 und 3 könnte empfohlen werden, experimentelle Ergebnisse von vielfältigeren Verbindungen zu Molekülen in Cluster 5 zu erhalten. Verbindungen in Cluster 5 wären jedoch aufgrund ihrer glatten SAR besser für prädiktive Ansätze geeignet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.