Chemoinformatics:a perspective from an academic setting in Latin America

chemoinformaticsに取り組んでいる他の学術グループと同様に、DIFACQUIMで行われる研究活動は、図に概略的に概説された二つの主要なグループに編成することができます。 1:(1)概念の開発または洗練、および(2)社内または他のグループによって開発された方法の適用。

次に、開発された概念と方法は次のように細分することができます: (1)構造–活動関係(SAR)のための方法、特に活動景観モデリング(ALM)の概念を使用して、(2)化学データベース(現在D-Tools、vide infraで収集されている)を探索するためのオープ

図1.1.1. 2
図2

D-Tools:aコンセンサス多様性プロット;bアクティビティランドスケーププロッタ; 統合分子分析のためのcプラットフォーム(PUMA)

応用分野は、(1)エピジェネティクスに適用される化学情報法、(2)感染症に適用される計算法、(3)ペプチドベース、(4)天然物ベースの創薬、(5)食品情報学、すなわち香味と香りに拡張された食品化学のための化学情報アプローチに焦点を当てている(図。 1). 次のサブセクションでは、これらの領域について説明します。

活動景観モデリングの概念を使用したSAR

ALMは、類似性の原則が特定のデータセットに効果的に適用されるかどうかを評価するための創薬に役立 類似性原理は、構造的に類似している化合物がより類似した特性を有するであろうと述べている。 これは、化学構造に基づく予測モデルが依存する強力な仮定です。 活性景観からの洞察は、一つ以上の標的に向かって化合物の活性に関連する構造モチーフを見つけるために医薬化学で利用することができます。 ALMの理論と応用は、DIFACQUIMや他の研究グループによって広く開発されています。 主に、ALMにおけるDIFACQUIMの貢献は、視覚的に活性崖を検出し、SARを評価するためにShanmugasundaramとMaggioraによって提案された構造活性類似性(SAS)マップのさらなる発展であった。 この分野における最近の進展の例としては、密度SASマップと活動景観掃引があり、次に議論されている。

密度SASマップ

SASマップが化学データセット内のすべての対になった構造–活性比較を表す場合、比較的小さなデータセットであっても、圧倒的な数のデータポイ この目的のために、同じ表面の小さな領域が、それらが含むデータ点の数(すなわち、対の比較)に基づいて着色される密度SASマップが開発された。 このアプローチは、後にオンラインサーバーで導入され、実装されました(“Activity landscape plotter(ALP)”のセクションを参照)。

活動風景

興味深いことに、いくつかのデータセットでは、活動崖の寄与は、いくつかの下部構造クラスター内で不釣り合いに高い。 これらの結果は、化学空間においてより滑らかなSARを有する領域(すなわち、類似の化合物が同様の活性を有する)を指し、予測モデリングに適してい 活動景観掃引の背後にあるアイデアは、個々にこれらのクラスターのSARとライブラリの全体的なSARへの貢献を研究するために、構造的類似性によって定 活動風景の掃引の例は、”例:AKT阻害剤の活動風景と多様性”のセクションに示されています。

オンラインツール:difacquim tools for chemoinformatics(D-TOOLS)

DIFACQUIMによって開発された公にアクセス可能なツールは、総称して”D-Tools”と命名されています。 D-Toolsの一般的な目的は、分子特性と分子指紋を計算し、化学空間のカバレッジと多様性を分析し、活動景観モデリングの原則を使用してスクリーニングデータセットのSARを探索するための自由に利用可能なオンラインリソースを提供することです。 D-Toolsで利用可能なすべてのアプリケーションは、学術的な使用のために意図されており、他の多くの公開サーバーと同様に、それらの使用および結果の解釈は、ユーザーの責任である。 さらなる詳細は、それぞれの刊行物に開示されている。 最近、SAR、ALM、および化学ライブラリの多様性の分析のための多くのリソースがD-Toolsに追加されました。 D-Toolsは、現在、(1)コンセンサス多様性プロット(CDP)、(2)活動風景プロッタ(ALP)、および(3)統一分子分析のためのプラットフォーム(PUMA)の三つのアプリケーションで構成されている(図。 2). 公開されている用途を含め、各アプリケーションの主な機能と用途については、次のセクションで説明します。

コンセンサス多様性プロット(CDPs)

CDPsは、いくつかの化学ライブラリ多様性指標の統合的なレンダリングを達成するために開発されました。 Cdpは、分子指紋、足場、物理化学的性質、化合物の数(ライブラリサイズ)など、複数の基準を同時に考慮した化合物データベースの”合計”または”グローバル”多様性の低次元-典型的には2D表現である。 ただし、他の多様性指標を実装することもできます。 る(図1 1)。 図2a)に示すように、各データセットはデータ点で表される。 X軸は分子指紋に基づく化学的多様性を表し、Y軸は足場の多様性を表し、ドットの色は連続的なスケールを使用して物理化学的性質の多様性を表し、そのサイズはデータセットの相対的なサイズを表します。 Cdpのさらなる詳細は、以下で提供される。 1つの具体的な例は、「実施例:AKT阻害剤の活性景観および多様性」の節に示され、図1 0Aに示される。 4. 前述したように、コンセンサス多様性プロットを生成するためのオンラインアプリケーションは、D-Toolsで利用可能です。

Activity landscape plotter(ALP)

activity landscape modelingの概念を使用してSARsを分析することを目的として、ALP serverは独自のスクリーニングデータを使用してSASおよびSASのようなマップを生成 一般に、これらのマップは、化学的類似性(分子指紋で測定される)と化合物の対の効力差との関係を示す。 SASマップは、生物学的終点、例えば、1つの分子標的に対する活性値を有する化合物のSARデータセットを分析するために生成することができる。 ALPで生成されたSASマップは、X軸上の構造的類似性およびY軸上の活性差を表す。 二つの生物学的エンドポイントを持つ化合物データセットのSARは、それぞれX軸とY軸上の二つの生物学的エンドポイントの活性差をプロットする二重活性差(DAD)マップを使用して分析することができる。 両方のグラフでは、色は、ペア内の化合物の最大効力、およびデータポイントの数などの情報をプロットに追加します。 注目すべきは、分析の結果も、ペアワイズ構造–活動情報(ユーザーが他のツールで追加の分析を実行したい場合は後者)を持つすべての生データを含む、ダウンロー

Platform for unified molecular analysis(PUMA)

PUMAは、化学情報に基づく多様性分析とユーザーが提供するデータセットの化学空間の可視化のための無料のオンラインアプリケーシ PUMAは、化合物データベース(足場コンテンツなど)の特性評価、化学的多様性の分析、化学的空間の可視化を行うためのメトリックを統合します。 PUMAには、オープンアクセスであり、ダウンロードしてインストールする必要がないなどの利点があります。 ユーザーの機密性を維持するために、アプリケーションが実行された後、データセットは開発者によって保持されません。 PUMAはALPとCDPを統合しており、これは”コンセンサス多様性プロット(CDPs)”のセクションと”活動風景プロッタ(ALP)”のセクションで簡単に説明されています。

化学空間と多様性分析

化学空間ナビゲーションとも呼ばれるケモグラフィーは、創薬と分類においてますます関連性が高まっています。 当初はコンビナトリアルケミストリーライブラリの特性評価のために考案されたが、医薬化学の他の分野での可能性が認められている。 特定のデータセットの化学空間をグラフ化することで、データセットの多様性に関する重要な洞察を提供し、関連する化合物のクラスターを特定するこ 活動データと結合されたとき、化学空間はSARの分析のための強力な用具になる。 化学空間をグラフ化するために使用することができる様々な分子記述子があることに留意すべきである。

エピジェネティクスにおける化学空間チャート

これはDIFACQUIM研究グループの主要な研究ラインの一つです。 2015年には、我々のグループは、化学空間、多様性、SARと足場解析を含むDNA-メチルトランスフェラーゼ1(DNMT1)阻害剤の包括的な特性評価を報告しました。 一年後、研究は二重活性阻害剤の合理的な設計の実現可能性を議論し、betブロモドメインとヒストン脱アセチラーゼ阻害剤に拡張されました。 フォローアップ研究では、我々のグループは、構造多重活性関係(SMARt)を探索することによって、複数のエピジェネティックな標的に対して作用する化合物の設計に”SMARt”をどのように提案した。 私達の現在の努力はDNMT3AおよびDNMT3Bのchemoinformatic分析に焦点を合わせます。 我々は、これらの研究は、これらの標的に対する合理的な薬物設計のための関連する洞察を提供することを期待しています。

図1.1.1. 3
図3

AKT阻害剤のライブラリーに適用された活動景観掃引の例。 ライブラリ全体の一般的な密度構造–活性類似性(SAS)マップ;主成分分析(PCA)によって得られ、k-meansクラスタリングによって得られたクラスターによって着色されたライブラリ全体のb化学空間;クラスター2のc密度SASマップ;クラスター2のd密度SASマップ5

最近、化学空間を探索し表現するためにDIFACQUIMによって2つの新しい一般的な方法が開発されました:データベース指紋とChemMaps。

データベースフィンガープリント

データベースフィンガープリントはシャノンエントロピーの概念に基づいています。 基本的に、データベース指紋は、特定のデータセット内で最も表現された化学的特徴を単一の指紋で要約するように設計されています。 二つは、データベースの指紋の最も簡単なアプリケーションです:(1)大規模なライブラリの化学空間の視覚的な表現、および(2)仮想スクリーニング。 例えば、データベースの指紋は、最近52エピジェネティックターゲットの化学空間を表すために適用されています。

ChemMaps

構造的特徴に基づく化学空間の視覚的表現は、計算上高価とみなされます。 この問題を簡単に説明するために、これらのアプローチの多くは、チャート化される化合物の数が増えるにつれて組み合わせ爆発に急速につながるペアワイズ類似性行列を計算する必要があります。 この問題に対処するために、私たちのグループではChemMapsが開発されました。 一見すると、この方法は、参照として使用される分子である”化学衛星”の概念を利用しています。 最後に、ペアワイズ類似性は、このように大幅にタスクの複雑さを軽減し、衛星の減少セットに対してすべての分子について計算されます。 ChemMapsは、我々の知る限り、チャート化されている化学ライブラリ内から衛星を選択する最初のアルゴリズムであり、したがって、以前の方法よりも高い適応性

例:AKT阻害剤の活性景観と多様性

“活性景観モデリングの概念を用いたSAR”セクションと”化学空間と多様性分析”セクションで述べた方法のいくつかを AKTは抗がん剤開発の有望なターゲットであり、我々のグループはこれまでに構造ベースの仮想スクリーニングを用いた新しい化学足場の同定に貢献してき Chemblから得られたAKT阻害剤のデータセットの密度SASマップを図1 0に示す。 密度SASマップ内のビンの色は、プロットのそれぞれの領域内にある化合物の対の数を表す。 プロットの右上の領域では、活性崖、すなわち、高い構造的類似性を有するが効力の高い差を有する化合物の対にも注意してください。図3bは、同じライブラリの化学空間を示しています。 Chemblから得られたAKT阻害剤のデータセットの化学空間を,類似行列の主成分分析の二つの最初の固有ベクトルを用いてマッピングした。 化合物のクラスターは、総分散の約40%を集めた最初の六つの固有ベクトル上のk平均クラスタリングによって同定された。 図2のクラスタ2と5のSASマップを比較します。 3c、d、それぞれ。 クラスター5は活動の割合が小さく、全体的にはクラスター2よりもsarが滑らかである。 したがって、いくつかの予測モデルを適用する前に、より不規則なSARを持つクラスター内の化合物(クラスター2など)を除去することが考えられます。 このようなアプローチは、”活動風景掃引”と呼ばれ、さらに記載されています。

図1.1.1. 4
図4

コンセンサス多様性プロット(CDP)は、AKT阻害剤のライブラリ内の五つのデータセット(クラスター)に適用されます。 指紋多様性(x軸)は、MACCSキー/谷本類似性行列の中央値によって計算され、足場多様性(y軸)は、周期的システム回復曲線の曲線下の面積を表す。 両方の指標では、値が低いほど多様性が高くなります。 CDPは、各軸の6つのデータセットの対応する平均値を考慮して象限に分割されます。 データ点のサイズは化合物の相対的な数を表し、色は物理化学的性質のユークリッド距離の平均を表します(赤色は多様性が少なく、緑色は多様性が多 (カラーフィギュアオンライン)

ここで、図1の5つのクラスターの全体的な多様性を見てみましょう。 3CDPを使用します。 PUMAでは、各クラスターに対して、物理化学的性質のユークリッド距離(PCP)、ペアワイズ指紋類似度の中央値(MACCSキーと谷本係数を使用)、足場回復曲線の下の面積を計算 これらのデータを使用して、我々は、アプリケーションのウェブサイト上で利用可能なCDPテンプレートを埋めることができます。 最後に、CDPをレンダリングし、プロットをカスタマイズします。 その結果を図1 0に示す。 図4に示すように、各ドットはクラスターを表し、ドットのサイズはクラスター内の化合物の数に比例し、色はデータベース内PCP平均ユークリッド距離に相対的であり、X軸はMACCSペアワイズ類似度の中央値を表し、Y軸は足場回復曲線の下の面積を表す。 ることができる。 4そのクラスター5はまた、少なくとも部分的に、活動崖の少ない割合を説明することができ、最も多様ではありません。 これとは対照的に、クラスタ1は最も多様です。 の結果を考慮することによって。 2および3クラスター5の分子に関連するより多様な化合物の実験結果を得ることが推奨される。 しかし、クラスター5の化合物は、その滑らかなSARを考えると、予測アプローチに適しています。

コメントを残す

メールアドレスが公開されることはありません。