私たちは、さまざまな状況でCLUSTAL Wをテストしており、いくつかの非常に困難なタンパク質アライメントの問題に対処することができます。 データセットが十分に密接に関連したシーケンスで構成されているため、最初の整列が正確である場合、CLUSTAL Wは通常、理想に非常に近い整列を見つけます。 データセットに非常に異なる長さのシーケンスが含まれている場合や、一部のシーケンスに残りのデータセットと整列できない長い領域が含まれている場 いくつかのアライメントで長い挿入と削除の必要性と、他のアライメントでそれらを避ける必要性のバランスをとることは、まだ問題です。 我々のパラメータのデフォルト値は、正しいアライメントに関するいくつかの情報が利用可能であった球状タンパク質のセットのテストケースを使用して経験的にテストされました。 パラメータ値は非小葉タンパク質ではあまり適切ではない可能性がある。 我々は、一つの重み行列と二つのギャップペナルティを使用することは、最も困難な場合には一般的に使用するには単純すぎると主張してきた。 これらのパラメータを、主にループ領域のギャップを促進するために設計された多数の新しいパラメータに置き換えました。 これらの新しいパラメータは本質的には主にヒューリスティックですが、驚くほどうまく機能し、実装が簡単です。 漸進的な直線のアプローチの根本的な速度は不利に影響されない。 欠点は、パラメータ空間が巨大になったことです; パラメータの可能な組み合わせの数は、手で簡単に調べることができる以上のものです。 これを正当化するには、CLUSTAL Wを決定的な分析方法としてではなく、データ探索ツールとして扱うようにユーザーに依頼します。 複数のアラインメントを自動的に導出し、特定のアルゴリズムが常に正しい答えを得ることができると信頼することは賢明ではありません。 特に基礎となる系統樹(またはそれの推定)と組み合わせて、整列を密接に調べ、いくつかのパラメータを変化させなければならない。 外れ値(近親者を持たない配列)は、配列の断片と同様に慎重に整列されるべきである。 プログラムは、他のすべての配列が整列されるまで、他の配列と同一の40%未満の配列の整列を自動的に遅延させますが、これはユーザーがメニューから設定 先に説明したプロファイルアラインメントと重み付けスキームを使用して、おそらくさまざまなパラメータ設定を使用して、密接に関連する配列のアラインメントを最初に構築し、次により遠い親戚を一度にまたはバッチで追加することが有用である可能性があります。 我々は、SH2ドメインを使用して一例を与えます。 SH2ドメインは、彼らがホスホチロシン含有ペプチドの認識に機能する真核生物のシグナル伝達タンパク質に広く普及しています。 Bork and Gibsonの章(この巻)では、Blastおよびパターン/プロファイル検索を使用して、既知のSH2ドメインのセットを抽出し、新しいメンバーを検索しました。 (データベース検索で使用されるプロファイルは、概念的にはCLUSTAL Wで使用されるプロファイルと非常によく似ています。)プロファイル検索は、SH2ドメインを含まないと考えられていたタンパク質チロシンキナーゼのJAKファミリーでSH2ドメインを検出した。 JAKファミリー SH2ドメインはかなり発散しているが、必要なコア構造残基だけでなく、ホスホチロシンに結合する重要な正に荷電残基を持っており、彼らは善意のSH2ドメインであることは間違いない。 新しいJAKファミリー SH2ドメインは、CLUSTAL W profile alignmentオプションを使用して65のSH2ドメインの既存のアラインメントに順次追加されました。 図6は、結果のアライメントの一部を示しています。 それらの発散配列にもかかわらず、新しいSH2ドメインは、古いセットとほぼ完全に整列されています。 挿入は、元のSH2ドメインに配置されませんでした。 この例では、プロファイル整列手順は、70のすべてのSH2ドメインのワンステップ完全整列よりも優れた結果を生成し、かなり短い時間で生成しました。 (抄録)