Utilisation de CLUSTAL pour des alignements de séquences multiples

Nous avons testé CLUSTAL W dans une grande variété de situations, et il est capable de gérer des problèmes d’alignement de protéines très difficiles. Si l’ensemble de données comprend suffisamment de séquences étroitement liées pour que les premiers alignements soient précis, CLUSTAL W trouvera généralement un alignement très proche de l’idéal. Des problèmes peuvent encore survenir si l’ensemble de données comprend des séquences de longueurs très différentes ou si certaines séquences incluent des régions longues impossibles à aligner avec le reste de l’ensemble de données. Essayer d’équilibrer le besoin d’insertions et de suppressions longues dans certains alignements avec la nécessité de les éviter dans d’autres reste un problème. Les valeurs par défaut de nos paramètres ont été testées empiriquement en utilisant des cas de test d’ensembles de protéines globulaires où certaines informations sur l’alignement correct étaient disponibles. Les valeurs des paramètres peuvent ne pas être très appropriées avec des protéines non globulaires. Nous avons fait valoir que l’utilisation d’une matrice de pondération et de deux pénalités d’écart est trop simpliste pour être d’une utilité générale dans les cas les plus difficiles. Nous avons remplacé ces paramètres par un grand nombre de nouveaux paramètres conçus principalement pour encourager les écarts dans les régions de boucle. Bien que ces nouveaux paramètres soient en grande partie de nature heuristique, ils fonctionnent étonnamment bien et sont simples à mettre en œuvre. La vitesse sous-jacente de l’approche d’alignement progressif n’est pas affectée négativement. L’inconvénient est que l’espace des paramètres est maintenant énorme; le nombre de combinaisons possibles de paramètres est plus que ce qui peut facilement être examiné à la main. Nous justifions cela en demandant à l’utilisateur de traiter CLUSTAL W comme un outil d’exploration de données plutôt que comme une méthode d’analyse définitive. Il n’est pas judicieux de dériver automatiquement plusieurs alignements et de faire confiance à des algorithmes particuliers comme étant capables d’obtenir toujours la bonne réponse. Il faut examiner les alignements de près, en particulier en conjonction avec l’arbre phylogénétique sous-jacent (ou l’estimer) et essayer de faire varier certains paramètres. Les valeurs aberrantes (séquences qui n’ont pas de parents proches) doivent être alignées avec soin, tout comme les fragments de séquences. Le programme retardera automatiquement l’alignement de toutes les séquences inférieures à 40% identiques aux autres jusqu’à ce que toutes les autres séquences soient alignées, mais cela peut être défini à partir d’un menu par l’utilisateur. Il peut être utile d’établir d’abord un alignement de séquences étroitement liées et d’ajouter ensuite les parents les plus éloignés un à la fois ou par lots, en utilisant les alignements de profil et le schéma de pondération décrits précédemment et peut-être en utilisant une variété de paramètres. Nous donnons un exemple en utilisant les domaines SH2. Les domaines SH2 sont répandus dans les protéines de signalisation eucaryotes où ils fonctionnent dans la reconnaissance des peptides contenant de la phosphotyrosine. Dans le chapitre de Bork et Gibson (, ce volume), les recherches Blast et pattern /profile ont été utilisées pour extraire l’ensemble des domaines SH2 connus et pour rechercher de nouveaux membres. (Les profils utilisés dans les recherches de bases de données sont conceptuellement très similaires aux profils utilisés dans CLUSTAL W: voir les chapitres et pour les méthodes de recherche de profils.) Les recherches de profils ont détecté des domaines SH2 dans la famille JAK des protéines tyrosine kinases, qui ne contenaient pas de domaines SH2. Bien que les domaines SH2 de la famille JAK soient plutôt divergents, ils ont les résidus structurels essentiels nécessaires ainsi que le résidu critique chargé positivement qui lie la phosphotyrosine, ne laissant aucun doute sur le fait qu’il s’agit de domaines SH2 de bonne foi. Les cinq nouveaux domaines SH2 de la famille JAK ont été ajoutés séquentiellement à l’alignement existant de 65 domaines SH2 à l’aide de l’option d’alignement de profil CLUSTAL W. La figure 6 montre une partie de l’alignement résultant. Malgré leurs séquences divergentes, les nouveaux domaines SH2 ont été alignés presque parfaitement avec l’ancien ensemble. Aucune insertion n’a été placée dans les domaines SH2 d’origine. Dans cet exemple, la procédure d’alignement de profil a produit de meilleurs résultats qu’un alignement complet en une étape des 70 domaines SH2, et en beaucoup moins de temps. (RÉSUMÉ TRONQUÉ)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.