Using CLUSTAL for multiple sequence alignments

Wir haben CLUSTAL W in einer Vielzahl von Situationen getestet und es ist in der Lage, einige sehr schwierige Proteinausrichtungsprobleme zu lösen. Wenn der Datensatz aus genügend eng verwandten Sequenzen besteht, damit die ersten Ausrichtungen genau sind, findet CLUSTAL W normalerweise eine Ausrichtung, die dem Ideal sehr nahe kommt. Probleme können weiterhin auftreten, wenn der Datensatz Sequenzen stark unterschiedlicher Länge enthält oder wenn einige Sequenzen lange Bereiche enthalten, die nicht mit dem Rest des Datensatzes ausgerichtet werden können. Der Versuch, die Notwendigkeit langer Einfügungen und Löschungen in einigen Ausrichtungen mit der Notwendigkeit, sie in anderen zu vermeiden, in Einklang zu bringen, ist immer noch ein Problem. Die Standardwerte für unsere Parameter wurden empirisch mit Testfällen von Sätzen globulärer Proteine getestet, bei denen einige Informationen über die korrekte Ausrichtung verfügbar waren. Die Parameterwerte sind bei nichtglobulären Proteinen möglicherweise nicht sehr geeignet. Wir haben argumentiert, dass die Verwendung einer Gewichtsmatrix und zweier Lückenstrafen zu einfach ist, um in den schwierigsten Fällen von allgemeinem Nutzen zu sein. Wir haben diese Parameter durch eine Vielzahl neuer Parameter ersetzt, die in erster Linie dazu beitragen sollen, Lücken in Schleifenregionen zu schließen. Obwohl diese neuen Parameter weitgehend heuristischer Natur sind, funktionieren sie überraschend gut und sind einfach zu implementieren. Die zugrunde liegende Geschwindigkeit des progressiven Ausrichtungsansatzes wird nicht beeinträchtigt. Der Nachteil ist, dass der Parameterraum jetzt riesig ist; die Anzahl der möglichen Kombinationen von Parametern ist mehr als leicht von Hand untersucht werden kann. Wir rechtfertigen dies, indem wir den Benutzer bitten, CLUSTAL W als Datenexplorationstool und nicht als definitive Analysemethode zu behandeln. Es ist nicht sinnvoll, mehrere Alignments automatisch abzuleiten und bestimmten Algorithmen zu vertrauen, dass sie immer die richtige Antwort erhalten. Man muss die Ausrichtungen genau untersuchen, insbesondere in Verbindung mit dem zugrunde liegenden phylogenetischen Baum (oder dessen Schätzung) und versuchen, einige der Parameter zu variieren. Ausreißer (Sequenzen, die keine nahen Verwandten haben) sollten sorgfältig ausgerichtet werden, ebenso wie Fragmente von Sequenzen. Das Programm verzögert automatisch die Ausrichtung von Sequenzen, die weniger als 40% identisch mit anderen sind, bis alle anderen Sequenzen ausgerichtet sind. Es kann nützlich sein, zuerst eine Ausrichtung eng verwandter Sequenzen aufzubauen und dann die entfernteren Verwandten einzeln oder in Stapeln hinzuzufügen, unter Verwendung der zuvor beschriebenen Profilausrichtungen und des Gewichtungsschemas und möglicherweise unter Verwendung einer Vielzahl von Parametereinstellungen. Wir geben ein Beispiel mit SH2-Domains. SH2-Domänen sind in eukaryotischen Signalproteinen weit verbreitet, wo sie bei der Erkennung von phosphotyrosinhaltigen Peptiden wirken. Im Kapitel von Bork und Gibson (, dieser Band) wurden Blast- und Muster- / Profilsuchen verwendet, um die Menge bekannter SH2-Domänen zu extrahieren und nach neuen Mitgliedern zu suchen. (Profile, die bei der Datenbanksuche verwendet werden, sind konzeptionell den in CLUSTAL W verwendeten Profilen sehr ähnlich: siehe die Kapitel und für Profilsuchmethoden.) Die Profilsuchen detektierten SH2-Domänen in der JAK-Familie von Protein-Tyrosinkinasen, von denen angenommen wurde, dass sie keine SH2-Domänen enthalten. Obwohl die SH2-Domänen der JAK-Familie eher divergent sind, weisen sie die notwendigen Kernstrukturreste sowie den kritischen positiv geladenen Rest auf, der Phosphotyrosin bindet, was keinen Zweifel daran lässt, dass es sich um echte SH2-Domänen handelt. Die fünf neuen SH2-Domänen der JAK-Familie wurden sequentiell zur bestehenden Ausrichtung von 65 SH2-Domänen mithilfe der CLUSTAL W-Profilausrichtungsoption hinzugefügt. Abbildung 6 zeigt einen Teil der resultierenden Ausrichtung. Trotz ihrer divergierenden Sequenzen wurden die neuen SH2-Domänen nahezu perfekt mit dem alten Satz ausgerichtet. In den ursprünglichen SH2-Domänen wurden keine Insertionen platziert. In diesem Beispiel hat das Profilausrichtungsverfahren bessere Ergebnisse erzielt als eine einstufige vollständige Ausrichtung aller 70 SH2-Domänen und dies in erheblich kürzerer Zeit. (ZUSAMMENFASSUNG ABGESCHNITTEN)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.