Using CLUSTAL for multiple sequence alignments

przetestowaliśmy CLUSTAL W w wielu różnych sytuacjach i jest w stanie poradzić sobie z bardzo trudnymi problemami z wyrównaniem białek. Jeśli zbiór danych składa się z wystarczająco ściśle powiązanych sekwencji, aby pierwsze wyrównania były dokładne, wtedy CLUSTAL w Zwykle znajdzie wyrównanie, które jest bardzo bliskie ideałowi. Problemy mogą nadal występować, jeśli zestaw danych zawiera sekwencje o znacznie różnych długościach lub jeśli niektóre sekwencje zawierają długie regiony, których nie można dopasować do reszty zestawu danych. Próba zrównoważenia potrzeby długich wstawek i skreśleń w niektórych wyrównaniach z potrzebą ich unikania w innych jest nadal problemem. Domyślne wartości dla naszych parametrów zostały przetestowane empirycznie przy użyciu przypadków testowych zestawów białek kulistych, w których dostępne były pewne informacje dotyczące prawidłowego wyrównania. Wartości parametrów mogą nie być zbyt odpowiednie w przypadku białek nieślubnych. Twierdziliśmy, że stosowanie jednej macierzy wagowej i dwóch kar luk jest zbyt uproszczone, aby mogło być powszechnie stosowane w najtrudniejszych przypadkach. Zastąpiliśmy te parametry dużą liczbą nowych parametrów zaprojektowanych przede wszystkim w celu wspierania luk w regionach pętli. Chociaż te nowe parametry mają w dużej mierze charakter heurystyczny, działają zaskakująco dobrze i są proste do wdrożenia. Nie ma to negatywnego wpływu na podstawową szybkość podejścia do stopniowego dostosowywania. Wadą jest to, że przestrzeń parametrów jest teraz ogromna; liczba możliwych kombinacji parametrów jest więcej niż można łatwo zbadać ręcznie. Uzasadniamy to, prosząc użytkownika, aby traktował CLUSTAL W jako narzędzie eksploracji danych, a nie jako ostateczną metodę analizy. Nie jest sensowne automatyczne wyprowadzanie wielu dopasowań i ufanie konkretnym algorytmom, że są w stanie zawsze uzyskać poprawną odpowiedź. Trzeba dokładnie zbadać wyrównania, zwłaszcza w połączeniu z leżącym u podstaw drzewem filogenetycznym (lub oszacować go) i spróbować zmieniać niektóre parametry. Wartości odstające (sekwencje, które nie mają bliskich krewnych) powinny być dokładnie wyrównane, podobnie jak fragmenty sekwencji. Program automatycznie opóźni wyrównanie dowolnych sekwencji, które są mniej niż 40% identyczne z innymi, dopóki wszystkie inne sekwencje nie zostaną wyrównane, ale można to ustawić z menu przez użytkownika. Może być użyteczne zbudowanie wyrównania ściśle powiązanych sekwencji, a następnie dodanie bardziej odległych krewnych pojedynczo lub partiami, przy użyciu opisanych wcześniej schematów wyrównania profilu i ważenia, a być może przy użyciu różnych ustawień parametrów. Podajemy przykład użycia domen SH2. Domeny SH2 są szeroko rozpowszechnione w eukariotycznych białkach sygnałowych, gdzie działają w rozpoznawaniu peptydów zawierających fosfotyrozynę. W rozdziale autorstwa Borka i Gibsona (ten tom), Blast i pattern/profile wyszukiwania zostały wykorzystane do wyodrębnienia zestawu znanych domen SH2 i wyszukiwania nowych członków. (Profile używane w wyszukiwaniu baz danych są koncepcyjnie bardzo podobne do profili używanych w CLUSTAL W: Zobacz rozdziały i metody wyszukiwania profili.) W badaniach profilowych wykryto domeny SH2 w rodzinie kinaz białkowych tyrozynowych JAK, które uważano, że nie zawierają domen SH2. Chociaż domeny SH2 z rodziny JAK są raczej rozbieżne, mają niezbędne podstawowe reszty strukturalne, jak również krytyczną dodatnio naładowaną resztę, która wiąże fosfotyrozynę, nie pozostawiając wątpliwości, że są one prawdziwymi domenami SH2. Pięć nowych domen SH2 rodziny JAK zostało dodanych sekwencyjnie do istniejącego wyrównania 65 domen SH2 za pomocą opcji wyrównania profilu CLUSTAL W. Rysunek 6 przedstawia część wynikowego wyrównania. Pomimo ich rozbieżnych sekwencji, nowe domeny SH2 zostały niemal idealnie dopasowane do starego zbioru. W oryginalnych domenach SH2 nie umieszczono żadnych wstawek. W tym przykładzie procedura wyrównywania profili przyniosła lepsze wyniki niż jednoetapowe pełne wyrównanie wszystkich 70 domen SH2 i to w znacznie krótszym czasie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.