Använda CLUSTAL för flera sekvensinriktningar

vi har testat CLUSTAL W i en mängd olika situationer, och det kan hantera några mycket svåra proteinjusteringsproblem. Om datamängden består av tillräckligt nära besläktade sekvenser så att de första inriktningarna är korrekta, kommer CLUSTAL W vanligtvis att hitta en justering som är mycket nära ideal. Problem kan fortfarande uppstå om datamängden innehåller sekvenser med mycket olika längder eller om vissa sekvenser innehåller långa regioner som är omöjliga att anpassa till resten av datamängden. Att försöka balansera behovet av långa Infogningar och raderingar i vissa anpassningar med behovet av att undvika dem i andra är fortfarande ett problem. Standardvärdena för våra parametrar testades empiriskt med hjälp av testfall av uppsättningar globulära proteiner där viss information om rätt inriktning var tillgänglig. Parametervärdena kanske inte är särskilt lämpliga med icke-lobulära proteiner. Vi har hävdat att användning av en viktmatris och två gap-påföljder är för förenklat för att vara till allmän användning i de svåraste fallen. Vi har ersatt dessa parametrar med ett stort antal nya parametrar som främst är utformade för att uppmuntra luckor i loopregioner. Även om dessa nya parametrar till stor del är heuristiska, fungerar de förvånansvärt bra och är enkla att implementera. Den underliggande hastigheten för den progressiva inriktningsmetoden påverkas inte negativt. Nackdelen är att parameterutrymmet nu är enormt; antalet möjliga kombinationer av parametrar är mer än vad som lätt kan undersökas för hand. Vi motiverar detta genom att be användaren att behandla CLUSTAL W som ett datautforskningsverktyg snarare än som en definitiv analysmetod. Det är inte förnuftigt att automatiskt härleda flera anpassningar och att lita på vissa algoritmer som alltid kan få rätt svar. Man måste undersöka inriktningarna noga, särskilt i samband med det underliggande fylogenetiska trädet (eller uppskatta det) och försöka variera några av parametrarna. Outliers (sekvenser som inte har några nära släktingar) bör anpassas noggrant, liksom fragment av sekvenser. Programmet fördröjer automatiskt justeringen av alla sekvenser som är mindre än 40% identiska med andra tills alla andra sekvenser är inriktade, men detta kan ställas in från en meny av användaren. Det kan vara användbart att bygga upp en anpassning av närbesläktade sekvenser först och sedan lägga till i de mer avlägsna släktingarna en i taget eller i satser, med hjälp av profiljusteringar och viktningsschema som beskrivits tidigare och kanske med hjälp av en mängd olika parameterinställningar. Vi ger ett exempel med SH2-domäner. SH2-domäner är utbredda i eukaryota signalproteiner där de fungerar vid igenkänning av fosfotyrosinhaltiga peptider. I kapitlet av Bork och Gibson (, denna volym) användes Blast och mönster/profilsökningar för att extrahera uppsättningen kända SH2-domäner och söka efter nya medlemmar. (Profiler som används i databassökningar är konceptuellt mycket lik de profiler som används i CLUSTAL W: se kapitlen och för profilsökningsmetoder.) Profilsökningarna upptäckte SH2-domäner i jak-familjen av proteintyrosinkinaser, som ansågs inte innehålla SH2-domäner. Även om JAK – familjen SH2-domäner är ganska divergerande, har de de nödvändiga kärnstrukturresterna såväl som den kritiska positivt laddade återstoden som binder fosfotyrosin och lämnar ingen tvekan om att de är bona fide SH2-domäner. De fem nya jak-familjen SH2-domäner lades sekventiellt till den befintliga anpassningen av 65 SH2-domäner med hjälp av CLUSTAL W-profiljusteringsalternativet. Figur 6 visar en del av den resulterande inriktningen. Trots deras divergerande sekvenser har de nya SH2-domänerna anpassats nästan perfekt med den gamla uppsättningen. Inga Infogningar placerades i de ursprungliga SH2-domänerna. I det här exemplet har profiljusteringsproceduren gett bättre resultat än en fullständig anpassning i ett steg av alla 70 SH2-domäner, och på betydligt kortare tid. (ABSTRAKT STYMPAD)

Lämna ett svar Avbryt svar