Bruke CLUSTAL for flere sekvensjusteringer

VI har testet CLUSTAL W i en rekke situasjoner, Og Det er i stand til å håndtere noen svært vanskelige proteinjusteringsproblemer. Hvis datasettet består av nok nært beslektede sekvenser slik at de første justeringene er nøyaktige, VIL CLUSTAL W vanligvis finne en justering som er svært nær ideell. Problemer kan fortsatt oppstå hvis datasettet inneholder sekvenser av svært forskjellige lengder, eller hvis noen sekvenser inkluderer lange områder som er umulig å justere med resten av datasettet. Å forsøke å balansere behovet for lange innsettinger og slettinger i noen tilpasninger med behovet for å unngå dem i andre er fortsatt et problem. Standardverdiene for våre parametere ble testet empirisk ved hjelp av testtilfeller av sett med globulære proteiner der noe informasjon om riktig justering var tilgjengelig. Parameterverdiene kan ikke være veldig passende med nonglobulære proteiner. Vi har hevdet at bruk av en vektmatrise og to gapstraffer er for forenklet til å være av generell bruk i de vanskeligste tilfellene. Vi har erstattet disse parametrene med et stort antall nye parametere som primært er utformet for å bidra til å oppmuntre hull i loop-regioner. Selv om disse nye parametrene i stor grad er heuristiske i naturen, utfører de overraskende bra og er enkle å implementere. Den underliggende hastigheten til den progressive tilpasningsmetoden påvirkes ikke negativt. Ulempen er at parameterplassen nå er stor; antall mulige kombinasjoner av parametere er mer enn det som lett kan undersøkes for hånd. VI rettferdiggjør dette ved å be brukeren om å behandle CLUSTAL W som et datautforskningsverktøy i stedet for som en endelig analysemetode. Det er ikke fornuftig å automatisk utlede flere justeringer og å stole på bestemte algoritmer som alltid kan få det riktige svaret. Man må undersøke justeringene nøye, spesielt i forbindelse med det underliggende fylogenetiske treet (eller estimat av det) og prøve å variere noen av parametrene. Outliers (sekvenser som ikke har noen nære slektninger) bør justeres nøye, som bør fragmenter av sekvenser. Programmet vil automatisk forsinke justeringen av noen sekvenser som er mindre enn 40% identisk med noen andre til alle andre sekvenser er justert, men dette kan settes fra en meny av brukeren. Det kan være nyttig å bygge opp en justering av nært beslektede sekvenser først og deretter legge til i de fjernere slektninger en om gangen eller i grupper, ved hjelp av profiljusteringer og vektingsskjema beskrevet tidligere og kanskje ved hjelp av en rekke parameterinnstillinger. Vi gir et eksempel ved HJELP AV sh2 domener. SH2-domener er utbredt i eukaryotiske signalproteiner hvor de fungerer i anerkjennelse av fosfotyrosinholdige peptider. I kapittelet Av Bork Og Gibson (, dette volumet), Blast og mønster / profil søk ble brukt til å trekke ut settet av kjente sh2 domener og for å søke etter nye medlemmer. (Profiler som brukes i databasesøk er konseptuelt svært lik profilene som brukes I CLUSTAL W: se kapitlene og for profilsøkemetoder.) Profilsøkene oppdaget SH2-domener i jak-familien av proteintyrosinkinaser, som ble antatt å ikke inneholde SH2-domener. SELV OM jak familien sh2 domener er ganske divergerende, de har de nødvendige kjerne strukturelle rester samt kritisk positivt ladet rester som binder fosfotyrosin, etterlot ingen tvil om at de er bona fide sh2 domener. De fem nye jak familien SH2 domener ble lagt sekvensielt til eksisterende justering av 65 SH2 domener ved HJELP AV CLUSTAL w profil justering alternativet. Figur 6 viser en del av den resulterende justeringen. Til tross for deres divergerende sekvenser har de nye sh2-domenene blitt justert nesten perfekt med det gamle settet. Ingen innsettinger ble plassert i de opprinnelige sh2-domenene. I dette eksemplet har profiljusteringsprosedyren gitt bedre resultater enn en ett-trinns full justering av alle 70 SH2-domener, og på betydelig kortere tid. (ABSTRAKT AVKORTET)

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.