Brug af CLUSTAL til flere sekvensjusteringer

vi har testet CLUSTAL i en lang række situationer, og det er i stand til at håndtere nogle meget vanskelige proteinjusteringsproblemer. Hvis datasættet består af nok nært beslægtede sekvenser, så de første justeringer er nøjagtige, vil CLUSTAL normalt finde en justering, der er meget tæt på ideel. Der kan stadig opstå problemer, hvis datasættet indeholder sekvenser med meget forskellige længder, eller hvis nogle sekvenser inkluderer lange regioner, der er umulige at justere med resten af datasættet. At forsøge at afbalancere behovet for lange indsættelser og sletninger i nogle justeringer med behovet for at undgå dem i andre er stadig et problem. Standardværdierne for vores parametre blev testet empirisk ved hjælp af testtilfælde af sæt kugleformede proteiner, hvor nogle oplysninger om den korrekte justering var tilgængelige. Parameterværdierne er muligvis ikke særlig passende med ikke-globulære proteiner. Vi har argumenteret for, at brug af en vægtmatrice og to gap-sanktioner er for forenklet til at være til generel brug i de vanskeligste tilfælde. Vi har erstattet disse parametre med et stort antal nye parametre, der primært er designet til at tilskynde til huller i loop-regioner. Selvom disse nye parametre stort set er heuristiske, fungerer de overraskende godt og er enkle at implementere. Den underliggende hastighed for den progressive tilpasningsmetode påvirkes ikke negativt. Ulempen er, at parameterrummet nu er enormt; antallet af mulige kombinationer af parametre er mere, end det let kan undersøges manuelt. Vi retfærdiggør dette ved at bede brugeren om at behandle CLUSTAL V som et dataundersøgelsesværktøj snarere end som en endelig analysemetode. Det er ikke fornuftigt at automatisk udlede flere justeringer og stole på bestemte algoritmer som værende i stand til altid at få det rigtige svar. Man skal undersøge justeringerne nøje, især i forbindelse med det underliggende fylogenetiske træ (eller estimat af det) og prøve at variere nogle af parametrene. Outliers (sekvenser, der ikke har nogen nære slægtninge) bør justeres omhyggeligt, ligesom fragmenter af sekvenser. Programmet forsinker automatisk justeringen af eventuelle sekvenser, der er mindre end 40% identiske med andre, indtil alle andre sekvenser er justeret, men dette kan indstilles fra en menu af brugeren. Det kan være nyttigt at opbygge en justering af nært beslægtede sekvenser først og derefter tilføje i de fjernere slægtninge en ad gangen eller i batches ved hjælp af profiljusteringer og vægtningsskema beskrevet tidligere og måske ved hjælp af en række parameterindstillinger. Vi giver et eksempel ved hjælp af SH2-domæner. SH2-domæner er udbredt i eukaryote signalproteiner, hvor de fungerer i genkendelsen af phosphotyrosinholdige peptider. I kapitlet af Bork og Gibson (, dette bind) blev Blast-og mønster/profilsøgninger brugt til at udtrække sæt af kendte SH2-domæner og til at søge efter nye medlemmer. (Profiler, der bruges i databasesøgninger, svarer konceptuelt meget til de profiler, der bruges i CLUSTAL V: se kapitlerne og for profilsøgningsmetoder.) Profilsøgningerne registrerede SH2-domæner i jak-familien af proteintyrosinkinaser, som man mente ikke indeholdt SH2-domæner. Selvom jak-familien SH2-domæner er ret divergerende, har de de nødvendige kernestrukturelle rester såvel som den kritiske positivt ladede Rest, der binder phosphotyrosin, hvilket ikke efterlader nogen tvivl om, at de er bona fide SH2-domæner. De fem nye jak family SH2-domæner blev tilføjet sekventielt til den eksisterende justering af 65 SH2-domæner ved hjælp af indstillingen CLUSTAL V-profiljustering. Figur 6 viser en del af den resulterende justering. På trods af deres divergerende sekvenser er de nye SH2-domæner næsten perfekt tilpasset det gamle sæt. Ingen indsættelser blev placeret i de originale SH2-domæner. I dette eksempel har profiljusteringsproceduren givet bedre resultater end en Et-trins fuld justering af alle 70 SH2-domæner og på betydeligt kortere tid. (ABSTRAKT AFKORTET)

Skriv et svar Annuller svar