gebruik van CLUSTAL voor meervoudige sequentie alignments

we hebben CLUSTAL W getest in een breed scala van situaties, en het is in staat om een aantal zeer moeilijke proteïne alignment problemen aan te pakken. Als de dataset uit voldoende nauw verwante opeenvolgingen bestaat zodat de eerste uitlijningen nauwkeurig zijn, dan zal CLUSTAL W gewoonlijk een uitlijning vinden die zeer dicht bij ideaal is. Problemen kunnen nog steeds optreden als de gegevensverzameling reeksen van sterk verschillende lengtes omvat of als sommige reeksen lange gebieden omvatten die onmogelijk met de rest van de gegevensverzameling kunnen worden uitgelijnd. Proberen om de behoefte aan lange inserties en schrappingen in sommige uitlijningen in evenwicht te brengen met de noodzaak om ze in anderen te vermijden, is nog steeds een probleem. De standaardwaarden voor onze parameters werden empirisch Getest met behulp van testcases van Sets bolvormige eiwitten waar enige informatie over de juiste uitlijning beschikbaar was. De parameterwaarden zijn mogelijk niet erg geschikt voor niet-globulaire eiwitten. Wij hebben betoogd dat het gebruik van één gewichtsmatrix en twee gap penalty ‘ s te simplistisch is om in de moeilijkste gevallen algemeen van toepassing te zijn. We hebben deze parameters vervangen door een groot aantal nieuwe parameters die in de eerste plaats bedoeld zijn om hiaten in lusregio ‘ s aan te moedigen. Hoewel deze nieuwe parameters grotendeels heuristisch van aard zijn, presteren ze verrassend goed en zijn ze eenvoudig te implementeren. De onderliggende snelheid van de geleidelijke aanpassing wordt niet negatief beïnvloed. Het nadeel is dat de parameterruimte nu enorm is; het aantal mogelijke combinaties van parameters is meer dan gemakkelijk met de hand kan worden onderzocht. We rechtvaardigen dit door de gebruiker te vragen om CLUSTAL W te behandelen als een data exploration tool in plaats van als een definitieve analysemethode. Het is niet verstandig om automatisch meerdere uitlijningen af te leiden en bepaalde algoritmen te vertrouwen als zijnde in staat om altijd het juiste antwoord te krijgen. Men moet de alignments nauw onderzoeken, vooral in combinatie met de onderliggende fylogenetische boom (of schatting van het) en proberen een aantal parameters te variëren. Uitschieters (sequenties die geen naaste verwanten hebben)moeten zorgvuldig worden uitgelijnd, net als fragmenten van sequenties. Het programma vertraagt automatisch de uitlijning van alle sequenties die minder dan 40% identiek zijn aan alle andere sequenties totdat alle andere sequenties zijn uitgelijnd, maar dit kan worden ingesteld vanuit een menu door de gebruiker. Het kan nuttig zijn om eerst een uitlijning van nauw verwante sequenties op te bouwen en vervolgens toe te voegen in de meer verre familieleden een voor een of in batches, met behulp van de profiel alignments en weging schema eerder beschreven en misschien met behulp van een verscheidenheid van parameterinstellingen. We geven een voorbeeld met behulp van SH2 domeinen. SH2 domeinen zijn wijdverspreid in eukaryotic signalerende proteã nen waar zij in de erkenning van phosphotyrosine-bevattende peptides functioneren. In het hoofdstuk Door Bork en Gibson (, dit volume) werden Blast en patroon/profiel zoekopdrachten gebruikt om de set van bekende SH2 domeinen te extraheren en om nieuwe leden te zoeken. (Profielen gebruikt in database zoekopdrachten zijn conceptueel zeer vergelijkbaar met de profielen gebruikt in CLUSTAL W: zie de hoofdstukken en voor profiel zoekmethoden.) De profielzoekopdrachten gedetecteerd SH2 domeinen in de Jak familie van eiwit tyrosine kinases, waarvan werd gedacht niet te bevatten SH2 domeinen. Hoewel de domeinen van de familie SH2 van JAK eerder divergent zijn, hebben zij de noodzakelijke kern structurele residuen evenals het kritische positief geladen residu dat phosphotyrosine bindt, verlaten zonder twijfel dat zij bonafide SH2 domeinen zijn. De vijf nieuwe jak familie SH2 domeinen werden achtereenvolgens toegevoegd aan de bestaande uitlijning van 65 SH2 domeinen met behulp van de CLUSTAL w profieluitlijning optie. Figuur 6 toont een deel van de resulterende uitlijning. Ondanks hun uiteenlopende sequenties, zijn de nieuwe SH2 domeinen bijna perfect uitgelijnd met de oude set. Er werden geen inserties geplaatst in de oorspronkelijke SH2 domeinen. In dit voorbeeld heeft de profieluitlijningsprocedure betere resultaten opgeleverd dan een volledige uitlijning in één stap van alle 70 SH2 domeinen, en in aanzienlijk minder tijd. (ABSTRACT AFGEKAPT)

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.