použití CLUSTAL pro více sekvenčních zarovnání

Testovali jsme CLUSTAL W v široké škále situací a je schopen zvládnout některé velmi obtížné problémy se zarovnáním proteinů. Pokud se datová sada skládá z dostatečně úzce souvisejících sekvencí, takže první zarovnání jsou přesná, pak CLUSTAL W obvykle najde zarovnání, které je velmi blízko ideálu. Problémy mohou stále nastat, pokud datová sada obsahuje sekvence velmi odlišných délek nebo pokud některé sekvence obsahují dlouhé oblasti, které nelze zarovnat se zbytkem datové sady. Snaha vyvážit potřebu dlouhých vkládání a mazání v některých zarovnáních s potřebou vyhnout se jim v jiných je stále problém. Výchozí hodnoty pro naše parametry byly testovány empiricky pomocí testovacích případů množin globulárních proteinů, kde byly k dispozici určité informace o správném zarovnání. Hodnoty parametrů nemusí být u nonglobulárních proteinů příliš vhodné. Tvrdili jsme, že použití jedné hmotnostní matice a dvou mezer je příliš zjednodušující na to, aby bylo v nejtěžších případech obecně použitelné. Tyto parametry jsme nahradili velkým množstvím nových parametrů určených především k podpoře mezer v oblastech smyček. Ačkoli tyto nové parametry jsou do značné míry heuristické povahy, fungují překvapivě dobře a snadno se implementují. Základní rychlost postupu postupného zarovnání není nepříznivě ovlivněna. Nevýhodou je, že prostor parametrů je nyní obrovský; počet možných kombinací parametrů je více, než lze snadno prozkoumat ručně. Ospravedlňujeme to tím, že požádáme uživatele, aby s CLUSTAL W zacházel spíše jako s nástrojem pro průzkum dat než jako s definitivní metodou analýzy. Není rozumné automaticky odvodit více zarovnání a důvěřovat konkrétním algoritmům jako schopným vždy získat správnou odpověď. Je třeba pečlivě prozkoumat zarovnání, zejména ve spojení s podkladovým fylogenetickým stromem (nebo jeho odhadem) a zkusit změnit některé parametry. Odlehlé hodnoty (sekvence, které nemají blízké příbuzné) by měly být pečlivě zarovnány, stejně jako fragmenty sekvencí. Program automaticky zpozdí zarovnání všech sekvencí, které jsou méně než 40% identické s ostatními, dokud nejsou všechny ostatní sekvence zarovnány, ale to lze nastavit z nabídky uživatelem. Může být užitečné nejprve vytvořit zarovnání úzce souvisejících sekvencí a poté přidat vzdálenější příbuzné jeden po druhém nebo v dávkách, pomocí výše popsaného schématu zarovnání profilů a vážení a možná pomocí různých nastavení parametrů. Uvádíme jeden příklad pomocí domén SH2. SH2 domény jsou rozšířené v eukaryotických signalizačních proteinech, kde fungují při rozpoznávání peptidů obsahujících fosfotyrosin. V kapitole Bork a Gibson (, tento svazek), výbuch a vzor / profil vyhledávání byly použity k extrahování sadu známých SH2 domén a hledat nové členy. (Profily používané při vyhledávání v databázi jsou koncepčně velmi podobné profilům používaným v CLUSTAL W: Viz kapitoly a metody vyhledávání profilů.) Profilová vyhledávání detekovala SH2 domény v rodině jak proteinových tyrosinkináz, o nichž se předpokládalo, že neobsahují SH2 domény. Ačkoli rodiny SH2 domén JAK jsou poněkud odlišné, mají nezbytné základní strukturní zbytky, stejně jako kritický pozitivně nabitý zbytek, který váže fosfotyrosin, nenechává žádné pochybnosti o tom, že se jedná o bona fide SH2 domény. Pět nových domén jak rodiny SH2 bylo postupně přidáno ke stávajícímu zarovnání 65 domén SH2 pomocí možnosti zarovnání profilu CLUSTAL W. Obrázek 6 ukazuje část výsledného zarovnání. Přes jejich odlišné sekvence, nové domény SH2 byly téměř dokonale zarovnány se starou sadou. V původních doménách SH2 nebyly umístěny žádné vložení. V tomto příkladu, postup zarovnání profilu přinesl lepší výsledky než jednostupňové úplné zarovnání všech 70 domény SH2, a za podstatně kratší dobu. (ABSTRAKT ZKRÁCENÝ)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.