Utilizzo di CLUSTAL per allineamenti di sequenza multipli

Abbiamo testato CLUSTAL W in un’ampia varietà di situazioni ed è in grado di gestire alcuni problemi di allineamento delle proteine molto difficili. Se il set di dati è costituito da sequenze abbastanza strettamente correlate in modo che i primi allineamenti siano accurati, CLUSTAL W di solito troverà un allineamento molto vicino all’ideale. I problemi possono ancora verificarsi se il set di dati include sequenze di lunghezze molto diverse o se alcune sequenze includono regioni lunghe che sono impossibili da allineare con il resto del set di dati. Cercare di bilanciare la necessità di inserimenti e cancellazioni lunghe in alcuni allineamenti con la necessità di evitarli in altri è ancora un problema. I valori predefiniti per i nostri parametri sono stati testati empiricamente utilizzando casi di test di insiemi di proteine globulari in cui erano disponibili alcune informazioni sul corretto allineamento. I valori dei parametri potrebbero non essere molto appropriati con le proteine non globulari. Abbiamo sostenuto che utilizzare una matrice di peso e due penalità di gap è troppo semplicistico per essere di uso generale nei casi più difficili. Abbiamo sostituito questi parametri con un gran numero di nuovi parametri progettati principalmente per contribuire a incoraggiare le lacune nelle regioni loop. Sebbene questi nuovi parametri siano in gran parte di natura euristica, funzionano sorprendentemente bene e sono semplici da implementare. La velocità di fondo dell’approccio di allineamento progressivo non è influenzata negativamente. Lo svantaggio è che lo spazio dei parametri è ora enorme; il numero di possibili combinazioni di parametri è più che può essere facilmente esaminato a mano. Giustifichiamo questo chiedendo all’utente di trattare CLUSTAL W come uno strumento di esplorazione dei dati piuttosto che come un metodo di analisi definitivo. Non è sensato derivare automaticamente più allineamenti e fidarsi di particolari algoritmi come in grado di ottenere sempre la risposta corretta. Bisogna esaminare attentamente gli allineamenti, specialmente in combinazione con l’albero filogenetico sottostante (o stima di esso) e provare a variare alcuni dei parametri. I valori anomali (sequenze che non hanno parenti stretti) dovrebbero essere allineati con attenzione, così come i frammenti di sequenze. Il programma ritarderà automaticamente l’allineamento di tutte le sequenze che sono meno del 40% identico a qualsiasi altro fino a quando tutte le altre sequenze sono allineati, ma questo può essere impostato da un menu dall’utente. Può essere utile costruire prima un allineamento di sequenze strettamente correlate e poi aggiungere i parenti più lontani uno alla volta o in lotti, usando gli allineamenti del profilo e lo schema di ponderazione descritto in precedenza e forse usando una varietà di impostazioni dei parametri. Diamo un esempio usando i domini SH2. I domini SH2 sono diffusi nelle proteine di segnalazione eucariotiche dove funzionano nel riconoscimento dei peptidi contenenti fosfotirosina. Nel capitolo di Bork e Gibson (questo volume), le ricerche Blast e pattern/profile sono state utilizzate per estrarre l’insieme dei domini SH2 noti e per cercare nuovi membri. (I profili utilizzati nelle ricerche di database sono concettualmente molto simili ai profili utilizzati in CLUSTAL W: vedere i capitoli e per i metodi di ricerca dei profili.) Le ricerche di profilo hanno rilevato domini SH2 nella famiglia JAK di proteine tirosin chinasi, che si pensava non contenessero domini SH2. Sebbene i domini SH2 della famiglia JAK siano piuttosto divergenti, hanno i residui strutturali del nucleo necessari e il residuo critico caricato positivamente che lega la fosfotirosina, senza lasciare dubbi sul fatto che siano domini SH2 in buona fede. I cinque nuovi domini SH2 della famiglia JAK sono stati aggiunti in sequenza all’allineamento esistente di 65 domini SH2 utilizzando l’opzione CLUSTAL W profile alignment. La figura 6 mostra parte dell’allineamento risultante. Nonostante le loro sequenze divergenti, i nuovi domini SH2 sono stati allineati quasi perfettamente con il vecchio set. Non sono stati inseriti inserimenti nei domini SH2 originali. In questo esempio, la procedura di allineamento del profilo ha prodotto risultati migliori rispetto a un allineamento completo in un solo passaggio di tutti i 70 domini SH2 e in un tempo notevolmente inferiore. (ABSTRACT TRONCATO)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.