Hemos probado CLUSTAL W en una amplia variedad de situaciones, y es capaz de manejar algunos problemas de alineación de proteínas muy difíciles. Si el conjunto de datos consta de suficientes secuencias estrechamente relacionadas para que las primeras alineaciones sean precisas, entonces CLUSTAL W generalmente encontrará una alineación que es muy cercana a la ideal. Aún pueden ocurrir problemas si el conjunto de datos incluye secuencias de longitudes muy diferentes o si algunas secuencias incluyen regiones largas que son imposibles de alinear con el resto del conjunto de datos. Tratar de equilibrar la necesidad de inserciones y eliminaciones largas en algunas alineaciones con la necesidad de evitarlas en otras sigue siendo un problema. Los valores predeterminados de nuestros parámetros se probaron empíricamente utilizando casos de prueba de conjuntos de proteínas globulares en los que se disponía de cierta información sobre la alineación correcta. Los valores de los parámetros pueden no ser muy apropiados con proteínas no lobulares. Hemos argumentado que el uso de una matriz de peso y dos penalizaciones de separación es demasiado simplista para ser de uso general en los casos más difíciles. Hemos reemplazado estos parámetros con un gran número de nuevos parámetros diseñados principalmente para ayudar a fomentar las brechas en las regiones de bucle. Aunque estos nuevos parámetros son en gran medida de naturaleza heurística, funcionan sorprendentemente bien y son fáciles de implementar. La velocidad subyacente del enfoque de alineación progresiva no se ve afectada negativamente. La desventaja es que el espacio de parámetros ahora es enorme; el número de combinaciones posibles de parámetros es más de lo que se puede examinar fácilmente a mano. Justificamos esto pidiendo al usuario que trate a CLUSTAL W como una herramienta de exploración de datos en lugar de como un método de análisis definitivo. No es sensato derivar automáticamente múltiples alineaciones y confiar en algoritmos particulares como capaces de obtener siempre la respuesta correcta. Uno debe examinar los alineamientos de cerca, especialmente en conjunto con el árbol filogenético subyacente (o estimación del mismo) y tratar de variar algunos de los parámetros. Los valores atípicos (secuencias que no tienen parientes cercanos) deben alinearse cuidadosamente, al igual que los fragmentos de secuencias. El programa retrasará automáticamente la alineación de cualquier secuencia que sea inferior al 40% idéntica a cualquier otra hasta que todas las demás secuencias estén alineadas, pero el usuario puede configurar esto desde un menú. Puede ser útil construir una alineación de secuencias estrechamente relacionadas primero y luego agregar los parientes más distantes uno a la vez o en lotes, utilizando las alineaciones de perfiles y el esquema de ponderación descrito anteriormente y tal vez utilizando una variedad de configuraciones de parámetros. Damos un ejemplo usando dominios SH2. Los dominios SH2 están muy extendidos en las proteínas de señalización eucariotas, donde funcionan en el reconocimiento de péptidos que contienen fosfotirosina. En el capítulo de Bork y Gibson (, este volumen), las búsquedas de Blast y patrón/perfil se utilizaron para extraer el conjunto de dominios SH2 conocidos y para buscar nuevos miembros. (Los perfiles utilizados en las búsquedas de bases de datos son conceptualmente muy similares a los perfiles utilizados en CLUSTAL W: consulte los capítulos y los métodos de búsqueda de perfiles.) Las búsquedas de perfiles detectaron dominios SH2 en la familia de proteínas tirosina quinasas JAK, que se pensaba que no contenían dominios SH2. Aunque los dominios SH2 de la familia JAK son bastante divergentes, tienen los residuos estructurales del núcleo necesarios, así como el residuo crítico cargado positivamente que se une a la fosfotirosina, sin dejar duda de que son dominios SH2 de buena fe. Los cinco nuevos dominios SH2 de la familia JAK se agregaron secuencialmente a la alineación existente de 65 dominios SH2 utilizando la opción de alineación de perfil W de CLUSTAL. La Figura 6 muestra parte de la alineación resultante. A pesar de sus secuencias divergentes, los nuevos dominios SH2 se han alineado casi a la perfección con el conjunto anterior. No se colocaron inserciones en los dominios SH2 originales. En este ejemplo, el procedimiento de alineación de perfiles ha producido mejores resultados que una alineación completa de un solo paso de los 70 dominios SH2, y en mucho menos tiempo. (RESUMEN TRUNCADO)