A Identificação do Parente Vivo mais Próximo(s) de Estruturas: Phylogenomic Lições para a Resolução de Curta Antiga Entrenós

Identificar o parente vivo mais próximo(s) de estruturas é um importante, ainda que contestada questão vertebrados filogenética. Três hipóteses são possíveis e descartar alternativas provou ser difícil, mesmo com grandes conjuntos de dados moleculares devido ao fraco sinal filogenético acoplado ruído não filogenético resultante de eventos de especiação relativamente rápidos que ocorreram há muito tempo (400 Ma). Aqui, revisitamos a identidade do parente vivo mais próximo de vertebrados terrestres a partir de uma perspectiva filogenômica e incluímos novos dados genômicos para todos os gêneros de lungfish existentes. RNA-seq prova ser uma grande alternativa à sequenciação genômica, que atualmente não é tecnicamente viável em lungfishes devido a seus enormes (50-130 Gb) e genomas repetitivos. Examinámos as fontes mais importantes de erro sistemático, nomeadamente a atracção por longos ramos (LBA), a heterogeneidade da composição e a distribuição dos dados em falta e aplicámos diferentes técnicas de correcção. Uma abordagem coalescente multi-espécies é usada para explicar a coalescência profunda que pode vir dos internodos curtos e profundos que separam as primeiras divisões sarcopterigianas. Métodos de concatenação favoreciam lungfishes como os parentes vivos mais próximos de tetrápodes com forte suporte estatístico. Modelos de mistura de perfis de aminoácidos podem resolver inequivocamente este difícil internode graças à sua capacidade de evitar erros sistemáticos. Avaliamos o desempenho de diferentes modelos locais-heterogêneos e particionamento de dados e comparamos a capacidade de diferentes estratégias projetadas para superar a LBA, incluindo manipulação de táxons, redução da heterogeneidade entre as taxas de linhagem e remoção de posições em rápida evolução ou heterogêneas de composição. A identificação do lungfish como grupo irmão de tetrápodes é robusta no que diz respeito aos efeitos da composição não estágio e da distribuição dos dados em falta. O método coalescente multi-espécies reconstruiu topologias fortemente apoiadas que eram congruentes com a concatenação, apesar da heterogeneidade generalizada das árvores de genes. Rejeitamos topologias alternativas para as primeiras relações sarcopterigianas, aumentando a relação sinal-ruído em nossos alinhamentos. O oleoduto analítico aqui delineado combina inferência filogenômica probabilística com métodos para avaliar a qualidade dos dados, adequação do modelo, e avaliar erros sistemáticos, e, portanto, é provável que ajude a resolver internodos igualmente difíceis na árvore da vida. .

Deixe uma resposta

O seu endereço de email não será publicado.