pondělí 21. září 2020
dokonce i v oblasti genomiky, kde se objevují nové průlomy každých několik měsíců, je dokončení vůbec prvního plně sekvenovaného lidského autosomu významným úspěchem. Vysoce přesné, žádné mezery, žádné mis-spojení-jen chromozom 8 v celé své kráse. Je to pozoruhodný výkon a je nám ctí, že PacBio HiFi reads hrál klíčovou roli při jeho dosažení.
kompletní centromerová sekvence chromozomu 8 ukazuje rozmanitost satelitních opakování a dalších hojných genomických opakování, nyní s téměř dokonalým rozlišením na základní úrovni od začátku do konce. Logsdon, G et al. (2020)
tato práce je popsána v předtisku nedávno zveřejněném na bioRxiv od hlavního autora Glennis Logsdon (@glennis_logsdon), vedoucího autora Evana Eichlera a jejich spolupracovníků v konsorciu Telomere-to-Telomere (T2T). Je součástí širší iniciativy T2T sekvenovat a sestavit první skutečně kompletní lidský genom a navazuje na dřívější uvolnění plně sekvenovaného chromozomu X.
„od oznámení sekvenování lidského genomu před 20 lety zůstaly lidské chromozomy nedokončené kvůli velkým oblastem vysoce identických opakování umístěných v centromerech, segmentální duplikaci a akrocentrickým krátkým ramenům chromozomů,“ poznamenávají autoři. „Příchod dlouho čtených sekvenčních technologií a souvisejících algoritmů nyní umožnil systematicky shromažďovat tyto oblasti z nativní DNA poprvé.“
chromozom 8 vytvořil atraktivní cíl pro první autosom T2T díky své zvládnutelné centroméře (dříve odhadované na délku 1, 5 Mb až 2, 2 Mb). Chromozom je však také domovem “ jedné z nejvíce strukturálně dynamických oblastí lidského genomu—genového klastru β-defensinu umístěného na 8p23. 1—a neocentromery umístěné na 8q21.2, které byly za posledních 20 let do značné míry nevyřešeny, “ píší vědci. Β-defensinový klastr hraje klíčovou roli v vrozené imunitě a strukturální variace v této oblasti jsou již dlouho zapojeny do lidských chorob.
nová sestava, která řeší všech pět dříve neřešitelných mezer v lidském referenčním genomu, byla postavena chytrou metodou s použitím několika datových sad, včetně přesných dlouhých čtení: „více než polovina dat PacBio HiFi je obsažena v čtení větším než 17,8 kbp, se střední přesností vyšší než 99,9%.“Po kroku lešení založeném na čtení Oxford Nanopore byly kontigy sestavené z čtení PacBio HiFi vyměněny, aby poskytly rozlišení základního páru. „Vylepšili jsme přesnost párování základních lešení tím, že jsme nahradili surovou sekvenci ONT několika konkordantními contigy PacBio HiFi,“ uvádí tým.
kompletní sekvence chr8 hodiny na 146 Mb a obsahuje více než 3 Mb chybí z GRCh38. Jako Logsdon et al. napište: „výsledkem je sestava celého chromozomu s odhadovanou přesností párů bází přesahující 99,99%.“
vědci se také zabývali shlukem genů persnickety β-defensin, „který jsme vyřešili do jediného lokusu 7, 06 Mbp-podstatně větší než oblast 4.56 Mbp v současném lidském referenčním genomu,“ poznamenávají. Téměř všechny tyto sekvenční údaje-99.9934% z toho, abych byl přesný-pocházely z HiFi reads. Kompletní centromera přitom tvořila 2,08 Mb.
s touto krásnou sestavou v ruce ji tým T2T vytáhl na rotaci. Nejprve to ověřili řadou ortogonálních nástrojů, jako je optické mapování. Dále generovali data HiFi pro chromozom 8 ortologů u šimpanze, makaka a orangutana, aby porovnali sekvenční data a rekonstruovali evoluční historii lidského autosomu. „Srovnávací a fylogenetické analýzy ukazují, že struktura α-satelitu vyššího řádu se vyvinula specificky u předka velké opice a centromerní oblast se vyvinula s vrstvenou symetrií,“ píše tým. „Odhadujeme, že míra mutace centromerní satelitní DNA je urychlena nejméně 2.2-krát a toto zrychlení přesahuje α-satelit vyššího řádu do doprovodné sekvence.“
nakonec vědci provedli analýzu přepisů v plné délce vyrobených metodou Iso-Seq. Tento proces identifikoval „61 protein kódující a 33 nekódující lokusy, které mapují lépe na tento hotový chromozom 8 sekvence než GRCh38, včetně objevu nových genů mapujících kopírování číselných polymorfních oblastí,“ hlásí. Dvanáct z těchto nových genů bylo odhaleno pouze v tomto složitém β-defensinovém lokusu.
kombinace sestavení HiFi genomu a anotace RNA s daty Iso-Seq přidala těchto 12 nových genů do oblasti β-defensinu (DEFB) chromozomu 8. Logsdon, G et al. (2020)
pro tolik z nás v genomické komunitě, tento dokument představuje mnohem více než sekvenci jediného lidského chromozomu. Je to prohlášení o tom, co věda může nyní dosáhnout, a kam nás to může vést v příštích letech. Jak autoři shrnuli: „Nyní, když složité oblasti, jako jsou tyto, mohou být sekvenovány a sestaveny,bude důležité rozšířit tyto analýzy na další centromery, více jedinců a další druhy, abychom pochopili jejich plný dopad s ohledem na genetickou variabilitu a vývoj.“
další podrobnosti z Logsdonu můžete slyšet přímo na bezplatné online konferenci, kterou pořádá konsorcium T2T a Human Pangenome Reference Consortium (HPRC) ve dnech 22.a 23. Září. Řečníci nabídnou nové poznatky o chromozomu 8 a podají zprávu o dalším pokroku T2T směrem k úplnému sestavení lidského genomu. Ve stejné události, HPRC představí své doplňkové úsilí o sekvenci stovek lidských genomů na vysokou kvalitu. Mezi přednášející patří: Karen Miga (@khmiga), Eric Green (@NHGRI_Director) Adam Phillippy (@aphillippy), Sergey Koren (@sergekoren), Sergey Nurk (@sergeynurk), Valerie Schneider (@dnadiver), Tina Graves-Lindsay, Arang Rhie (@Arangrhie), Mitchell R.Vollger (@mrvollger), Erich Jarvis (@erichjarvis), Mark Chaisson (@mjpchaisson), Mike Schatz (@Mike_schatz), Heng li (@Lh3lh3) a mnoho dalších. Budeme za to přilepeni k našim počítačům a doufáme, že budete mít také šanci se připojit!