L’organizzazione del genoma nello spazio nucleare non è casuale e influenza le funzioni del genoma, tra cui trascrizione, replicazione e riparazione. Regioni genomiche specifiche, provenienti da cromosomi uguali o diversi, spesso si associano fisicamente tra loro e con strutture nucleari, dando origine a un nucleo intricato compartimentalizzato. Esempi di interazioni del genoma sono l’associazione di un potenziatore con un promotore o il raggruppamento di geni come i geni rDNA nel nucleolo. Le interazioni del genoma sono state studiate tradizionalmente facendo uso dell’ibridazione in situ della fluorescenza (PESCE), che permette la visualizzazione della relazione spaziale fra i geni distinti o le regioni del genoma. Le limitazioni di questo metodo sono che solo le interazioni conosciute possono essere interrogate, solo pochissimi loci possono essere sondati in un esperimento e la risoluzione è limitata all’ottica del microscopio.
La famiglia delle tecniche di cattura della conformazione cromosomica è un insieme di approcci biochimici per determinare l’interazione fisica delle regioni del genoma. C-approcci tecnologici e invariabilmente coinvolgere cinque fasi: (1) la fissazione di formaldeide di reticolazione della cromatina nei siti di interazione fisica, (2) scissione della cromatina dall’enzima di restrizione o sonicazione, (3) legatura in diluire le condizioni che favoriscono la legatura tra le estremità del DNA acquisiti sul complesso oltre ligations casuali, collisioni, (4) il rilevamento di legatura nodi variabile della biologia molecolare passi a seconda della variante di metodi, e (5) analisi computazionale per determinare frequenze di interazione catturato nella legatura del reticolato della cromatina.
Le tecnologie C (3C, 4C, 5C, Hi-C) differiscono nel loro modo di rilevamento e nell’ambito di quali interazioni possono sondare. Il metodo 3C verifica l “interazione tra due siti noti nel genoma, 4C permette sondaggio di interattori sconosciuti di una sequenza esca nota, 5C identifica tutte le regioni di interazione all” interno di un determinato dominio genoma, e Hi-C sonde tutte le interazioni che si verificano in modo imparziale genoma a livello. Varianti aggiuntive (ChIA-PET, ChIP-Loop) incorporano una fase di precipitazione proteica, consentendo l’identificazione delle interazioni del genoma che coinvolgono una specifica proteina di interesse. La scelta del metodo dipende fortemente dalla natura specifica e dalla portata della questione biologica, ma anche dalla disponibilità di risorse, compresa la quantità di materiale di partenza e la capacità di sequenziamento. Sono stati sviluppati molti derivati delle tecniche C standard, spesso ispirati alla specifica questione biologica affrontata o con l’obiettivo di migliorare la specificità o ridurre il background.
Le tecnologie C sono metodi basati sulla popolazione. Producono probabilità di contatto relative piuttosto che frequenze di contatto assolute. La natura basata sulla popolazione è dovuta al fatto che ogni locus genomico fornisce una giunzione di legatura a coppie in una cellula. Per consentire un’elevata copertura e valutazione quantitativa dei profili di contatto, migliaia a milioni di equivalenti del genoma (cellule) contenenti più giunzioni di legatura devono essere inclusi e combinati in ogni esperimento. Le correlazioni fra i contatti di C ed i PESCI del DNA hanno indicato che un’associazione interchromosomal che accade in 3% -5% delle cellule in una popolazione sarà individuata tipicamente come positiva nella maggior parte dei metodi di C. Associazioni più frequenti generalmente danno luogo a segnali più forti; tuttavia, la forza del segnale può anche riflettere l’affinità delle interazioni fisiche e non la sua frequenza.
Un passaggio critico nell’analisi dei dati consiste nel determinare se un’interazione, rilevata come giunzione di legatura, è specifica. La frequenza di contatto diminuisce esponenzialmente ed è inversamente correlata alla distanza genomica lineare fino a pochi Mb di distanza dal punto di riferimento. Pertanto, la frequenza di un contatto specifico nelle vicinanze di un locus dovrebbe essere superiore allo sfondo di collisioni casuali. Un buon indicatore di specificità oltre l’intervallo Mb è il rilevamento di una data interazione come cluster di segnali da frammenti di restrizione adiacenti.
La risoluzione dei metodi C è determinata dalla natura degli enzimi di restrizione utilizzati e, nel caso di metodi che utilizzano il sequenziamento per il rilevamento, anche dal numero di letture di sequenziamento. La frequenza delle sequenze di riconoscimento di un’endonucleasi a quattro basi (bp) è, in linea di principio, sedici volte superiore alla frequenza della sequenza di riconoscimento di un cutter a sei bp. Si prevede che l’uso di un cutter a quattro bp aumenti la risoluzione dei contatti nell’intervallo Mb, in cui vengono acquisiti più eventi di legatura per contatti specifici e collisioni in background. Al di là di questo intervallo, tuttavia, dove cluster di frammenti di restrizione definiscono regioni di contatto nell’intervallo da decine a centinaia di kb, il vantaggio di utilizzare un cutter a quattro bp dovrebbe essere diminuito. Sebbene molti saggi a livello genomico abbiano utilizzato microarray dedicati, il sequenziamento hi-throughput sta diventando il metodo di scelta per il rilevamento globale delle giunzioni di legatura. La profondità di sequenziamento è una barriera tecnica per la risoluzione in alcuni approcci come Hi-C e ChIA-PET. Le tecnologie basate su PCR superano questa limitazione amplificando un sottoinsieme di contatti, con il compromesso di una copertura ridotta. La natura a coppie dei prodotti di legatura impone una potenza di due relazioni tra l’aumento della risoluzione e l’aumento della profondità di sequenziamento richiesta. La copertura genomica per profondità di sequenziamento dipende anche dalla dimensione del genoma ispezionato. Ad esempio, un simile potere di sequenziamento fornisce decine di risoluzione di contatto kb nel lievito, ma solo la risoluzione Mb nel genoma umano.