L’organisation du génome dans l’espace nucléaire est non aléatoire et affecte les fonctions du génome, y compris la transcription, la réplication et la réparation. Des régions génomiques spécifiques, issues de chromosomes identiques ou différents, s’associent fréquemment physiquement entre elles et avec des structures nucléaires, donnant naissance à un noyau finement compartimenté. Des exemples d’interactions génomiques sont l’association d’un activateur avec un promoteur ou le regroupement de gènes tels que des gènes d’ADNr dans le nucléole. Les interactions génomiques ont traditionnellement été étudiées en utilisant l’hybridation in situ par fluorescence (FISH), qui permet de visualiser la relation spatiale entre des gènes distincts ou des régions du génome. Les limites de cette méthode sont que seules les interactions connues peuvent être interrogées, que très peu de loci peuvent être sondés dans une expérience et que la résolution est limitée à l’optique du microscope.
La famille des techniques de capture de conformation chromosomique est un ensemble d’approches biochimiques pour déterminer l’interaction physique des régions du génome. Les approches de la technologie C impliquent invariablement cinq étapes: (1) la fixation du formaldéhyde sur la chromatine de réticulation aux sites d’interaction physique, (2) le clivage de la chromatine par enzyme de restriction ou sonication, (3) la ligature dans des conditions diluées favorisant la ligature entre les extrémités de l’ADN capturées sur le même complexe par rapport aux ligatures issues de collisions aléatoires, (4) la détection des jonctions de ligature à l’aide d’étapes de biologie moléculaire variables selon la variante des méthodes, et (5) l’analyse informatique pour déterminer les fréquences d’interaction capturées dans la ligature de la chromatine réticulée.
Les technologies C (3C, 4C, 5C, Hi-C) diffèrent par leur manière de détecter et la portée des interactions qu’elles peuvent sonder. La méthode 3C teste l’interaction entre deux sites connus dans le génome, 4C permet de sonder des interacteurs inconnus d’une séquence d’appâts connue, 5C identifie toutes les régions d’interaction dans un domaine génomique donné, et Hi-C sonde toutes les interactions survenant de manière impartiale à l’échelle du génome. Des variantes supplémentaires (ChIA-PET, ChIP-Loop) intègrent une étape de précipitation des protéines, permettant l’identification des interactions génomiques impliquant une protéine spécifique d’intérêt. Le choix de la méthode dépend fortement de la nature spécifique et de la portée de la question biologique, mais aussi de la disponibilité des ressources, y compris la quantité de matériel de départ et la capacité de séquençage. De nombreux dérivés des techniques C standard ont été développés, souvent inspirés par la question biologique spécifique abordée ou dans le but d’améliorer la spécificité ou de réduire le contexte.
Les technologies C sont des méthodes basées sur la population. Ils produisent des probabilités de contact relatives plutôt que des fréquences de contact absolues. La nature basée sur la population est due au fait que chaque locus génomique donne une jonction de ligature par paire dans une cellule. Pour permettre une couverture élevée et une évaluation quantitative des profils de contact, des milliers à des millions d’équivalents génomiques (cellules) contenant plusieurs jonctions de ligature doivent être inclus et combinés dans chaque expérience. Les corrélations entre les contacts C et les poissons ADN ont indiqué qu’une association interchromosomique qui se produit dans 3% à 5% des cellules d’une population sera généralement détectée comme positive dans la plupart des méthodes C. Des associations plus fréquentes entraînent généralement des signaux plus forts; cependant, la force du signal peut également refléter l’affinité des interactions physiques et non sa fréquence.
Une étape critique de l’analyse des données consiste à déterminer si une interaction, détectée comme une jonction de ligature, est spécifique. La fréquence de contact diminue de façon exponentielle et est inversement liée à la distance génomique linéaire jusqu’à quelques Mo du point de référence. Par conséquent, on s’attend à ce que la fréquence d’un contact spécifique à proximité d’un locus soit supérieure à l’arrière-plan des collisions aléatoires. Un bon indicateur de spécificité au-delà de la plage Mb est la détection d’une interaction donnée sous forme de grappes de signaux provenant de fragments de restriction adjacents.
La résolution des méthodes C est déterminée par la nature de la ou des enzymes de restriction utilisées et, dans le cas de méthodes utilisant le séquençage pour la détection, également par le nombre de lectures de séquençage. La fréquence des séquences de reconnaissance d’une endonucléase à quatre paires de bases (bp) est, en principe, seize fois supérieure à la fréquence de séquence de reconnaissance d’un coupeur à six bp. L’utilisation d’un cutter à quatre bp devrait augmenter la résolution des contacts dans la plage Mb, où plusieurs événements de ligature sont capturés pour des contacts spécifiques et les collisions d’arrière-plan. Au-delà de cette plage, cependant, où des amas de fragments de restriction définissent des régions de contact de l’ordre de dizaines à des centaines de kb, l’avantage d’utiliser un cutter à quatre bp devrait être diminué. Bien que de nombreux tests à l’échelle du génome aient utilisé des puces dédiées, le séquençage à haut débit devient la méthode de choix pour la détection globale des jonctions de ligature. La profondeur de séquençage est un obstacle technique à la résolution dans certaines approches telles que Hi-C et ChIA-PET. Les technologies basées sur la PCR surmontent cette limitation en amplifiant un sous-ensemble de contacts, avec le compromis d’une couverture réduite. La nature paire des produits de ligature impose un pouvoir de deux relations entre l’augmentation de la résolution et l’augmentation de la profondeur de séquençage requise. La couverture génomique par profondeur de séquençage dépend également de la taille du génome inspecté. Par exemple, une puissance de séquençage similaire fournit des dizaines de kb de résolution de contact dans la levure, mais seulement une résolution de Mo dans le génome humain.