Dossier d’interaction chromatinienne ouverte à l’échelle du génome à l’aide d’OCEAN-C
Nous avons d’abord réalisé des expériences Hi-C et FAIRE-seq in situ en utilisant des cellules de myélome multiple U266 pour identifier les interactions chromatiniennes à l’échelle du génome et les régions de chromatine ouverte . Comme prévu, nos données présentaient une reproductibilité élevée et des caractéristiques typiques des résultats Hi-C et FAIRE-seq (fichier supplémentaire 1 : Figure S1, fichier supplémentaire 2 : Tableau S1). Ensuite, nous avons développé le test OCEAN-C en intégrant les protocoles Hi-C et FAIRE-seq in situ. Une étape d’extraction phénol-chloroforme de la chromatine appauvrie en nucléosomes (chromatine ouverte) a été ajoutée après les étapes d’addition de résidus biotinylés et de sonication de Hi-C, permettant l’enrichissement spécifique des ADN sans nucléosomes et des fragments d’ADN qui se sont re-liés avec la chromatine ouverte (Fig. 1a, « Methods »). Le ratio d’ADN isolé OCEAN-C par rapport à l’ADN génomique total est de 1-3%, ce qui est similaire à FAIRE-seq . Les fragments d’ADN marqués à la biotine ont ensuite été enrichis à partir de l’ADN OCEAN-C extrait et suivis par la construction de librairies et le séquençage à haut débit. Les régions de chromatine ouverte qui forment des pics en raison d’interactions chromatiniennes multiples ont ensuite été appelées par l’algorithme ZINBA utilisé pour l’identification des pics FAIRE-seq.
Nous avons identifié 12 003 pics OCEAN-C (la médiane de la taille large était de 1,4 kb et de la taille étroite de 232 bp) avec 43,4 millions de paires de lecture valides représentant des interactions intra-chromsomiques dans la lignée cellulaire U266. Parmi ceux-ci, 74,3% chevauchaient les pics FAIRE-seq ; en revanche, seulement 850 pics ont été déterminés à partir du même nombre de lectures Hi-C, qui n’avaient pratiquement aucune intersection avec les pics OCEAN-C ou FAIRE-seq (Fig. 1b). Le ratio élevé de chevauchement avec les pics FAIRE-seq a confirmé que les régions de pics déterminées par OCEAN-C sont des régions de chromatine ouverte. De plus, les pics OCEAN-C ne représentent qu’une petite partie (environ 13%) du nombre total de régions chromatiniennes ouvertes identifiées par FAIRE-seq, ce qui indique que la plupart des régions chromatiniennes ouvertes ne présentent pas une fréquence d’interaction significativement plus élevée que les autres régions. Nous avons observé 174 interactions par pic OCEAN-C en moyenne (Fig. 1c), ce qui est significativement plus élevé que le nombre pour les données Hi-C (valeur p < 2.2e-16). Par conséquent, les pics OCEAN-C représentent des hubs d’interaction chromatinienne qui forment des interactions multiples avec un ensemble de loci le long du chromosome (Fig. 1d et fichier additionnel 1 : Figure S2A), et nous nommons ces régions hubs d’interactions chromatiniennes ouvertes (HOCI). L’analyse de corrélation utilisant des marqueurs épigénétiques a révélé que les HOCIs sont principalement occupés par des modifications actives des histones (H3K4me3, environ 70% ; H3K4me1, environ 50% ; et H3K27ac, environ 50%) à des pourcentages qui dépassent remarquablement ceux de la chromatine ouverte identifiée par FAIRE-seq et les pics Hi-C (Fig. 1e), ce qui démontre que les HOCI sont principalement des éléments actifs en cis, notamment des promoteurs (H3K4me3) et des exhausteurs (H3K4me1 et H3K27ac).
Pour tester davantage la reproductibilité et la faisabilité d’OCEAN-C, nous avons examiné la méthode dans des cellules de myélome multiple RPMI-8226 et des cellules lymphoblastoïdes GM12878. Les trois lignées cellulaires présentaient un nombre similaire de HOCI et des propriétés de modification des histones similaires, ce qui démontre que les HOCI représentent un phénomène commun aux différentes lignées cellulaires (Fig. 1f et Fichier complémentaire 1 : Figure S2B). La grande différence dans les emplacements des HOCIs entre les différentes lignées cellulaires suggère des interactions chromatiniennes ouvertes spécifiques qui sont associées à la régulation des gènes. Ensuite, nous avons comparé les résultats d’OCEAN-C et de Hi-C in situ dans l’identification des architectures chromatiniennes à grande échelle telles que les domaines et les compartiments topologiquement associés (TAD). Nous avons constaté que les cartes thermiques d’interaction, les TAD et les compartiments A/B présentaient une concordance élevée entre OCEAN-C et Hi-C (fichier supplémentaire 1 : Figure S2C-F), ce qui démontre la capacité d’OCEAN-C à identifier les mêmes TAD et compartiments A/B que Hi-C in situ. En outre, nous avons évalué l’effet de la profondeur de séquençage et des logiciels utilisés sur l’appel de pic. Le nombre de HOCI identifiés a été affecté par une faible profondeur de séquençage et est devenu progressivement saturé avec l’augmentation du nombre de lectures (fichier supplémentaire 1 : figure S3A). En utilisant le logiciel MACS2 pour appeler les pics à partir des données OCEAN-C des cellules U266, nous avons obtenu 9926 pics, dont 4718 chevauchaient les pics identifiés par ZINBA, ce qui suggère que les signaux de pics de chromatine ouverte dans les données OCEAN-C peuvent être détectés par différents algorithmes et que la combinaison de différentes méthodes d’appel de pics peut être utile pour identifier des HOCI fiables (fichier supplémentaire 1 : figure S3B-E).
Nous avons également comparé OCEAN-C avec la technique DNase-C dans l’identification des interactions de chromatine ouverte (fichier supplémentaire 1 : figure S4). Les résultats ont montré que si la méthode DNase-C capture les interactions de chromatine ouverte à une échelle fine, OCEAN-C est plus performant que la DNase-C dans l’appel de pics et l’identification de pics d’interaction de chromatine ouverte précis.
Les HOCI sont liés par un cluster de protéines de liaison à l’ADN
Des études antérieures ont révélé que les chromatines forment des boucles à une résolution approximative de l’ordre du kilobase avec la liaison de protéines d’échafaudage telles que CTCF et cohésine, qui facilitent la régulation des gènes . Ces études étaient principalement basées sur le séquençage saturé des données Hi-C ou sur des analyses d’interactions chromatiniennes basées sur les protéines telles que ChIA-PET, HiChIP, ou PLAC-seq. Nous avons comparé les HOCIs identifiées par OCEAN-C avec les ancres déterminées par ChIA-PET et les boucles déterminées par Hi-C dans les cellules GM12878. Des HOCI qui se croisent ou qui sont distincts ont été identifiés par rapport aux résultats de la ChIA-PET (Fig. 2a). Environ 41 % des HOCI se chevauchaient avec les ancres de boucle CTCF déterminées par ChIA-PET, et 47 % des HOCI se chevauchaient avec les ancres déterminées par ChIA-PET Pol II ; en revanche, seulement 21 % des HOCI étaient des régions de boucle déterminées par Hi-C (fichier supplémentaire 3 : tableau S2A). Les proportions de chevauchement démontrent la capacité d’OCEAN-C à identifier des ancres de boucle à l’échelle du kilobase. Plus important encore, la proportion de non-chevauchement démontre la spécificité de la méthode OCEAN-C. Alors qu’une paire d’ancres de ChIA-PET interagit principalement l’une avec l’autre, une HOCI interagit avec un ensemble de loci, y compris des interactions en boucle (Figs. 1d et 2a). Pour confirmer davantage les interactions entre les HOCI, nous avons sélectionné deux groupes de HOCI et réalisé une expérience de validation 3C. Les résultats ont montré que plus de la moitié des interactions par paires entre les HOCI des deux clusters sont détectées par la méthode 3C (fichier supplémentaire 1 : figure S5), ce qui démontre la fiabilité des interactions HOCI découvertes par OCEAN-C.
Comme OCEAN-C est conçu pour capturer les interactions entre les régions chromatiniennes ouvertes sans dépendre d’anticorps spécifiques, nous avons émis l’hypothèse que les HOCI sont des régions chromatiniennes liées par plusieurs protéines de liaison à l’ADN. Pour confirmer cette hypothèse, nous avons intégré les données ChIP-seq de ENCODE, ChIA-PET et OCEAN-C des cellules GM12878. Comme prévu, les ancres de chromatine identifiées par la ChIA-PET de CTCF ont affiché des signaux ChIP-seq de CTCF beaucoup plus forts que toutes les autres protéines de liaison à l’ADN, et Pol II a également présenté le signal de liaison le plus fort aux ancres de Pol II ChIA-PET (Fig. 2b), ce qui démontre l’enrichissement des régions de liaison de protéines spécifiques dans les expériences ChIA-PET. En revanche, les HOCI ont présenté des signaux de liaison enrichis pour un ensemble plus large de protéines de liaison à l’ADN, notamment des facteurs de transcription actifs (PKNOX1, Pol II), des répresseurs de transcription (BHLHE40, SP1, YY1), des régulateurs de transcription (ZNF143, CREB1, GABPA) et CTCF (Fig. 2b). De plus, plusieurs facteurs de transcription spécifiques des cellules lymphoïdes ont montré de forts signaux de liaison, notamment le facteur 1 de type E74 (ELF1) et le facteur 1 des cellules B précoces (EBF1), ce qui démontre la capacité d’OCEAN-C à identifier les protéines clés de liaison à l’ADN spécifiques des lignées (Fig. 2b). Plus précisément, le facteur de transcription ELF1 spécifique des cellules B a montré un signal de liaison plus élevé aux HOCI que les autres facteurs, à l’exception des protéines liées à Pol II (POL2A, PKNOX1, BHLHE40, ZNF143 et CREB1 ; Fig. 2c).
En moyenne, une HOCI est occupée par 9.1 protéines de liaison à l’ADN différentes, par rapport à une moyenne de 6,7, 5,3 et 6,5 protéines de liaison à l’ADN différentes occupant une ancre ChIA-PET Pol II, une ancre ChIA-PET CTCF et une ancre de boucle Hi-C, respectivement (fichier supplémentaire 1 : figure S6). De plus, les ancres ChIA-PET et Hi-C loop chevauchant les HOCI étaient liées par un nombre significativement plus élevé de protéines de liaison à l’ADN que les autres ancres (test t, valeur p < 2,2e-16 ; fichier additionnel 1 : Figure S6B), démontrant que la ChIA-PET ne peut capturer qu’une partie des HOCI, qui étaient des ancres de boucle d’ADN occupées à la fois par les protéines d’ancrage de la ChIA-PET et par d’autres protéines de liaison à l’ADN. En outre, les tracés de contour ont montré que les HOCI avaient une largeur plus courte et un plus grand nombre de protéines de liaison dans l’ensemble, alors que la plupart des ancres POL2/CTCF ChIA-PET étaient plus longues et occupées par moins de cinq protéines de liaison à l’ADN différentes (fichier supplémentaire 1 : figure S6C). Nous avons également analysé les motifs de la séquence d’ADN des ancres HOCI et ChIA-PET. Les ancres ChIA-PET CTCF ont montré des motifs de liaison à l’ADN CTCF/CTCFL extrêmement enrichis, tandis que les HOCI ont montré moins de différence dans le niveau de signification des cinq premiers motifs enrichis, y compris CTCF/CTCFL (fichier supplémentaire 1 : figure S6D). Plus précisément, au locus du gène WBP1L, deux régions ont été identifiées comme des régions de chromatine ouverte par FAIRE-seq, l’une près du promoteur et l’autre à proximité immédiate du promoteur dans le corps du gène (Fig. 2d). Le promoteur de WBP1L a été identifié comme une HOCI par OCEAN-C et confirmé par de forts signaux de liaison pour de nombreuses protéines de liaison à l’ADN, y compris Pol II mais pas CTCF, tandis que la deuxième région de chromatine ouverte n’a pas été identifiée comme une HOCI en raison des signaux de liaison principalement de CTCF et Pol II mais pas d’autres protéines (Fig. 2d). Par conséquent, l’occupation de plusieurs protéines et les interactions fréquentes avec d’autres régions chromatiniennes distinguent les HOCI des autres régions chromatiniennes ouvertes.
Pour explorer davantage les propriétés génomiques des HOCI, nous avons analysé les états chromatiniens des HOCI ainsi que les ancres de CTCF ou de Pol II ChIA-PET dans les cellules GM12878 (fichier supplémentaire 1 : figure S7A). Les ancres de CTCF étaient principalement marquées comme des isolateurs, et les ancres de Pol II étaient principalement marquées comme des promoteurs et des exhausteurs, ce qui correspond à la fonction biologique de ces deux protéines. Les HOCI ont été le plus souvent identifiés comme des promoteurs (environ 50 %), suivis par les amplificateurs (environ 15 %) et les isolateurs (environ 15 %). Nous avons regroupé les HOCI en fonction de leurs signaux de liaison de plusieurs protéines de liaison à l’ADN. Les résultats ont montré que les HOCI des promoteurs et des amplificateurs sont occupés par de nombreuses protéines, tandis que les HOCI des isolateurs sont occupés par quelques protéines, notamment CTCF, ZNF143, EBF1 et BHLHE40 (fichier supplémentaire 1 : figure S7B). Parallèlement, les HOCI situés dans les régions chromatiniennes inactives ont peu d’interactions avec les protéines de liaison à l’ADN (fichier supplémentaire 1 : figure S7B). Pris ensemble, ces résultats indiquent que les HOCI identifiés par OCEAN-C sont principalement des éléments cis-régulateurs fonctionnels qui sont liés par un groupe de protéines régulatrices.
Les HOCI forment des architectures topologiques basées sur le promoteur et l’enhancer qui s’associent à l’expression des gènes
Pour approfondir les fonctions biologiques des HOCI, nous avons exploré les interactions chromatiniennes impliquées avec les HOCI et leur relation avec la transcription des gènes. Comme pour les cellules GM12878 (fichier supplémentaire 1 : figure S7A), la majorité des HOCI dans les cellules U266 étaient des promoteurs (44 %) et des exhausteurs (13 %), classés selon les modifications des histones (figure 3a). La plupart des HOCI interagissent également avec d’autres HOCI (six en moyenne ; Fig. 3b) et forment donc un réseau d’interaction comprenant des promoteurs, des exhausteurs et d’autres éléments cis-régulateurs sur l’ensemble du chromosome (Fig. 3c et Fichier complémentaire 1 : Figure S8). Nous avons calculé les distances chromosomiques parcourues par ces interactions, et la plupart des interactions liées aux HOCIs de promoteurs et aux HOCIs d’exhausteurs se sont produites dans un rayon de 500 kb, avec quelques interactions s’étendant sur plusieurs mégabases (Fig. 3d), ce qui correspond aux résultats d’une étude précédente utilisant Capture-C . Les interactions au sein des HOCIs promoteurs ou des HOCIs exhausteurs ont couvert des distances chromosomiques significativement plus courtes, avec des distances médianes de 44 et 13 kb, respectivement, tandis que les interactions entre les HOCIs promoteurs et les HOCIs exhausteurs avaient une portée médiane plus longue de 117 kb (Fig. 3d).
Nous avons ensuite exploré la localisation des HOCI par rapport aux structures spatiales hiérarchiques du génome, notamment les domaines topologiques associés (TAD) et les compartiments A/B. Les HOCI se situent préférentiellement aux limites des TAD (Fig. 3e, Additional file 3 : Table S2B), et les interactions médiées par les HOCI se situent principalement dans les compartiments A actifs (Fig. 3f, h) ; en revanche, les interactions Hi-C se situent abondamment dans les compartiments A et B (Fig. 3g). Ces résultats suggèrent que les interactions médiées par les HOCI impliquent préférentiellement les régions chromatiniennes actives, en particulier les frontières TAD.
Pour explorer davantage la relation entre les interactions HOCI et la transcription des gènes, nous avons sélectionné au hasard une région chromatinienne (chromosome 21, 9-48 Mb) et tracé les interactions chromatiniennes impliquant les HOCI et la profondeur de lecture des expériences RNA-seq dans les cellules U266 (Fig. 4a, b). Les gènes formant des interactions promoteur-enhancer par le biais de réseaux d’interactions HOCI étaient fortement transcrits ; en revanche, les gènes sans interactions médiées par les HOCI étaient à peine transcrits. Les régions riches en gènes forment des interactions HOCI plus intenses que les régions pauvres en gènes (Fig. 4a, b). Nous avons ensuite classé les gènes en trois groupes en fonction de leurs interactions locales de chromatine ouverte comme suit (Fig. 4c) : les gènes dont les promoteurs étaient des HOCI (gènes hub), les gènes dont les promoteurs n’étaient pas des HOCI mais interagissaient avec des HOCI (gènes en interaction), et les gènes dont les promoteurs n’étaient pas impliqués dans des interactions HOCI (gènes dissociatifs). Ces trois types de gènes présentaient des différences significatives au niveau de la transcription (figure 4d, e et fichier supplémentaire 3 : tableau S2C, D). La plupart des gènes exprimés (~ 90 %) étaient soit des gènes pivots, soit des gènes d’interaction. Les gènes pivots étaient exprimés à un niveau d’expression significativement plus élevé que les gènes des deux autres groupes, et les gènes dissociatifs présentaient le niveau d’expression le plus faible (Fig. 4e). En outre, les gènes d’entretien comprenaient une proportion plus élevée de gènes pivots que de gènes exprimés (fichier supplémentaire 3 : tableau S2D). Ces résultats démontrent les rôles clés des HOCI dans la formation d’interactions chromatiniennes de promoteur et d’exhausteur qui sont cruciales pour la transcription des gènes.
Les interactions médiées par les HOCI expliquent l’expression différentielle des gènes
Nous avons ensuite cherché à savoir si les changements dans les HOCI peuvent expliquer la transcription différentielle des gènes entre différentes lignées cellulaires. Nous avons comparé les niveaux de transcription des gènes de deux lignées cellulaires de myélome multiple (U266 et RPMI-8226) en fonction des trois types de gènes définis ci-dessus. Les gènes qui ont des types différents entre les deux lignées cellulaires ont montré une expression génétique significativement différente, tandis que les gènes qui ont les mêmes types entre les deux lignées cellulaires ont montré des niveaux de transcription similaires (Fig. 5a). De fortes diminutions de la transcription se sont produites avec la perturbation des HOCI, tandis que des augmentations significatives de la transcription se sont produites avec la formation des HOCI (fichier supplémentaire 1 : figure S9). En particulier, un gène avait tendance à perdre complètement sa transcription lorsqu’il passait du type hub au type dissociatif. Cela a été confirmé par des comparaisons entre les gènes différentiellement exprimés qui peuvent ou non être expliqués par le changement des interactions médiées par les HOCI au niveau des promoteurs (figure 5b). Les gènes présentant des interactions différentielles médiées par HOCI ont montré une expression différentielle significativement plus importante que ceux ne présentant aucun changement d’interaction.
Pour illustrer spécifiquement la relation entre les interactions de chromatine ouverte et l’expression des gènes, nous avons sélectionné un gène différentiellement exprimé, le transactivateur du complexe majeur d’histocompatibilité de classe II (CIITA), un gène important qui participe à la différenciation des cellules B, et avons examiné les interactions de chromatine ouverte à proximité, les cartes thermiques Hi-C et les niveaux d’expression de l’ARN (Fig. 5c). Dans les cellules U266, le promoteur de CIITA a été identifié comme une HOCI qui forme de multiples interactions avec les gènes voisins, ce qui est associé à une forte expression du gène, alors que de telles HOCI et interactions n’ont pas été détectées dans les cellules RPMI8226, ce qui est associé à un faible signal de transcription du gène. En revanche, les cartes thermiques Hi-C ne peuvent pas détecter de telles différences à une résolution de 40 kb. Dans l’ensemble, nous avons démontré que OCEAN-C a identifié les interactions de chromatine ouverte médiées par les HOCI qui sont cruciales pour la transcription et les changements de gènes.
La plupart des super-enhancers et de nombreux domaines H3K4me3 larges chevauchent les HOCI
Les super-enhancers sont définis par un enrichissement exceptionnel de la liaison des facteurs de transcription maîtres ou des marqueurs de chromatine actifs déterminés par ChIP-seq, et ils confèrent une activité transcriptionnelle élevée aux gènes voisins . Étant donné que les super-enhancers sont des régions chromatiniennes ouvertes relativement larges qui participent à la régulation des gènes par le biais d’interactions chromatiniennes et que OCEAN-C capture les interactions chromatiniennes ouvertes, nous avons supposé que les HOCI chevauchent les super-enhancers. Les distances d’interaction entre les HOCI de l’exhausteur sont nettement plus courtes que les autres types d’interactions HOCI, ce qui indique que les HOCI de l’exhausteur peuvent former des super exhausteurs (Fig. 3d). Pour confirmer cette hypothèse, nous avons défini les super-enhancers dans les cellules U266 à partir des données ChIP-seq de H3K27Ac, E2F1 et DP1 en suivant les instructions précédentes (Fig. 6a-c). Parmi les 880 super-enhancers définis par H3K27ac/DP1, 642 (73 %) chevauchaient des HOCI ; parmi les 981 super-enhancers définis par H3K27ac/E2F1, 715 (72,9 %) chevauchaient des HOCI, ce qui montre que la plupart des super-enhancers sont composés de HOCI (Fig. 6d, e). Il est intéressant de noter que les super-enhancers ont formé des interactions avec eux-mêmes et avec d’autres super-enhancers par le biais des interactions des HOCI (Fig. 6f). Ces résultats démontrent que la plupart des super-enhancers sont composés de HOCIs et que OCEAN-C est capable d’identifier les super-enhancers et leurs interactions.
Les domaines H3K4me3 larges (plus larges que 4 kb) sont associés à une augmentation de l’élongation de la transcription et des activités d’enhancer, notamment au niveau des gènes suppresseurs de tumeurs, et forment des interactions chromatiniennes avec les super-enhancers . Dans les cellules GM12878, les régions H3K4me3 chevauchant les HOCI ont montré des signaux plus larges par rapport au reste des régions H3K4me3 ou aux régions H3K4me3 chevauchant les ancres ChIA-PET (Fig. 7a, b), ce qui suggère l’enrichissement des longs pics H3K4me3 dans les HOCI. Nous avons ensuite analysé la relation entre les HOCI et les domaines H3K4me3 larges, qui sont potentiellement de longues régions de chromatine ouverte. Nous avons défini 2736 régions H3K4me3 larges dans les cellules U266 et 51,4 % (1406) d’entre elles se chevauchaient avec les HOCI (Fig. 7c, d). La plupart des régions H3K4me3 larges contenaient un à cinq HOCI en interaction. Plus précisément, deux régions H3K4me3 larges voisines au niveau du chr12:57620000-57 640 000 interagissaient l’une avec l’autre par le biais des trois HOCI qu’elles contenaient (Fig. 7e). En outre, nous avons effectué une analyse d’enrichissement des voies des gènes dont les promoteurs chevauchent à la fois les HOCI et les domaines H3K4me3 larges, et nous avons constaté que quatre des cinq voies les plus enrichies étaient liées au cancer (Fig. 7f). Ces résultats démontrent que de nombreux domaines H3K4me3 larges sont composés de HOCIs et que OCEAN-C est capable d’identifier les domaines H3K4me3 larges et leurs interactions.
.