Genoom-brede open chromatine interactie assay met behulp van OCEAN-C
We hebben eerst in situ Hi-C en FAIRE-seq experimenten uitgevoerd met U266 multiple myeloom cellen om genoom-brede chromatine interacties en open chromatine regio’s te identificeren . Zoals verwacht, onze gegevens vertoonden een hoge reproduceerbaarheid en typische kenmerken van Hi-C en FAIRE-seq resultaten (Additional file 1: figuur S1, Additional file 2: tabel S1). Vervolgens ontwikkelden we de OCEAN-C assay door integratie van de in situ Hi-C en FAIRE-seq protocollen. Een stap voor de fenol-chloroform extractie van nucleosoom-verwijderd chromatine (open chromatine) werd toegevoegd na de gebiotinyleerde residu toevoeging en sonicatie stappen van Hi-C, waardoor de specifieke verrijking van nucleosoom-vrije DNA’s en DNA-fragmenten die re-ligated met de open chromatine (Fig. 1a, “Methoden”). De verhouding van geïsoleerde OCEAN-C DNA ten opzichte van de totale genomische DNA is 1-3%, die vergelijkbaar is met FAIRE-seq . De biotine-gelabelde DNA-fragmenten werden vervolgens verrijkt uit de geëxtraheerde OCEAN-C DNA en gevolgd door bibliotheekconstructie en high-throughput sequencing. Open chromatine regio’s die pieken vormen als gevolg van meerdere chromatine interacties werden vervolgens genoemd door de ZINBA algoritme gebruikt voor FAIRE-seq piek identification.
We identificeerden 12.003 OCEAN-C pieken (mediaan van de brede grootte was 1,4 kb en van de smalle grootte 232 bp) met 43,4 miljoen geldige gelezen paren die staan voor intra-chromsomale interacties in de U266-cellijn. Van deze, 74,3% overlap met FAIRE-seq pieken; in tegenstelling, werden slechts 850 pieken bepaald uit hetzelfde aantal Hi-C leest, die nauwelijks enig snijpunt met OCEAN-C of FAIRE-seq pieken had (Fig. 1b). De hoge verhouding van overlap met FAIRE-seq pieken bevestigd dat de piek regio’s bepaald door OCEAN-C zijn open chromatine regio’s. Bovendien is de OCEAN-C pieken slechts een klein deel (ongeveer 13%) van het totale aantal open chromatine regio’s geïdentificeerd door FAIRE-seq, wat aangeeft dat de meeste open chromatine regio’s niet een significant hogere interactiefrequentie dan andere regio’s te tonen. We zagen 174 interacties per OCEAN-C piek gemiddeld (Fig. 1c), dat is aanzienlijk hoger dan het aantal voor Hi-C gegevens (p waarde < 2.2e-16). Daarom OCEAN-C pieken vertegenwoordigen chromatine interactie hubs die meerdere interacties vormen met een set van loci langs het chromosoom (Fig. 1d en Additional file 1: Figuur S2A), en we noemen deze regio’s hubs van open chromatine interacties (HOCIs). Correlatie analyse met behulp van epigenetische markers bleek dat HOCIs zijn voornamelijk bezet door actieve histon-modificaties (H3K4me3, ongeveer 70%; H3K4me1, ongeveer 50%; en H3K27ac, ongeveer 50%) bij percentages die opmerkelijk hoger zijn dan die van open chromatine geïdentificeerd door FAIRE-seq en Hi-C pieken (Fig. 1e), waaruit blijkt dat HOCIs zijn voornamelijk actieve cis-werkende elementen, met name promotors (H3K4me3) en enhancers (H3K4me1 en H3K27ac).
Om de reproduceerbaarheid en haalbaarheid van OCEAN-C verder te testen, onderzochten we de methode in RPMI-8226 multiple myeloma cellen en GM12878 lymphoblastoïde cellen. De drie cellijnen vertoonden vergelijkbare aantallen HOCIs en vergelijkbare histon modificatie eigenschappen, waaruit blijkt dat HOCIs een gemeenschappelijk fenomeen vertegenwoordigen in verschillende cellijnen (Fig. 1f en Additional file 1: Figuur S2B). Het grote verschil in de locaties van HOCIs tussen verschillende cellijnen is suggestief van specifieke open chromatine interacties die worden geassocieerd met genregulatie. Vervolgens hebben we vergeleken de resultaten van OCEAN-C en in situ Hi-C in het identificeren van grootschalige chromatine architecturen zoals topologisch geassocieerde domeinen (TAD’s) en compartimenten en vond dat de interactie heat maps, TAD’s, en A / B compartimenten vertoonden een hoge concordantie tussen OCEAN-C en Hi-C (Additional file 1: figuur S2C-F), waaruit blijkt het vermogen van OCEAN-C om dezelfde TAD’s en A / B compartimenten als in situ Hi-C te identificeren. Bovendien evalueerden we het effect van sequencing diepte en gebruikte softwarepakketten op peak calling. Het aantal geïdentificeerde HOCI’s werd beïnvloed door een lage sequencing diepte en werd geleidelijk verzadigd met toenemende lees aantal (Additional file 1: figuur S3A). Door gebruik te maken van de MACS2 software om pieken te bellen van de OCEAN-C gegevens van U266 cellen, verkregen we 9926 pieken, waarvan 4718 overlapte ZINBA-geïdentificeerde pieken, wat suggereert dat de piek signalen van open chromatine in OCEAN-C gegevens kunnen worden gedetecteerd door verschillende algoritmen en het combineren van verschillende piek-calling methoden kan nuttig zijn om betrouwbare HOCIs identificeren (Additional file 1: figuur S3B-E).
We hebben ook vergeleken OCEAN-C met de DNase-C techniek in het identificeren van open chromatine interacties (Additional file 1: figuur S4). De resultaten toonden aan dat terwijl DNase-C methode vangt open-chromatine interacties op fijn-schaal, OCEAN-C presteert beter dan DNase-C in peak calling en het identificeren van nauwkeurige open chromatine interactie pieken.
HOCIs zijn gebonden door een cluster van DNA-bindende eiwitten
Vorige studies toonden aan dat chromatines lussen vormen bij benadering op kilobase-schaal resolutie met de binding van scaffold eiwitten zoals CTCF en cohesine, die genregulatie te vergemakkelijken. Deze studies waren voornamelijk gebaseerd op verzadigde sequencing van Hi-C gegevens of eiwit-gebaseerde chromatine interactie analyses zoals ChIA-PET, HiChIP, of PLAC-seq. Wij vergeleken de HOCIs geïdentificeerd door OCEAN-C met ankers bepaald door ChIA-PET en lussen bepaald door Hi-C in GM12878 cellen. Zowel kruisende als afzonderlijke HOCIs werden geïdentificeerd in vergelijking met de ChIA-PET resultaten (Fig. 2a). Ongeveer 41% HOCIs overlapten met CTCF lus ankers bepaald door CTCF ChIA-PET, en 47% HOCIs overlapten met ankers bepaald door Pol II ChIA-PET; in tegenstelling, slechts 21% van de HOCIs waren lus regio’s bepaald door Hi-C (Additional file 3: Tabel S2A). De overlappingspercentages tonen het vermogen van OCEAN-C aan om lusankers op kilobase-schaal te identificeren. Belangrijker nog, het niet-overlappende aandeel toont de specificiteit van de OCEAN-C methode aan. Terwijl een paar ankers van ChIA-PET voornamelijk met elkaar interageren, interageert een HOCI met een reeks loci, inclusief lusinteracties (Figs. 1d en 2a). Om de interacties tussen HOCIs verder te bevestigen, selecteerden we twee clusters van HOCIs en voerden 3C validatie-experiment uit. De resultaten toonden aan dat meer dan de helft van de paarsgewijze interacties tussen HOCIs van beide clusters worden gedetecteerd door de 3C methode (Additional file 1: Figuur S5), wat de betrouwbaarheid aantoont van HOCI interacties ontdekt door OCEAN-C.
Als OCEAN-C is ontworpen om interacties tussen open chromatine regio’s vast te leggen zonder te vertrouwen op specifieke antilichamen, speculeerden we dat HOCIs zijn chromatine regio’s gebonden door meerdere DNA-bindende eiwitten. Om deze hypothese te bevestigen, integreerden we ChIP-seq gegevens van ENCODE, ChIA-PET, en OCEAN-C gegevens van GM12878 cellen. Zoals verwacht, chromatine ankers geïdentificeerd door CTCF ChIA-PET weergegeven veel sterker CTCF ChIP-seq signalen dan alle andere DNA-bindende eiwitten, en Pol II vertoonde ook de sterkste binding signaal op ankers van Pol II ChIA-PET (Fig. 2b), waaruit blijkt de verrijking van specifieke eiwit-bindende regio’s in ChIA-PET experimenten. HOCIs daarentegen vertoonden verrijkte bindsignalen voor een grotere reeks DNA-bindende eiwitten, waaronder actieve transcriptiefactoren (PKNOX1, Pol II), transcriptierepressoren (BHLHE40, SP1, YY1), transcriptieregulatoren (ZNF143, CREB1, GABPA), en CTCF (Fig. 2b). Bovendien vertoonden verschillende lymfoïde celspecifieke transcriptiefactoren sterke bindingsignalen, waaronder E74-like factor 1 (ELF1) en Early B-cell factor 1 (EBF1), wat het vermogen aantoont van OCEAN-C om belangrijke lineage-specifieke DNA-bindende proteïnen te identificeren (Fig. 2b). Met name de B-cel-specifieke transcriptiefactor ELF1 vertoonde een hoger bindingssignaal op HOCI’s dan andere factoren, met uitzondering van Pol II-gerelateerde eiwitten (POL2A, PKNOX1, BHLHE40, ZNF143, en CREB1; Fig. 2c).
Gemiddeld wordt een HOCI bezet door 9.1 verschillende DNA-bindende eiwitten, vergeleken met een gemiddelde van 6,7, 5,3, en 6,5 verschillende DNA-bindende eiwitten die een Pol II ChIA-PET anker, CTCF ChIA-PET anker, en Hi-C loop anker bezetten, respectievelijk (Additional file 1: figuur S6). Bovendien werden de ChIA-PET en Hi-C loop ankers die HOCIs overlappen gebonden door significant meer DNA-bindende eiwitten dan de andere ankers (t-test, p waarde < 2.2e-16; Additional file 1: Figuur S6B), waaruit blijkt dat ChIA-PET slechts een deel van de HOCI’s kan vangen, die DNA-lusankers waren die bezet werden door zowel ChIA-PET anker-eiwitten als andere DNA-bindende eiwitten. Bovendien lieten contourplots zien dat HOCIs een kortere breedte hadden en over het geheel genomen meer bindende eiwitten, terwijl de meeste POL2/CTCF ChIA-PET ankers langer waren en bezet door minder dan vijf verschillende DNA-bindende eiwitten (Additional file 1: figuur S6C). We analyseerden ook de DNA-sequentie motieven van HOCIs en ChIA-PET ankers. CTCF ChIA-PET ankers vertoonden extreem verrijkte CTCF/CTCFL DNA-bindende motieven, terwijl HOCIs minder verschil vertoonden in het significantieniveau van de top vijf verrijkte motieven, inclusief CTCF/CTCFL (Additional file 1: figuur S6D). Specifiek op de locus van het gen WBP1L, werden twee regio’s geïdentificeerd als open chromatine regio’s door FAIRE-seq, een in de buurt van de promotor en de andere in de nabijheid van de promotor binnen het gen lichaam (Fig. 2d). De promoter van WBP1L werd geïdentificeerd als een HOCI door OCEAN-C en bevestigd door sterke bindingsignalen voor veel DNA-bindende eiwitten, waaronder Pol II maar niet CTCF, terwijl de tweede open chromatine regio niet werd geïdentificeerd als een HOCI als gevolg van de bindingsignalen van voornamelijk CTCF en Pol II maar niet van andere eiwitten (Fig. 2d). Daarom is de bezetting van meerdere eiwitten en frequente interacties met andere chromatine regio’s onderscheidt HOCI’s van andere open chromatine regio’s.
Om verder te onderzoeken de genomische eigenschappen van HOCI’s, analyseerden we de chromatine staten van HOCI’s evenals ankers van CTCF of Pol II ChIA-PET in GM12878 cellen (Additional file 1: figuur S7A). CTCF ankers werden voornamelijk gemarkeerd als isolatoren, en Pol II ankers werden voornamelijk gemarkeerd als promotors en enhancers, in overeenstemming met de biologische functie van deze twee eiwitten. HOCI’s werden het vaakst geïdentificeerd als promotors (ongeveer 50%), gevolgd door enhancers (ongeveer 15%), en insulators (ongeveer 15%). We clusterden HOCIs op basis van hun bindingsignalen van meerdere DNA-bindende eiwitten. De resultaten toonden aan dat promotor en enhancer HOCIs bezet zijn door veel eiwitten, terwijl insulator HOCIs bezet zijn door een paar eiwitten, waaronder CTCF, ZNF143, EBF1, en BHLHE40 (Additional file 1: Figuur S7B). Ondertussen, HOCIs gelegen binnen inactieve chromatine regio’s hadden weinig interacties met DNA-bindende eiwitten (Additional file 1: figuur S7B). Samen geven deze resultaten aan dat HOCIs geïdentificeerd door OCEAN-C voornamelijk functionele cis-regulerende elementen zijn die worden gebonden door een cluster van regulerende eiwitten.
HOCIs vormen promoter- en enhancer-gebaseerde topologische architecturen die associëren met genexpressie
Om de biologische functies van HOCIs verder te onderzoeken, onderzochten we de chromatine interacties die betrokken zijn bij HOCIs en hun relatie met gen transcriptie. Vergelijkbaar met GM12878 cellen (Additional file 1: figuur S7A), de meerderheid van de HOCIs in U266 cellen waren promotors (44%) en enhancers (13%), zoals geclassificeerd volgens histon-modificaties (Fig. 3a). De meeste HOCIs hadden ook interactie met andere HOCIs (gemiddeld zes; Fig. 3b) en vormden daarom een interactienetwerk met promotors, enhancers, en andere cis-regulerende elementen over het gehele chromosoom (Fig. 3c en Additional file 1: Figuur S8). We berekenden de chromosomale afstanden overbrugd door deze interacties, en de meeste interacties met betrekking tot promotor HOCIs en enhancer HOCIs voorgedaan binnen 500 kb, met een paar interacties verspreid over meerdere megabases (Fig. 3d), in overeenstemming met de bevindingen van een eerdere studie met behulp van Capture-C . Interacties binnen promotor HOCIs of enhancer HOCIs bestreken significant kortere chromosomale afstanden, met mediane afstanden van respectievelijk 44 en 13 kb, terwijl interacties tussen promotor HOCIs en enhancer HOCIs een langere mediane spanwijdte hadden van 117 kb (Fig. 3d).
We onderzochten vervolgens de locatie van HOCI’s ten opzichte van de hiërarchische ruimtelijke structuren van het genoom, met inbegrip van topologisch geassocieerde domeinen (TAD’s) en A/B compartimenten. HOCIs kwamen bij voorkeur voor op TAD grenzen (Fig. 3e, Additional file 3: Tabel S2B), en HOCI-gemedieerde interacties waren voornamelijk binnen actieve A compartimenten (Fig. 3f, h); in tegenstelling, kwamen Hi-C interacties overvloedig voor binnen zowel A als B compartimenten (Fig. 3g). Deze resultaten suggereren dat HOCI-gemedieerde interacties bij voorkeur actieve chromatine regio’s te betrekken, in het bijzonder TAD grenzen.
Om verder te onderzoeken de relatie tussen HOCI interacties en gen transcriptie, selecteerden we willekeurig een chromatine regio (chromosoom 21, 9-48 Mb) en uitgezet de chromatine interacties waarbij HOCIs en de leesdiepte van RNA-seq experimenten in U266 cellen (Fig. 4a, b). Genen die promotor-enhancer interacties door HOCI interactie netwerken werden zeer getranscribeerd, in tegenstelling, genen zonder HOCI-gemedieerde interacties werden nauwelijks getranscribeerd. Gen-rijke regio’s vormen intensievere HOCI interacties dan gen-arme regio’s (Fig. 4a, b). Vervolgens categoriseerden we genen in drie groepen volgens hun lokale open chromatine interacties (Fig. 4c): genen waarvan de promotors HOCIs waren (hub genen), genen waarvan de promotors geen HOCIs waren maar interageerden met HOCIs (interagerende genen), en genen waarvan de promotors niet betrokken waren bij HOCI interacties (dissociatieve genen). Deze drie soorten genen vertoonden significante verschillen op transcriptieniveau (Fig. 4d, e en Additional file 3: Tabel S2C, D). De meeste tot expressie komende genen (~ 90%) waren ofwel hub-genen of interacterende genen. De hub genen werden uitgedrukt op een significant hoger expressieniveau dan genen van de twee andere groepen, en dissociatieve genen toonden het laagste expressieniveau (Fig. 4e). Bovendien bevatten de huishoudelijke genen een groter aandeel van de hub genen dan de tot expressie gebrachte genen (Additional file 3: Tabel S2D). Deze resultaten tonen aan dat HOCI’s een sleutelrol spelen bij de vorming van promotor- en enhancer-chromatine-interacties die cruciaal zijn voor de gentranscriptie.
HOCI-gemedieerde interacties verklaren differentiële genexpressie
We hebben verder onderzocht of veranderingen in HOCI’s differentiële gentranscriptie tussen verschillende cellijnen kunnen verklaren. We vergeleken de gen transcriptie niveaus van twee multiple myeloma cellijnen (U266 en RPMI-8226) volgens de drie hierboven gedefinieerde gen typen. Genen die verschillende types hebben tussen de twee cellijnen vertoonden significant verschillende genexpressie, terwijl genen die dezelfde types hebben tussen de twee cellijnen vergelijkbare transcriptieniveaus vertoonden (Fig. 5a). Grote dalingen in transcriptie traden op bij de verstoring van HOCIs, terwijl significante toenames in transcriptie optraden bij de vorming van HOCIs (Additional file 1: Figuur S9). In het bijzonder had een gen de neiging om de transcriptie volledig te verliezen wanneer het transformeerde van een hub type naar een dissociatief type. Dit werd verder bevestigd via vergelijkingen tussen differentieel tot expressie komende genen die wel of niet verklaard kunnen worden door de verandering van HOCI-gemedieerde interacties op promotors (Fig. 5b). Genen met differentiële HOCI-gemedieerde interacties vertoonden significant meer differentiële expressie dan genen zonder interactiewijzigingen.
Om specifiek de relatie tussen open chromatine interacties en genexpressie te illustreren, selecteerden we een differentieel tot expressie komend gen, Klasse II major histocompatibility complex transactivator (CIITA), een belangrijk gen dat deelneemt in B-cel differentiatie, en onderzochten de nabijgelegen open chromatine interacties, Hi-C heat maps, en RNA-expressie niveaus (Fig. 5c). In U266 cellen, werd de promotor van CIITA geïdentificeerd als een HOCI die meerdere interacties met nabijgelegen genen, associëren met een hoge expressie van het gen vormt, terwijl dergelijke HOCIs en interacties niet werden gedetecteerd in RPMI8226 cellen, associëren met een zwak transcriptiesignaal van het gen. In tegenstelling hiermee kunnen Hi-C heat maps dergelijke verschillen niet detecteren bij 40-kb resolutie. Samenvattend hebben we aangetoond dat OCEAN-C HOCI-gemedieerde open chromatine interacties identificeerde die cruciaal zijn voor gen transcriptie en veranderingen.
De meeste super-enhancers en veel brede H3K4me3 domeinen overlappen met HOCIs
Super-enhancers worden gedefinieerd door uitzonderlijke verrijking van master transcriptie factor binding of actieve chromatine markers bepaald door ChIP-seq, en ze verlenen hoge transcriptionele activiteit aan nabijgelegen genen . Aangezien super-enhancers relatief brede open chromatine regio’s zijn die deelnemen aan genregulatie via chromatine interactie en OCEAN-C open-chromatine interacties vastlegt, speculeerden we dat HOCIs overlappen met super-enhancers. De interactie afstanden tussen enhancer HOCIs zijn aanzienlijk korter dan andere soorten van HOCI interacties, wat aangeeft dat enhancer HOCIs super-enhancers kunnen vormen (Fig. 3d). Om deze hypothese te bevestigen, hebben we gedefinieerd super-enhancers in U266 cellen door middel van ChIP-seq gegevens van H3K27Ac, E2F1, en DP1 volgens eerdere instructies (Fig. 6a-c). Onder de 880 super-enhancers gedefinieerd door H3K27ac / DP1, 642 (73%) overlapte met HOCI’s, onder de 981 super-enhancers gedefinieerd door H3K27ac / E2F1, 715 (72,9%) overlapte met HOCI’s, waaruit blijkt dat de meeste super-enhancers zijn samengesteld uit HOCI’s (Fig. 6d, e). Interessant is dat super-enhancers interacties vormden met zichzelf en met verschillende super-enhancers door de interacties van HOCIs (Fig. 6f). Deze resultaten tonen aan dat de meeste super-enhancers bestaan uit HOCI’s en dat OCEAN-C in staat is om super-enhancers en hun interacties te identificeren.
Brede H3K4me3 domeinen (breder dan 4 kb) worden geassocieerd met verhoogde transcriptie elongatie en enhancer activiteiten, vooral bij tumor suppressor genen, en vormen chromatine interacties met super-enhancers . In GM12878 cellen, H3K4me3 regio’s overlappen met HOCIs toonden bredere signalen in vergelijking met de rest van de H3K4me3 regio’s of de H3K4me3 regio’s overlappen met ChIA-PET ankers (Fig. 7a, b), wat suggereert dat de verrijking van lange H3K4me3 pieken in HOCIs. We analyseerden vervolgens de relatie tussen HOCIs en brede H3K4me3 domeinen, die potentieel lange open chromatine regio’s zijn. We definieerden 2736 brede H3K4me3 gebieden in U266 cellen en 51,4% (1406) van hen overlapten met HOCIs (Fig. 7c, d). De meeste brede H3K4me3 regio’s bevatten één tot vijf interacterende HOCIs. Meer specifiek, twee nabijgelegen brede H3K4me3 regio’s op chr12:57620000-57.640.000 interageerden met elkaar via de drie HOCIs binnen hen (Fig. 7e). Bovendien voerden we een padverrijkingsanalyse uit van de genen waarvan de promotors overlappen met zowel HOCIs als brede H3K4me3 domeinen, en ontdekten dat vier van de vijf top verrijkte paden gerelateerd waren aan kanker (Fig. 7f). Deze resultaten tonen aan dat veel brede H3K4me3-domeinen zijn samengesteld uit HOCI’s en dat OCEAN-C in staat is om brede H3K4me3-domeinen en hun interacties te identificeren.