Saggio di interazione della cromatina aperta in tutto il genoma utilizzando OCEAN-C
Abbiamo prima eseguito in situ Hi-C e FAIRE-seq esperimenti utilizzando cellule di mieloma multiplo U266 per identificare le interazioni della cromatina in tutto il genoma e regioni di cromatina aperta. Come previsto, i nostri dati hanno mostrato alta riproducibilità e caratteristiche tipiche di Hi-C e FAIRE-seq risultati (file aggiuntivo 1: Figura S1, file aggiuntivo 2: Tabella S1). Successivamente, abbiamo sviluppato il test OCEAN-C integrando i protocolli in situ Hi-C e FAIRE-seq. Un passo per l’estrazione fenolo-cloroformio della cromatina nucleosoma-depleto (cromatina aperta) è stato aggiunto dopo l’aggiunta di residui biotinilati e passi sonicazione di Hi-C, consentendo l’arricchimento specifico di nucleosoma-free DNA e frammenti di DNA che re-legato con la cromatina aperta (Fig. 1a, “Metodi”). Il rapporto di isolato OCEAN-C DNA rispetto al DNA genomico totale è 1-3%, che è simile a FAIRE-seq . I frammenti di DNA marcati con biotina sono stati poi arricchiti dal DNA estratto OCEAN-C e seguita dalla costruzione della biblioteca e high-throughput sequencing. Le regioni aperte della cromatina che formano picchi dovuti a interazioni cromatiniche multiple sono state poi chiamate dall’algoritmo ZINBA utilizzato per l’identificazione dei picchi FAIRE-seq.
Abbiamo identificato 12.003 picchi OCEAN-C (mediana di dimensioni ampie era 1,4 kb e di dimensioni strette 232 bp) con 43,4 milioni di coppie di lettura valide che rappresentano le interazioni intra-cromsomale nella linea cellulare U266. Di questi, il 74,3% si è sovrapposto ai picchi di FAIRE-seq; al contrario, solo 850 picchi sono stati determinati dallo stesso numero di letture Hi-C, che a malapena hanno avuto alcuna intersezione con OCEAN-C o picchi FAIRE-seq (Fig. 1b). L’alto rapporto di sovrapposizione con FAIRE-seq picchi confermato che le regioni di picco determinato da OCEAN-C sono regioni cromatina aperta. Inoltre, i picchi OCEAN-C comprendono solo una piccola parte (circa il 13%) del numero totale di regioni cromatina aperta identificati da FAIRE-seq, indicando che la maggior parte delle regioni cromatina aperta non mostrano una frequenza di interazione significativamente più alto di altre regioni. Abbiamo osservato 174 interazioni per OCEAN-C picco in media (Fig. 1c), che è significativamente superiore al numero per Hi-C dati (p valore < 2.2e-16). Pertanto, OCEAN-C picchi rappresentano hub di interazione cromatina che formano interazioni multiple con un insieme di loci lungo il cromosoma (Fig. 1d e Additional file 1: Figura S2A), e noi chiamiamo queste regioni hub di interazioni cromatina aperta (HOCIs). Analisi di correlazione utilizzando marcatori epigenetici ha rivelato che HOCIs sono principalmente occupati da modifiche istone attivo (H3K4me3, circa 70%; H3K4me1, circa 50%; e H3K27ac, circa 50%) a percentuali che superano notevolmente quelli di cromatina aperta identificati da FAIRE-seq e Hi-C picchi (Fig. 1e), dimostrando che gli HOCI sono principalmente elementi attivi cis-acting, soprattutto promotori (H3K4me3) ed esaltatori (H3K4me1 e H3K27ac).
Per testare ulteriormente la riproducibilità e la fattibilità di OCEAN-C, abbiamo esaminato il metodo in cellule di mieloma multiplo RPMI-8226 e cellule linfoblastoidi GM12878. Le tre linee cellulari hanno mostrato un numero simile di HOCI e simili proprietà di modifica degli istoni, dimostrando che gli HOCI rappresentano un fenomeno comune in diverse linee cellulari (Fig. 1f e Additional file 1: Figura S2B). La grande differenza nella localizzazione degli HOCI tra le diverse linee cellulari è suggestiva di specifiche interazioni aperte della cromatina che sono associate alla regolazione del gene. Successivamente, abbiamo confrontato i risultati di OCEAN-C e in situ Hi-C nell’identificazione di architetture cromatina su larga scala come topologicamente associati domini (TADs) e compartimenti e trovato che le mappe di calore interazione, TADs, e A / B compartimenti esposti alta concordanza tra OCEAN-C e Hi-C (Additional file 1: Figura S2C-F), dimostrando la capacità di OCEAN-C per identificare le stesse TADs e A / B compartimenti come in situ Hi-C. Inoltre, abbiamo valutato l’effetto della profondità di sequenziamento e dei pacchetti software utilizzati sulla chiamata di picco. Il numero di HOCI identificati è stato influenzato dalla bassa profondità di sequenziamento e gradualmente è diventato saturo con l’aumento del numero di lettura (Additional file 1: Figura S3A). Utilizzando il software MACS2 per chiamare i picchi dai dati OCEAN-C delle cellule U266, abbiamo ottenuto 9926 picchi, 4718 dei quali si sono sovrapposti ai picchi identificati da ZINBA, suggerendo che i segnali di picco della cromatina aperta nei dati OCEAN-C possono essere rilevati da diversi algoritmi e la combinazione di diversi metodi di chiamata dei picchi può essere utile per identificare HOCI affidabili (file aggiuntivo 1: Figura S3B-E).
Abbiamo anche confrontato OCEAN-C con la tecnica DNase-C nell’identificazione delle interazioni della cromatina aperta (Additional file 1: Figura S4). I risultati hanno mostrato che mentre il metodo DNase-C cattura le interazioni cromatina aperta su scala fine, OCEAN-C esegue meglio di DNase-C in picco chiamando e identificando accurati picchi di interazione cromatina aperta.
HOCI sono legati da un cluster di proteine leganti il DNA
Studi precedenti hanno rivelato che le cromatine formare loop a circa kilobase-scale risoluzione con il legame di proteine scaffold come CTCF e coesina, che facilitano la regolazione genica. Questi studi si basavano principalmente sul sequenziamento saturo di dati Hi-C o su analisi di interazione della cromatina basate su proteine come ChIA-PET, HiChIP o PLAC-seq. Abbiamo confrontato gli HOCI identificati da OCEAN-C con le ancore determinate da ChIA-PET e i loop determinati da Hi-C in cellule GM12878. Sono stati identificati sia HOCI intersecanti che distinti rispetto ai risultati ChIA-PET (Fig. 2a). Circa il 41% degli HOCI si è sovrapposto con le ancore di loop CTCF determinate da CTCF ChIA-PET, e il 47% degli HOCI si è sovrapposto con le ancore determinate da Pol II ChIA-PET; al contrario, solo il 21% degli HOCI erano regioni di loop determinate da Hi-C (file aggiuntivo 3: Tabella S2A). Le proporzioni di sovrapposizione dimostrano la capacità di OCEAN-C di identificare le ancore di loop su scala kilobase. Ancora più importante, la proporzione di non sovrapposizione dimostra la specificità del metodo OCEAN-C. Mentre una coppia di ancore da ChIA-PET principalmente interagiscono tra loro, un HOCI interagisce con un insieme di loci, comprese le interazioni di loop (Figg. 1d e 2a). Per confermare ulteriormente le interazioni tra HOCI, abbiamo selezionato due cluster di HOCI ed eseguito 3C esperimento di convalida. I risultati hanno mostrato che oltre la metà delle interazioni a coppie tra HOCI di entrambi i cluster sono stati rilevati dal metodo 3C (Additional file 1: Figura S5), dimostrando l’affidabilità delle interazioni HOCI scoperte da OCEAN-C.
Come OCEAN-C è progettato per catturare le interazioni tra regioni aperte della cromatina senza fare affidamento su anticorpi specifici, abbiamo ipotizzato che gli HOCI siano regioni della cromatina legate da più proteine leganti il DNA. Per confermare questa ipotesi, abbiamo integrato i dati ChIP-seq di ENCODE, ChIA-PET e OCEAN-C di cellule GM12878. Come previsto, ancore cromatina identificati da CTCF ChIA-PET visualizzato molto più forte CTCF ChIP-seq segnali rispetto a qualsiasi altro DNA-binding proteine, e Pol II ha anche esposto il segnale più forte legame ad ancore di Pol II ChIA-PET (Fig. 2b), dimostrando l’arricchimento di specifiche regioni di legame proteico in ChIA-PET esperimenti. Al contrario, gli HOCI hanno mostrato segnali di legame arricchiti per un più ampio insieme di proteine legate al DNA, compresi i fattori di trascrizione attivi (PKNOX1, Pol II), repressori di trascrizione (BHLHE40, SP1, YY1), regolatori di trascrizione (ZNF143, CREB1, GABPA), e CTCF (Fig. 2b). Inoltre, diversi fattori di trascrizione specifici per le cellule linfoidi hanno mostrato forti segnali di legame, tra cui E74-like factor 1 (ELF1) e Early B-cell factor 1 (EBF1), dimostrando la capacità di OCEAN-C di identificare le proteine leganti il DNA specifiche del lignaggio (Fig. 2b). In particolare, il fattore di trascrizione specifico delle cellule B ELF1 ha mostrato un segnale di legame più elevato a HOCI rispetto ad altri fattori, ad eccezione delle proteine legate alla Pol II (POL2A, PKNOX1, BHLHE40, ZNF143 e CREB1; Fig. 2c).
In media, un HOCI è occupato da 9.1 diverse proteine leganti il DNA, rispetto a una media di 6,7, 5,3, e 6,5 diverse proteine leganti il DNA che occupano un’ancora Pol II ChIA-PET, un’ancora CTCF ChIA-PET e un’ancora Hi-C loop, rispettivamente (Additional file 1: Figura S6). Inoltre, le ancore ChIA-PET e Hi-C loop sovrapposte a HOCI erano legate da un numero significativamente maggiore di proteine leganti il DNA rispetto alle altre ancore (t-test, valore p < 2.2e-16; Additional file 1: Figura S6B), dimostrando che ChIA-PET può catturare solo una parte di HOCIs, che erano ancore loop DNA occupato da entrambe le proteine di ancoraggio ChIA-PET e altre proteine leganti il DNA. Inoltre, i grafici di contorno hanno mostrato che HOCIs aveva larghezza più breve e più proteine di legame nel complesso, mentre la maggior parte POL2/CTCF ChIA-PET ancore erano più lunghi e occupati da meno di cinque diverse proteine leganti il DNA (Additional file 1: Figura S6C). Abbiamo anche analizzato i motivi di sequenza del DNA delle ancore HOCI e ChIA-PET. Le ancore CTCF ChIA-PET hanno mostrato motivi di legame al DNA estremamente arricchiti CTCF/CTCFL, mentre le HOCI hanno mostrato meno differenze nel livello di significatività dei primi cinque motivi arricchiti, compresi CTCF/CTCFL (file aggiuntivo 1: Figura S6D). In particolare, nel locus del gene WBP1L, due regioni sono state identificate come regioni di cromatina aperta da FAIRE-seq, una vicino al promotore e l’altra in prossimità del promotore all’interno del corpo del gene (Fig. 2d). Il promotore di WBP1L è stato identificato come HOCI da OCEAN-C e confermato da forti segnali di legame per molte proteine leganti il DNA, tra cui Pol II ma non CTCF, mentre la seconda regione di cromatina aperta non è stata identificata come HOCI a causa dei segnali di legame principalmente di CTCF e Pol II ma non altre proteine (Fig. 2d). Pertanto, l’occupazione di più proteine e frequenti interazioni con altre regioni della cromatina distingue HOCIs da altre regioni di cromatina aperta.
Per esplorare ulteriormente le proprietà genomiche di HOCIs, abbiamo analizzato gli stati della cromatina di HOCIs così come ancore di CTCF o Pol II ChIA-PET in cellule GM12878 (Additional file 1: Figura S7A). Gli ancoraggi di CTCF erano principalmente contrassegnati come insulatori, e gli ancoraggi di Pol II erano principalmente contrassegnati come promotori ed esaltatori, coerentemente con la funzione biologica di queste due proteine. Gli HOCI sono stati più comunemente identificati come promotori (circa il 50%), seguiti da enhancer (circa il 15%), e insulatori (circa il 15%). Abbiamo raggruppato gli HOCI in base ai loro segnali di legame di più proteine leganti il DNA. I risultati hanno mostrato che gli HOCI del promotore e dell’enhancer sono occupati da molte proteine, mentre gli HOCI dell’isolatore sono occupati da poche proteine, tra cui CTCF, ZNF143, EBF1 e BHLHE40 (Additional file 1: Figura S7B). Nel frattempo, gli HOCI situati all’interno di regioni inattive della cromatina hanno avuto poche interazioni con proteine leganti il DNA (Additional file 1: Figura S7B). Nel complesso, questi risultati indicano che gli HOCI identificati da OCEAN-C sono principalmente elementi cis-regolatori funzionali che sono legati da un cluster di proteine regolatrici.
HOCI formano architetture topologiche basate su promotori ed enhancer che si associano all’espressione genica
Per indagare ulteriormente le funzioni biologiche degli HOCI, abbiamo esplorato le interazioni della cromatina coinvolte con gli HOCI e la loro relazione con la trascrizione genica. Simile alle cellule GM12878 (Additional file 1: Figura S7A), la maggior parte degli HOCI nelle cellule U266 erano promotori (44%) ed esaltatori (13%), come classificati secondo le modifiche degli istoni (Fig. 3a). La maggior parte degli HOCI interagivano anche con altri HOCI (sei in media; Fig. 3b) e quindi formavano una rete di interazione che includeva promotori, enhancer e altri elementi cis-regolatori attraverso l’intero cromosoma (Fig. 3c e file aggiuntivo 1: Figura S8). Abbiamo calcolato le distanze cromosomiche attraversato da queste interazioni, e la maggior parte delle interazioni relative al promotore HOCIs e enhancer HOCIs si è verificato entro 500 kb, con alcune interazioni che si estendono diversi megabasi (Fig. 3d), coerente con i risultati di uno studio precedente utilizzando Capture-C . Interazioni all’interno del promotore HOCIs o enhancer HOCIs coperto distanze cromosomiche significativamente più brevi, con distanze mediane di 44 e 13 kb, rispettivamente, mentre le interazioni tra promotore HOCIs e enhancer HOCIs aveva una portata mediana più lunga di 117 kb (Fig. 3d).
Abbiamo poi esplorato la posizione degli HOCI rispetto alle strutture spaziali gerarchiche del genoma, compresi i domini topologici associati (TAD) e i compartimenti A/B. HOCIs si è verificato preferenzialmente ai confini TAD (Fig. 3e, file aggiuntivo 3: Tabella S2B), e HOCI-mediate interazioni erano principalmente all’interno di compartimenti A attivi (Fig. 3f, h), al contrario, Hi-C interazioni si è verificato abbondantemente all’interno di entrambi i compartimenti A e B (Fig. 3g). Questi risultati suggeriscono che le interazioni HOCI-mediate coinvolgono preferenzialmente regioni attive della cromatina, in particolare i confini TAD.
Per esplorare ulteriormente la relazione tra le interazioni HOCI e la trascrizione genica, abbiamo selezionato a caso una regione della cromatina (cromosoma 21, 9-48 Mb) e tracciato le interazioni della cromatina che coinvolgono HOCIs e la profondità di lettura di RNA-seq esperimenti in cellule U266 (Fig. 4a, b). I geni che formano interazioni promotore-enhancer attraverso reti di interazione HOCI erano altamente trascritti; al contrario, i geni senza interazioni HOCI-mediate erano difficilmente trascritti. Le regioni ricche di geni formano interazioni HOCI più intense rispetto alle regioni povere di geni (Fig. 4a, b). Abbiamo poi classificato i geni in tre gruppi secondo le loro interazioni cromatina aperta locale come segue (Fig. 4c): i geni i cui promotori erano HOCIs (geni hub), i geni i cui promotori non erano HOCIs ma interagito con HOCIs (geni interagenti), e geni i cui promotori non erano coinvolti in interazioni HOCI (geni dissociativi). Questi tre tipi di geni hanno mostrato differenze significative a livello di trascrizione (Fig. 4d, e e file aggiuntivo 3: Tabella S2C, D). La maggior parte dei geni espressi (~ 90%) erano geni hub o geni interagenti. I geni hub sono stati espressi a un livello di espressione significativamente più alto rispetto ai geni degli altri due gruppi, e i geni dissociativi hanno mostrato il livello di espressione più basso (Fig. 4e). Inoltre, i geni housekeeping comprendevano una percentuale maggiore di geni hub rispetto ai geni espressi (file aggiuntivo 3: tabella S2D). Questi risultati dimostrano il ruolo chiave degli HOCI nel formare interazioni cromatiniche tra promotori ed enhancer che sono cruciali per la trascrizione dei geni.