Genome-wide open chromatin interaction assay using OCEAN-C
W pierwszej kolejności przeprowadziliśmy eksperymenty in situ Hi-C i FAIRE-seq na komórkach szpiczaka mnogiego U266 w celu identyfikacji genomowych interakcji chromatynowych i regionów otwartej chromatyny. Zgodnie z oczekiwaniami, nasze dane wykazywały wysoką powtarzalność i typowe cechy wyników Hi-C i FAIRE-seq (Dodatkowy plik 1: Figura S1, Dodatkowy plik 2: Tabela S1). Następnie, opracowaliśmy test OCEAN-C poprzez integrację protokołów Hi-C i FAIRE-seq in situ. Etap ekstrakcji fenolowo-chloroformowej chromatyny pozbawionej nukleosomów (otwarta chromatyna) został dodany po etapie dodawania reszt biotyny i sonikacji Hi-C, umożliwiając specyficzne wzbogacenie DNA wolnego od nukleosomów i fragmentów DNA, które ponownie połączyły się z otwartą chromatyną (Fig. 1a, „Metody”). Stosunek wyizolowanego OCEAN-C DNA w odniesieniu do całkowitego genomowego DNA wynosi 1-3%, co jest podobne do FAIRE-seq . Fragmenty DNA znakowane biotyną zostały następnie wzbogacone z wyekstrahowanego OCEAN-C DNA, po czym nastąpiła konstrukcja biblioteki i sekwencjonowanie o wysokiej przepustowości. Otwarte regiony chromatyny, które tworzą piki w wyniku wielokrotnych interakcji chromatyny, zostały następnie nazwane przez algorytm ZINBA stosowany do identyfikacji pików FAIRE-seq.
Zidentyfikowaliśmy 12 003 pików OCEAN-C (mediana szerokiego rozmiaru wynosiła 1,4 kb, a wąskiego 232 bp) z 43,4 milionami ważnych par odczytów oznaczających interakcje wewnątrzchromosomalne w linii komórkowej U266. Spośród nich 74,3% pokrywało się z pikami FAIRE-seq; dla kontrastu, z tej samej liczby odczytów Hi-C wyznaczono tylko 850 pików, które prawie w ogóle nie przecinały się z pikami OCEAN-C lub FAIRE-seq (Rys. 1b). Wysoki stosunek nakładania się z pikami FAIRE-seq potwierdził, że regiony szczytowe wyznaczone przez OCEAN-C są otwartymi regionami chromatyny. Co więcej, piki OCEAN-C stanowią jedynie niewielką część (około 13%) całkowitej liczby otwartych regionów chromatyny zidentyfikowanych przez FAIRE-seq, co wskazuje, że większość otwartych regionów chromatyny nie wykazuje znacząco wyższej częstotliwości interakcji niż inne regiony. Zaobserwowaliśmy średnio 174 interakcje na pik OCEAN-C (Rys. 1c), co jest znacząco wyższe niż liczba dla danych Hi-C (wartość p < 2.2e-16). Dlatego szczyty OCEAN-C reprezentują węzły interakcji chromatyny, które tworzą wiele interakcji z zestawem loci wzdłuż chromosomu (Fig. 1d i plik dodatkowy 1: Figura S2A), a my nazywamy te regiony węzłami otwartych interakcji chromatyny (HOCIs). Analiza korelacji przy użyciu markerów epigenetycznych ujawniła, że HOCIs są głównie zajęte przez aktywne modyfikacje histonów (H3K4me3, około 70%; H3K4me1, około 50%; i H3K27ac, około 50%) w procentach, które znacznie przewyższają te z otwartej chromatyny zidentyfikowanej przez FAIRE-seq i szczyty Hi-C (Fig. 1e), wykazując, że HOCIs są głównie aktywnymi elementami cis-aktywnymi, zwłaszcza promotorami (H3K4me3) i enhancerami (H3K4me1 i H3K27ac).
Aby dokładniej przetestować odtwarzalność i wykonalność OCEAN-C, zbadaliśmy metodę w komórkach szpiczaka mnogiego RPMI-8226 i komórkach limfoblastoidalnych GM12878. Te trzy linie komórkowe wykazywały podobną liczbę HOCIs i podobne właściwości modyfikacji histonów, wykazując, że HOCIs reprezentują wspólne zjawisko w różnych liniach komórkowych (Fig. 1f i plik dodatkowy 1: Figura S2B). Duża różnica w lokalizacji HOCIs pomiędzy różnymi liniami komórkowymi sugeruje istnienie specyficznych otwartych interakcji chromatynowych, które są związane z regulacją genów. Następnie porównaliśmy wyniki OCEAN-C i in situ Hi-C w identyfikacji wielkoskalowych architektur chromatyny, takich jak topologicznie związane domeny (TADs) i przedziały i stwierdziliśmy, że mapy ciepła interakcji, TADs i przedziały A / B wykazywały wysoką zgodność między OCEAN-C i Hi-C (plik dodatkowy 1: Figura S2C-F), wykazując zdolność OCEAN-C do identyfikacji tych samych TADs i przedziałów A / B, co in situ Hi-C. Ponadto ocenialiśmy wpływ głębokości sekwencjonowania i zastosowanych pakietów oprogramowania na wywoływanie pików. Na liczbę zidentyfikowanych HOCI wpływ miała niska głębokość sekwencjonowania i stopniowo nasycała się wraz ze wzrostem liczby odczytów (plik dodatkowy 1: Figura S3A). Używając oprogramowania MACS2 do wywoływania pików z danych OCEAN-C komórek U266, uzyskaliśmy 9926 pików, z których 4718 pokrywało się z pikami zidentyfikowanymi przez ZINBA, co sugeruje, że sygnały pików otwartej chromatyny w danych OCEAN-C mogą być wykrywane przez różne algorytmy, a łączenie różnych metod wywoływania pików może być pomocne w identyfikacji wiarygodnych HOCI (Dodatkowy plik 1: Figura S3B-E).
Porównaliśmy również OCEAN-C z techniką DNase-C w identyfikacji interakcji otwartej chromatyny (plik dodatkowy 1: Figura S4). Wyniki pokazały, że podczas gdy metoda DNase-C wychwytuje otwarte interakcje chromatynowe w drobnej skali, OCEAN-C radzi sobie lepiej niż DNase-C w wywoływaniu pików i identyfikacji dokładnych pików otwartych interakcji chromatynowych.
HOCI są wiązane przez klaster białek wiążących DNA
Wcześniejsze badania ujawniły, że chromatyny tworzą pętle w przybliżonej rozdzielczości kilobazowej z wiązaniem białek rusztowania, takich jak CTCF i kofeina, które ułatwiają regulację genów. Badania te opierały się głównie na sekwencjonowaniu nasyconym danych Hi-C lub analizach interakcji chromatyny opartych na białkach, takich jak ChIA-PET, HiChIP lub PLAC-seq. Porównaliśmy HOCIs zidentyfikowane przez OCEAN-C z kotwicami określonymi przez ChIA-PET i pętlami określonymi przez Hi-C w komórkach GM12878. W porównaniu z wynikami ChIA-PET zidentyfikowano zarówno przecinające się, jak i odrębne HOCIs (ryc. 2a). Około 41% HOCIs pokrywało się z kotwicami pętli CTCF wyznaczonymi przez CTCF ChIA-PET, a 47% HOCIs pokrywało się z kotwicami wyznaczonymi przez Pol II ChIA-PET; dla kontrastu, tylko 21% HOCIs było regionami pętli wyznaczonymi przez Hi-C (Dodatkowy plik 3: Tabela S2A). Proporcje nakładania się wskazują na zdolność OCEAN-C do identyfikowania kotwic pętli w skali kilobazowej. Co ważniejsze, nienakładające się proporcje świadczą o specyficzności metody OCEAN-C. Podczas gdy para kotwic z ChIA-PET oddziałuje głównie ze sobą, HOCI oddziałuje z zestawem loci, włączając w to interakcje pętlowe (Rys. 1d i 2a). W celu dalszego potwierdzenia interakcji pomiędzy HOCIs, wybraliśmy dwa skupiska HOCIs i przeprowadziliśmy eksperyment walidacyjny 3C. Wyniki pokazały, że ponad połowa par oddziaływań pomiędzy HOCIs obu klastrów jest wykrywana metodą 3C (plik dodatkowy 1: Rysunek S5), co świadczy o wiarygodności interakcji HOCI wykrytych przez OCEAN-C.
Ponieważ OCEAN-C został zaprojektowany do wychwytywania interakcji między otwartymi regionami chromatyny bez polegania na specyficznych przeciwciałach, spekulowaliśmy, że HOCIs są regionami chromatyny związanymi przez wiele białek wiążących DNA. Aby potwierdzić tę hipotezę, zintegrowaliśmy dane ChIP-seq z ENCODE, ChIA-PET i dane OCEAN-C z komórek GM12878. Zgodnie z oczekiwaniami, kotwice chromatyny zidentyfikowane przez CTCF ChIA-PET wykazywały znacznie silniejsze sygnały CTCF ChIP-seq niż jakiekolwiek inne białka wiążące DNA, a Pol II również wykazywał najsilniejszy sygnał wiązania w kotwicach Pol II ChIA-PET (Fig. 2b), demonstrując wzbogacenie specyficznych regionów wiążących białka w eksperymentach ChIA-PET. W przeciwieństwie do tego, HOCIs wykazywały wzbogacone sygnały wiążące dla większego zestawu białek wiążących DNA, w tym aktywnych czynników transkrypcyjnych (PKNOX1, Pol II), represorów transkrypcji (BHLHE40, SP1, YY1), regulatorów transkrypcji (ZNF143, CREB1, GABPA) i CTCF (ryc. 2b). Ponadto, kilka czynników transkrypcyjnych specyficznych dla komórek limfoidalnych wykazywało silne sygnały wiążące, w tym E74-like factor 1 (ELF1) i Early B-cell factor 1 (EBF1), co wskazuje na zdolność OCEAN-C do identyfikacji kluczowych białek wiążących DNA specyficznych dla linii rozwojowych (ryc. 2b). W szczególności, specyficzny dla komórek B czynnik transkrypcyjny ELF1 wykazywał wyższy sygnał wiązania w HOCIs niż inne czynniki z wyjątkiem białek związanych z Pol II (POL2A, PKNOX1, BHLHE40, ZNF143 i CREB1; Rys. 2c).
Średnio, HOCIs jest zajmowany przez 9.1 różnych białek wiążących DNA, w porównaniu ze średnią 6,7, 5,3 i 6,5 różnych białek wiążących DNA zajmujących kotwicę Pol II ChIA-PET, kotwicę CTCF ChIA-PET i kotwicę pętli Hi-C, odpowiednio (Dodatkowy plik 1: Figura S6). Co więcej, kotwice ChIA-PET i pętli Hi-C nakładające się na HOCIs były wiązane przez znacznie więcej białek wiążących DNA niż pozostałe kotwice (t-test, wartość p < 2,2e-16; Dodatkowy plik 1: Figura S6B), wykazując, że ChIA-PET może wychwycić tylko część HOCIs, które były kotwicami pętli DNA zajętymi zarówno przez białka kotwicy ChIA-PET, jak i inne białka wiążące DNA. Ponadto, wykresy konturowe wykazały, że HOCIs miały mniejszą szerokość i ogólnie więcej białek wiążących, podczas gdy większość kotwic POL2/CTCF ChIA-PET była dłuższa i zajęta przez mniej niż pięć różnych białek wiążących DNA (plik dodatkowy 1: Figura S6C). Przeanalizowaliśmy również motywy sekwencji DNA kotwic HOCIs i ChIA-PET. Kotwice CTCF ChIA-PET wykazywały wyjątkowo wzbogacone motywy wiązania DNA CTCF/CTCFL, podczas gdy HOCI wykazywały mniejszą różnicę w poziomie istotności pięciu najlepszych wzbogaconych motywów, w tym CTCF/CTCFL (Dodatkowy plik 1: Figura S6D). Konkretnie, w locus genu WBP1L, dwa regiony zostały zidentyfikowane jako regiony otwartej chromatyny przez FAIRE-seq, jeden w pobliżu promotora, a drugi w bliskim sąsiedztwie promotora w obrębie ciała genu (Rys. 2d). Promotor WBP1L został zidentyfikowany jako HOCI przez OCEAN-C i potwierdzony przez silne sygnały wiązania dla wielu białek wiążących DNA, w tym Pol II, ale nie CTCF, podczas gdy drugi otwarty region chromatyny nie został zidentyfikowany jako HOCI ze względu na sygnały wiązania głównie CTCF i Pol II, ale nie innych białek (Rys. 2d). Dlatego zajęcie wielu białek i częste interakcje z innymi regionami chromatyny odróżnia HOCI od innych otwartych regionów chromatyny.
Aby dalej zbadać właściwości genomowe HOCI, przeanalizowaliśmy stany chromatyny HOCI, jak również kotwice CTCF lub Pol II ChIA-PET w komórkach GM12878 (plik dodatkowy 1: Figura S7A). Kotwice CTCF były głównie oznaczone jako izolatory, a kotwice Pol II były głównie oznaczone jako promotory i enhancery, co jest zgodne z biologiczną funkcją tych dwóch białek. HOCIs były najczęściej identyfikowane jako promotory (około 50%), następnie jako enhancery (około 15%) i izolatory (około 15%). Zgrupowaliśmy HOCIs zgodnie z ich sygnałami wiązania wielu białek wiążących DNA. Wyniki pokazały, że HOCIs promotora i enhancera są zajmowane przez wiele białek, podczas gdy HOCIs izolatora są zajmowane przez kilka białek, w tym CTCF, ZNF143, EBF1 i BHLHE40 (plik dodatkowy 1: Rysunek S7B). Natomiast HOCI zlokalizowane w obrębie nieaktywnych regionów chromatyny miały niewiele interakcji z białkami wiążącymi DNA (plik dodatkowy 1: Rysunek S7B). Łącznie wyniki te wskazują, że HOCIs zidentyfikowane przez OCEAN-C są głównie funkcjonalnymi elementami cis-regulacyjnymi, które są wiązane przez klaster białek regulacyjnych.
HOCIs tworzą topologiczne architektury oparte na promotorach i enhancerach, które wiążą się z ekspresją genów
Aby dokładniej zbadać biologiczne funkcje HOCIs, zbadaliśmy interakcje chromatyny zaangażowane w HOCIs i ich związek z transkrypcją genów. Podobnie jak w komórkach GM12878 (plik dodatkowy 1: Figura S7A), większość HOCIs w komórkach U266 była promotorami (44%) i enhancerami (13%), zgodnie z klasyfikacją modyfikacji histonów (Fig. 3a). Większość HOCIs oddziaływała również z innymi HOCIs (średnio sześć; ryc. 3b), tworząc w ten sposób sieć interakcji obejmującą promotory, enhancery i inne elementy cis-regulacyjne na całym chromosomie (ryc. 3c i plik dodatkowy 1: ryc. S8). Większość interakcji związanych z HOCIs promotora i HOCIs enhancera występowała w obrębie 500 kb, a kilka interakcji rozciągało się na kilka megabaz (ryc. 3d), co jest zgodne z wynikami wcześniejszych badań z użyciem Capture-C . Interakcje w obrębie HOCIs promotora lub HOCIs enhancera obejmowały znacznie mniejsze odległości chromosomalne, z medianą odległości wynoszącą odpowiednio 44 i 13 kb, podczas gdy interakcje pomiędzy HOCIs promotora i HOCIs enhancera miały większą medianę rozpiętości 117 kb (Rys. 3d).
Następnie zbadaliśmy lokalizację HOCI względem hierarchicznych struktur przestrzennych genomu, w tym domen związanych topologicznie (TADs) i przedziałów A/B. HOCIs preferencyjnie występowały na granicach TAD (Rys. 3e, Dodatkowy plik 3: Tabela S2B), a interakcje HOCI-mediowane były głównie w obrębie aktywnych przedziałów A (Rys. 3f, h); dla kontrastu, interakcje Hi-C występowały obficie zarówno w obrębie przedziałów A jak i B (Rys. 3g). Wyniki te sugerują, że interakcje HOCI preferencyjnie obejmują aktywne regiony chromatyny, zwłaszcza granice TAD.
Aby dokładniej zbadać związek pomiędzy interakcjami HOCI a transkrypcją genów, losowo wybraliśmy region chromatyny (chromosom 21, 9-48 Mb) i wykreśliliśmy interakcje chromatynowe z udziałem HOCIs oraz głębokość odczytu eksperymentów RNA-seq w komórkach U266 (Rys. 4a, b). Geny tworzące interakcje promotor-enhancer poprzez sieci interakcji HOCI były silnie transkrybowane; w przeciwieństwie do genów bez interakcji HOCI prawie nie były transkrybowane. Regiony bogate w geny tworzyły bardziej intensywne interakcje HOCI niż regiony ubogie w geny (ryc. 4a, b). Następnie skategoryzowaliśmy geny na trzy grupy według ich lokalnych otwartych interakcji chromatynowych w następujący sposób (Ryc. 4c): geny, których promotory były HOCIs (hub genes), geny, których promotory nie były HOCIs, ale oddziaływały z HOCIs (interacting genes) oraz geny, których promotory nie były zaangażowane w interakcje HOCI (dissociative genes). Te trzy typy genów wykazywały istotne różnice na poziomie transkrypcji (ryc. 4d, e oraz plik dodatkowy 3: Tabela S2C, D). Większość genów ulegających ekspresji (~ 90%) była albo genami węzłowymi, albo genami oddziałującymi. Geny piasty ulegały ekspresji na znacząco wyższym poziomie niż geny z dwóch pozostałych grup, a geny dysocjacyjne wykazywały najniższy poziom ekspresji (Ryc. 4e). Co więcej, geny housekeeping stanowiły większy odsetek genów hub niż genów ekspresyjnych (plik dodatkowy 3: Tabela S2D). Wyniki te wskazują na kluczową rolę HOCIs w tworzeniu interakcji chromatyny promotora i enhancera, które są kluczowe dla transkrypcji genów.
Interakcje pośredniczone przez HOCI wyjaśniają zróżnicowaną ekspresję genów
Badaliśmy dalej, czy zmiany w HOCI mogą wyjaśnić zróżnicowaną transkrypcję genów między różnymi liniami komórkowymi. Porównaliśmy poziomy transkrypcji genów w dwóch liniach komórkowych szpiczaka mnogiego (U266 i RPMI-8226) zgodnie z trzema typami genów zdefiniowanymi powyżej. Geny, które mają różne typy między dwiema liniami komórkowymi, wykazywały znacząco różną ekspresję genów, podczas gdy geny, które mają te same typy między dwiema liniami komórkowymi, wykazywały podobne poziomy transkrypcji (ryc. 5a). Duże spadki transkrypcji wystąpiły przy zaburzeniu HOCIs, podczas gdy znaczące wzrosty transkrypcji wystąpiły przy tworzeniu HOCIs (plik dodatkowy 1: Figura S9). W szczególności, gen miał tendencję do całkowitej utraty transkrypcji, gdy przekształcał się z typu hub do typu dysocjacyjnego. Zostało to dodatkowo potwierdzone przez porównanie genów o różnej ekspresji, które można lub nie można wyjaśnić zmianą interakcji HOCI na promotorach (ryc. 5b). Geny z różnicującymi się interakcjami HOCI wykazywały znacząco większą ekspresję różnicową niż te bez zmian interakcji.
Aby szczególnie zilustrować związek między interakcjami otwartej chromatyny a ekspresją genów, wybraliśmy jeden różnie wyrażony gen, transaktywator głównego kompleksu zgodności histokompatybilności klasy II (CIITA), ważny gen, który uczestniczy w różnicowaniu komórek B, i zbadaliśmy pobliskie otwarte interakcje chromatyny, mapy ciepła Hi-C i poziomy ekspresji RNA (ryc. 5c). W komórkach U266 promotor genu CIITA został zidentyfikowany jako HOCI, który tworzy liczne interakcje z pobliskimi genami, co wiąże się z wysoką ekspresją genu, podczas gdy takie HOCI i interakcje nie zostały wykryte w komórkach RPMI8226, co wiąże się ze słabym sygnałem transkrypcyjnym genu. W przeciwieństwie do tego, mapy cieplne Hi-C nie są w stanie wykryć takich różnic przy rozdzielczości 40-kb. W sumie wykazaliśmy, że OCEAN-C zidentyfikował indukowane przez HOCI otwarte interakcje chromatynowe, które są kluczowe dla transkrypcji i zmian genów.
Większość super-enhancerów i wiele szerokich domen H3K4me3 pokrywa się z HOCI
Super-enhancery są definiowane przez wyjątkowe wzbogacenie wiązania głównego czynnika transkrypcyjnego lub aktywnych markerów chromatyny określonych przez ChIP-seq, i nadają wysoką aktywność transkrypcyjną pobliskim genom . Ponieważ super-enhancery są stosunkowo szerokimi, otwartymi regionami chromatyny, które uczestniczą w regulacji genów poprzez interakcje chromatynowe, a OCEAN-C wychwytuje interakcje otwartej chromatyny, spekulowaliśmy, że HOCI nakładają się na super-enhancery. Odległości interakcji pomiędzy HOCIs w obrębie enhancera są znacząco mniejsze niż w przypadku innych typów interakcji HOCI, co wskazuje, że HOCIs w obrębie enhancera mogą tworzyć super-enhancery (Fig. 3d). Aby potwierdzić tę hipotezę, zdefiniowaliśmy super-enhancery w komórkach U266 poprzez dane ChIP-seq dla H3K27Ac, E2F1 i DP1 zgodnie z wcześniejszymi instrukcjami (Rys. 6a-c). Wśród 880 super-enhancerów zdefiniowanych przez H3K27ac/DP1, 642 (73%) pokrywało się z HOCI; wśród 981 super-enhancerów zdefiniowanych przez H3K27ac/E2F1, 715 (72,9%) pokrywało się z HOCI, co pokazuje, że większość super-enhancerów składa się z HOCI (Fig. 6d, e). Co ciekawe, super-enhancery tworzyły interakcje z samymi sobą oraz z innymi super-enhancerami poprzez interakcje HOCIs (Rys. 6f). Wyniki te pokazują, że większość super-enhancerów składa się z HOCIs, a OCEAN-C jest w stanie zidentyfikować super-enhancery i ich interakcje.
Domeny H3K4me3 o szerokości większej niż 4 kb są związane ze zwiększoną elongacją transkrypcji i aktywnością enhancerów, szczególnie w genach supresorowych nowotworów, i tworzą interakcje chromatynowe z super-enhancerami . W komórkach GM12878 regiony H3K4me3 nakładające się na HOCIs wykazywały szersze sygnały w porównaniu z resztą regionów H3K4me3 lub regionami H3K4me3 nakładającymi się na kotwice ChIA-PET (Fig. 7a, b), sugerując wzbogacenie długich pików H3K4me3 w HOCIs. Następnie przeanalizowaliśmy związek pomiędzy HOCIs a szerokimi domenami H3K4me3, które są potencjalnie długimi, otwartymi regionami chromatyny. Zdefiniowaliśmy 2736 szerokich regionów H3K4me3 w komórkach U266 i 51.4% (1406) z nich pokrywało się z HOCIs (Rys. 7c, d). Większość szerokich regionów H3K4me3 zawierała od jednego do pięciu oddziałujących HOCIs. W szczególności, dwa pobliskie szerokie regiony H3K4me3 w chr12:57620000-57,640,000 oddziaływały ze sobą poprzez trzy HOCIs w ich obrębie (Rys. 7e). Ponadto, przeprowadziliśmy analizę wzbogacania szlaków dla genów, których promotory pokrywają się zarówno z HOCIs, jak i szerokimi domenami H3K4me3, i stwierdziliśmy, że cztery z pięciu najlepiej wzbogaconych szlaków były związane z nowotworami (ryc. 7f). Wyniki te pokazują, że wiele szerokich domen H3K4me3 składa się z HOCIs, a OCEAN-C jest w stanie zidentyfikować szerokie domeny H3K4me3 i ich interakcje.