2017年2月9日,北京大学生命科学学院、生命科学联合中心、统计科学中心李程研究组在《Nucleic Acids Research》期刊发表了 “Dynamic chromatin accessibility modeled by Markov process of randomly-moving molecules in the 3D genome”的论文。
真核细胞的染色质在细胞核中折叠成复杂的三维结构,但这些结构的形成和功能还没有被完全理解。近年来,以Hi-C为代表的染色质构象捕获技术揭示了较精细的染色质三维结构单元,如A、B间隔(A/B Compartments)和拓扑结构域(Topologically Associated Domains , TADs),它们在不同细胞类型、物种内都有保守性,是定量化地理解染色质三维结构形成和功能的关键性进展。三维基因组与基因表达调控具有密切的关联,例如,一个TAD内的基因往往被共同调控,但一个TAD内的的增强子由于被TAD边界阻隔,不会调控另一个TAD内的基因。在疾病形成和干细胞分化过程中,表达调控、表观遗传的变化经常伴随着三维基因组的结构变化。
在此项研究中,李程研究组使用基于Hi-C数据的染色质区域间的相对空间距离,利用布朗运动描述转录因子和染色质修饰蛋白在不同染色质区域之间的动态转移过程,并以此建立了染色质区域附近分子浓度变化和趋于稳定的马尔可夫模型。模型由此推导出的平衡态分布(Steady-State Distribution, SSD)表征了分子在染色质区域之间由于随机运动达到的动态平衡的浓度,是领域内首次基于三维基因组信息的动态染色质可接近性的度量(图1A)。SSD不同于直观空间结构意义上的紧密程度,因为紧密或松散的染色质区域上都有可能出现高SSD值(图1D)。
图1:动态染色质可接近性模型和性质。A:SSD的计算流程。Hi-C矩阵经过最短路径法转换得到染色质区域的空间相互距离,再利用分子布朗运动的假设,得到马尔可夫模型的状态转移概率,最后得到分子在不同染色质区域的平衡态分布。B:最短路径算法示意图。C:SSD值在染色质不同区域的典型分布。D:GM12878细胞系1号染色体基于Hi-C数据的三维结构模型与SSD(颜色)的关系。
李程研究组进一步发现,相比传统的测量染色质可接近性的实验方法如DNase-seq和FAIRE-seq,SSD与表征染色质活跃程度的多个组蛋白修饰、以及基因表达有更强的相关性,证明了SSD作为动态可接近性度量的优势。SSD模型说明染色质修饰蛋白和转录因子的分布遵循由染色质三维结构决定的动态平衡状态,其浓度则进一步影响局部基因转录表达的水平(图2A)。此研究还发现SSD可以帮助揭示干细胞分化过程中染色质结构变化的两个阶段。在胚胎干细胞经过神经元前体细胞阶段、向神经元细胞分化的过程中,与染色质结构组织相关的基因所在区间的SSD(动态可接近性)首先升高,帮助这些基因的表达,进而促进更多神经元细胞特异基因所在区间的SSD的升高和相应基因的表达(图2B)。这说明干细胞分化过程中的一个重要因素是时空特异地调控染色质的空间组织和结构,从而促进细胞阶段和类型特异性的基因得以表达。
图2:动态染色质可接近性的形成与在干细胞分化中作用的模式图。A:染色质三维结构通过动态染色质可接近性影响基因表达。B:干细胞分化过程中,动态染色质可接近性帮助阶段和细胞特异基因的时空表达。
该研究得到北大-清华生命科学联合中心、科技部国家重点研发计划、国家自然科学基金重点项目的资助。李程研究员为该论文的通讯作者,生命科学中心13级博士生王轶楠为该论文第一作者,生科院14级本科生范操琦是论文第二作者,生命科学中心16级博士生郑宇轩参与了部分工作。
李程研究组开发的三维基因组疾病浏览器:http://www.bio.pku.edu.cn/displaynews.php?id=7945
北京大学生物信息平台论坛:http://forum.cbi.pku.edu.cn/