南京大学与华中农业大学在水稻调控组学中取得新进展
2024年8月3日,南京大学陈迪俊课题组与华中农业大学谢为博课题组在Nature communications杂志上联合发表了题为“Comprehensive mapping and modelling of the rice regulome landscape unveils the regulatory architecture underlying complex traits”的研究论文,描绘了三个代表性水稻品种全生育期23个组织的综合调控组学图谱,鉴定到了一系列的时空特异性增强子,并联合转录组建立了调控区和靶基因的关联。整合已发表的GWAS结果,克隆到了影响种子萌发率基因OsbZIP06,并发现GWAS关联的变异位点更倾向于落在组织特异的开放区中。最后作者通过深度学习模型有效拟合了不同组织的染色质可及性,并且该模型可有效区分组织特异性,为鉴定非编码区中的因果变异提供了新的思路。
该研究选取了日本晴,明恢63和珍汕97三个品种,每个品种包含~23个组织,这些组织横跨了水稻的全生育周期。使用联合团队之前建立的UMI-ATAC-seq技术(可有效提高定量的准确性和鉴定“足迹”的敏感性),总共鉴定到了117,176个染色质开放区(OCR),占全基因组超过15%,这一比例远高于其他植物如拟南芥(~4%)和玉米(~4%)已报道的比例,显示了构建多组织图谱的必要性。此外,远端的染色质开放区要比近端的时空特异性更强。作者还发现,这些染色质开放区不仅高度富集转录因子的结合信号,还在不同物种间高度保守。
图一:本研究的取样组织和时间点
调控区的靶基因识别一直是个棘手的问题。传统基于调控区调控最近基因的分配策略过于武断。为此,作者同时产生了配套的RNA-seq数据,通过在一定范围内计算基因的表达量和染色质可及性的相关系数来建立二者的联系。通过这种方式,作者成功鉴别到59075个OCR-to-gene连接对。这些连接对显著富集eQTL,并且还受到已知的非编码的QTL支持,如OsSPL14,OsLG1和qSH1等。
图二:建立调控区和靶基因关联的策略和组织特异性的开放区
GWAS可以有效建立遗传变异和性状的关联。然而,GWAS关联到的变异位点大多落在非编码中,使得解析其生物学功能变得困难。为此,作者整合了水稻目前已发表的总计209份GWAS数据。通过分析发现, GWAS关联到的变异位点至少有20%落在鉴定的染色质开放区中,暗示着这些变异位点更大概率具有生物学功能。此外,作者还发现随着GWAS的阈值卡的越紧,这些变异位点更倾向于在一些特定组织中富集,显示了组织特异性调控区的重要意义。作者同时计算了这些复杂性状GWAS的变异位点和染色质开放区的富集,结果发现这些GWAS的位点在不同组织中也呈现出一定的偏好性,并且近端开放区相比于远端,其富集程度更高。此外,作者在分析种子萌发率GWAS过程中,发现了一个lead SNP正好落在OsbZIP06内含子中的开放区。通过基因突变和过表达,发现该基因确实会影响种子的萌发率。
图三:深度学习模型的性能评估和组织特异性预测效果
最后,该研究优化了Basenji深度学习模型,进一步提高了深度学习模型的染色质可及性的预测性能,预测的信号值和真实的信号值皮尔逊相关系数可以达到0.8。该模型不仅可以有效预测组织特异性的染色质开放区,还可以进行跨品种的预测,能够有效捕捉到不同品种之间因为基因组序列的差异而引起的染色质可及性变化。通过比较三个品种的OCR-to-gene的连接对,发现某些品种丢失的OCR-to-gene连接对中通常包含重要的因果变异位点。如GNP1存在一个OCR-to-gene的连接对,而明恢63和珍汕97却没有。这是因为明恢63和珍汕97在该开放区中存在变异(G/A),该变异使得染色质可及性下降。作者也通过深度学习模型验证了该变异位点具有较强的效应,并且该位点可能是转录因子OsSPL10的结合位点。
图四 利用深度学习模型挖掘因果变异位点
总之,该研究构建的染色质可及性图谱和深度学习模型不仅增强了我们对水稻调控元件的理解,而且还可作为针对非编码区的基因编辑和育种策略的宝贵资源。
南京大学生命科学学院陈迪俊副教授和华中农业大学作物遗传改良全国重点实验室、湖北洪山实验室的谢为博教授为该论文的共同通讯作者,南京大学博士生祝涛和华中农业大学夏春皎博士为该论文的共同第一作者。该研究得到了国家科技创新2030重大项目、国家自然科学基金、南京大学登峰人才支持计划、湖北省自然科学基金、湖北省国家重点研发计划、HZAU-AGIS合作基金和湖北省洪山实验室基金的资助。