基因|陈根:中国基因组资源研究,取得重要进展


基因|陈根:中国基因组资源研究,取得重要进展
文|陈根
1854年的夏天 , 孟德尔用34个豌豆株系进行了一系列实验 。 他选出22种豌豆株系 , 挑选出7个特殊的性状 , 通过观察豌豆的突变性状 , 总结出了超越时代的基因分离定律和基因自由组合定律 。
21世纪的今天 , 生命科学领域已步入信息化的进程 , 生物信息学在生物研究中也越来越重要 。 人类基因组计划(HGP)使人们意识到基因组本质上只是一种抽象编码 , 只要能将这本“天书”读懂 , 就可以解锁生命的奥秘 。
实际上 , 人类基因组中存在着大量的遗传突变 , 其中只有少部分可以导致明显的遗传性状 。 相对而言 , 很多遗传变异仅从外表上无法看出 , 但并不意味着这些变异不会对机体造成健康影响 。
遗传变异图谱对于研究人类基因组十分重要 , 针对特定人群的基因组数据可以为全基因组关联研究、区域适应性研究、用药指导等提供更准确的参考 。
【基因|陈根:中国基因组资源研究,取得重要进展】自 2003 年第一次人类基因组信息发布以来 , 许多大规模的全基因组测序 (WGS) 项目率先在西方国家启动 , 生成了大量和多样化的人口遗传变异资源 。 然而 , 直到目前 , 中国人群全基因组测序资源仍极大缺乏 。
为此 , 中国科学院生物物理研究所的科学家们做了一次大规模的研究 , 系统介绍了一种被称之为 NyuWa(女娲)的基因组资源 , 提供了针对中国人群的遗传变异图谱推演服务 , 从而为促进中国人群的遗传学与医学研究奠定了基础 。
NyuWa 基因组资源包括 2999 个不同中国样本的高测序深度的 WGS 数 。 样本来自中国 23 个行政区域 , 包括 17 个省、2 自治区和 4 个直辖市 。 大部分样本来自上海、广东和北京 , 共包括 1335 名女性和 1664 名男性 。
通过与其他变异信息公共数据库相比 , NyuWa 数据集包含 2500 万个新的变异 , 包括 2310 万个 SNP(32.5%)和 190 万位点插入(23.3%) 。 此外 , 蛋白质编码基因共存在 3190 万个变异位点 , 其中 85.7 万个位于 CDS 区域 , 110 万个位于 UTR , 3000 万个位于内含子 。 lncRNA 外显子区共有 478 万个变异 。
总的来说 , 该研究对于扩充世界人群遗传资源多样性、提高中国人群医学研究准确性十分重要 。 未来 , 也将对寻找复杂疾病遗传因素的研究设计以及人口健康指导具有重要参考价值 。