科学来自死亡个体的样本 帮我们读懂疾病背后的基因密码


科学来自死亡个体的样本 帮我们读懂疾病背后的基因密码
本文插图
视觉中国供图人与人的基因序列中99.9%以上是相同的 , 仅有不到0.1%差异 , 可是为什么我们却如此不同?
人们经常把人类基因组序列(30亿对碱基)比喻成一部60亿字的天书 , 人类基因组计划的测序 , 只是把天书变成“明文” , 人类却仍旧看不懂这些文字所表达的意思 。
一个名叫“基因型-组织表达”(以下简称GTEx)的大型研究项目试图寻找答案——即找到序列与实际性状(疾病)的关系 , 确定不同基因究竟如何影响表达 。 GTEx计划是现有规模最大的人类器官转录组研究计划 。 这项研究由美国国立卫生研究院(NIH)资助 , 包括麻省理工学院、哈佛大学、芝加哥大学等美国多个知名研究机构的研究人员参与研究 , 通过对不同性别的死者不同组织、不同器官的基因组、转录组、蛋白质组进行分析 , 试图把基因组测序的结果“直译”出来 。
经过10年研究 , GTEx计划9月上旬公布最新分析成果 , 数据以系列论文的形式在《科学》《细胞》等杂志上发表 。 值得一提的是 , GTEx数据被广泛用作设计新方法和工具的参考数据集 , 由此衍生出大量便于更深入研究的统计学方法 。
为生活中的“小烦恼”寻找关联基因
这里有每个人的小忧虑 , 欢迎“对号入座”——
如果你还没到成为中年油腻男的年纪 , 或许正在担心:为什么我的发际线在不断升高;
如果你是位压力山大的职场女性 , 或许正在担心:去年体检的乳腺结节不知道怎么样了 , 据说乳腺癌患病率很高;
【科学来自死亡个体的样本 帮我们读懂疾病背后的基因密码】如果你是名新手宝妈 , 或许正在担心:我家娃超重了!除了母乳什么也没吃 , 为什么胖得连脖子都看不到了;
……
在GTEx计划公布的研究结果中 , 这些问题都在基因组、转录组和蛋白质组的分析中找到了答案 。
这些答案来自海量数据的测序、汇总、分析……依托了大量的创新分析方法 。 研究者将所有的研究数据汇总形成GTEx数据集 , 目前已经更新至第八版 , 其中包括来自838个供体、52个组织、两个细胞系的17382份样品的数据 。
研究者们对这些样品进行全基因组序列的测序分析 , 转录组表达量的分析 , 以及相互之间作用关联的分析 , 以鉴定出哪些基因与哪些性状有密切关联 。
这次研究首次发现 , 一个被命名为C9orf66的基因 , 与脱发有关 , 这个基因在男性中的表达量远高于女性;CCDC88C基因在女性中表达水平较高 , 它是一种与乳腺癌发病有关的基因;而新手宝妈最关心的婴儿体重 , 可能与婴儿本身无关 , 却是和宝妈体内的HKDC1基因密切相关 , 该基因具有孕期血糖调节功能 , 它的表达影响女性生育的后代体重 。
当然还有很多与现实生活密切相关的发现 , 例如一些基因的高表达会促进癌基因的表达;女性比男性长寿的关联基因等 , 在最新的研究成果中 , 人们可以对早有迹象的生命活动在人类基因组的浩瀚长图中“按图索骥” , 给出功能“注脚” 。
鉴定出与疾病相关的罕见基因突变
关注并研究人类彼此间不同的0.1%基因 , 其实由来已久 。 学界通常将其命名为全基因组关联研究(GWAS) , 顾名思义 , 是为了寻找基因与功能之间的关联 。
0.1%的不同基因序列 , 意味着在整个基因组30亿个碱基对中至少有30万个常见的SNP(单核苷酸多态性 , 即单碱基的变化) 。 “GWAS仅研究了常见的SNP位点 , 这就意味着仍有许多罕见变异尚未鉴定 。 ”有分析认为 , 比起常见突变 , 罕见突变的研究需要更精确的测量 , 换句话说 , 只有大规模的全基因组分析(至少全外显子测序)才能满足研究的需要 。
在此前发布的第一阶段和第二阶段成果中 , GTEx计划也将注意力集中在常见突变对转录组的调控 。 而这次公布的GTEx计划第三阶段成果终于拓展到了罕见突变 。