文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路
小伙伴们大家好,今天带给大家一篇高大上的纯生信文章,2020年2月发表在Nature子刊上,影响因子12.121,题目为“Pathway and network analysis of more than 2500 whole cancer genomes”。是一篇基于原发肿瘤的WGS数据整合分析——PCAWG计划的文章,大家也不必上来就对这种高端的整合分析望而生畏,即便是10分+的生信文章同样有套路,而且类似的文章在这个团队的成果种也是一发一大把。掌握其中一点精髓就够我们这些科研界的小朋(菜)友(鸡)填饱肚子了。
文章图片
早在2013年,大家超级熟悉的TCGA的Pan-Cancer数据库就系统性的规划好了。因为TCGA计划涉及到数据类型比较多,仅仅是DNA层面就有WGS,WES,SNP6.0芯片的数据,在收录的一万多样本种有WGS数据的有两千多个,PCAWG计划就。是整合这其中所有的WGS数据结果。下面我们就来分析一下这篇10分+纯生信文章的研究套路吧,带大家发现即便是10分+生信文章也逃不过酸菜校长总结的“挑、圈、联、靠”四字诀!
文章图片
研究背景
有一些观点认为癌症发生的根本原因是基因突变。从表现形式上来讲是肿瘤细胞不可控制的增长,主要是肿瘤驱动基因突变导致,这些基因发生突变后,特别是某些基因发生重大突变,肿瘤的发生可能就成为了一种必然。绝大多数已知的驱动突变影响蛋白质编码区域。
但在许多癌症中,相当比例的患者在蛋白质编码区没有已知的驱动突变,这表明另有一部分驱动突变仍未被发现。因此,探索更多蛋白质编码基因的癌症驱动突变成了当代肿瘤诊疗的硬性需求。目前蛋白质编码基因的癌症驱动突变已经研究的很充分了。然而,对非编码癌症驱动突变的研究尚待开发,只有少数复发性非编码突变,最显著的是TERT启动子突变。
PCAWG,是全基因组泛癌分析(Pan-Cancer Analysis of Whole Genomes)的简称。
与以前主要集中于癌症基因组的蛋白编码区域的研究不同,PCAWG联盟总共针对38个癌种,综合分析了整个基因组,是迄今为止最全面的癌症基因组荟萃分析。这项研究有6篇Nature及十余篇Nature子刊支撑,分别对PCAWG数据集的广度和深度进行了详细的探讨。2019年10月,发表于《Nature》上的文章《Pan-cancer whole-genome analyses of metastatic solid tumours》,描述了目前已知的最大的转移性实体瘤基因组的泛癌种研究。分析了2520对肿瘤和正常组织的全基因组测序数据,平均测序深度分别为106X和38X,共鉴定出7000万个体细胞突变。
据报道所论述,每个癌症基因组均携带4或5个驱动突变,这为肿瘤细胞提供了选择性优势。在所研究的38类肿瘤中,仅5%没有发现驱动突变。相比之下,许多癌种表现出复杂的染色体重排、碎裂等特征,从而导致基因组发生重大的结构变化。
研究成果包括揭示了新的非编码驱动因子,如抑癌基因TP53非编码区中发生的复发突变;端粒酶基因TERT的非编码区中相对频繁发生的突变导致端粒酶的过度表达;完善已知的突变标签并发现新的突变标签等等。有兴趣的小伙伴可以自行学习,文末会提供给大家这项研究相关的所有文章,是所有哦~(●'"/>
文章图片
▲ Fig.1
【 文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路】“圈”、“联”——交互作用及相关性分析
1.潜在驱动突变的通路和网络分析
接下来,作者就对潜在的驱动突变进行通路和网络分析。他们同时使用了两种通路算法:ActivePathways和一种超几何分析算法——Vazquez;以及五种网络方法:CanIsoNet、Hierarchical HotNet、诱导子网络分析、NBDI22和SSA-ME23。利用以上途径和网络数据库,作者对GS-C、GS-N和GS-CN基因评分运行每种方法,确定了三个相应的基因列表。每种方法对其结果在每个数据集上的统计显著性进行评估。
作者通过网络互作分析观察到显著突变的编码和/或非编码元素之间存在大量交互,这表明通路和网络方法可能有助于优先处理单一元素分析中不显著的罕见驱动事件。这也是这篇研究文献的意义所在。
在具体的通路和驱动分析,以确定驱动基因在长尾的驱动p值编码和非编码突变中,仅使用编码突变可以识别出87个带有编码变异的通路牵连驱动基因(PID-C基因),其中包括68个以前被COSMIC 癌症基因普查(CGC)数据库编目的癌症基因。并且其中的31个基因在PCAWG分析中无统计学意义。说明以上网络分析可以筛选到具有罕见突变的基因,即那些在“长尾”分布的,可能是驱动基因。作者还发现根据CGC数据库对比,这31个FDR > 0.1的基因中有13个是已知的驱动因素。与非PID-C基因相比,PID-C基因的编码基因得分明显较高。
文章图片
▲ Fig.2a
文章图片
▲ Fig.2c
仅使用非编码突变,作者确定了62个基因,发现编码突变中较强的信号在编码和非编码突变中占主导地位。因为非编码突变检测的敏感性较差,作者团队设计了一种“非编码增值”(NCVA)程序。该程序询问了编码突变是否增强潜在非编码驱动基因的发现率,而非只有非编码突变时才被检测到。于是又识别了另外31个基因,与62个单基因非编码突变合并后得到93个带有非编码突变的通路牵连驱动基因(PID-N)。包括了19个先前根据COSMIC癌症基因普查(CGC)数据库确定的癌症基因,显著高于预期的基因。在排除PCAWG分析中具有个体显著非编码元件的8个基因,19个基因同时为PID-N基因和CGC基因,显著富集于预期的基因。分页标题
这表明,非编码突变可能会改变某些样本的基因,使其具有周期性编码或结构变异。PID-N基因的非编码基因得分显著高于非PID-N基因。绝大多数PID-N基因与PCAWG驱动因素和功能解释工作组分析不同(图2b),只有三个基因相同:TERT, HES1和TOB1。在这三个基因中,只有TERT在CGC数据库中被记录为已知的癌症基因。因此,作者对通路和网络分析的共识程序显著增强了PCAWG驱动因素和功能解释工作组结果中的显著突变因素。
文章图片
▲ Fig.2b
文章图片
▲ Fig.2d
总的来说,PID-C和PID-N基因在PCAWG驱动因素和功能解释工作组分析中发现了另外121个基因,包括90个新的可能的非编码驱动因素。此外,绝大多数PID-N基因与PID-C基因不同,仅有5个基因相同:CTNNB1、DDX3X、SF3B1、TGFBR2、TP53。虽然这表明编码和非编码驱动突变发生在很大程度上不同的癌症基因集合中,但这两种类型的突变影响着许多相同的标志性癌症进程背后的基因。
2.非编码突变对基因表达的影响
非编码突变可能通过改变转录因子结合位点或其他类型的调控位点发挥作用。
因此,作者评估了PID-N基因的非编码突变是否与同一基因的cis表达变化有关。我们发现,在可以利用RNA-Seq数据检测的90个PID-N基因中,有5个(FDR < 0.3)的cis表达相关性显著(图3)。发现其他四个PID-N基因:TP53、TLE4、TCF4和DUSP22的cis表达相关性显著(图3、补充图10)。
文章图片
▲ Fig.3
接下来,作者对6种不同肿瘤类型的TP53启动子突变的6个肿瘤进行分析,TP53表达明显降低(图3a)。TP53启动子甲基化和表达之间的联系之前已经被研究过,突变样本的减少表达与TP53作为肿瘤抑制基因的众所周知的作用是一致的。PCAWG驱动因素和功能解释的研究也描述了一致的表达变化。TLE4是一种转录辅助抑制因子,在三个具有TLE4启动子突变的肝-肝癌肿瘤中分析,TLE4表达明显减少(图3b)。在三个TCF4启动子突变的肺鳞癌中,TCF4显著低表达(图3c)。DUSP22编码一种磷酸酶信号蛋白,最近被认为是淋巴细胞中的肿瘤抑制因子,DUSP22表达同样显著降低。在5例肺腺瘤患者中,存在DUSP22 3′UTR突变且明显过表达;在三个肺腺瘤患者中存在DUSP22 5 ' UTR突变,然而这些UTR突变是相互排斥的。
虽然这些基因表达相关性为一类PID-N基因提供支持,但突变的变异等位基因频率和基因的拷贝数是基因表达的附加协变量。这些协变量在作者发现的相关性中没有发挥作用,拷贝数的变化不影响上述五个PID- N基因的表达相关性。
此外,出现相关基因表达变化的PID-N基因数量少,可以解释为PID-N基因突变的样本数量少,表达数据在不同肿瘤类型间的可用性不均匀,以及启动子区域的序列覆盖率降低等。这些问题进一步减少了非编码突变和RNA表达的样本数量,限制了cis基因表达相关性分析的能力。
3.编码和非编码突变的模块化
在确定了编码突变、非编码突变或两种突变组合改变的特定蛋白质-蛋白质互作亚网络和生物通路后。作者又发现PID-C基因间的交互作用显著增加,以及PID-C和PID-N基因间的互作显著增加。
证明了物理层面的蛋白-蛋白互作网络中编码和非编码突变之间的相互作用。涉及PI-C和PI-N基因的互作子网络组织为五个生物学过程:核心驱动、染色质组织、细胞增殖、发育和RNA剪接(图4a)。
文章图片
▲ Fig.4a
由于PID-C和PID-N基因之间的分子相互作用被用作通路和网络方法的信号,因此作者预计PID-C和PID-N基因之间的分子相互作用频率较高,这些相互作用的组织说明了单个子网络中编码和非编码突变的相对贡献。接下来作者使用g:Profiler web server进一步表征了PID-C和PID-N中富集的分子通路。并将模块和PID基因分成四个生物过程:染色质组织、细胞增殖、发育和RNA剪接(图4b).、
文章图片
▲ Fig.4b
同样,模式规范过程也受到编码和非编码突变的影响,包括PI-N基因ASCL1、SUFU和RELN以及PI-C基因ATM和SMAD4。在这些情况下,非编码突变补充了破坏这些通路的编码突变,覆盖了更多的患者。并且作者惊喜的发现RNA剪接途径主要受到非编码突变的影响。根据PCAWG驱动程序的单一元素测试和功能解释工作组分析,这些PI-N基因均未发生显著突变。由于进一步的分析中没有发现剪接相关的PI-N基因非编码突变和表达改变之间存在显著的顺式关联,因此作者继续探索这些基因非编码突变和其他基因表达之间的潜在反式效应。最终确定了三个集群的RNA剪接基因突变(C1, C2, C3;图5a, b)使用跨这些途径的差异表达模式的分级聚类。
除了上述模块,我们还发现转录因子在PI-C和PI-N基因中都有很好的表达。共有9个PI-C基因是转录因子(ARHGAP35、ARID2、FOXA1、GATA3、NFE2L2、SMAD4、SOX9、TCF7L2、TP53);19个PI-N基因为转录因子(ASCL1、BHLHE40、ESRRG、HES1、HNF1A、HNF1B、HOXA10、HOXB5、KLF4、MEF2C、MYC、NFE2、NR2F1、SOX2、SOX4、TCF4、TP53、ZNF521、ZNF595;FDR= 4.1×10"/>分页标题
文章图片
▲ Fig.5a
文章图片
▲ Fig.5b
全文思路总结
范文提出了一种综合途径和网络分析,将可能发生非编码驱动突变的基因列表扩展为很少突变的元素的“长尾”,而单一元素分析并不显著。通过对非编码突变数据的单一元素测试,90个PI-N基因在统计学上不显著(FDR > 0.1),而这些基因是未来实验表征的关键候选基因。并发现其中TP53、TLE4、TCF4启动子突变与这些基因表达降低有关。随后的通路分析中,作者又发现了多个基因的非编码突变,这些突变的样本表现出的基因表达特征与编码突变剪接因子样本的基因表达变化一致。表明罕见的非编码突变可能导致共同的和互补的生物学过程相似的干扰。
同时作者指出,进一步的实验验证这些预测是必要的,以确定PID基因列表的真实性。由于单个癌症类型的作用有限,通路和互作网络分析更加侧重于癌症和组织类型之间的关联。
每种细胞类型都有不同的表观遗传连接和调控机制,非编码突变可能针对细胞类型相关的漏洞。将组织特异性、癌症特异性或患者特异性基因-基因调控信息结合起来的方法,可能会揭示出目前的方法还没有探索过的一类新的驱动因素。这篇文章提出了一种综合途径和网络分析,可以很好的解释肿瘤基因组的编码和非编码景观,从而发现相互关联的基因系统中的驱动机制。通过扩展突变分析,从单个基因组元素到多个基因的通路和网络,从中确定了已知癌症通路中的新成分,这些成分因被编码和非编码突变反复改变,从而可能在癌症中起到重要作用。
并且作者团队还确定了新的路径和子网络。对干扰这些通路和网络的编码和非编码突变的研究能够将患者分层策略更精确,以通路为重点的生物标志物和治疗方法成为可能。
套路总结
文章图片
总之,生信文章如何能发高分?必须具有临床意义!
能够为基础及临床试验提供可靠的数据支持,预测可能存在的具有临床意义的结果是生信分析的意义所在和终极目标。本篇范文就是在先前研究的庞大且精准的数据库的基础上进行数据挖掘,从通路和蛋白互作网络的角度分析可能存在的肿瘤驱动突变发病的临床意义和机制。鉴定出的基因变异可用于将患者分类,便于接受已批准的或正在临床试验的治疗,体现了肿瘤全基因组图谱对癌症精准医学的重要性。
10天领悟3分SCI套路
- 测试赛|视窗 | 北京市防疫情备两运田径测试赛开赛
- 北青网综合|太难了!民警与牛斗智斗勇两小时
- 用户|什么叫数字化转型?
- 鼠标|拯救者家族的完善之作,联想拯救者M600鼠标测评
- 漫评|【国际漫评】太平洋也阻止不了美国偷窥的欲望
- 山东|探索青年学生助力乡村振兴新模式,2020年“清华学子山东行”圆满收官
- 从远处|从远处拥抱
- 树木|西班牙小镇:危险树木变木雕
- |《我的女友是机器人》首曝花絮,辛芷蕾包贝尔搞怪
- 【地评线】安全开学,精细化防控