做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

关于数据挖掘发表文章,我们知道很多人是看不上、瞧不起、嗤之以鼻的。大抵是因为这些人平时只发 CNS 主刊,所以才认为通过数据挖掘这种用「别人的数据」或者叫「干实验」

来发文章是「

垃圾

」,没有什么价值。



真的是这样吗?今天我们要介绍的就是一篇做数据挖掘的 Cancer Cell 杂志的文章(IF: 27.4),大家来看看

文章

怎么样。





做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

A Comprehensive Pan-Cancer Molecular Study of Gynecologic and Breast Cancers. Cancer Cell. 2018 Apr 1. pii: S1535-6108(18)30119-3. 





1

文章数据挖掘的情况

肿瘤类型

妇科肿瘤和乳腺癌





数据来源

主要是 TCGA 数据库,

1,087 例 BRCA

(invasive breast carcinoma,乳腺癌), 

308 例 CESC 

(cervical squamous cell carcinoma and endocervical adenocarcinoma, 宫颈癌 ), 

579 例 OV

(high-grade serous ovarian cystadenocarcinoma,卵巢癌),

 

548 例 UCEC

(uterine corpus endometrial carcinoma,子宫内膜子宫内膜癌)和 

57 例 UCS

(uterine carcinosarcoma ,子宫癌肉瘤),共 2,579 例,

统称为 “Pan-Gyn” 泛妇科肿瘤。

数据类型

临床信息

(clinical),

 

拷贝数变异

(somatic

copy-number alterations SCNAs), 

突变

(mutations),

 

DNA甲基化

(DNA methylation),

mRNA,miRNA,lncRNA和蛋白的表达

(expression of mRNA, microRNA, long non-coding RNA, and proteins)。

2

文章的研究工作

1. 找到了

分子特征(molecular features)

,用以区分 

“Pan-Gyn

” 与 TCGA 中其它肿瘤;



做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

23 个基因在 Pan-Gyn 和 Non-Gyn 中的突变和扩增频率



2. 鉴定到

高白细胞浸润(high leukocyte infiltration)

这一免疫应答的肿瘤亚型;

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

3. 建立了基因和 lncRNA 的

相互作用 network(interaction network )

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

4. 建立了

决策树(Decision tree)

将临床相关预后的肿瘤亚型进行再分组;

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

由于内容比较多,这篇文章我们就简单介绍到这里。

3

趋势文章

细心的同学会发现 Pubmed 的趋势文章(Trending Articles),

最近有很多从各个角度分析 

TCGA 数据

的高分文章。





做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

比如 4 月 5 日 Cell 主刊的六连发



1. 分析泛肿瘤中增强子(Enhancer)表达:



A Pan-Cancer Analysis of Enhancer Expression in Nearly 9000 Patient Samples.Cell. 

2018 Apr 5;

173(2):386-399.e12. 

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



2. 分析肿瘤驱动(Driver )基因和突变:



Comprehensive Characterization of Cancer Driver Genes and Mutations.Cell.

 2018 Apr 5;1

73(2):371-385.e18. 

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



3. 分析肿瘤信号通路:



Oncogenic Signaling Pathways in The Cancer Genome Atlas.Cell. 

2018 Apr 5;173(2):321-337.e10.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



4. 分析患者生存预后结果的



An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics.C

ell. 2018 Apr 5;173(2):400-416.e11. 

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



5. 分析肿瘤发病生殖系变异(Pathogenic Germline Variants):



Pathogenic Germline Variants in 10,389 Adult Cancers.C

ell. 2018 Apr 5;173(2):355-370.e14. 

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

6. 分析细胞来源用于肿瘤分类:



Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer.C

ell. 2018 Apr 5;17

3(2):291-304.e6.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

又比如 4 月 3 日 Cell Reports 的五连



1. 从DNA损伤修复角度分析基因组和分子图谱:



Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas.Cell Rep. 2018 Apr 3;23(1):239-254.e6.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



2. 分析肾癌整体分子特性:



The Cancer Genome Atlas Comprehensive Molecular Characterization of Renal Cell Carcinoma.Cell Rep. 2018 Apr 3;23(1):313-326.e5.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



3. 分析鳞癌的基因组、通路和免疫特性:



Genomic, Pathway Network, and Immunologic Features Distinguishing Squamous Carcinomas.Cell Rep. 2018 Apr 3;23(1):194-212.e6.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



4. 从泛素化通路角度分析:

Integrated Genomic Analysis of the Ubiquitin Pathway across Cancer Types.Cell Rep. 2018 Apr 3;23(1):213-226.e3.

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?



5. 从lncRNA角度分析,并通过实验验证



Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Context.Cell Rep. 2018 Apr 3;23(1):297-312.e12. 

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

这是怎么肥事?

其实,这个是 CELL Press 的 “The Pan-Cancer Atlas” 的主题系列:



总体上包括了 Cell-of-Origin,Oncogenic Processes、Signaling Pathway 和 Resources 四部分,前三部分收录了 Flagship Paper(旗舰文章)和 Companion Papers。



也想进行数据挖掘,却怕不会方法,跟不上节奏?



丁香公开课

「实用数据挖掘,用公开的数据发自己的文章」

了解一下。



通过 48 节视频教程,

手把手教大家用公开的数据发自己的文章

课程学习过程中还有

专属

 

VIP 群答疑

,有不懂的问题直接和老师沟通。



课程从实例出发,针对科研工作中最常用到的数据库(包括肿瘤数据库TCGA,cBioPortal,SRA,COSMIC;表达谱数据库GEO,Oncomine;基因组数据库UCSC,Ensembl;序列数据库GenBank,Uniprot等)

,结合文献实例的学习和动手操作,循序渐进地带领大家一步步从数据挖掘的「门外汉」到自己动手整理出一篇可以发表的文章。

来不及了,快扫描二维码来上课吧!

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

<一次付费,永久观看>





购买成功后,添加

丁香公开课班主任

为微信好友,

发送「实用数据

,并将支付订单截图发送给她,她会验证后加你入对应的群。开具发票事宜亦可咨询班主任。

微信扫描二维码添加班主任

做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?

也可搜索微信号:dingxiangyuan40



题图:Shutterstock