做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾?
关于数据挖掘发表文章,我们知道很多人是看不上、瞧不起、嗤之以鼻的。大抵是因为这些人平时只发 CNS 主刊,所以才认为通过数据挖掘这种用「别人的数据」或者叫「干实验」
来发文章是「
垃圾
」,没有什么价值。真的是这样吗?今天我们要介绍的就是一篇做数据挖掘的 Cancer Cell 杂志的文章(IF: 27.4),大家来看看
文章
怎么样。
A Comprehensive Pan-Cancer Molecular Study of Gynecologic and Breast Cancers. Cancer Cell. 2018 Apr 1. pii: S1535-6108(18)30119-3.
1 文章数据挖掘的情况
肿瘤类型
:
妇科肿瘤和乳腺癌
;数据来源 :
主要是 TCGA 数据库,
1,087 例 BRCA
(invasive breast carcinoma,乳腺癌),
308 例 CESC
(cervical squamous cell carcinoma and endocervical adenocarcinoma, 宫颈癌 ),
579 例 OV
(high-grade serous ovarian cystadenocarcinoma,卵巢癌),
548 例 UCEC
(uterine corpus endometrial carcinoma,子宫内膜子宫内膜癌)和
57 例 UCS
(uterine carcinosarcoma ,子宫癌肉瘤),共 2,579 例,
统称为 “Pan-Gyn” 泛妇科肿瘤。
数据类型
临床信息
(clinical),
拷贝数变异
(somatic
copy-number alterations SCNAs),
突变
(mutations),
DNA甲基化
(DNA methylation),
mRNA,miRNA,lncRNA和蛋白的表达
(expression of mRNA, microRNA, long non-coding RNA, and proteins)。
2 文章的研究工作
1. 找到了
分子特征(molecular features)
,用以区分
“Pan-Gyn
” 与 TCGA 中其它肿瘤;
23 个基因在 Pan-Gyn 和 Non-Gyn 中的突变和扩增频率
2. 鉴定到
高白细胞浸润(high leukocyte infiltration)
这一免疫应答的肿瘤亚型;
3. 建立了基因和 lncRNA 的
相互作用 network(interaction network )
;
4. 建立了
决策树(Decision tree)
,
将临床相关预后的肿瘤亚型进行再分组;
由于内容比较多,这篇文章我们就简单介绍到这里。
3 趋势文章
细心的同学会发现 Pubmed 的趋势文章(Trending Articles),
最近有很多从各个角度分析 TCGA 数据
比如 4 月 5 日 Cell 主刊的六连发
1. 分析泛肿瘤中增强子(Enhancer)表达:
A Pan-Cancer Analysis of Enhancer Expression in Nearly 9000 Patient Samples.Cell.
2018 Apr 5;
173(2):386-399.e12.
2. 分析肿瘤驱动(Driver )基因和突变:
Comprehensive Characterization of Cancer Driver Genes and Mutations.Cell.
2018 Apr 5;1
73(2):371-385.e18.
3. 分析肿瘤信号通路:
Oncogenic Signaling Pathways in The Cancer Genome Atlas.Cell.
2018 Apr 5;173(2):321-337.e10.
4. 分析患者生存预后结果的
An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics.C
ell. 2018 Apr 5;173(2):400-416.e11.
5. 分析肿瘤发病生殖系变异(Pathogenic Germline Variants):
Pathogenic Germline Variants in 10,389 Adult Cancers.C
ell. 2018 Apr 5;173(2):355-370.e14.
6. 分析细胞来源用于肿瘤分类:
Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer.C
ell. 2018 Apr 5;17
3(2):291-304.e6.
又比如 4 月 3 日 Cell Reports 的五连发
:
1. 从DNA损伤修复角度分析基因组和分子图谱:
Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas.Cell Rep. 2018 Apr 3;23(1):239-254.e6.
2. 分析肾癌整体分子特性:
The Cancer Genome Atlas Comprehensive Molecular Characterization of Renal Cell Carcinoma.Cell Rep. 2018 Apr 3;23(1):313-326.e5.
3. 分析鳞癌的基因组、通路和免疫特性:
Genomic, Pathway Network, and Immunologic Features Distinguishing Squamous Carcinomas.Cell Rep. 2018 Apr 3;23(1):194-212.e6.
4. 从泛素化通路角度分析:
Integrated Genomic Analysis of the Ubiquitin Pathway across Cancer Types.Cell Rep. 2018 Apr 3;23(1):213-226.e3.
5. 从lncRNA角度分析,并通过实验验证
:
Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Context.Cell Rep. 2018 Apr 3;23(1):297-312.e12.
这是怎么肥事?
其实,这个是 CELL Press 的 “The Pan-Cancer Atlas” 的主题系列:
总体上包括了 Cell-of-Origin,Oncogenic Processes、Signaling Pathway 和 Resources 四部分,前三部分收录了 Flagship Paper(旗舰文章)和 Companion Papers。
也想进行数据挖掘,却怕不会方法,跟不上节奏?
丁香公开课 「实用数据挖掘,用公开的数据发自己的文章」
通过 48 节视频教程,
手把手教大家用公开的数据发自己的文章
。
课程学习过程中还有
专属
VIP 群答疑
,有不懂的问题直接和老师沟通。
课程从实例出发,针对科研工作中最常用到的数据库(包括肿瘤数据库TCGA,cBioPortal,SRA,COSMIC;表达谱数据库GEO,Oncomine;基因组数据库UCSC,Ensembl;序列数据库GenBank,Uniprot等)
,结合文献实例的学习和动手操作,循序渐进地带领大家一步步从数据挖掘的「门外汉」到自己动手整理出一篇可以发表的文章。来不及了,快扫描二维码来上课吧!
<一次付费,永久观看>
购买成功后,添加
丁香公开课班主任
为微信好友,
发送「实用数据」
,并将支付订单截图发送给她,她会验证后加你入对应的群。开具发票事宜亦可咨询班主任。
微信扫描二维码添加班主任
也可搜索微信号:dingxiangyuan40
题图:Shutterstock
- 懒人“披萨”玩出新高度!不用揉面不用等,20几分钟就上桌!
- 炒股十年,竟不知道股市不变的均线规律,几分钟学会一辈子受用!
- 就算你是一个仙人掌,我也愿意忍受所有的疼痛来拥抱你 只因爱你
- 夫妻不同居多长时间就算是离婚?对分居离婚有什么规定?
- 非常容易读错的6个江苏地名,就算是土生土长的江苏人也会读错
- 云南这30个县城最具云南魅力,去过10个的你就算厉害了
- 女子在家煮八爪鱼,过几分钟后,揭开锅盖被吓哭了!你有过吗?
- 就算你失败到底,她也会陪在身边的星座
- 女子去高级会所面试工作一个月后痛哭流涕, 经理: 就算你报警也
- 它在几分钟内释放出太阳万亿倍的能量,足以杀死6千光年内的生命