一文走进NCBI数据库,科研事业轻松一大步
转载请注明:解螺旋·临床医生科研成长平台
民以食为天,而科研则以数据为天。其中,对数据的挖掘、分析、利用更是重中之重。NCBI作为
科研工作者必不可少的工具,其包含的各类数据库无疑是科研数据积累的宝藏,只待科研者认真挖掘。如今,
小鱼就将带你一起学习NCBI的6种常见使用方法。
首先,简单介绍下NCBI序列的标识符:GI number和Accession.Version
GI number和Accession.Version就像是序列的身份证号码一样。通过这个号码,可在NCBI等数据库里查到该序列的数据。
GI number是由一系列的数字组成,是NCBI在处理序列时连续分配的。Accession形式为CC_#####,其中CC为两个字母,其不同的组合有又可区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;Accession后面经常会加上版本号,以CC_####.#形式表现,表示序列信息较之前的版本有所修改。
一般来说,不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列......
接下来,我们进入NCBI的使用方法中的六大模块吧。
Part One
利用Map viewer查找基因和mRNA序列、启动子
以人的IL-12(白细胞介素12)为例:
1. 进入NCBI主页面,点击页面下方的Feature/ Map Viewer,进入该界面,并在下拉的菜单里选择物种,for后面填写你的目的基因,而后点击“Go”。
2. 在Quick Filter中,点击Gene前面的小方框,并点击Filter,结果如下图所示。
结果中,染色体的红色区域即为你的目的基因所处位置。
3. 点击第一条序列(即reference)对应的“Genes Seq”,出现新的页面,页面如下图所示:
点击上图中的Download/View Sequence/Evidence,即可下载查看序列等功能,结果如图所示:
在上图中的Sequence Format(序列输出格式)中有一个下拉式选择菜单,默认的为FASTA格式,还有一个是GenBank格式。推荐大家选择GenBank格式,因为这个格式提供了很多基因的信息,而FASTA格式只有基因序列。
4. 在Sequence Format后选择GenBank,点击下方的Display,目的基因的相关信息和序列结果如下图所示。
Part Two
用Probe查找已经公布的引物序列
1. 进入NCBI主页,在下拉菜单选择Probe之后填写需要查找的基因名称。
点击search,出现下面界面:
2. 点击第一个链接,序列结果如下图所示:
Part Three
运用其Blast 进行序列比对、检验引物特异性
点击查看Blast的具体操作步骤:
【实验工具专栏】Blast,有种,有料,有用!
Part Four
上传数据到NCBI
NCBI对可提交的数据类型有详细列表,不同类型的数据分别提交到不同的数据库,具体可查看http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/
在此,小鱼进行了简单的归纳总结。就数据类型而言可分为两类:测序数据及分析数据。前者一般分为二代和三代测序数据。二代测序中最常见的是illumina测序仪产生的Fasta文件,454测序仪产生的sff文件等。三代测序数据主要是指pacbio测序仪产生的4个文件:3个bax.h5文件和1个bas.h5文件。这些文件需要提交到NCBI的SRA数据库中。
由于测序平台应用在不同类型的项目长会有不同分析结果,所以分析数据的提交要根据测序项目类型来定。目前高通量测序就项目类型可分为:基因组测序、转录组测序、16S/ITS测序、宏基因组测序等。
1. 建立一个属于自己的NCBI登录账户,用以提交数据。如何创建My NCBI账户详细请参见:http://www.ncbi.nlm.nih.gov/books/NBK3842/#MyNCBI.Registering_with_My_NCBI。
2. 为提交的数据申请BioProject和BioSample号。一个BioProject代表一项测序研究项目,它可包含多次实验(experiments):
Step1:打开http://submit.ncbi.nlm.nih.gov/,
点击“BioProject”进入新建页面。
Step2:点击“New submission”,进行提交。
Step3:根据研究项目实际情况,填写一系列信息,每填写完一个步骤,都要点击页面下方的continue,保存已填写的信息。点击“submit”即可。
3. 在NCBI网站上登录自己的账户,进入数据提交的Submit界面后(http://submit.ncbi.nlm.nih.gov/),点击相应的数据库进行数据的提交。
Part Five
如何用NCBI批量下载基因序列
1. 登入NCBI主界面,在下拉菜单里选择nucleotide,将基因的Accession number都排列在一起,用空格隔开,不要有回车符(怎么快速排列就不多说了,excel就能实现),例如:NM_181571 NM_012319 NM_016651 NM_007678NM_004642 NM_145918 NM_024504 NM_014847 NM_004196 NM_002295:
填好后Search,然后会出现这样一个界面:
2. 点击上面的summary下拉标记,在Format选项中选择FASTA:
点击Apply,就会出现下一个界面:
3. 点击右上角的Send下拉标记,选中CompleteRecord和File,然后在下面Format中选择FASTA,Sort by不变(默认),最后点击Create File保存数据即可。
Part Six
如何用NCBI下载物种的全基因组序列
1. 打开NCBI,在下拉栏里选择Genome,之后输入下载物种的拉丁名。以拟南芥Arabidopsis thaliana为例。
搜索结果如下图所示:
2. 点击上图的“GenomeAssembly and Annotation report”进入下面的界面:
将上图中scaffold和conting前的√去掉,系统会自动筛选出比较好的基因组,一般来说,选择level这一列中测序水平最高的一组就是黑色部分占据面积最多的。
3. 点击Assenbly这一列中的基因组编号:
可进入全基因组下载界面。
4. 点击该界面的右侧,即可进行全基因组的下载。
- 金融委会议传递金融监管哪些新信号?一文带你看懂
- “面人彭”走进北大附小 非遗大课堂培养传承
- 《电子商务法》为何经过四审才出台?一文带你看懂
- 两岸媒体走进太行山区
- 网媒记者走进璧山秀湖国家湿地公园“洗肺” 感叹景致如画美哭了
- “中字头”“国字头”工作组如何工作?一文看懂
- 网媒记者走进千年松溉古镇 听当地人讲宗祠故事
- “军营传军运”活动走进朱日和训练基地 官兵签名助威武汉军运会
- 公益书法讲座走进24小时书店
- 走进“边角地”附近小区:社区体育文化公园咋建?居民这样说