一文走进NCBI数据库,科研事业轻松一大步

一文走进NCBI数据库,科研事业轻松一大步

转载请注明:解螺旋·临床医生科研成长平台



一文走进NCBI数据库,科研事业轻松一大步



民以食为天,而科研则以数据为天。其中,对数据的挖掘、分析、利用更是重中之重。NCBI作为

科研工作者必不可少的工具,其包含的各类数据库无疑是科研数据积累的宝藏,只待科研者认真挖掘。如今,

小鱼就将带你一起学习NCBI的6种常见使用方法。

 

首先,简单介绍下NCBI序列的标识符:GI number和Accession.Version

 

GI number和Accession.Version就像是序列的身份证号码一样。通过这个号码,可在NCBI等数据库里查到该序列的数据。

 

GI number是由一系列的数字组成,是NCBI在处理序列时连续分配的。Accession形式为CC_#####,其中CC为两个字母,其不同的组合有又可区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;Accession后面经常会加上版本号,以CC_####.#形式表现,表示序列信息较之前的版本有所修改。



一文走进NCBI数据库,科研事业轻松一大步



一般来说,不同的编码代号代表不同的意思,如NM_开头的表示标准序列,XM_表示预测的蛋白编码序列,NR_表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序列......

 

接下来,我们进入NCBI的使用方法中的六大模块吧。

             Part One

利用Map viewer查找基因和mRNA序列、启动子                   

以人的IL-12(白细胞介素12)为例:



1. 进入NCBI主页面,点击页面下方的Feature/ Map Viewer,进入该界面,并在下拉的菜单里选择物种,for后面填写你的目的基因,而后点击“Go”。



一文走进NCBI数据库,科研事业轻松一大步

一文走进NCBI数据库,科研事业轻松一大步



2. 在Quick Filter中,点击Gene前面的小方框,并点击Filter,结果如下图所示。



一文走进NCBI数据库,科研事业轻松一大步



结果中,染色体的红色区域即为你的目的基因所处位置。



3. 点击第一条序列(即reference)对应的“Genes Seq”,出现新的页面,页面如下图所示:



一文走进NCBI数据库,科研事业轻松一大步



点击上图中的Download/View Sequence/Evidence,即可下载查看序列等功能,结果如图所示:



一文走进NCBI数据库,科研事业轻松一大步



在上图中的Sequence Format(序列输出格式)中有一个下拉式选择菜单,默认的为FASTA格式,还有一个是GenBank格式。推荐大家选择GenBank格式,因为这个格式提供了很多基因的信息,而FASTA格式只有基因序列。

 

4. 在Sequence Format后选择GenBank,点击下方的Display,目的基因的相关信息和序列结果如下图所示。



一文走进NCBI数据库,科研事业轻松一大步

             Part Two

用Probe查找已经公布的引物序列 

            

1. 进入NCBI主页,在下拉菜单选择Probe之后填写需要查找的基因名称。



一文走进NCBI数据库,科研事业轻松一大步

点击search,出现下面界面:



一文走进NCBI数据库,科研事业轻松一大步

2. 点击第一个链接,序列结果如下图所示:



一文走进NCBI数据库,科研事业轻松一大步

             Part Three

运用其Blast 进行序列比对、检验引物特异性   

             

点击查看Blast的具体操作步骤:

【实验工具专栏】Blast,有种,有料,有用!



一文走进NCBI数据库,科研事业轻松一大步

            Part Four

上传数据到NCBI 

            

NCBI对可提交的数据类型有详细列表,不同类型的数据分别提交到不同的数据库,具体可查看http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/



一文走进NCBI数据库,科研事业轻松一大步



在此,小鱼进行了简单的归纳总结。就数据类型而言可分为两类:测序数据及分析数据。前者一般分为二代和三代测序数据。二代测序中最常见的是illumina测序仪产生的Fasta文件,454测序仪产生的sff文件等。三代测序数据主要是指pacbio测序仪产生的4个文件:3个bax.h5文件和1个bas.h5文件。这些文件需要提交到NCBI的SRA数据库中。



由于测序平台应用在不同类型的项目长会有不同分析结果,所以分析数据的提交要根据测序项目类型来定。目前高通量测序就项目类型可分为:基因组测序、转录组测序、16S/ITS测序、宏基因组测序等。



一文走进NCBI数据库,科研事业轻松一大步



1. 建立一个属于自己的NCBI登录账户,用以提交数据。如何创建My NCBI账户详细请参见:http://www.ncbi.nlm.nih.gov/books/NBK3842/#MyNCBI.Registering_with_My_NCBI。



一文走进NCBI数据库,科研事业轻松一大步



2. 为提交的数据申请BioProject和BioSample号。一个BioProject代表一项测序研究项目,它可包含多次实验(experiments):



Step1:打开http://submit.ncbi.nlm.nih.gov/,

点击“BioProject”进入新建页面。

Step2:点击“New submission”,进行提交。

Step3:根据研究项目实际情况,填写一系列信息,每填写完一个步骤,都要点击页面下方的continue,保存已填写的信息。点击“submit”即可。

 

3. 在NCBI网站上登录自己的账户,进入数据提交的Submit界面后(http://submit.ncbi.nlm.nih.gov/),点击相应的数据库进行数据的提交。



一文走进NCBI数据库,科研事业轻松一大步

             Part Five

如何用NCBI批量下载基因序列                  

1. 登入NCBI主界面,在下拉菜单里选择nucleotide,将基因的Accession number都排列在一起,用空格隔开,不要有回车符(怎么快速排列就不多说了,excel就能实现),例如:NM_181571 NM_012319 NM_016651 NM_007678NM_004642 NM_145918 NM_024504 NM_014847 NM_004196 NM_002295:





一文走进NCBI数据库,科研事业轻松一大步



填好后Search,然后会出现这样一个界面:



一文走进NCBI数据库,科研事业轻松一大步



2. 点击上面的summary下拉标记,在Format选项中选择FASTA:



一文走进NCBI数据库,科研事业轻松一大步



点击Apply,就会出现下一个界面:



一文走进NCBI数据库,科研事业轻松一大步



3. 点击右上角的Send下拉标记,选中CompleteRecord和File,然后在下面Format中选择FASTA,Sort by不变(默认),最后点击Create File保存数据即可。



一文走进NCBI数据库,科研事业轻松一大步

            Part Six

如何用NCBI下载物种的全基因组序列              

1. 打开NCBI,在下拉栏里选择Genome,之后输入下载物种的拉丁名。以拟南芥Arabidopsis thaliana为例。



一文走进NCBI数据库,科研事业轻松一大步



搜索结果如下图所示:



一文走进NCBI数据库,科研事业轻松一大步



2. 点击上图的“GenomeAssembly and Annotation report”进入下面的界面:



一文走进NCBI数据库,科研事业轻松一大步



将上图中scaffold和conting前的√去掉,系统会自动筛选出比较好的基因组,一般来说,选择level这一列中测序水平最高的一组就是黑色部分占据面积最多的。



3. 点击Assenbly这一列中的基因组编号:



一文走进NCBI数据库,科研事业轻松一大步



可进入全基因组下载界面。



一文走进NCBI数据库,科研事业轻松一大步



4. 点击该界面的右侧,即可进行全基因组的下载。



一文走进NCBI数据库,科研事业轻松一大步



一文走进NCBI数据库,科研事业轻松一大步