(1)从http://www.ncbi.nlm.nih.gov/Sequin/index.html下载最新版本的sequin软件,并按照要求安装软件。具体要求为:在C盘建立一个名为sequin的文件夹,然后将下载的sequin.exe移入此文件夹中,然后打开此可执行文件安装即可。下图为安装完成后界面:
(2)若想提交到Geenbank,则只需要点击Start New Submission即可;若想提交到EMBL则需选中EMBL,然后点击Start New Submission即可。点击后出现的页面如下:
(3)第一个标签Submission:什么时候发表你的序列?可以选择①Immediately After Processing 即Geenbank工作人员处理完毕你的序列后就将其发表到Geenbank内。②Release Date即选择让Geenbank工作人员发表到Geenbank内的时间。Tentative title for manuscript这一项一般填写你将发表论文的暂定题目或已发表论文的题目。
(4)完成后点击Next Page,出现以下界面:此处填发见图内,需要解释的是Sfx是别命的意思,中国人一般不需要填写;M.I为中间名,中国人也不需要填;邮箱地址是负责最终提交序列者的,不一定是序列的作者的,如你导师是作者,你是负责给他提交者,则这里就填写你的邮箱,其他信息填写你导师的。注:0086为中国国际代号,必须加上。
(5)完成后,点击Next Page,出现以下界面:为填写序列作者的界面,前一步填写的联系人被自动列为第一作者,然后往下继续填写其他作者,此处只显示三行,当你填写完第三个后,通过拖动滚动条后面将会还出现填写的表格,直到将所有作者填写完毕。另外Consortium为参与序列获取的机构名,当以此机构名义发表序列时可以填写,上面的作者也一并填写。
(6)完成后,点击Next Page。出现如下界面:此处为机构页,具体填写如图。注意相关英语名写法。
(7)完成后,点击Next Page,出现如下提示界面,选择“是”即可。此处主要是因为前面faxnumber未填写,不影响提交序列。
(8)出现如下界面:共有六个选项,此处只解释一般使用选项。采用默认选项即可。
(9)选择完成后,点击Next,出现如下界面。如果是通过克隆实验然后送测序公司测序获得的一条序列,则进行默认选择。其他选项具体见sequin说明书。
(10)点击Next Form,出现下面第二个界面。在进行此界面相关命令运行时必须完成序列数据格式的处理,如下图为处理完毕后文件的格式,具体方法为首先建立一个文本文件,然后在文件中按下列格式输入格式头:>SequenceID(序列识别号)[org=物种名][moltype=分子类型]题目(序列描述)分子类型,completecds/partial cds.注意:格式中的任何字符都不能漏掉,且无空格,序列识别号可以自命名,物种名应为完整的科学名,具体可查阅http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/。格式头输入完毕后另起一行将序列粘到此文件中,不能出现空格。此处的题目将出现在Geenbank中DEFINATION中。在本例中递交的caspase基因的序列识别号为19900812,题目(描述)为:在干旱胁迫下的caspase基因。完成后保存即可。然后对第二页面的相关命令。点击Import nucleotideFASTA。
(11)出现如下界面,找到刚才保存的序列文件,然后点击打开。
(12)出现如下界面
注意:如果在(10)步中建立FASTA文件时存在错误则可能会出现以下界面(以其中一种错误即SequenceID后应有一个和空格展示),选择Autocorrect Sequence ID即可自动纠正,则下面第二图,然后点击Accept,即可实现了正确输入序列。
(13)然后点击Next Page,出现测序技术页面,此页面可不填写。然后再点击Next Page,出现如下页面。在此页面可以通过点击Add organism,Locations,and genetic codes,进行这三项设置。一般只需设置Locations和genetic codes项,其中Locations项一般选择genomic,即来自于和基因组的,如果其来自于线粒体则选择线粒体,其他来源也进行相应选择。genetic codes一般选择standard,即标准的核系统遗传密码,如果是线粒体选择线粒体系统遗传密码,其它的来源也可进行相应选择。完成后点击Accept。
(14)点击Annotion标签,出现下面界面。对于提交一个编码蛋白质序列则选择CDS,编码rRNA的选择rRNA,仅知道是一个基因的则选择gene,什么都不知道的选择none;3’和5’完整性及正负链的选择视具体序列而定。下面填写的内容具体见图中。
(15)点击Next Form,出现提示对话框,选择是即可。出现如下对话框,表明初步完成了提交序列任务,但仍需进一步补充序列相关信息。
首先在source前双击然后点击Modifiers,补充本序列的相关限定词,以区别于数据库中的序列。如果补充过少,递交序列后NCBI工作人员可能会让你需添加限定词,所以应尽量将已知的限定词补充完整,这里主要列出常见的限定词,可以选取其中几项填写,更多的参考书明书。
通用限定词:①Clone:获得序列的克隆名称。②Plasmid-name:获得序列的质粒名称。③Lab-host:获得序列的宿主名称。④chromosome:该序列位于几号染色体上⑤Map:基因在图谱上的位置。⑤Collection-date:收集样品时间。⑥Tissue-type:获得序列的组织类型。这些均在Source对话框里面。
植物:①cultivar:获得序列的栽培品种。②Sub-species:获得序列的亚种。③strain:获得序列的株系,一般是经过遗传选育的。这些选项在organism对话框中。
动物:①Breed:品种。②Sub-species:获得序列的亚种。③strain:获得序列的株系,一般是经过遗传选育的。④Sex:性别。这些选项在organism对话框中。
微生物:较多,这里不详细介绍,参见说明书。
此处以八棱海棠为例列举了Tissue-type和cultivar,如下图
(16)双击CDS前,对其进行设置。若为部分序列,注意设置Reading Frame保证这段序列中间不出现终止子,这需要事先在相关软件上运行确定第一位碱基是三联体密码的第几位,而对于完整序列则按默认为1即可。若是提交的DNA序列。则需要点击Location,确定编码区的位置,若为mRNA(cDNA)则整个序列位编码区。
(17对locus进行补充修改。修改完成点击Accept。
(18)如果你知道更多的信息,可以通过类似的办法进行修改补充。这里不做叙述。
总之,通过以上步骤完全可以满足递交序列的要求。将所有地方修改补充完毕后点击文件然后保存,最后发邮件给gb-sub@ncbi.nlm.nih.gov两三天后可收到登录号。