全球蛋白资源数据库UniProt

262 阅读 0 评论 173 点赞

我是靠谱客的博主开心灯泡，这篇文章主要介绍全球蛋白资源数据库UniProt，现在分享给大家，希望可以做个参考。

UniProt 是一个集中收录蛋白质资源并能与其它资源相互联系的数据库，也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。 UniProt 是由欧洲生物信息学研究所（European Bioinformatics Institute）、美国蛋白质信息资源（Prontein Information Resource）以及瑞士生物信息研究所（Swiss Institute of Bioinformatics）等机构共同组成的UniProt协会（UniProt Consortium）编辑、制作的一个信息资源，旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库。

UniProt 是一个向所有使用者免费开放的数据库，全球科研人员都可以登陆网站 www.uniprot.org 浏览并下载这些资料。借助它，科研人员可以对目的蛋白进行交互式分析或特定的分析。

1 UniProt数据库的构成
     UniProt 数据库由 UniProt 知识库（ UniProtKB ）、 UniProt 档案（ UniParc ）、 UniProt 参考资料库
（UniRef）以及UniProt元基因组学与环境微生物序列数据库（UniMES）构成。
    1.1 UniProt知识库（UniProtKB）
     UniProt 知识库是一个专家级的数据库，它可以通过与其它资源进行交互查找的方式为用户提供一个有
关目的蛋白质的全面的综合信息。
     UniProtKB包括两个组成部分：UniProtKB/Swiss-Prot与UniProtKB/TrEMBL。
1.1.1 UniProtKB/Swiss-Prot
     UniProtKB/Swiss-Prot 主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。这
些注释都是由专业的生物学家给出的，准确性无需置疑。在UniProtKB中，注释包括对蛋白质功能、酶学特
性、具有生物学意义的相关结构域及位点、翻译后修饰情况、亚细胞定位、组织特异性、发育阶段特异性、
结构、相互作用、剪接异构体、相关疾病信息的注释等等。注释的另一个重要工作就是对同一蛋白的所有相
关报道进行归纳、总结。对蛋白质序列进行仔细检查之后，注释人员还会将相关参考序列、剪接变异体、基
因变异体和疾病相关信息全都整合起来，而且不同序列间有任何的差异也会标示出来。注释人员还会将蛋白
质数据与其它核酸数据库、物种特异性数据库、结构域数据库、家族遗传史或疾病资料数据库进行交叉参
考。
1.1.2 UniProtKB/TrEMBL
     UniProtKB/TrEMBL 收录的则是高质量的经计算机分析后进行自动注释和分类的序列。计算机辅助
注释使用的是 Spearmint 规则，而人工注释依据的则是蛋白质家族规则，包括 HAMAP 家族规则（ HAMAP
family rules ）、 RuleBase 规则、 PIRSF 分类命名规则以及位点规则。 UniProtKB/TrEMBL 还收录了所有
EMBL-Bank/ GenBank/DDBJ 核酸序列数据库中的编码序列的翻译后蛋白质序列和来自拟南芥信息资源库
（TAIR）、SGD和人类Ensembl数据库中序列的翻译后蛋白质序列。
     其中，研究人员排除了诸如 EMBL-Bank/ GenBank/DDBJ 数据库中编码小片段的序列、人工合成的序
列、大部分非胚系免疫球蛋白序列、大部分 T 细胞受体序列、大部分专利序列和一些高度过表达的序列。这
些选择的记录都是经过大量人工注释的，然后根据注释的情况收入UniProtKB/Swiss-Prot 数据库。

    1.2 UniProt档案（UniParc）
     UniProt 档案则是关于蛋白质序列的全面数据库，它储存了大量的蛋白质序列资源，反映了所有蛋白质
序列的历史。
     UniParc是储存序列的数据库，同时也是最全面的能反映所有蛋白质序列历史的数据库。UniParc收录了
不同数据库来源的所有的最新蛋白质序列和修订过的蛋白质序列，因此可以保证数据收录的全面性。
UniParc数据库收录的资源
         UniProtKB数库据                              NCBI的RefSeq数据库
         EMBL-Bank/DDBJ/GenBank这些核酸数据库中核酸
   模式生物数据库FlyBase
         序列的翻译后序列
         Ensembl数据库中真核生物基因组数据                      SGD
         H-邀请数据库（H-Inv）                            TAIR
         脊椎动物基因组注释数据库（VEGA）                        WormBase
         IPI数据库                                    TROME
         蛋白质研究基金会数据库（PRF）                          美国、欧洲、韩国、日本专利局中的数据
         蛋白质数据库（PDB）
     为了避免出现冗余数据，UniParc将所有完全一样的序列都合并成了一条记录，而不论这些数据是否来
自同一物种。UniParc还会收录每天最新的数据和修改过的数据，并交叉参考这些数据，及时对UniParc中的
数据做出修订。 UniParc 中每一条记录包含的基本信息包括标识符、序列、循环冗余校验码、来源数据库中
的检索号、版本号、时间印记。如果 UniParc 中的记录没有收录在 UniProtKB 中，那么这个基因可能是假基
因。此外，除了给出每一条记录在来源数据库中的检索号之外还会给出这条记录在来源数据库中的状态，例
如是仍然存在或者是已经被删除，也会给出NCBI GI号和TaxId号。UniParc中的记录都是没有注释的，因为
蛋白质只有在指定的条件下才能够进行注释。例如，序列完全相同的蛋白质如果属于不同的物种、组织或不
同的发育阶段，其功能都有可能完全不同。

   1.3 UniProt参考资料库（UniRef）
     UniProt参考资料库可以通过序列同一性对最相近的序列进行归并，加快搜索速度。
     UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总，还从UniParc中选取了一些
数据以求能完整的、没有遗漏的收录所有数据，同时也保证没有冗余数据，该数据库的同一性（identity）分
为三个级别：100%、90%和50%。
     UniRef 里的数据是按照级别来分类的，在 UniRef 数据库的每一个同一性级别中，每一条序列只会属于
其中的一个聚类，这条序列在其它的同一性级别中也只会有一条父集（ parent cluster ）序列和子集（ child
cluster ）序列。 UniRef 100 数据库将相同的序列数据和亚片段数据整合在一起，使用一个检索入口进行检
索。
     UniRef 90 数据库建立在 UniRef 100 数据库的基础之上，而 UniRef 50 数据库又是以 UniRef 90 为基础。
UniRef 100 、 UniRef 90 和 UniRef 50 这三个数据库的数据量分别减少 10 % 、 40 % 和 70 % 。每一个聚类记录都
包含下列信息：数据来源、蛋白质名称、分类学信息（但只会举一个蛋白质为代表）、聚类下条目数等。
UniRef100是目前最全面的非冗余蛋白质序列数据库。UniRef90和UniRef50数据量有所减少是为了能更快地
进行序列相似性搜索以减少结果的误差。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生
物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB
的更新而同步更新的。

   1.4 UniProt元基因组学与环境微生物序列数据库（UniMES）
     UniProt元基因组学与环境微生物序列数据库是为不断发展壮大的元基因组学研究领域服务的。
     UniProt Knowledgebase 中的 Swiss-Prot 和 TrEMBL 两个数据库包含了分类学信息明确的序列数据。不过，不断增多的元基因组数据迫使人们需要另外再建一个数据库，即 UniMES 。目前， UniMES 收录了来自全球海洋取样考察计划（ GOS ）得来的数据，而 GOS 以前则将数据上传至国际核酸序列数据库协作体（ INSDC ）。 GOS 的数据包含有大约 2500 万条 DNA 序列，估计可以编码大约 600 万种蛋白质，这些序列都是来自于海洋微生物。 UniMES 将这些可能的蛋白质序列和 InterPro 数据库自动分类、整理后的序列资源结合起来，成为了目前唯一能提供全球海洋取样考察计划获得的基因组信息数据库，同时它还是免费使用的。UniMES中的数据没有收录在UniProtKB和UniRef中，但UniParc中有收录。UniMES中的数据以FASTA形式储存，可以从FTP服务器上免费下载。

2 新进展
    新的UniProt网站
     UniProt 协会发布了他们最新的官方网站，该网站有新的界面，新的搜索引擎，有更多的新选项方便大
家使用。之前的镜像网站（ www.ebi.uniprot.org 、 www.expasy.uniprot.org 、 www.pir.uniprot.org 、 www.
expasy.org）则都被取消了。UniProt还提供使用本体术语扩展查询结果的功能。
     同时， UniProt 对序列相似性搜索、多序列比对、分批处理和数据库标识符作图工具这些最常用的生物信息学工具也都进行了简化。
     用户还可以在 www.uniprot.org/help/technical 网站上通过简单的 HTTP （ REST ）操作进行编程查询操作。
     网站上除了现有的文件格式（例如纯文本格式、 FASTA 格式、 UniProtKB 中的 XML 格式等）之外还提供了可配置的空位分隔格式（tab-delimited）、RSS格式和GFF格式供用户下载资料，同时，所有的文件都有RDF格式（www.w3.org/RDF/）和在语义网（Semantic Web）上使用的W3C格式下载。更多信息请浏览www.uniprot.org/help/。

3 UniProtKB附加的蛋白质文献信息
UniProt 一直致力于将 UniProtKB 注释蛋白质时引用的文献等信息整合到 UniProt 中以供用户参考。目
前，有将近 218 , 000 条 PubMed 的文献被引用来注释 UniProtKB 中将近 410 万条序列，而这些文献中有 66 % 都
被收录到UniProtKB/Swiss-Prot中。其它诸如Entrez Gene数据库、模式生物数据库（MOD）、SGD、MGI
等公共数据库也都为每条基因或蛋白记录提供引用文献信息。对于那些在不同数据库中都被注释过的基因来
说，每一个数据库都会根据自己的特点来有选择的引用相关文献进行注释。因此，将各种不同的数据库文献
资源都整合到UniProtKB非常有必要。UniProt现在已经将收录人类、小鼠、酵母和其它物种基因或蛋白质信
息的 5 个外部数据库的引用文献信息整合进来了，这些外部数据库包括： Entrez Gene 里的 GeneRIF 数据库
（www.ncbi.nlm.n ih.gov/projects/GeneRif）、SGD（www.yeastgenome.org）、MGI（www.informatics.
jax.org）、GAD（geneticassociationdn.nih.gov）以及PDB（www.rcsb.org/pdb/）。
上述5个外部数据库中共整合了约244, 000 条来自 PubMed同时UniProtKB 中还不曾收录的引用文献，这
些文献涵盖了 UniProtKB 中约 110 , 000 条记录。其它额外的文献记录都直接链接到 UniProt 蛋白质查询网页上
了。 UniProt 还将继续从其它 MOD 数据库和蛋白质功能数据库中发掘更多的文献资料补充到 UniProtKB 中。
这些补充的文献资料不仅有利于对UniProtKB中的记录进行注释，同时也有利于帮助用户发掘出更多他们感
兴趣的蛋白的资料。

4 格式改变
     UniProt格式的改变是为了改善资料的一致性（consistency）和可用性（usability）。UniProt建议用户
密切关注它的newsfeeds，以充分利用这些改变带来的便利。最近几个月来发生的以及在未来几个月里将要
发生的格式变化，请浏览www. uniprot.org/。

5 UniProtKB注释
     UniProtKB包括两个部分：Swiss-Prot和TrEMBL。
     UniProtKB/Swiss-Prot包含人工注释的记录，及其相关参考文献和计算机辅助分析信息。人工注释信息
包括蛋白质序列和试验证据或计算机预测信息。还有许多生物学专家不断的对这些数据进行完善和补充。对
UniProtKB/Swiss-Prot中的记录进行注释的工作可以分为两个部分：模式生物的注释以及横向注释。
5.1 模式生物的注释
    UniProtKB/Swiss-Prot对许多物种的蛋白质进行了注释，但主要还是集中在对分类清楚的模式生物蛋白
的注释上，因为只有这样才能保证对每一个蛋白质家族的“代表”做出高质量的注释。
                               被注释的模式生物包括
          人类及其它哺乳动物、相关数据库HPI                 病毒
          细菌和古细菌、相关数据库HAMAP                  毒素、相关数据库Tox-Prot
          植物、相关数据库PPAP                       果蝇、非洲蟾蜍、斑马鱼和秀丽隐杆线虫
          真菌、相关数据库FPAP
   5.2 横向注释（Transversal annotation）
    横向注释主要关注存在于所有物种中的普遍现象，例如翻译后修饰（PTM）、蛋白质结构信息、蛋白间
相互作用等。了解更多内容请浏览www.uniprot.org/help/projects
6 第一张完整的人类基因组草图
    最近收录在 UniProtKB/Swiss-Prot 中的注释成果就是完成了对第一张完整的人类基因组草图的注释工
作。这意味着在 UniProt 1 4 . 1 版本中可以查询到所有已知人类蛋白编码基因的人工注释结果。在该版本发布
时共收录了 20 , 325 条记录，其中超过 1 / 3 的记录还都收录有因可变剪接、可变启动子或可变翻译起始位点造
成的异构体序列。因此该版本收录的蛋白质序列将近有 34 , 000 条，还收录有大约 46 , 000 个单氨基酸多态性
（SAP）和60,000个PTM，这些大部分都与人类疾病有关。
    这已经不是 UniProtKB/Swiss-Prot 第一次对一个模式生物全蛋白质组进行注释了，还曾经对大肠杆
菌和酿酒酵母的全蛋白质组进行过注释，将来还将对更多的如拟南芥（Arabidopsis thaliana ）、枯草芽
孢杆菌（Bacillus subtilis ）、盘基网柄菌（Dictyostelium discoi deum ）、小鼠、水稻、金黄色葡萄球菌
（Staphylococcus aureus ）、裂殖酵母（Schizosaccharomyces pombe ）等模式生物的全蛋白质组进行注
释。不过可能这些工作不如对人类蛋白质组进行注释那么重要。
    UniProt第一次能够向全世界清晰的展示一幅完整的（虽然不尽完美，但至少UniProt认为是完整的）人
类蛋白质图画。能在分子水平对人类蛋白质有一个总体的了解是全世界生物学家共同的最终目标，UniProt希
望这项工作能帮助科学家早日实现这个愿望。不过还有许多难题等待着人们去解决。人们还将继续收录新发
现的人类蛋白质，不断整理、修改已经收录的记录，收录更多的剪接变异体，发现更多的PTM。总之，就是
不断完善人类蛋白质组数据库。分子水平的研究成果也应该放到生理水平，例如亚细胞定位、组织表达和蛋
白相互作用等水平去进行验证。
原文检索：Nucleic Acids Research , 2009, Vol. 37, Database issue D169–D174
                                                                                  YORK /编译
                                                                                     18
小词典
    1 Metagenomic
Metagenomic是元基因组学也有译作宏基因组学，是对环境样品中微生物群体基因组进行分析的一种方法。
    2 HAMAP：High-quality Automated and Manual Annotation of microbial Proteome
   HAMAP 是高品质微生物蛋白质组的自动化和手动的注释。该计划旨在将人工注释方法与计算机注释方
法结合起来，力求在保证注释质量的前提下，提高注释速度。
    3 Splice variant
   Splice variant是指剪接变异体。真核生物的基因有外显子与内含子两部分。真核生物基因有外显子、内
含子的一个结果就是其基因产物可能有不同的长度，因为并非所有的外显子都包含在最终的mRNA中（包含
在mRNA内的外显子的排列顺序没有改变）。由于mRNA的编辑产生了不同的多肽，进而形成不同蛋白质，
这些蛋白质就互称为剪接变异体或者可变剪切形式。
    4 H-Invitational Database
   H-Invitational Database即H-邀请数据库，是一个有关人类基因及转录体的全面数据库。它可以提供基
因注释、基因结构、可变剪接异构体、非编码功能RNA、蛋白质功能、蛋白质功能结构域、蛋白质亚细胞定
位、蛋白质三维结构、代谢通路、遗传多态性、基因表达谱、分子进化、蛋白间相互作用、基因家族、相关
疾病等多种信息。
    5. 语义网
   语义网是Semantic Web的中文名称。语义网就是能够根据语义进行判断的网络。简单地说，语义网是
一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人
与人之间交流一样轻松。语义网是对未来网络的一个设想，在这样的网络中，信息都被赋予了明确的含义，
机器能够自动地处理和集成网上可用的信息。语义网使用XML来定义定制的标签格式以及用RDF的灵活性来
表达数据，下一步需要的就是一种Ontology的网络语言，比如OWL来描述网络文档中的术语的明确含义和它
们之间的关系。
   语义网与万维网的区别：
   目前人们所使用的万维网，实际上是一个存储和共享图像、文本的媒介，电脑所能看到的只是一堆文字
或图像，对其内容无法进行识别。万维网中的信息，如果要让电脑进行处理的话，就必须首先将这些信息加
工成计算机可以理解的原始信息后才能进行处理，这是相当麻烦的事情。而语义网的建立则将事情变得简单
得多。
   语义网是对万维网本质的变革，它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标
是让用户变成全能的上帝，对因特网上的海量资源达到几乎无所不知的程度，计算机可以在这些资源中找到
用户所需要的信息，从而将万维网中一个个现存的信息孤岛，发展成一个巨大的数据库。
   语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件，在
搜索数以万计的网页时，通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网，只给你罗列
出数以万计的无用搜索结果。例如，在进行在线登记参加会议时，会议主办方在网站上列出了时间、地点，
以及附近宾馆的打折信息。如果使用万维网的话，此时你必须上网查看时间表，并进行拷贝和粘贴，然后打
电话或在线预订机票和宾馆等。但假如使用的是语义网，那么一切都变得很简单了，此时安装在你计算机上
的软件会自动替你完成上述步骤，你所做的仅仅是用鼠标按几个按钮而已。在浏览新闻时，语义网将给每一
篇新闻报道贴上标签，分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样，如果你在搜索引
擎里输入“老舍的作品”，你就可以轻松找到老舍的作品，而不是关于他的文章。
   总之，语义网是一种更丰富多彩、更个性化的网络，你可以给予其高度信任，让它帮助你滤掉你所不喜
欢的内容，使得网络更像是你自己的网络。