常用生物信息 ID的介绍-编程知识网

一.各种ID名称介绍

Gene ID 也称Entrez ID,EntrezGene ID ,是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. ,说白了,就是数字,比如:TP53 ,Gene ID就是: 7157。由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识。R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。

常用生物信息 ID的介绍-编程知识网

需要注意的是,同一基因,不同物种之间可能有相同名称,但Gene ID不同。狗中TP53的Gene ID是403869,他们都有着相同的Official Symbol:TP53。

常用生物信息 ID的介绍-编程知识网

Gene Symbol ,HOGN数据库为gene提供的官方命名,是科研工作者按照基因的功能起的名字,通常是对功能描述的缩写。由大写字母和数字组成,一般为全名的缩写,但我们在NCBI的gene数据库中看到人TP53基因的Official Symbol是由HGNC所提供。

常用生物信息 ID的介绍-编程知识网

而斑马鱼的tp53由ZNC提供。

常用生物信息 ID的介绍-编程知识网

HGNC是人类基因命名委员会(HUGO Gene Nomenclature Committee);人类基因组命名委员会。有专门的数据库:https://www.genenames.org/

常用生物信息 ID的介绍-编程知识网

需要注意的是HGNC数据库中也给基因一个 ID,叫HGNC ID,他和gene ID不一样,尽管都是数字。

常用生物信息 ID的介绍-编程知识网

此外NCBI的RefSeq数据库id,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。可参考【生物数据库】。

AC_

Genomic

Complete genomic molecule, usually alternate assembly

NC_

Genomic

Complete genomic molecule, usually reference assembly

NG_

Genomic

Incomplete genomic region

NT_

Genomic

Contig or scaffold, clone-based or WGS

NW_

Genomic

Contig or scaffold, primarily WGS

NS_

Genomic

Environmental sequence

NZ_

Genomic

Unfinished WGS

NM_

mRNA

NR_

RNA

XM_

mRNA

Predicted model

XR_

RNA

Predicted model

AP_

Protein

Annotated on AC_ alternate assembly

NP_

Protein

Associated with an NM_ or NC_ accession

YP_

Protein

XP_

Protein

Predicted model, associated with an XM_ accession

ZP_

Protein

Predicted model, annotated on NZ_ genomic records

常用生物信息 ID的介绍-编程知识网

此外还有Ensembl ID,其所代表的是在Ensembl数据库中对基因的命名,常见的物种前缀:“ENS“表示Homo sapiens (Human),”ENSMUS“表示Mus musculus (Mouse),”ENSDAR“表示Danio rerio (Zebrafish);而常见的序列类型用G、P、T、分别表示gene、protein和transcript。

常用生物信息 ID的介绍-编程知识网

常用生物信息 ID的介绍-编程知识网

常用生物信息 ID的介绍-编程知识网

可能我们经常看到的Ensembl ID后面还加.加数字,有时候也有"_",总之, "."后面的数字表示的是版本号,我们进行基因注释或者转换的时候需要去掉,你可以理解成和某些手机软件的版本号一样:1.2,1.2.2.3,1.3,

ENSG00000186092.4
ENSG00000279928.1
ENSG00000279457.2

UniProt ID是UniProt 数据库【https://www.uniprot.org/】中蛋白质的编号。UniProt(全称Universal Protein),它整合了三个老字号数据库(Swiss-Prot、 TrEMBL 和 PIR-PSD )的数据。是目前信息最丰富、资源最广的免费蛋白质数据库,具体可阅读文章【生物数据库】。UniProt ID就是Entry,是UniProt的给每个蛋白质赋予的独一无二的ID号,而Entry name通常是基因名称加物种名称。

常用生物信息 ID的介绍-编程知识网

UCSC ID为UCSC数据库的基因id,一般以“uc“开头,还是比较容易识别的, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.如:uc001ett, uc031tla.1

常用生物信息 ID的介绍-编程知识网

总之,每一个数据库都会为其某个基因或者蛋白取一个ID,表示该数据库所特有的,比如KEGG,PDB,gencards等常见数据库。KEGG可参考文章【KEGG数据库使用及通路分析教程】,PDB数据库参考文章【生物数据库】。

二.常见的ID转换在线工具

1.Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面【https://www.uniprot.org/uploadlists/】

2.bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面【https://biodbnet-abcc.ncifcrf.gov/】.

3.DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析,常做富集分析的同学估计常用到这个工具【https://david.ncifcrf.gov/】。

4.sangerbox:http://sangerbox.com/IdConversion

5.biomart工具:http://www.biomart.org/

6.FunRich软件,在我之前的文章就有介绍,FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具。

三.用于基因注释的R包

1  org.Ag.eg.db  Anopheles  
2  org.At.tair.db  Arabidopsis  
3  org.Bt.eg.db  Bovine 
4  org.Ce.eg.db  Worm  
5  org.Cf.eg.db  Canine  
6  org.Dm.eg.db  Fly  
7  org.Dr.eg.db  Zebrafish  
8  org.EcK12.eg.db  E coli strain K12  
9  org.EcSakai.eg.db  E coli strain Sakai  
10  org.Gg.eg.db  Chicken  
11  org.Hs.eg.db  Human 
12  org.Mm.eg.db  Mouse 
13  org.Mmu.eg.db  Rhesus 
14  org.Pf.plasmo.db  Malaria  
15  org.Pt.eg.db  Chimp  
16  org.Rn.eg.db  Rat  
17  org.Sc.sgd.db  Yeast  
18  org.Ss.eg.db  Pig  
19  org.Xl.eg.db  Xenopus  

不同物种用于注释和转换的包不一样。人的是org.Hs.eg.db,鼠的是org.Mm.eg.db,我之前差异分析的文章中用的是gtf文件注释。而对于芯片注释也有自己R包,这里就不一一介绍啦,后续介绍。


相关专辑

TCGA | 文献阅读 | R语言 | 数据库 | 理论知识

常用生物信息 ID的介绍-编程知识网