一.各种ID名称介绍
Gene ID 也称Entrez ID,EntrezGene ID ,是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. ,说白了,就是数字,比如:TP53 ,Gene ID就是: 7157。由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识。R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。
需要注意的是,同一基因,不同物种之间可能有相同名称,但Gene ID不同。狗中TP53的Gene ID是403869,他们都有着相同的Official Symbol:TP53。
Gene Symbol ,HOGN数据库为gene提供的官方命名,是科研工作者按照基因的功能起的名字,通常是对功能描述的缩写。由大写字母和数字组成,一般为全名的缩写,但我们在NCBI的gene数据库中看到人TP53基因的Official Symbol是由HGNC所提供。
而斑马鱼的tp53由ZNC提供。
HGNC是人类基因命名委员会(HUGO Gene Nomenclature Committee);人类基因组命名委员会。有专门的数据库:https://www.genenames.org/
需要注意的是HGNC数据库中也给基因一个 ID,叫HGNC ID,他和gene ID不一样,尽管都是数字。
此外NCBI的RefSeq数据库id,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。可参考【生物数据库】。
AC_ |
Genomic |
Complete genomic molecule, usually alternate assembly |
NC_ |
Genomic |
Complete genomic molecule, usually reference assembly |
NG_ |
Genomic |
Incomplete genomic region |
NT_ |
Genomic |
Contig or scaffold, clone-based or WGS |
NW_ |
Genomic |
Contig or scaffold, primarily WGS |
NS_ |
Genomic |
Environmental sequence |
NZ_ |
Genomic |
Unfinished WGS |
NM_ |
mRNA |
|
NR_ |
RNA |
|
XM_ |
mRNA |
Predicted model |
XR_ |
RNA |
Predicted model |
AP_ |
Protein |
Annotated on AC_ alternate assembly |
NP_ |
Protein |
Associated with an NM_ or NC_ accession |
YP_ |
Protein |
|
XP_ |
Protein |
Predicted model, associated with an XM_ accession |
ZP_ |
Protein |
Predicted model, annotated on NZ_ genomic records |
此外还有Ensembl ID,其所代表的是在Ensembl数据库中对基因的命名,常见的物种前缀:“ENS“表示Homo sapiens (Human),”ENSMUS“表示Mus musculus (Mouse),”ENSDAR“表示Danio rerio (Zebrafish);而常见的序列类型用G、P、T、分别表示gene、protein和transcript。
可能我们经常看到的Ensembl ID后面还加.加数字,有时候也有"_",总之, "."后面的数字表示的是版本号,我们进行基因注释或者转换的时候需要去掉,你可以理解成和某些手机软件的版本号一样:1.2,1.2.2.3,1.3,
ENSG00000186092.4
ENSG00000279928.1
ENSG00000279457.2
UniProt ID是UniProt 数据库【https://www.uniprot.org/】中蛋白质的编号。UniProt(全称Universal Protein),它整合了三个老字号数据库(Swiss-Prot、 TrEMBL 和 PIR-PSD )的数据。是目前信息最丰富、资源最广的免费蛋白质数据库,具体可阅读文章【生物数据库】。UniProt ID就是Entry,是UniProt的给每个蛋白质赋予的独一无二的ID号,而Entry name通常是基因名称加物种名称。
UCSC ID为UCSC数据库的基因id,一般以“uc“开头,还是比较容易识别的, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.如:uc001ett, uc031tla.1
总之,每一个数据库都会为其某个基因或者蛋白取一个ID,表示该数据库所特有的,比如KEGG,PDB,gencards等常见数据库。KEGG可参考文章【KEGG数据库使用及通路分析教程】,PDB数据库参考文章【生物数据库】。
二.常见的ID转换在线工具
1.Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面【https://www.uniprot.org/uploadlists/】
2.bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面【https://biodbnet-abcc.ncifcrf.gov/】.
3.DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析,常做富集分析的同学估计常用到这个工具【https://david.ncifcrf.gov/】。
4.sangerbox:http://sangerbox.com/IdConversion
5.biomart工具:http://www.biomart.org/
6.FunRich软件,在我之前的文章就有介绍,FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具。
三.用于基因注释的R包
1 org.Ag.eg.db Anopheles
2 org.At.tair.db Arabidopsis
3 org.Bt.eg.db Bovine
4 org.Ce.eg.db Worm
5 org.Cf.eg.db Canine
6 org.Dm.eg.db Fly
7 org.Dr.eg.db Zebrafish
8 org.EcK12.eg.db E coli strain K12
9 org.EcSakai.eg.db E coli strain Sakai
10 org.Gg.eg.db Chicken
11 org.Hs.eg.db Human
12 org.Mm.eg.db Mouse
13 org.Mmu.eg.db Rhesus
14 org.Pf.plasmo.db Malaria
15 org.Pt.eg.db Chimp
16 org.Rn.eg.db Rat
17 org.Sc.sgd.db Yeast
18 org.Ss.eg.db Pig
19 org.Xl.eg.db Xenopus
不同物种用于注释和转换的包不一样。人的是org.Hs.eg.db,鼠的是org.Mm.eg.db,我之前差异分析的文章中用的是gtf文件注释。而对于芯片注释也有自己R包,这里就不一一介绍啦,后续介绍。
相关专辑
TCGA | 文献阅读 | R语言 | 数据库 | 理论知识