RNA biology杂志近日发表由广州密码子基因科技和加拿大多伦多大学联合主持构建的circbank数据库,circbank数据库目前整合了人类全基因组140790条circRNA相关信息,并提供友好检索界面,希望能为您的circRNA研究提供加速度。circbank数据库的引用格式可参照如下形式:Ming Liu, Qian Wang, Jian Shen, Burton B. Yang & Xiangming Ding (2019):circbank: a comprehensive database for circRNA with standard nomenclature, RNA Biology, DOI:10.1080/15476286.2019.1600395
针对circRNA的特征和研究趋势,目前circbank数据库主要提供以下7种功能检索和分析:
- 为circRNA提供标准化命名体系(140790条人类circRNA);
- 提供circRNA-miRNA结合位点预测结果;
- circRNA跨物种保守性分析(人与小鼠);
- circRNA的M6A修饰相关数据;
- circRNA突变位点注释(关联了cosmic突变数据);
- circRNA蛋白编码潜能和IRES位点预测;
- 提供circRNA的UCSC基因组trackhub(实现全基因组circRNA数据可视化)
circRNA标准化命名方式
circRNA数量庞大,目前人体中明确存在的circRNA至少14万以上,数量上远超3万左右的蛋白编码基因。如此多数量的circRNA对其进行标准化命名非常必要,目前比较常见的有两类,一是circBase数据库采用阿拉伯数字形式进行编码命名,如:hsa_circ_0000001,此种命名方式简单易行便于统一形式,但包含生物学意义信息太少,不友好;另外像Circ2Traits和CicrNet等数据库采用包含宿主基因名的形式进行命名,虽然增加了生物学意义,更易读,但缺乏统一规范的命名规则,通用困难。
circbank数据库综合上述各种数据库优点,提出circRNA标准化命名规则,方便学术交流。普通circRNA命名的范式为:hsa-circHUGO-#,HUGO为circRNA来源宿主基因的HUGO号,同一个基因来源的多个circRNA时,主要由末尾的阿拉伯数字来区别,转录起始位点靠前的circRNA对应的数值越小,默认以001开始编排,相同转录起始的circRNA则转录终点靠前的排在前面。转录起始、终点位置一致的circRNA(circRNA可变剪切体)采用‘ hsa-circHUGO-#_V# ’范式,V意指可变剪切,#数值大小与circRNA长度长短对应。基因间来源的circRNA命名范式为‘ hsa-circChrom#_# ’, Chrom#为染色体数,末尾#意义参考前面蛋白基因规则。
图注:EGFR来源的15个circRNA命名示例
MiRNA结合位点预测
circbank对全基因组140790个circRNA进行miRNA结合位点预测,同时采用了miRanda和Targetscan算法,其中42917个circRNA-miRNA关系对包含5个以上结合位点,3545个circRNA-miRNA含有10个以上结合位点。其中hsa_circSH3YL1_005 (hsa_circ_0052415)含有39个miR-107结合位点,表明hsa_circSH3YL1_005可能是miR-107的海绵。
图注:circRNA-miRNA关系中结合位点数统计条形图
circRNA保守性和蛋白编码潜能
circbank采用UCSC liftOver tool工具基于反向拼接位点处序列对每个circRNA进行人和小鼠间保守性分析,差异不超过2bp时则认为该circRNA在人和小鼠中高度保守,我们在140,790个人类circRNA中发现12,348个在小鼠中高度保守。
circRNA蛋白编码潜能采用CPAT算法进行预测,预测分值越高编码潜能越大。同时还提供IRES元件预测结果(基于IRESfinder算法),同样预测分值越高,IRES真实性更高。
UCSC trackhub全基因组可视化circbank数据
为方便可视化circbank所有数据,我们制作提供了UCSC基因组浏览器的trackhub,可视化circRNA注释信息的同时还可以结合使用UCSC其他丰富的注释信息,非常方便。以下是链接地址
https://genome.ucsc.edu/s/atcgene/circbank_m6A_track
在UCSC检索框可输入任意基因名称或染色体坐标查询相关区域的circbank注释信息。
图注:上图展示了通过circbank的UCSC trackhub检索EGFR起源的circRNA可视化信息,从上之下依次展现的是各个circRNA定位,cosmic突变信息,miRNA结合位点和IRES位点,M6A甲基化修饰峰值信息。通过比对EGFR宿主基因的基因结构,可以很直观地看出各个circRNA由哪几个外显子反向拼接组成等结构信息。
关于circbank数据库其他方面的使用方法可登陆circbank网站帮助页面查询http://www.circbank.cn/help.html。也可参考本公众号历史文章:走近circbank–数据库的上线发布及文章引用
参考文献:
Ming Liu, Qian Wang, Jian Shen, Burton B. Yang & Xiangming Ding (2019):circbank: a comprehensive database for circRNA with standard nomenclature, RNA Biology, DOI:10.1080/15476286.2019.1600395