数据库的上线发布
7月7日,在第四届circRNA研究论坛上,一个重磅好消息传来:整合人类环状RNA的数据库circbank正式上线了!数据库网址:http://www.circbank.cn/
图1 circbank数据库首页
1 数据库总体情况
circbank数据库共收录了140790条人类circRNA的记录,每一条circRNA记录都单独做了一个详细信息的页面。针对每个circRNA的信息主要包括:该circRNA的详细序列;在小鼠中同源性较高的circRNA及其对应的序列;miRNA结合的预测分析;ORF预测分析;COSMIC记录的突变和多态性位点汇总;m6A修饰信息。由于miRNA预测的结合位点数据比较庞大,因此单独做了一个展示的页面,页面中的记录按照打分高低的顺序列出。
circbank数据库还专门开发了一套专用的ID号。相信众位同行一定会有个苦恼的问题,就是目前circRNA的命名太混乱了,直接用Host gene的名字也不很妥当,因为每个基因所对应的circRNA太多了。circBase的ID号虽然应用比较广泛,但这个号码的信息量太少,很难记住更不利于口头交流。有鉴于此,我们开发了一个全新的ID号,该ID号基于对应的Host gene的名字和所对应的位置,具体的规则下面有详述。
circbank数据库提供了多种检索窗口,可以直接在首页中输入相应信息后实现快速检索,也可以在 “circRNA”和“miRNA”两个菜单中分别进行高级检索。为了方便同行交流,数据库也开辟了数据上传的窗口,欢迎同行们给数据库上传所发现的新的circRNA,我们将会有针对性的对数据库版本进行更新。
2 如何在circbank中检索?
circbank数据库给出了多个检索的渠道。包括首页的快速检索,“circRNA”和“miRNA”两个菜单中的高级检索。
首页的快速检索窗口可以通过circbank ID号,circBase数据库的ID号以及Host gene的Symbol或Ref-seq number进行快速检索。以HIPK3为例,首页的快速检索可以用如下的格式进行检索:“has_circHIPK3_001”、“has_circ_0021592”、“HIPK3”、“NM_005734”四种格式进行检索。
在circRNA检索菜单,可以通过基因名称(Gene Symbol)、circbank ID、cirBase ID等关键词分别检索。与此同时,还可以设置保守性、m6A修饰及ORF预测等过滤条件。
图2 circRNA高级检索窗口
在“miRNA”检索菜单下,可以通过miRNA ID、circbank ID、cirBase ID等关键词分别检索。也可以设置保守性、m6A修饰及ORF预测等过滤条件。
图3 miRNA高级检索窗口
3 单个circRNA记录页的信息有哪些?
以HIPK3为例,通过检索窗口可以得到如下的结果:
图4 HIPK3检索页面
检索结果显示,数据库共收录了20条HIPK3相关的circRNA记录。显示蓝色的部分点击之后会连接进入对应的页面。以“hsa_circHIPK3_004”为例,左侧“hsa_circHIPK3_004”的地方会跳至该circRNA的信息页面:
图5 circHIPK3_004信息页面
可以分别看到该circRNA的详细序列,小鼠中保守的circRNA和对应的序列,ORF预测打分的情况,COSMIC收录的突变和多态性信息,m6A修饰的信息。
如果点击检索页面中每一行对应的miRNA的蓝色标志,会跳至该circRNA预测分析所得的miRNA结合的情况。
图6 hsa_circHIPK3_004预测miRNA的情况
对应于hsa_circHIPK3_004,一共预测到97种可能结合的miRNA分子,排列的顺序按照Miranda和targetscan工具打分的情况,打分高的靠前排列。结合保守性,ORF,突变信息及m6A修饰等信息,方便使用者快速锁定更有价值的分子。
circbank数据库还给出了直接用miRNA ID进行检索的功能,可以分析感兴趣的miRNA可能结合哪些circRNA分子。以hsa-miR-1283为例,检索结果如下:
图7 miRNA ID检索结果
4 circbank中circRNA的ID号规则是怎样的?
我们在circbank数据库中针对每个circRNA分子构建了全新的ID号,该ID号的格式如下:
hsa_circA_001
其中“hsa”是人类来源的意思,circA代表了从“A”基因来源的circRNA,末尾的数字是根据该circRNA在Host gene中对应的位置排序得到的。还是以HIPK3基因为例,该基因对应的circRNA记录共有20条,前面的名称都是“hsa_circHIPK3_xxx”,最后的三位数是依据所有circRNA在HIPK3基因中对应的位置排序得到的,排序的规则是:先看起始位点,再看终止位点。起始位点越靠近前端(5’端)的排血越靠前,起点一致的看终止位点,终止位点越靠前的排序越靠前。示意图如下图:
图8 circbank ID号生成规则概述
如果起始位点和终止位点一致的,可以认为是可变剪切的情况,命名规则为在上述ID的基础上增加一层编号,编号的原则按照可变剪切的大小,长度越短的编号越小。可变剪切编号格式如下:
hsa_circA_001_V01
所有circRNA的ID号在正式公布的数据库中永久不变。这样就存在一个后面发现的circRNA的ID号会跟已有的ID号冲突的问题,解决的办法是新录入的circRNA一定要在原有编号的基础上增加,新增的circRNA的ID号也按照相同的规则依次排列,一旦正式更新数据库后就确定下来,不再变更。
针对没有mapping到已知基因(包括lncRNA)的circRNA记录,根据在标准基因组中的参考坐标从小到大排列,命名格式暂用所在的染色体代替gene symbol。格式如下:hsa_circChrom1_001
对于融合基因的circRNA,对应的gene symbol由融合后基因的名称取代,如来源于BCR-Abl融合基因的circRNA如果不是跨越融合位点的,按照各自host gene编号,跨越融合位点的按照“hsa_circBCRAbl_001”的格式编号,其他规则同前。
5 circbank数据库的维护和数据上传
为方便同行的交流,适应不断发展的circRNA研究进展,我们会针对新发表或用户上传的数据进行数据更新。数据库的日常维护由密码子基因公司承担,数据上传后也由相关的工作人员进行数据的整理。
数据库的文章引用:正式发表于Molecular Cancer的文章采用了circbank数据库
南京医科大学南京第一医院普外科的曹红勇和王汉晋团队9月份在Molecular Cancer(IF=7.776)上在线发表了题为“CircRNA microarray profiling identifies a novel circulating biomarker for detection of gastric cancer”的研究,发现胃癌患者血浆中circ-KIAA1244表达水平偏低,低表达水平的circ-KIAA1244与TNM分期、淋巴转移和患者总体存活时间长成负相关。而且胃癌患者血浆外泌体中也可检测到circ-KIAA1244的表达,其表达水平与血浆中的表达水平无明显差异,这提示了患者血浆circ-KIAA1244可作为诊断胃癌的新型生物标志物。
本文对胃癌患者血浆样本的circRNA表达谱分析,通过数据库筛选出合适的circRNA进行研究,结合外泌体热点分析了胃癌组织来源的circRNA有可能通过血浆外泌体介导转移效应,促进胃癌的发展,是本文的一大亮点。
- 胃癌患者血浆样本的circRNA表达谱分析
对5个正常人、10个胃癌患者(5个T1-3N0M0分期(case1)和5个T3 N1-3 M0分期(case2)的胃癌患者)的血浆样本进行circRNA表达芯片分析,case1 vs control分析结果为热图(a),火山图(b),GO、KEGG和疾病通路分析发现差异表达的基因与几个重要的生理过程、胞内组分、分子功能和重要信号通路有关(c-e)。case1 vs control分析同上,而且作者也对circRNA有可能结合哪些miRNA作了预测(补充数据未展示)。
- circ-KIAA1244的生理特性
作者从胃癌样本的circRNA表达谱分析中挑选了8种差异表达的circRNAs,体外进行了RT-qPCR验证,发现了相比于正常样本,胃癌样本的circ-KIAA1244 (hsa_circ_0130810)表达水平出现明显的下调。circ-KIAA1244是由KIAA1244基因的3–8号外显子产生的,同时利用sanger测序验证了circ-KIAA1244的全长环状序列(a)。经RNase R和放线菌素D(抑制mRNA的转录)处理后,circ-KIAA1244比其mRNA更加耐受降解(b-c),佐证了该RNA是环状的。荧光原位杂交实验证明circ-KIAA1244主要存在细胞胞浆中(d)。RIP实验显示胃癌细胞中的circ-KIAA1244主要富集在Ago2蛋白沉淀复合物中(e);通过密码子基因公司开发的circbank数据库预测了circ-KIAA1244可结合17种miRNAs,接着利用Targetscan数据库预测了每种miRNA可结合的mRNAs(f),后续这些候选miRNAs和mRNAs将成为胃癌发生发展的机制研究的重点目标。
- circ-KIAA1244对于胃癌患者的临床意义
相比于正常对照,胃癌患者血浆、组织和胃癌细胞系中circ-KIAA1244的表达水平明显降低(a-b);ROC曲线下的面积为0.7481,提示circ-KIAA1244的表达水平的高低可用于区分健康人和胃癌患者(c)。Kaplan-Meier OS曲线分析说明circ-KIAA1244表达低与胃癌患者存活时间短有关(d)。已有文献报道,血浆circRNAs会被包装进外泌体中运输。所以作者分离了胃癌患者血浆外泌体后,RT-qPCR检测发现circ-KIAA1244在外泌体中的表达水平与其在血浆中的表达水平无明显差异(e),说明大部分从血浆中检测到的circ-KIAA1244主要来自外泌体,而外泌体外面的circRNA相对更容易被血浆中大量的酶降解,这也提示胃癌组织来源的circ-KIAA1244通过血浆外泌体介导运输,从而促进胃癌的发生发展和转移,同时患者血浆circ-KIAA1244有可能作为诊断胃癌的新型生物标志物(f)。
参考文献
- Tang W, et al. CircRNA microarray profiling identifies a novel circulating biomarker for detection of gastric cancer. Mol Cancer. 2018 Sep 20;17(1):137. doi: 10.1186/s12943-018-0888-8.
未来,circbank数据库期待与您一起创造更多可能!