RNA修饰往往依赖于邻接序列(motif)形成二级结构结合writer/reader/eraser等RNA结合蛋白,从而调控生命活动;如果motif序列发生遗传突变,将可能影响RNA修饰的活性。
还不了解RNA修饰,不清楚什么是writer/reader/earaser?
请查看
腾讯课堂:circRNA修饰研究思路与技术(复制链接访问网页) https://ke.qq.com/course/1650468
微信荐读:Molecular Cancer综述 | circRNA的m6A修饰及其作用
早在2017年,中山大学任间课题组充分拓展了这一理论,开发了数据库m6AVar,让研究者更轻松地获取影响 m6A修饰的遗传突变信息,目前已被不少佳作引用:
1. nature cell biology, 2019 | The RNA N6-methyladenosine modification landscape of human fetal tissues
2. Cancer Letter, 2019 | YTHDF2 suppresses cell proliferation and growth via destabilizing the EGFR mRNA in hepatocellular carcinoma
3. Epigenomics, 2018 | Detection of m6A-associated SNPs as potential functional variants for coronary artery disease
……
但由于近两年来包括m6A在内的RNA修饰数据爆炸性增长,之前的m6AVar已经无法满足科研的需求。因此,最近任间课题组非常给力地升级了版本,推出了全新的数据库RMVar。
1. 囊括了9种修饰
2. 全面的注释信息,包括疾病信息,满足多种需求
3. 更友好的界面,全新的体验
图 1 数据库构造图示
下面将更详细地介绍该数据库
1.RMVar中的定义
概述
RMVar, RNA Modification associated Variants的缩写。
作者想收集能够引起RNA修饰改变的突变,那么怎么样才能引起RNA修饰改变呢?简单来说,当RNA修饰的特征序列(例如motif)发生突变,那么就可能影响序列的二级(或更高级结构),从而影响writer/reader/eraser的结合,最终导致生命活动的改变。
比如,m6A的motif是DRACH(IUPAC编码),如果序列中有一个碱基发生了改变,像C变成了G/A/U,那么就认为这是一个RMVar。
IUPAC编码
RM定义
根据数据来源的不同,作者将RNA修饰位点分成了三个水平。
1. High confidence level
已发表单碱基分辨率的RNA修饰位点
2. Medium confidence level
2.1 从GEO/SRA/GSA/ArrayExpress下载m6A/m1A/m7G的m6A-SEAL-seq与MeRIP-seq数据
2.2 用统一的方法(FastQC-Trimmomatic-STAR-MACS2/MeTPeak-MSPC)获取一致的RNA修饰富集peaks(参考基因组为 GRCh38 & GRCm38)
2.3 最后用深度反卷积神经网络模型预测单碱基分辨率的m6A位点,用MEME::MAST扫描一致peaks上的motif从而获取m1A/m7G的位点
3. Low confidence level
通过反卷积神经网络模型预测全转录组潜在的m6A位点;由于其他修饰缺乏训练模型的数据,因此没有该水平
RMVar定义
与RM三个水平对应,作者将能够改变RNA修饰特征序列(e.g. motif)的突变也分成了三个等级。
1. High confidence level
落在High confidence level的RM motif中,并且破坏了该特征序列
e.g. m6A的DRACH中C突变成了A/T/G
2. Medium confidence level
落在Medium confidence level的RM motif中,并且该特征破坏了该序列。这里使用了MEME::MAST来确定motif是否被破坏
3. Low confidence level
同前俩水平一样,但这里作者进一步定义了
– RMVar loss
RM loss-associated variants,即破坏了预测m6A motif的突变
– RMVar gain
RM gain-associated variants,即之前并没有m6A位点,但突变能够用反卷积神经网络预测到,这些突变称为RMVar gain
RMVar loss & gain
参考【RMVar 定义 – Low confidence level】,大概理解如下
比如,预测得到了某个m6A位点,如果其motif DRACH有一个碱基发生了改变,例如C变成了G/A/U,那么就认为突变导致m6A信号丢失,即RMVar loss; 如果一段参考序列并不包含m6A位点,但突变之后能够用模型预测到,那么将突变定义为RMVar gain。
2. 数据库中有什么
图 2 数据库内容图示
图 3 数据库内容详细内容展示
从概述图以及数据库界面图可以看到,除了
1. 9种RNA修饰位点的资源(RNA modification sites source)
2. 生殖突变及体细胞突变资源(Variants source)
还关联了突变的其他信息
3. 与转录后调控的关联(post-translational regulation association)
– RBP结合位点(RBP binding sites)
– miRNA的靶(miRNA-Targets)
– 剪切位点(splicing sites)
– 环状RNA(circRNA)
4. 疾病相关的突变
3. 9种RNA修饰一览
图 4 9种RNA修饰的motif图示
图 5 RNA修饰的化学结构图示(RMVar并不包括蓝色阴影的修饰)
结束语
该数据库很巧妙地将RNA修饰的序列特征与突变关联起来,并能够比较全面地囊括了目前比较热门的几种修饰以及非常全面的注释信息。
数据库开发一般并不需要太多的创新,然而数据来源、用户体验是其成为好的数据库的基础,而后期维护更是成为经典的根本。
中山大学任间团队及时地将m6AVa更新成RMVar,拓展了数据内容并优化了用户界面,这是非常可贵的举措。相信该数据能够为研究者带来新的体验,作为RNA修饰研究的有力支撑。
期待数据库的下次升级!
数据库网址:http://rmvar.renlab.org/index.html
第一作者:罗晓彤&李慧勤
通讯作者:左志向&任间
实验室官网:https://renlab.org/people.html
参考文献
1. Luo X, Li H, Liang J, et al. RMVar: an updated database of functional variants involved in RNA modification[J]. Nucleic Acids Research, 2020.