当前测序技术往往需要将全长 RNA 序列片段化,因此我们需要生物信息学方法将 RNA 重新拼装起来以获得全长序列。然而,RNA 文库是非常复杂的,包含了转录组中的各种信号,我们目前能够辨别 circRNA 的标识几乎只有反向剪切信号(back-spliced junction)。
因此,想真正从转录组获取 circRNA 全长序列,需要在测序时加大测序长度,例如三代测序或参考 CIRI-full。
目前常规方法获取到的 circRNA 只能较准确地定量 back-spliced break point 附近的序列,而全长序列都是推测获取,一般有以下方法
- 直接根据 circRNA 基因组坐标获取基因组序列
- 该方法比较简单粗暴,未能考虑序列的剪切过程
- 将 circRNA 基因组坐标中的外显子拼接起来
- 该方法是目前最通用的方法,常用于外显子 circRNA,然而对于包含非外显子的 circRNA 却难以获得完整准确的序列
目前已知 circRNA 可以通过访问 circBank 获取推测的全长序列。