整个设计过程依托于陈润生院士实验室强大的生物信息分析能力,进行多数据库整理、探针设计和芯片构建的原创性工作。
传承经典
博奥生物集团有限公司与ZG科学院生物物理研究所陈润生院士课题组共同开发的人类长链非编码 RNA(lncRNA)芯片,继成功推出晶 芯 ® 人类 lncRNA V1.0、V2.0、V3.0 芯片服务后,又推出新一代的晶芯 ® 人类 lncRNA V4.0 芯片服务,芯片上包含共计约 40916 种 lncRNA 检测探针和 34235 种 mRNA 检测探针。
晶芯 ® 人类 lncRNA 芯片目前已经完成食道癌、肺癌、肾细胞癌、肝癌、卵巢癌、甲状腺肿瘤、结肠癌、舌癌、胶质瘤、乳腺癌、宫 颈癌等十余种肿瘤的相关研究,检测总样品数超过 2000 个。
● 结合 Oligo dT 和随机引物两种扩增方式,同时检测有 Poly A 和无 Poly A 尾的 lncRNA 及 mRNA,确保全面检测。
● 芯片格式 4×180K,每条 lncRNA 和 mRNA 都有 2 条以上的探针重复,可确保高质量的实验数据。
持续创新
●数据库ZX最全:涵盖截至 2014 年 5 月各大主流非编码 RNA 数据库序列信息,完全覆盖 noncode.org 上所包含的所有非编码 RNA 数据以及ZX发表文献报道的 lncRNA 序列信息,还包含陈润生院士课题组发现的共计 848 条(82 条已发表的脑 lncRNA 序列+ 766 条未公开发表的肝脏 lncRNA 序列)中长度的 lncRNA 序列信息。
●序列精简去冗余:由于 lncRNA 序列数据库的局限性,目前 lncRNA 序列尚未得到统一命名,博奥生物在陈院士课题组帮助下将来自 14 个数据库的 10 万条 lncRNA 序列进行比对,去冗余,精简到约 4 万条。同时针对每条 lncRNA 序列设计特异探针,其中部分探针还可以区分不同 lncRNA 的可变剪接体。
* V1 和 V2 版本芯片,包括所有非编码 RNA 序列信息,比如 miRNA, piRNA 等。V3 和 V4 版本仅包含 lncRNA 序列信息。 # 序列来源于ZX发表的文献报道。
●探针特异性高
芯片探针特异性对比信息图表
通过序列比对,分别对晶芯 ® lncRNA4.0 芯片和市面上 的两款竞争产品进行lncRNA 探针与mRNA 序列特异性对比, 以及 lncRNA 探针对应 lncRNA 序列特异性对比。晶芯 ® lncRNA V4.0 芯片的 lncRNA 探针,具有良好的特异性。
为什么 lncRNA 序列需要去冗余?序列信息越多越好吗?
芯片上检测更多的 lncRNA 信息是好事,但如果这些 lncRNA 存在很多冗余则会给使用者带来很烦,对数据的统计学分析也会 产生极大影响。当前 lncRNA 序列数据库种类繁多,但还没有一个类似 miRNA 收集的权威数据库,lncRNA 序列也没有得到统一命名, 因此将不同数据库收录的序列放到一起,根据每个 lncRNA 序列的染色体坐标做综合性整理,合并序列冗余,进行序列拼接等生物信息学 处理后才能使用。这些处理可以避免客户在得到数据结果后,由于不统一的命名方式,针对同一条 lncRNA 做重复的筛选工作。如果将不 同数据库不加区分地放到一起,名义上检测的 lncRNA 数量增加了,但实际上是很不合理的。
晶芯 ® lncRNA4.0 芯片的探针设计有哪些独到之处?
由于很多 lncRNA 和 mRNA 序列高度相似以及 lncRNA 序列之间的相似性,要确保每条探针识别检测靶标的特异性是非常关键的。 4.0 版本在探针特异性上进行了优化设计,避开序列相似性区域,放宽 Tm 值限制,实现对更多 lncRNA 分子的特异性检测。
对于部分 lncRNA 之间的可变剪接形式也通过特殊的探针设计进行区分。另外,芯片对探针信息进行了分类别、更为详细的注释。针 对每种 lncRNA 和 mRNA 的探针仍沿用之前版本的 2~3 次重复以更好地确保检测可靠性。
LncRNA 研究:芯片还是测序?
对于 lncRNA 的研究,芯片检测和测序检测二者之间各有所长,测序主要用于 lncRNA 的发现研究,包括新的 lncRNA 转录本和 / 或新的剪接形式。通过深入而详尽的测序数据分析形成 lncRNA 序列数据库,而在此基础上设计的 lncRNA 芯片则适合于对已知 lncRNA 进行表达谱检测研究。LncRNAs 表达水平通常远低于 mRNA[ Genome Res , 2012. 22(9): 1775-89.],通过二代测序检测 lncRNA 往往需要很高的数据量(这些数据量主要被浪费在高表达基因上);且测序分析中对 lncRNA 外显子的识别、拼装等方法不成熟,使得 lncRNA 测序分析错误率较高。在 Gencode 等 lncRNA 注释计划中,要通过提高测序数据量,优化 lncRNA 识别算法等来控制、减少这 类错误,而对于普通的测序项目很难有这种条件。对于 lncRNA 芯片,通过仔细的探针设计则能较好地控制相关问题的产生。因此,对于 通常的表达研究目的来说,芯片是更合理的选择,使用者应该仔细衡量结合自己的研究目的进行选择。
数据分析展示
LncRNA 和 mRNA 共表达分析
计算 lncRNA 和 mRNA 的表达相关性,生成共表达网络图 ( 下图左 )。其中黄色的圆代表 lncRNA,绿色的圆代表 mRNA,圆的大 小代表该基因在网络中的度(邻居个数),红线表示正相关关系,蓝线表示负相关关系。同时,可以以客户感兴趣的 lncRNA 为ZX的做 子网络图 ( 下图右 ),如果未指定 lncRNA,则以度ZG的 lncRNA 为ZX。
LncRNA 靶基因预测
●基于位置和序列预测:lncRNA 调控机制分为顺式 (cis-) 调控和反式 (trans-) 调控。在 lncRNA 和 mRNA 共表达的基础上,顺式调 控的预测寻找基因组位置在 10kb 之内的 lncRNA-mRNA 对,反式调控预测利用 blat 工具对 lncRNA 和 mRNA(3' UTR)序列进行 比对筛选序列相似的 lncRNA-mRNA 对。
●基于 ChIP-Seq 实验数据预测:基于转录因子蛋白的 ChIP-Seq 实验,可对 6 个物种多个组织和细胞系的 lncRNA 进行转录因子预测。
转录因子预测
采用转录因子预测工具,对 lncRNA 的转录起始位点上游 2000bp 到下游 500bp 区域的序列进行转录因子预测。
LncRNA 和 miRNA 整合分析
根据已知 miRNA-lncRNA 调控数据库,对差异基因或者客户感兴趣基因绘制 miRNA-lncRNA 调控网络和 miRNA-lncRNA 共表 达网络。
增强子区域相关的 IncRNA 分析
新的研究发现一些 lncRNAs 与增强子区域相关,并且这些非编码 RNA 的转录与邻近基因活性ZG有关。下图为增强子区域 lncRNA 邻近的 mRNA。