与具有详尽注释的蛋白编码基因不同, lncRNAs常常缺乏注释,信息分散且收集不全。Arraystar拥有高质量的转录组和lncRNA数据库,通过生物信息学方法建立了科学、严谨的lncRNA筛选流程。Arraystar人类LncRNA V4.0芯片共收录了40,173 个lncRNAs,主要分为两大类:7,506个金标准LncRNAs和32,667个可靠的LncRNAs,实现了对所有权威数据库(如Refseq, USCS Known Genes, GENCODE, lincRNA catalogs, lncRNAdb, T-UCRs, RNAdb, NRED 等)、高水平文章和超过47 Tb RNA-seq数据中的lncRNAZ全面、Z可靠和Z及时的整理和收集。
金标准lncRNAs全部采用经过详细注释和实验验证确定的lncRNAs,剔除了公共数据库中大量的lncRNA部分片段、不完整的UTRs和不可靠的lncRNAs。 金标准lncRNAs具有完善的信息标注,包括转录单位、转录本异构体、功能机制以及亚细胞定位。它们的主要来源如下:
·lncRNAdb v2.0汇集了功能性lncRNAs ;
·Arraystar筛选和收集了高水平文章中的lncRNA;
·Level 1 GENCODE v21精心挑选了具有RT-PCR-seq方面实验数据支持的LncRNAs ;
·Refseq 严格筛选了可信度高、具有全长序列的LncRNAs ;
·Arraystar通过ENCODE CAGE Clusters,,PolyA-seq,深度RNA-Seq以及capture seq获得的,具有5’TSS、3’末端和表达量信息的全部lncRNA转录本 。
可靠的lncRNAs (Reliable LncRNAs)
除了金标准lncRNA外,其他的 lncRNA序列主要通过整合数据库和经典文献中的转录单位(Transcription Units)而获得。DNA链的转录起始于DNA模板的一个特殊起点,并在一个终点处终止,此转录区域称为转录单位。根据转录本长度、来源数据库和其他有效信息,每个转录单位挑选一个Z具代表性的lncRNA进行检测。从308,525个lncRNA序列中筛选出32,667个可靠的 LncRNAs分子。
编码蛋白的mRNAs (Protein Coding mRNAs)
根据与UniProt蛋白数据库的匹配程度,将RefSeq 及GENCODE数据库中收录并筛选的蛋白编码mRNA分为3类,依次为权威的、非权威的和不匹配的。Arraystar的人类V4 LncRNA芯片共挑选并收录了 20,730个编码蛋白的转录本。
lncRNA研究的信息宝藏:系统而实用的lncRNA注释
一站式芯片技术服务包含系统而详细的lncRNA注释、子类分析等重要分析项目,这些信息有助于揭示lncRNAs复杂的生物学功能。通过研究发现,lncRNAs在凋亡、分化、发育等多种生物学过程以及人类疾病,如癌症、神经系统疾病及心血管疾病中发挥重要功能。针对上述研究报道的所有LncRNAs,我们提供了全面的注释便于交叉引用,帮助您深入了解lncRNAs的生物功能和分子机制。
基因组结构 根据LncRNAs在基因组上相对于蛋白编码基因的位置关系,可以系统的将其分为 (1) Intergenic (LincRNA),(2) Intronic,(3) Bidirectional,(4) Sense-overlapping,(5) Antisense ,(6) Pseudogene这6种类型 ,这种位置关系对于推测lncRNA的功能具有很大帮助,包括调控方式是顺式(cis)还是反式(trans),调控层面是转录还是转录后。
高度保守的LncRNAs 基因组中高保守区域(UCR)或高保守非编码元件(UCNEs)转录出来的lncRNAs可能具有重要的生物学功能。在其他物种中与人类基因组结构相同的lncRNAs(即使只有中度同源)也会被收录。因为与全序列保守性相比,基因组结构与基因调控的关系更加密切。
组织特异性lncRNAs LncRNAs呈现出严格的组织或时序特异性,可能与其发挥的功能密切相关。其中特别标示出6,059个与细胞谱系或癌症相关的lncRNAs分子。
疾病相关 lncRNAs 包含了LncRNADisease数据库中收录的已知与疾病相关的lncRNAs 。
疾病SNP相关lncRNAs 覆盖带有疾病易感位点的LncRNAs ,可能与疾病发SF展密切相关。
在生物学功能中LncRNAs和mRNA的共表达 收录了与生物学过程或功能基因集相关的LncRNAs(例如,血管生成、缺氧、代谢、增殖、细胞周期、细胞黏附、DNA损伤修复)。
癌症相关LncRNAs LncRNAs可以在不同类型癌症中发挥作用,通过上千例癌症样本中lnRNA的大范围研究表明,其表达量发生了癌症特异性改变。
基因间超长链非编码RNAs(vlincRNA) 长度从50 kb到1 Mb,作用涉及多种生物学过程, 例如多能性、癌症、细胞凋亡、细胞周期以及细胞衰老。
其他类型 例如,缺氧诱导型非编码高保守转录本(HINCUTs),压力诱导型长链非编码转录本 (LSINCTs)。
科学的“转录本特异”探针
与mRNA一样,LncRNAs是以转录本的形式发挥功能的。特定基因位点往往可以转录出多个没有开放阅读框,不同功能的转录本。大部分芯片平台只针对基因的3’端设计“基因特异性”探针,无法有效区分不同转录本。而Arraystar LncRNA芯片针对剪切连接位点或外显子序列设计了“转录本特异性”探针,能够实现对不同转录本的准确、特异性检测(图 1) 。
Arraystar LncRNA 芯片参数
|
人类V4.0
|
小鼠V3.0
|
大鼠V2.0
|
探针总数
|
60,903
|
60,804
|
38,237
|
探针结合位点
|
转录本的外显子或剪接位点处设计特异性探针
|
探针特异性
|
转录本特异性
|
标记方法
|
标记cRNAs的全长,没有3’序列偏好性;即使对低丰度或部分降解的RNA转录本也可进行灵敏、GX的标记
|
检测LncRNAs数目
|
40,173
|
35,923
|
13,611
|
金标准LncRNAs
|
7,506
|
|
|
可靠的 LncRNAs
|
32,667
|
|
|
具有开放阅读框的LncRNAs
|
|
1,428
|
1,428
|
转录的假基因
|
699
|
3,419
|
2,140
|
蛋白编码mRNAs
|
20,730
|
24,881
|
24,626
|
LncRNA来源
|
数据库(更新至 2015):
Refseq, UCSC, GENCODE, LncRNAdb, RNAdb, NRED, lincRNA catalogs (Cabili et al 2011, Clark et al 2015, Iyer et al 2015), ENCODE CAGE Clusters, PolyA-seq, deep RNA-Seq 及capture seq 数据库。
Arraystar 收集并筛选的LncRNA。
引用文献:
2015年以前的科学出版物。
|
数据库:
Refseq (05/2013), UCSC Known Gene 6.0, Ensembl 38.71, Fantom3, RNAdb 2.0, and NRED。
引用文献:
lincRNAs [7,18,22,23], T-UCRs [11], Evolutionary constrained LncRNAs [24], Evolutionary Conserved LncRNAs [25].
|
数据库:
NCBI Refseq[12], Ensembl 5.0.79[43], lncRNAdb[21];
引用文献 [10,11,15,18, 20]:
T-UCRs,进化上保守的 LncRNAs
|
mRNA来源
|
Refseq, GENCODE关联 UniProt 数据库
|
共识编码序列(CCDS) 数据库
|
NCBI Refseq[12], Ensembl 5.0.79[43]
|
参考文献
1. Cabili, M.N. et al. (2011) Genes Dev 25(18):1915-27 [PMID: 21890647]
2. Labaj, P.P. et al. (2011) Bioinformatics 27(13):i383-91 [PMID: 21685096]
3. Kretz, M. et al. (2012) Genes Dev 26(4):338, -43 [PMID: 22302877]
4. Xu, W. et al. (2011) Proc Natl Acad Sci U S A 108(9):3707-12 [PMID: 21317363]
5. Guttman, M. et al. (2010) Nat Biotechnol 28(5):503-10 [PMID: 20436462]
6. Derrien, T. et al. (2012) Genome Res 22(9):1775-89 [PMID: 22955988]
7. Khalil A.M. et al. (2009) Proc. Natl. Acad. Sci. U.S.A. 106(28):11667-72 [PMID: 19571010]
8. Cabili M.N. et al. (2011) Genes Dev. 25(18):1915-27 [PMID: 21890647]
9. Ørom U.A. et al. (2010) Cell 143(1):46-58 [PMID: 20887892]
10. Rinn J.L. et al. (2007) Cell 129(7):1311-23 [PMID: 17604720]
11. Bejerano G. et al. (2004) Science 304(5675):1321-5 [PMID: 15131266]
12. Pruitt K.D. et al. (2005) Nucleic Acids Res. 33(Database issue):D501-4 [PMID: 15608248]
13. Pang K.C. et al. (2005) Nucleic Acids Res. 33(Database issue):D125-30 [PMID: 15608161]
14. Pang K.C. et al. (2007) Nucleic Acids Res. 35(Database issue):D178-82 [PMID: 17145715]
15. Mercer T.R. et al. (2008) Proc. Natl. Acad. Sci. U.S.A. 105(2):716-21 [PMID: 18184812]
16. Hsu F. et al. (2006) Bioinformatics 22(9):1036-46 [PMID: 16500937]
17. Harrow J. et al. (2006) Genome Biol. 7 Suppl 1:S4.1-9 [PMID: 16925838]
18. Guttman M. et al. (2009) Nature 458(7235):223-7 [PMID: 19182780]
19. Dinger M.E. et al. (2009) Nucleic Acids Res. 37(Database issue):D122-6 [PMID: 18829717]
20. Benson D.A. et al. (2004) Nucleic Acids Res. 32(Database issue):D23-6 [PMID: 14681350]
21. Amaral P.P. et al. (2011) Nucleic Acids Res. 39(Database issue):D146-51 [PMID: 21112873]
22. Sun L. et al. (2012) BMC Bioinformatics 13:331 [PMID: 23237380]
23. Ramos A.D. et al. (2013) Cell Stem Cell 12(5):616-28 [PMID: 23583100]
24. Ponjavic J. et al. (2009) PLoS Genet. 5(8):e1000617 [PMID: 19696892]
25. Willingham A.T. et al. (2005) Science 309(5740):1570-3 [PMID: 16141075]
26. The ENCODE Consortium. . https://genome.ucsc.edu/ENCODE/protocols/dataStandards/ENCODE_RNAseq_Standards_V1.0.pdf
27. Clark M.B. et al. (2015) Nat. Methods 12(4):339-42 [PMID: 25751143]
28. Iyer M.K. et al. (2015) Nat. Genet. 47(3):199-208 [PMID: 25599403]
29. Quek X.C. et al. (2015) Nucleic Acids Res. 43(Database issue):D168-73 [PMID: 25332394]
30. Skroblin P. and M. Mayr (2014) Circ. Res. 115(7):607-9 [PMID: 25214572]
31. Kurian L. et al. (2015) Circulation 131(14):1278-90 [PMID: 25739401]
32. Hu Y. et al. (2014) Cancer Res. 74(23):6890-902 [PMID: 25277524]
33. Fang X.Y. et al. (2015) Cancer Lett. 356(2 Pt B):357-66 [PMID: 25444905]
34. Howald C. et al. (2012) Genome Res. 22(9):1698-710 [PMID: 22955982]
35. Miura P. et al. (2013) Genome Res. 23(5):812-25 [PMID: 23520388]
36. St Laurent G. et al. (2015) Trends Genet. 31(5):239-51 [PMID: 25869999]
37. Yan X. et al. (2015) Cancer Cell 28(4):529-40 [PMID: 26461095]
38. Hackermuller J. et al. (2014) Genome Biol. 15(3):R48 [PMID: 24594072]
39. St Laurent G. et al. (2013) Genome Biol. 14(7):R73 [PMID: 23876380]
40. Chen G. et al. (2013) Nucleic Acids Res. 41(Database issue):D983-6 [PMID: 23175614]
41. Ferdin J. et al. (2013) Cell Death Differ. 20(12):1675-87 [PMID: 24037088]
42. Silva J.M. et al. (2010) Genomics 95(6):355-62 [PMID: 20214974]
43. Cunningham, F., M. R. Amode, et al., Ensembl 2015. Nucleic Acids Res 2015 43(Database issue): D662-669.
康成生物国内提供Arraystar LncRNA芯片全程优质技术服务;目前康成客户LncRNA芯片研究文章已超180篇,其中多篇发表在国际杂志Cancer Cell, Molecular Cell, Hepatology等上。
详情请咨询康成生物销售工程师,或致电免费热线:400-886-5058;800-820-5058。