microRNA是一类大小为21-23nt的非编码小RNA分子,其通过与mRNA相互作用影响目标mRNA的稳定性及翻译,诱导基因沉默,调控基因表达,细胞生长,发育等生物过程。 基于第二代测序技术的microRNA测序,可以快速鉴定出已知的microRNA,也可以预测出新的可能microRNA,并分析其差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。 一、数据分析流程 二、数据分析内容 1. microRNA长度分布统计以验证试验可靠性 应用fastx(fastx_toolkit-0.0.13.2)对测序原始reads进行预处理,去除接头序列以及低质量序列。 图为经过长度统计,各长度上序列的分布情况 2. 比对注释 将测序得到的序列与miRBBase以及其他非编码数据库ncRNA,pirna,Rfam数据库里的序列进行比对,对已知microRNA进行注释: 下图为经过注释的结果,其中分别列出和miRBase数据库,pirna数据库,Rfam数据库以及ncRNA数据库的比对情况。 下图为针对miRBase种Sus scrofa物种进行的比对注释统计: 由之前所得的注释结果,可以作图来更进一步展示其结果: 对整体的注释结果,还可以采取进一步的分析,例如: (1) 统计碱基偏好性,下图就是测序所得序列分别在21,22,23,24长度上的5’碱基分布情况。 (2) 对于测序所得序列,可以统计出其正负链分布情况,以找寻生物学上的特征。 针对某单一microRNA,也可以对其进行更深度的分析。 例如,对其序列的匹配情况进行分别统计: 还可以对其对应的microRNA前体二级结构进行观察。 3. 分类注释 将测序得到的序列与物种所对应的基因组数据库比对,对有注释的reads的来源进行分类统计,鉴定并统计出已知的microRNA以及各种不同种类的RNA分子。 如图,经过与数据库进行分别比对,可以鉴定并统计出包括tRNA,rRNA,snoRNA,snRNA的数量及分布。 4. 差异分析 我们采取用DEGseq R语言包结合perl脚本将样品按照客户的分组情况,进行表达量的比较分析。 在差异分析中,我们会采用TPM(Transcripts per million,公式为:单一miRNA reads数×106/总reads数)作为标准化数据。 结果展示如下: 5. 饱和度分析 将注释结果按比例划分作图,以观察样品注释的趋势,发现其在生物学上的合理性。 6. 新microRNA预测 对于未注释上的序列,我们将其与该物种全基因组序列进行比对分析,通过折叠模型预测新的microRNA,通过折叠模型分析,若有序列位于茎环结构上,则初步判定该序列为一个候选的新microRNA。 对于预测出的新microRNA,我们会统计并列出其所位于的染色体,起始位置,终止位置,正负链,以及数目,长度,GC含量,Z小自由能等数值。 对于新microRNA,我们还会计算并绘制出其前体的二级结构,以及其与成熟microRNA之间的位置关系。 7. mircoRNA作用靶基因预测: 采用miranda软件,对microRNA序列以及对应物种的基因组cDNA序列进行可能的靶位点预测 Miranda软件比对结果示意图如下: |