DCAM-05:样本组间的甲基化趋势(非监督/监督式)聚类分析本方案可对全基因组甲基化谱进行监督与非监督聚类分析,并可在聚类图下方用颜色标注出样本类型(注释。根据聚类的情况,行表示每个甲基化位点特征(即每行代表一个甲基化位点探针CpG ID),列表示样本。层次聚类选择对样本和位点同时聚类。我们发现聚类结果与构建基于SVM方法和甲基化指标的模型诊断预测性能相互吻合。
非监督聚类采用层次聚类( Hierarchical Manhattan distance和Average linkage方法);同时,本方案还可采用递归分区混合模型(RPMM-recursively partitioned mixture modeling)在所有样本中从基因组范围内对甲基化趋势进行分类判断(如下图所示)。通过重排检验(Permutation)方法进而判断特有的甲基化模式分类的统计学显著性p-value。
图-1采用层次聚类方法对样本甲基化趋势分类判断
图-2采用递归分区混合模型(RPMM-recursivelypartitionedmixturemodeling)识别样本组
特有甲基化模式。行表示样本,样本分类结果采用红色线条分割开
本方案依据递归分区混合模型(RPMM-recursively partitioned mixture modeling)识别样本组特有甲基化模式。甲基化谱趋势类别(Methylation class#)与样本归属/共性之间的关联性,每样本在个类别所占比例等信息将被统计成表-1的结果形式。另外,我们也采用监督聚类方法,如随机森林(random forests)方法对样本群体的甲基化进行分类,并进行分类效果的统计(采用confusion matrix形式)。
本方案可配合甲基化差异表达分析,也可以进一步地完成协变量(covariates),如年龄,生活历记录,生理或临床指标特征,与甲基化趋势之间的关联检验 (Association Test)。
表-1 采用递归分区混合模型(RPMM-recursively partitioned mixture modeling)分析
表-2 采用随机递森林(random forests)分类算法的样本分类统计
表-3 全局样本组特异的CpG甲基化模式与协变量(例如,年龄)关联分析统计结果
更多详情:http://www.biogenius.cn/htm/solution/Biochip/78.html
Big Data , Big Idea !
惠研生物,提供领先的生物大数据解决方案!
- 全基因组测序/外显子组, 转录组等项目共计 完成近万个样本的测序与分析服务
- 累计协助客户发表权威SCI论文总IF超过 160分
- 512核心CPU,1T内存 满足大规模并行的,敏捷的数据分析服务;
- 1PB 数据磁盘阵列保证企业级 测序分析结果存储的安全稳定
官方网站:www.biogenius.cn
咨询热线:400-016-9606 / 180-1908-2932
官方微信: 微信公众平台搜索 “惠研生物”
官方QQ: 1744353207
咨询邮箱: service@biogenius.cn