生物信息学分析--诊断模型构建
21世纪以基因芯片技术和高通量测序技术为代表,宣告着生命科学研究进入高通量的基因组学时代。面对这些庞大的海量数据,生物信息学为此提供了较好的解决方案。生物信息学综合生命科学,数学和计算机方法,主要采用多种人工智能算法:遗传算法,人工神经网络、支持向量机等算法来构建疾病预测诊断模型。 诊断模型构建流程图 服务内容
1、R语言,GEO\TCGA原始数据整理。
2、R语言统计分析,t检验差异基因筛选。
3、Matlab遗传算法变量筛选。
4、BP、LVQ神经网络、支持向量机等模型构建。
5、独立样本模型验证。
案例一、针对前列腺癌样本,选取GEO数据库中Taylor数据集,构建基于基因芯片数据的PCa诊断模型。根据不同建模目的,应用多种统计方法及智能算法筛选差异表达基因。 二、根据数据特点选取适合的智能算法建立诊断模型,并用独立样本验证模型结果。 三、诊断模型结果评估,ROC曲线。 四、应用诊断模型进行预后预测。
文献案例
文章通过前列腺癌基质中差异表达的基因,成功构建PCa诊断模型。表一展示训练集测试集分别含有的样本量和数据来源。表2包含训练集和测试集的样本个数和对应的准确率。图2中画出在诊断模型的训练集包含的131个探针中的2个主成分。相关步骤在R语言LIMMA包中实现,建模方法为PAM。
Jia Z, Wang Y, Sawyers A, et al. Diagnosis of Prostate Cancer Using Differentially Expressed Genes in Stroma[J]. Cancer Research, 2011, 71(7):2476-2487.
联系我们:
咨询热线:020-29039963 18816893417
QQ : 3498275176 邮箱:sales@hyymed.com