App GA-02 GWAS关联分析 在遗传流行病学上,全基因组关联研究(Genome Wide Association Studies,GWAS)是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。不同的变化带来不同的性状,如各种疾病的不同。在人类中,这种技术可发现特定基因与疾病的关联,如被称为年龄相关性黄斑变性的眼部疾病和糖尿病。
这些研究通常比较两组参与者的DNA:有疾病的人(病例)和相同条件的无该疾病的人(对照)。每个人都提供些作为样本的细胞,如从口腔内侧擦下的表皮细胞,可以从这些细胞中提取DNA,并与基因芯片上SNP探针杂交。该芯片上可以读取上百万个SNP位点序列。这些芯片扫描图被读入计算机,通过生物信息学技术对其进行分析。如果在患者中某基因型的变异很频繁,那么就说该变异与该疾病“相关”。相关的遗传变异所在的人类基因组区域被视为Biomarker,基因组的该区域可能是致病原因的所在。
BioGenius技术服务
单个阶段研究 即选择了足够的病例和对照样本后,一次性在所有研究对象中对所有选中的SNP进行基因分型。然后分析每个SNP与疾病的关联,分别计算关联强度和OR值。该设计的缺陷在于基因分型耗资巨大。为节约基因分型的数量和成本,两阶段研究正在被更多研究者所采用。
两个阶段或多个阶段研究 在阶段先在小样本(有效样本数量1000~2000例case-control)中对全基因组范围选择的所有SNP进行基因分型,统计分析后筛选出较少数量的阳性SNPs,第二阶段在更大的样本中对于那些在阶段得到阳性结果的SNP进行基因分型,然后结合两个阶段的结果进行分析。
图例 GWAS研究在不同阶段的样本数目和策略与分析目标
- 病例对照研究:主要用来研究质量性状,即是否患病。
- 基于随机人群的关联分析:主要用来研究数量性状。
- 基于家系的关联研究:在研究基于家系的样本时,采用传递不平衡检验(TDT)分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。
- FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。
- 单倍型分析研究:多位点单倍型分析能够发现单倍型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。单倍型分析能够发现非TagSNPs与疾病之间的因果关系。
- 通路分析:人类复杂性状的遗传学基础对于医学研究和临床诊断和应用至关重要。通过历届的GWAS研究可以发现一些疾病存在亚疾病分类状况(Subphenotypes)。例如,根据对T2D(二型糖尿病)的研究发现,不同的生物学通路可能参与特定的疾病发展,但是在同一个体中受到影响的通路可能更偏向于一致性。
-
图例,在白种人种的T2D研究中发现18个基因组区域间隔与T2D的患病高风险相关
- Diseasome分析: 在同一基因区域发生的变异可能会导致多种疾病表型,我们称为“Diseaso”。这些受影响的基因位于不同的生物学通路和生物网络中,发挥各自的效应。通过Biogenius优化算法可准确识别疾病易感基因和基因网络。
-
图例,不同常见疾病的遗传风险因子-易感基因的共同生物通路示意图
--------------------------------------------------------------------------------------------------------
GWAS全基因组关联分析Genome-Wide Association Anlaysis 全基因组关联分析(Genome Wide Association Study,GWAS)是一种发现常见疾病易感基因的有效方法,2007年被《科学》杂志评为世界十大科学进展之首。全基因组关联分析作为一个重要的疾病分析手段,主要是通过在大量人群中发现染色体上导致不同类型疾病的关键区域,这些区域往往包含了引起这些疾病的遗传变异(genetic variant)。
全基因组关联研究(Genome-Wide Association Studies,GWAS)是指通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法。GWAS在全基因组层面上,开展多ZX、大样本、反复验证的基因与疾病的关联研究,全面揭示疾病发生、发展与ZL相关的遗传基因,为全面系统研究复杂疾病的遗传因素提供崭新快速的研究策略,为我们了解人类复杂疾病的发病机制提供了更多的线索。与以往的候选基因关联分析策略明显不同的是,GWAS不再需要在研究之前构建任何假设,即不需要预先依据那些尚未充分阐明的生物学基础来假设某些特定的基因或位点与疾病的关联。目前,科学家已经在阿尔茨海默、乳腺癌、糖尿病、冠心病、肺癌、前列腺癌、肥胖、胃癌等一系列复杂疾病中进行了GWAS并找到疾病相关的易感基因。我国科学家也在银屑病、精神病和冠心病等方面开展了GWAS研究并取得成效。
图例:目前已经公布的国际GWAS项目和显著性SNP位点结果 (p<=5*10-6)
在遗传流行病学中,全基因组关联研究(GWAS)是一种检测基因组上的遗传变异(genetic variant)与特定的疾病或者性状是否存在遗传性的关联。如果某个遗传变异在患病人群中出现的频率明显高于其他的遗传变异,则认为该变异与疾病有关联。因此该变异所在的染色体区域则被认为是引起疾病或者性状的原因。GWA研究并不需要对敏感等位基因所在的染色体区域有先验知识,因此通过该研究可以鉴定出许多新的未被发现的敏感基因。因此,全基因组关联研究中所检测到的遗传变异为单核苷酸多态性。
GWA研究的设计和数据分析需要多重考虑,比如样本量的问题,统计显著性水平,多重检验的校正,人口分层,遗传标记的密度,以及对独立研究结果的重复问题。
GWAS大数据分析GWAS全基因组关联分析的主要目的是识别疾病关联的SNP位点和CNV区域,通过具有LD-关联连锁关系的SNP标记来捕获潜在的易感基因位点。在大部分GWAS研究中,我们通过tagSNP(标签SNP)来推断预测和疾病关联的位点位于何处。后续GWAS分析将针对SNP疾病易感位点进行评估和功能验证。
根据研究设计不同和研究表型的不同,采用的统计分析方法亦不同。如病例对照研究设计(质量性状),比较每个SNP的等位基因频率在病例和对照组中的差别可采用4格表的卡方检验,计算相对危险度(Odds Ratio,OR值)及其95%的可信限。此外,还需要调整主要的混杂因素,如年龄、性别等。这里采用logistic回归分析,以研究对象患病状态为因变量,以基因型和混杂因素作为自变量进行分析。我们也将针对对全基因组SNP位点进行关联分析采用 additive模型Cochran-Armitage trend test ; 全基因关联结果的Q-Q plot , 可以评估是否存在系统性的偏差。关联分析的结果可视化展示,根据LD连锁关系将多SNP与表型性状进行关联展示(如下图所示)。
图例 某基因在400kb某基因作为邻近区域SNP与疾病的关联
图例 易感基因区域的基因组定位,注释信息. 所示为在多SNP位点关联分析后呈现与表型性状关联的每个基因组上的p值尺度(-log(P) scale 纵轴)。
更多详情:http://www.biogenius.cn/htm/solution/BigData/gwas/63.html
Big Data , Big Idea !
惠研生物,提供领先的生物大数据解决方案!
- 全基因组测序/外显子组, 转录组等项目共计 完成近万个样本的测序与分析服务
- 累计协助客户发表权威SCI论文总IF超过 160分
- 512核心CPU,1T内存 满足大规模并行的,敏捷的数据分析服务;
- 1PB 数据磁盘阵列保证企业级 测序分析结果存储的安全稳定
官方网站:www.biogenius.cn
咨询热线:400-016-9606 / 180-1908-2932
官方微信: 微信公众平台搜索 “惠研生物”
官方QQ: 1744353207
咨询邮箱: service@biogenius.cn