中文

English

尊龙凯时全基因组关联分析三期:揭示关联新探秘

发布时间:2025-07-29   信息来源:尊龙凯时官方编辑

经过前两期的深入解析,我们已经掌握了GWAS分析所需的数据类型及质控方法,今天将探讨我们的核心主题:关联分析。GWAS分析通常构建回归模型,以验证标记与表型之间的关联性。其中,① 零假设(H0):标记的回归系数为零,表示标记(例如SNP)对表型没有影响。② 备择假设(H1):标记的回归系数不为零,表明标记(即SNP)与表型存在相关性。

尊龙凯时全基因组关联分析三期:揭示关联新探秘

在第一期中提到,表型数据主要包括三种类型:数量性状、质量性状和分级性状。在开展关联分析之前,我们需根据不同表型类型选择合适的方法,并为减少假阳性,通常对p值进行校正。

1. 连续性状

连续性状是指在群体中呈现连续分布的特征,如身高、体重和血压等。可以选用的分析方法包括T检验和线性回归。使用命令:--assoc进行卡方检验和优势比分析,注意此时表型应为字符型且不允许协变量;而用--linear进行线性回归分析时,允许添加协变量,只需使用--covar参数。

示例命令:
#assoc关联分析(不校正/校正p值)
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:生成的文件中会多出一个*assoc_adjusted后缀。
#linear关联分析(不考虑协变量、不校正/校正p值)
plink --bfile test --linear --out result_linear
plink --bfile test --linear --adjust --out result_linear
备注:协变量需通过--covar参数添加。

2. 阈值性状

阈值性状的表型值通常为1和2(0和-9表示缺失),如对照组(1)和实验组(2)。可选用的分析方法包括卡方检验和逻辑回归。使用--assoc进行卡方检验时,不允许包括协变量;使用--logistic进行逻辑回归时,可以添加协变量。

示例命令:
#assoc关联分析(不校正/校正p值)
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_assoc
注意:生成的文件中会多出一个*assoc_adjusted后缀文件。
#logistic关联分析(不考虑协变量、不校正/校正p值)
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
备注:协变量需通过--covar参数添加。

3. 分级性状

分级性状是可通过人为观察进行分类的离散变量,其定义有时依赖于经验。例如,植物的抗病性可依据叶片病斑面积(0~100%)定义为连续型数值性状,或通过设定阈值人为定义为分级性状(如高、中、低)。可用的分析方法同样包括卡方检验和逻辑回归。

示例命令:
#assoc关联分析(不校正/校正p值)
plink --bfile test --assoc --out result_assoc
plink --bfile test --assoc --adjust --out result_adjust
#logistic关联分析(不考虑协变量、不校正/校正p值)
plink --bfile test --logistic --out result_logistic
plink --bfile test --logistic --adjust --out result_logistic
备注:协变量需通过--covar参数添加。

到此,我们终于得到了梦寐以求的显著性结果。可以通过筛选p值以过滤假阳性,并进行可视化展示(如Q-Q图和曼哈顿图)。如何进行可视化呢?请继续关注我们的系列文章,敬请期待下期内容,同时记得关注尊龙凯时,获取最新的生物医疗分析技术与资讯。