在之前的两期讲解中,我们了解了进行GWAS分析所需的数据类型及数据质控方法,今天我们进入核心内容:关联分析。GWAS分析通常会构建回归模型来检验标记与表型之间的关联关系。首先,我们需要明确零假设(H0):标记的回归系数为零,这意味着标记(即SNP)对表型没有影响;其次是备择假设(H1):标记的回归系数不为零,即标记(SNP)与表型存在相关性。在第一期中提到,表型数据可分为三类:数量性状、质量性状和分级性状。进行关联分析时,我们需根据不同类型的表型选择合适的方法,并且通常会对p值进行矫正,以降低假阳性率。
1. 连续性状
连续性状指在群体中呈现连续分布的特征,如身高、体重和血压。适用的方法包括T检验和线性回归。对于连续性状的关联分析,若不考虑协变量,可以使用命令:
plink --bfile test --assoc --out result_assoc
若需校正p值,可使用:
plink --bfile test --assoc --adjust --out result_assoc
注意,校正时会生成带有“*assocadjusted”后缀的文件。另一种方法是线性回归,使用命令:
plink --bfile test --linear --out result_linear
如果要考虑协变量,可以添加--covar
参数。
2. 阈值性状
阈值性状指的是表型值能够被分为两个类别的数据,通常是1(对照组)和2(实验组),而缺失值用0和-9表示。适合的分析方法有卡方检验和逻辑斯蒂回归。无协变量的卡方检验命令为:
plink --bfile test --assoc --out result_assoc
校正p值的命令为:
plink --bfile test --assoc --adjust --out result_assoc
逻辑回归分析命令为:
plink --bfile test --logistic --out result_logistic
同样,如果考虑协变量,也需添加--covar
参数。
3. 分级性状
分级性状是根据人为观察可以分类的离散变量,但其区分最终依赖于我们的经验。例如,植物的抗病性可以通过叶片病斑的面积来定义为连续型,也可以人为设定阈值划分为分级性状。分析方法可以采用卡方检验和逻辑斯蒂回归,命令与前述内容相同。卡方检验和逻辑回归的命令分别为:
plink --bfile test --assoc --out result_assoc
plink --bfile test --logistic --out result_logistic
需要注意的是,协变量同样需要通过--covar
参数添加。
到此为止,我们终于得到了期望中的显著性结果。接下来,可以通过筛选p值来过滤假阳性,并进行可视化呈现(如常见的Q-Q图和曼哈顿图)。想知道如何进行这些可视化操作吗?请耐心等待下期内容,我们将详细介绍。同时,欢迎访问88858cc永利官网,获取更多生物医疗相关的信息和资源。