分类: 默认分类

  • GAPIT3简要介绍和使用说明[未完成]

    GAPIT(Genomic Association and Prediction Integrated Tool),是华盛顿州立大学张志武实验室出品的一款基因组关联和预测工具。该工具已经经历了v1、v2版,最新版本为v3版本。

    官方网站:https://zzlab.net/GAPIT/

    官方说明:https://zzlab.net/GAPIT/gapit_help_document.pdf

    官方更新:2023.4.12

    官方版本:3

    翻译单位:沈阳农业大学 生物科学技术学院 植物生理与种质创新团队

    翻译更新:2025年9月10日

    翻译人员:张敖

    翻译校对:张敖

    免责声明:尽管华盛顿州立大学张志武实验室(2014年至今)和康奈尔大学Edward Buckler实验室(2012-2014年)分别(对GAPIT)进行了广泛的测试,总体来说,结果是可靠、正确、适当的。但是,不能保证适合所有的数据集。我们强烈建议用户使用其他软件包(如SAS和TASSEL)验证GAPIT结果。

    支持文档:支持文档,包括本用户手册、源代码、演示脚本、数据和结果,可在张志武实验室的GAPIT网站上获得:http://zzlab.net/GAPIT

    问题和意见:问题、意见和评论可以在GAPIT的论坛提出https://groups.google.com/forum/#!forum/gapit-forum(很遗憾,会被墙),GAPIT团队成员会定期整理这些问题,并做相应处理。对于限制Google的国家/地区,欢迎将问题和评论发给Jiabo Wang的电子邮箱:wangjiaboyifeng@163.com

    引用:GAPIT的不同版本(1、2、3)采用了多种统计方法。根据分析中使用的方法和版本,引用相应的GAPIT文章。

    方法发表文章版本11版本22版本33
    一般线性模型(GLM)Price et al, 2006, Nature Genetics4
    混合线性模型(MLM)Yu et al, 2005, Nature Genetics5
    压缩混合线性模型(CMLM)Zhang et al, 2010, Nature Genetics6
    GBLUPZhang et al, 2007, J. Anim. Science7
    Enriched CMLMLi et al, 2014, BMC Biology8
    SUPERWang et al, 2014, PLoS One9
    多位点混合模型(MLMM)Segura et al, 2012, Nature Genetics10
    FarmCPULiu et al, 2016, PloS Genetics11
    cBLUP和sBLUPWang et al, 2019, Heredity12
    BLINKHuang et al, 2019, GigaScience13
    注意:这些文献列表参见参考文献部分

    GAPIT项目得到了美国农业部、美国能源部、美国国家科学基金会、华盛顿州立大学农业研究中心和华盛顿谷物委员会的部分支持。

    1 前言

    1.1 为什么选择GAPIT?

    GAPIT为全基因组关联分析(GWAS)和全基因组选择(GS)的实施提供一系列的方法。GWAS模型包括一般线性模型(GLM)、混合线性模型(MLM或Q+K)、压缩混合线性模型(CMLM)、富集压缩混合线性模型(Enriched CMLM)、SUPER、多位点混合模型(MLMM)、FarmCPU和BLINK。GS模型包括GBLUP、压缩BLUP(cBLUP)和SUPER BLUP(sBLUP)。

    图1.1 在GAPIT中实施的GWAS和全基因组选择方法。
    所有方法都支持GWAS,包括一般线性模型(GLM)、混合线性模型(MLM)、压缩MLM(CMLM)、富集CMLM(ECMLM)、渐进式排他关系下的MLM处理(SUPER)、固定和随机模型循环概率统一(FarmCPU)以及贝叶斯信息和连锁不平衡迭代嵌套键槽(BLINK)。其中一些方法支持全基因组选择,包括MLM、CMLM、ECMLM、SUPER和FarmCPU。其余的(GLM和BLINK)可用于通过标记辅助选择(MAS)的育种。

    1.2 开始

    GAPIT是一个在R语言环境中运行的软件包,依赖R语言环境。R语言可以从https://www.r-project.org下载。可以从两个源安装GAPIT软件:张志武的网站和GitHub。(附加本站安装)

    张志武网站安装:

    source("http://zzlab.net/GAPIT/GAPIT.library.R")
    source("http://zzlab.net/GAPIT/gapit_functions.txt")
    

    GitHub安装:

    install.packages("devtools")
    devtools::install_github("jiabowang/GAPIT3",force=TRUE)
    library(GAPIT3)
    

    附加本站安装:本站安装为了保证程序能够顺利运行做了能够运行版本的镜像,镜像版本20220411。

    source("http://dataholdcn.cn/R/GAPIT/20220411/GAPIT.library.R")
    source("http://dataholdcn.cn/R/GAPIT/20220411/gapit_functions.txt")
    

    最容易的方式复制/粘贴GAPIT脚本,请在https://zzlab.net/GAPIT/gapit_tutorial_script.txt。部分示例代码和输出结果如下:

    myGAPIT <- GAPIT(
      Y=myY[,c(1,2,3)], #fist column is ID
      GD=myGD,
      GM=myGM,
      PCA.total=3,
      model="Blink",
      Multiple_analysis=F
      )
    GAPIT示例结果

    如上所述,用户可以指定1个或多个模型。GAPIT接受多种数据格式,包括数值型、HapMap格式和PLink基因型格式。GAPIT生成综合报告,以符合发表的标准生成数据和结果。例如,标记密度的分布和连锁平衡的衰减告诉用户标记是否足够密集。当用多种性状、环境或多种模型执行GWAS时,GAPIT 生成整合的曼哈顿图,并高亮显示与性状显著关联的标记。上述分析应在几分钟内完成。在你当前的R工作目录下,应该可以找到具有3种扩展名(pdf、csv、txt)的多个文件。3种曼哈顿图样式见上图。

    1.3 如何使用GAPIT的用户手册

    接下来的三章(2-5)详细描述了输入数据、GWAS、GS和输出结果。第6章介绍了应用程序的演示。第7章供用户使用GAPIT的原型。最后一章(8)列出了常见的问题及解答。在阅读接下来的三章之前,我们建议您直接进入教程章节并运行其他教程。

    1.4 如何引用GAPIT

    虽然GAPIT的历史版本(1、2)可用,但建议使用最新版本(3)以获得GAPIT团队的全力支持。引用应该标明所用的版本和模型。例如,使用GAPIT 第3版的BLINK模型执行的GWAS可以引用为:“GWAS由GAPIT执行(版本3),使用BLINK模型。”英文引用:“The GWAS was conducted by GAPIT (version 3)3 using BLINK model13”。使用GAPIT 第3版执行GS,使用GBLUP/cBLUP模型应该引用为,“GS由GAPIT执行,使用”。英文引用:“GS was conducted by GAPIT (version 3)3 using GBLUP model7 and cBLUP model12”。

    2 输入文件

    输入格式有6种:表型数据(Y),HapMap格式的基因型(G),数值型的基因型数据(GD),基因型图谱(GM),亲缘关系矩阵(K),协变量(CV),见表2.1。表型数据必须提供,而其他数据是可选的,包括基因型数据、图谱、亲缘关系矩阵和协变量。亲缘关系矩阵可以由用户提供,也由程序生成,甚至使用Blink方法省略。协变量(固定效应),例如,由Q矩阵(亚群比例)或主成分(PC)表示的种群结构是可选的。GAPIT提供用基因型数据计算主成分的选项。所有输入文件应为“制表符”分隔的文本文件。

    注意:材料名称的拼写、标点和大小写(R对大小写敏感)在每个输入文件中一致,如果不一致,分析时会被去除。另外,材料名不能只使用数字。

    表2.1 GAPIT输入数据一览

    参数默认选项描述教程文件*
    YNULL用户指定表型mdp_traits.txt
    KINULL用户指定亲缘关系矩阵KSN.txt
    CVNULL用户指定协方差mdp_PC.txt
    GNULL用户指定HapMap格式的基因型数据mdp_genotype_test.hmp.txt
    GDNULL用户指定数值型的基因型数据mdp_numeric.txt
    GMNULL用户指定数值型的基因型图谱mdp_SNP_information.txt

    教程文件可以在这里下载:http://zzlab.net/GAPIT/GAPIT_Tutorial_Data.zip,这些文件可以用下列命令读入R。

    #Phenotypic Data
    #myY <- read.table("mdp_traits.txt", head = TRUE)
    #HapMap genotype format
    myG <- read.delim("mdp_genotype_test.hmp.txt", head = FALSE)
    #Numerical genotype format
    #--------------------A pair of Genotypic Data and map files-------------------------------
    myGD <- read.table("mdp_numeric.txt", head = TRUE)
    myGM <- read.table("mdp_SNP_information.txt", head = TRUE)
    #Kinship matrix
    myKI <- read.table("KSN.txt", head = FALSE)
    #covaraite variables (such as population structure represented by Q matrix or PC)
    myCV <- read.table("Copy of Q_First_Three_Principal_Components.txt", head = TRUE)
    

    2.1 表型数据

    GAPIT可以对多个表型性状做GWAS,这通过在表型文件中添加多列性状实现。材料名应位于表型数据文件的第一列,其余列应包含每个个体观察到的表型值。缺失值用“NA”或“NaN”表示。教程数据(mdp_traits.txt)中的前十个观测值显示如下:翻译注:材料名不应只使用数字,部分Taxa名不推荐

    TaxaEarHTdpollEardia
    81159.5NaNNaN
    422665.559.532.21933
    472281.1371.532.421
    33-1664.7564.5NaN
    38-1192.2568.537.879
    A18827.56231.419
    A214N656932.006
    A23947.886136.064
    A27235.6370NaN
    A411-553.567.535.008

    文件用制表符分隔。第一行由列标签(即,标题)组成。列标签指定材料名,用于分析。

    表型文件可以通过下面的命令导入R:

    myY <- read.table("mdp_traits.txt", head = TRUE)
    

    2.2 基因型数据

    GWAS需要基因型数据,但对GS来说基因型数据是可选的。GS可以使用用户提供的亲属关系矩阵执行预测。GAPIT接受HapMap格式(HMP)或数值型的基因型数据。

    2.2.1 HapMap格式

    HapMap格式是常用的序列存储格式,SNP信息按行存储,材料信息按列存储。该格式允许每个材料的基因型数据和SNP信息(染色体和位置)。

    前11列显示SNP的属性,其余的列显示每个材料在每个SNP处观察到的核苷酸。第一行包含了标题标签,其余行所有单个的SNP信息。教程数据(mdp_genotype.hmp.txt)的前3个个体和前2个SNP如下所示。

    rsallleleschromposstrandassemblycenterrotLSIDassayLSIDpanelQCcode33-1638-114226
    PZB00859.1A/C1157104+AGPv1PanzeaNANAmaize282NACCCCCC
    PZA01271.1C/G11947984+AGPv1PanzeaNANAmaize282NACCGGCC

    可以通过下列命令将HapMap格式的数据读入R:

    myG &lt;- read.table("mdp_genotype_test.hmp.txt", head = FALSE)
    

    2.2.2 数字格式

    GAPIT也支持数字格式,排序的性状和标记名称与HMP格式相反。数字格式中,列是SNPs而行是材料名称。这种格式在Excel中是有问题的,因为典型分析中使用的SNP数量超过了Excel列的限制。此外,这个格式并不包含染色体和位置信息。因此,需要向GAPIT提供两个文件,一个是数字格式文件(称作GD文件),另一个文件用于想GAPIT提供每个SNP的染色体和位置信息(称作GM文件)。

    注意:GD和GM文件中的SNP顺序必须一致。

    在GD文件中,纯合子用0和2表示,杂合子用1表示。任何0和2之间的数字都可以作为基因型值。数字格式的第一行是SNP名称,第一列是材料名。示例文件(mdp_numeric.txt from tutorial data set)表如如下:

    taxaPZB00859.1PZA01271.1PZA03613.2PZA03613.1
    33-162002
    Nov-382202
    42262002
    47222202
    A880002

    GD文件可以使用下面的代码读入R:

    myGD &lt;- read.table("mdp_numeric.txt", head = TRUE)
    

    GM文件包含每个SNP的名称和位置。第一列是SNP名称,第二列是染色体,第三列是碱基对位置。第一行是标题,示例文件(mdp_SNP_information.txt from tutorial data set)如下:

    NameChromosomePosition
    PZB00859.11157104
    PZA01271.111947984
    PZA03613.212914066
    PZA03613.112914171
    PZA03614.212915078

    GM文件可以通过下列代码读入R:

    myGM &lt;- read.table("mdp_SNP_information.txt", head = TRUE)
    

    2.3 亲缘关系

    亲缘关系矩阵文件(在GAPIT中叫KI)是一个n+1的矩阵,第一列是材料名,剩下的部分是一个方形对称矩阵。与其他输入文件不同,亲缘关系矩阵的第一行不是标题。示例(教程数据集中的KSN.txt)如下:

    33-1620.2288370.2293220.2688420.2371450.07810.347107
    38-110.22883720.449650.2937080.1752110.0792760.295606
    42260.2293220.4496520.2148590.1752110.0792760.283713
    47220.2688420.2937080.21485920.259350.0615730.160104
    A1880.2371450.1752110.1752110.2593520.0614690.232799
    A214N0.07810.0792760.0792760.0615730.06146920.110364
    A2390.3471070.2956060.2837130.1601040.2327990.1103642

    通过下面命令将该文件读入R:

    myKI &lt;- read.table("KSN.txt", header = FALSE)
    

    2.4 协方差变量

    协方差文件(在GAPIT中叫做CV)可以包含群体结构信息(通常叫做Q矩阵),它常常在GWAS和GS中拟合为固定效应。这些文件与表型文件类似。第一列是材料名,剩下的列是协方差值。第一行由列名组成,第一列的列名为“Taxa”,剩下的列名为协方差名称。示例文件(mdp_population_structure.txt,😓未在demo中找到该文件,但是找到了Copy of Q_First_Three_Principal_Components.txt)如下:

    <Trait>PC1PC2PC3
    33-16-23.853-0.97956-1.10943
    Nov-38-24.41981.6591137.534739
    4676A-16.551215.50632-0.02556
    78002A23.4358941.78905-4.3734
    78371A-16.2425-14.90577.229066
    A188-25.5853-3.81895-1.82098
    A214N-15.203313.69028-4.51514
    A239-24.5782.69326317.96395
    A272-31.2454-4.38883-10.9
    A340-28.2241-1.79212-2.57761
    A3G-32.4254-3.54793-14.2219
    A441-5-25.8499-3.7055-6.54659

    用下列命令将其导入R:

    myCV &lt;- read.table("mdp_population_structure.txt", header = TRUE)
    

    3.1 GAPIT模型概述

    目前,GAPIT 已经包含了十多种模型。下图总结了 7 个里程碑式模型之间的相似性和差异性。最简单的模型(t 检验)是一次直接检测一个表型 (y) 和标记物(Si) 之间的关联,其中 i=1 到 m,m 是标记数。当通过一般线性模型 (GLM) 引入种群结构 (Q) 等协因子时,该辅因子不仅可以部分解释残差 (e),还可以调整一些不属于测试标记的效应,从而减少假阳性。混合线性模型(MLM)通过将个体的遗传效应作为随机共因子效应添加,采用相同的原理,并通过个体之间的亲缘关系(K)定义方差结构。在 Q 或 Q+K 模型中,Q 和 K 保持不变。没有共因子会被标记测试调整。

    引入共因子有助于减少在一般线性模型(GLM)和混合线性模型(MLM)中测试标记的假阳性。缺点是这些共因子也与测试标记混淆。特别是在 MLM 中,亲缘关系定义了个体的遗传效应,这等于因果基因的总和。许多通过 GLM 识别的已知基因在使用 MLM 时信号低于阈值。

    压缩混合线性模型(CMLM)被提出以减少 MLM 的混淆问题。个体被压缩成组,个体的遗传效应被组的遗传效应所替代。相应地,个体之间的亲缘关系被组之间的亲缘关系所替代,分组通过最大似然法进行最大化。组之间亲缘关系的优化进一步提高了在增强型压缩混合线性模型(ECMLM)中的统计效能。

    GLM 和 MLM 是 CMLM 的特例,而 CMLM 是一种通用格式。当在 CMLM 中将组的数量强制为 1 时,CMLM 变为 GLM。类似地,当在 CMLM 中将组的数量强制为个体的数量时,CMLM 变为 MLM。分组的优化提高了统计效能。

    CMLM 中的分组优化和 ECMLM 中组之间亲缘关系的优化完全基于表型,与标记测试没有影响。多位点混合模型(MLMM)改变了这种情况。通过标记关联测试,相关的标记被作为标记测试的共因子进行拟合。这些共因子通过混合模型的前向和后向逐步回归进行调整。然而,Q 和 K 仍然保持不变。

    3.2 模型选择

    GAPIT中实现了多种模型,问题是选择哪一个。许多人根据经验获做出选择。例如,有些研究者不得不选择PLINK16软件实现的广义线性模型(GLM),因为这是该领域审稿人和编辑唯一认可的软件。一般来说,应以计算效率和统计效能作为选择标准。

    其中GLM和BLINK两种模型仅使用固定效应模型,这是计算效率最高的模型。FarmCPU是一种混合模型,同时使用固定效应模型和随机效应模型。其余方法采用固定效应和随机效应混合模型,计算成本较高,包括MLM、CMLM、ECMLM、SUPER和MLMM。其中CMLM采用分组法,其运算速度比MLM快一个数量级。由于需要额外优化,ECMLM和SUPER比CMLM慢。对于试验分析,GLM和BLINK是很好的开始。

    关于统计功效,多基因座模型(例如MLMM、FarmCPU和BLINK)优于其他模型。在多位点模型类别中,FarmCPU优于MLMM11,BLINK优于FarmCPU13。在单位点模型类别中,MLM优于GLM5,CMLM优于MLM6,ECMLM优于ECMLM8,SUPER和MLM优于MLM9、10(译者:此处不知所云)。这些关系在第一章中的模型阶梯进行总结。在较高的阶梯上使用的方法比在较低的阶梯上使用的方法具有更高的统计功效。不同模型之间的差异幅度可能因案例而异,但其顺序保持不变。尚未发现顺序的倒置。因此,选择BLINK作为默认的GAPIT模型,因为其计算效率和统计能力较高。欢迎用户使用以下声明来证明BLINK的使用合理性。

    “In addition to the capability to incorporate principal components as covariates to reduce false positives due to population stratification, BLINK iteratively incorporates associated markers as covariates for testing markers to eliminate their connection to the cryptic relationship among individuals. The associated markers are selected according to linkage disequilibrium, optimized for Bayesian information content, and reexamined across multiple tests to reduce false negatives”.

    除了能够将主成分作为协变量来减少因群体分层导致的假阳性结果外,BLINK还会通过迭代方式将相关标记物纳入协变量进行检测,从而消除这些标记物与个体间隐性关联的联系。相关标记物的选择基于连锁不平衡分析,经过贝叶斯信息含量优化后,再通过多重检验交叉验证来降低假阴性结果。

    3.3 模型描述

    详细模型描述对于读者准确理解分析方法或进行分析复现至关重要。由于所有已实施的模型在其他地方都有很好的描述,因此模型描述应侧重于分析特有的协变量。应详细描述所有协变量,包括分类协变量的水平。以下是一个示例:

    GAWAS由GAPIT(版本3)3使用BLINK模型17进行。协变量变量包括从所有标记和来源组中得出的前三个主成分。来源组被编码为每个来源组的指示符(0/1),以避免最后一个来源组的线性依赖。

    3.4 模型验证

    在FarmCPU的开发过程中发现,即使因果基因与群体结构混杂,也可以检测到因果基因,而群体结构如前三个主成分被作为协变量用于测试标记。正如匿名FarmCPU评论者所指出的,虽然安装多台电脑不会显著影响实验自由度,但在表型分析过程中存在与群体结构相关的非遗传效应时,这种做法确实能提供有效支持。否则,假阳性标记物似乎会捕获非遗传效应。因此,建议在所有分析中拟合多个主成分。相关依据如下。

    使用GAPIT(版本3)对所有可用SNP进行主成分分析。使用GAPIT(版本3)的BLINK模型17进行GAWS。将第一主成分作为协变量变量拟合,以减少因群体分层导致的假阳性结果。

    3.5 GAPIT语法

    可通过调用“GAPIT()”执行GAPIT,输入和参数包含在“()”中。输入包括表型、基因型数据、遗传图谱和协变量。一般参数包括作为协变量的PC数量和模型。更多一般参数参见表3.5.1。

    还有针对模型的特定参数。例如,CMLM模型涉及组的数量。这些针对模型的参数将在特定模型的章节中描述。

    表3.5.1. GAPIT输入参数

    参数默认选项 描述
    model Blink GLM, MLM, CMLM, SUPER, MLMM, FarmCPU, and Blink 选择一个或多个模型执行
    GWAS
    kinship.algorithm VanRaden Zhang, Loiselle and EMMA 从基因型推导亲缘关系的算法
    kinship.clusteraveragecomplete, ward, single, mcquitty, median, and centroid基于亲缘关系对个体进行分组的聚类算法
    PCA.total00作为协变量的PC总数
    SMP.MAF0介于0到1GWAS报告中过滤SNP的次要等位基因频率
    SNP.effectAddDom遗传模型 
    SNP.testTRUEFALSE逻辑变量用于测试SNP或不测试SNP

    3.6 混合线性模型

    MLM包括固定效应和随机效应。将个体作为随机效应包括在内,使MLM能够纳入关于个体之间关系的信息。这些关于关系的信息是通过亲缘关系(K)矩阵传达的,该矩阵在MLM中被用作个体之间的方差协方差矩阵。。当基于遗传标记的亲缘关系矩阵(K)与群体结构(通常称为“Q”矩阵,可通过STRUCTURE18或进行主成分分析19获得)联合使用时,与仅使用“Q”相比,“Q+K”方法提高了统计功效20。MLM可以用Henderson的矩阵符号描述如下:

    其中,Y表示观测表型向量;β是包含固定效应的未知向量,包括遗传标记、群体结构(Q)和截距项;u是来自个体/品系多个背景数量性状基因座(QTL)的随机加性遗传效应未知向量;X和Z是已知的设计矩阵;e是未观测到的残差向量。假设u和e向量为正态分布,均值为零,方差为:

    其中G = σ^2_aK,σ^2_a为加性遗传方差,K为亲缘关系矩阵。假设残差效应的方差是均匀的,即R= σ^2_eI,其中σ^2_e是残差方差。遗传方差解释的总方差比例定义为遗传力(h^2)。

    3.7 压缩 MLM(CMLM)

    由于亲缘关系来源于所有标记,因此将亲缘关系与MLM中测试标记相结合会导致测试标记与个体遗传效应之间的混淆,而遗传效应的方差结构由亲缘关系决定。为了减少混杂因素,使用Zhang等人在2010年开发的压缩MLM中的相应组代替个体21。聚类分析用于将相似的个体分配到组中。在聚类分析中,亲缘关系矩阵的元素被用作相似性度量。可以使用各种链接标准(例如,采用算术平均值的非加权成对组法UPGMA)将谱系分组在一起。用户指定组的数量。一旦将谱系分配到组中,组间和组内的亲缘关系的汇总统计量就作为简化亲缘关系矩阵的元素。此过程用于为每个压缩级别创建一个简化的亲缘关系矩阵。

    拟合一系列混合模型以确定最佳压缩水平。获得每个模型的对数似然函数值,最优压缩水平定义为拟合混合模型产生最大对数似然函数值的水平。有三个参数用于确定检查组的范围和间隔:group.from、group.to和group.by。它们的默认值为0、n和10,其中n是个体总数。

    3.8 一般线性模型(GLM)

    常规的MLM22是CMLM的一个极端案例,其中每个个体都被视为一个群体。可通过将组的数量设置为等于个体总数来简单执行该操作,例如:group.from = n和group.to = n,其中n是基因型和表型文件中共享的个体总数。同样,一般线性模型(GLM)是CMLM的另一个极端情况,其中所有个体均被视为一个组。只需将组的数量设置为1,即group.from = 1和group.to = 1即可简单地执行。GLM是PLINK23中的工作模型,PLINK是人类遗传学研究的主要软件。

    3.9 P3D/EMMAx

    除了实现压缩之外,GAPIT还使用EMMAx/P3D6,24来减少MLM、CMLM、ECMLM和SUPER的计算时间。如果指定,则将在进行GWAS之前估计加性遗传(σ^2_a)和残差(σ^2_e)方差分量。然后,将这些估计值用于每个SNP,其中拟合混合模型。

    3.10 SUPER

    SUPER是FaST-Select的高级版本,由Wang等人于2016年开发。SUPER和FaST-Select的主要区别在于,SUPER使用bin方法来选择相关标记。将整个基因组划分为大小相等的区段,每个区段用该区段上最重要的标记表示。使用最大似然法在随机模型中优化了bin的大小和所选bin的数量,该随机模型的亲缘关系来源于所选bin。因此,亲缘关系与某些标记之间的混淆比从所有标记中得出的亲缘关系更加严重。SUPER通过使用来自相关标记的互补亲缘关系来消除混杂,但与用户定义阈值下测试标记存在强连锁不平衡(LD)的标记除外。模拟和真实数据都表明,与常规MLM相比,SUPER具有更高的统计功效。

    要在GAPIT中运行SUPER,只需指定model=“SUPER”即可。

    3.11 多点混合线性模型(MLMM)

    GAPIT实施了多基因座混合线性模型(MLMM),该模型使用前向-后向逐步线性混合模型回归,将相关标记作为协变量纳入。

    要在GAPIT中运行MLMM,只需指定model=“MLMM”。

    3.12 FarmCPU

    为同时解决假阳性对照和检测标记物与辅助因子之间的混淆问题,提出了一种名为固定和随机模型循环概率统一的迭代方法(FarmCPU),发表在2016年11。在固定效应模型中,将从迭代中检测到的关联标记作为辅助因子进行拟合,以控制其余标记的假阳性。为了避免逐步回归中的过度模型拟合问题,使用随机效应模型通过最大似然法选择相关标记物。

    在迭代的固定效应模型循环中,标记物是针对相关标记物进行检测,而非MLM、CMLM、ECMLM、SUPER和MLMM所使用的混杂亲缘关系。在迭代的随机效应模型循环中,使用最大似然法从少量相关标记中选择标记,以避免MLMM使用的逐步回归中的过度模型拟合问题,MLMM在所有可用标记中选择标记。因此,FarmCPU的统计学效力高于MLMM11。由于FarmCPU在固定效应模型中测试标记,因此其计算效率高于随机效应模型中测试标记的方法,如MLM、CMLM、ECMLM、SUPER和MLMM。

    BLINK方法的设计同时具有高统计学效力和计算效率13。它受到FarmCPU方法的启发,并进行了两个主要的改变以实现目标。一是消除FarmCPU所要求的因果基因在基因组中均匀分布的假设。假设的原因是包含非因果基因,或缺失与信号更强的其他因果基因同属一个分组的因果基因。BLINK直接作用于标记物而非基因组区域。与最显著标记物存在连锁不平衡(LD)的标记物将被排除。对于剩余的第二个标记物,排除方法与最显著标记物相同,以此类推,直至无法排除任何标记物。

    BLINK(GWAS中的一种统计方法/模型)在分析时把每个遗传标记(如SNP)当作独立的分析单位,而不是先把基因组划分成大片的区域再做区域级别的检测。简言之,它是“以标记物为粒度”的方法。在第一轮筛选中,先找出统计学上最显著(p 值最小或效应最强)的标记物作为“代表”。然后,任何与这个代表标记在LD上高度相关(例如 r2 超过预设阈值)的其他标记物都被视为信息冗余,因此被剔除。在剔除掉与“最显著标记物”高度LD的标记后,从剩余的标记物中找到下一个最显著的标记物(此时它是“第二个”保留的代表标记)。再用同样的LD阈值规则,把与它高度相关的标记剔除。如此迭代:每次从剩余集合里选出当前最显著者作为代表,然后剔除与之LD高的标记。循环进行,直到再也找不到需要剔除的(即所有保留标记之间的LD都低于阈值)。

    另一个变化是使用固定效应模型的贝叶斯信息含量(BIC)来近似随机效应模型的最大似然,以在基于LD排除的剩余标记中选择相关标记。由于标记物检测模型和选择相关标记物作为辅助因子的模型均为固定效应模型,因此计算复杂度达到最大。使用BLINK C版本,一个包含100万个个体和100万个标记的数据集可以在几小时内解决。BLINK R版本可以单独作为标准运行,也可以通过GAPIT运行。要在GAPIT中运行BLINK,只需指定模型为“BLINK”。两个版本的性能表现已在GigaScience13的BLINK文章中进行了记录。

    全基因组选择

    全基因组选择(在人类遗传学中称为全基因组预测)是指通过全基因组遗传标记来预测个体表型或遗传潜力的表现。与全基因组关联研究(GWAS)不同,预测方法与特定条件下测量的性状之间存在显著的交互作用。研究发现,在许多情况下,不同方法的优势会相互逆转。基于SUPER方法的基因组选择(即SUPER BLUP)在控制少量基因的性状时,其预测准确度高于基于多重线性模型(MLLM)的全基因组选择(即基因组BLUP,简称gBLUP)。但对于受大量基因调控的性状,预测准确性则呈现相反趋势。而基于压缩多重线性模型(CMLM)的全基因组选择(即压缩BLUP),在低遗传力性状上的预测精度反而优于gBLUP。GAPIT系统整合了多种GWAS和全基因组选择方法,以提升统计功效。

    gBLUP

    基因组预测采用基于基因组最佳线性无偏预测(gBLUP)7的方法进行。通过使用为GWAS6提出的CMLM方法,将该方法扩展到压缩最佳线性无偏预测(cBLUP)。从压缩混合模型的组效应的BLUP中得出的组的遗传潜力被用作该组中所有个体的预测。

    由压缩形成的群体分属于参考(R)面板或推断(I)面板。参考面板中的所有群体至少包含一名具有表型数据的个体,而推断面板中的所有群体都不包含具有表型数据的个体。对推断面板中群体的基因组预测,是基于它们与参考面板中相应群体的表型关联(联系)进行的。

    然后将群体亲缘关系矩阵划分为R和I组,如下所示:

    其中,kRR​ 是参考面板中所有群体的方差-协方差矩阵;kRI是参考面板与推断面板之间各群体的协方差矩阵;kIR=(kRI)′是推断面板与参考面板之间各群体的协方差矩阵;kII 是推断面板中各群体之间的方差-协方差矩阵。

    混合线性模型的求解是在参考个体上进行的。

    其中所有术语均如方程(1)中定义的,且“R”下标表示仅考虑参考面板中的个体。

    推断组的基因组预测由Henderson公式(1984)得出,如下所示:

    其中kIR、kRR和uR如先前定义,uI是推断组中个体的预测基因组值。

    基因组预测的可靠性计算如下:

    其中,PEV是预测误差方差,它是混合模型方程逆左侧的对角元素,而σ^2_a为遗传方差。

    4.2 压缩的gBLUP

    压缩型混合线性模型(compressed MLM)用基于个体间亲缘关系聚类得到的对应群体来替代个体进行分析。研究表明,压缩型 MLM 在 GWAS 中具有更高的统计功效。研究还显示,与常规 MLM 相比,压缩型 MLM 的预测准确性更高,尤其是对于低遗传力性状。由于常规 MLM 可视为压缩型 MLM 的一种极端情形,因此压缩型 MLM 的预测准确性通常更高,或至少不低于常规 MLM。在 GAPIT 中指定使用压缩型 MLM 时,个体的育种值由其对应群体的育种值进行预测。

    4.3 SUPER gBLUP

    常规的 MLM 使用由全部标记推导得到的亲缘矩阵,而 SUPER 使用由关联标记推导得到的亲缘矩阵。由于这些关联标记是通过最大似然方法从全部标记中筛选出的,SUPER 所使用的亲缘矩阵在似然值上优于常规 MLM 所使用的亲缘矩阵。研究表明,与常规 MLM 相比,SUPER 得到的育种值估计具有更高的预测准确性。

    输出结果

    GAPIT 会生成一系列输出文件,并以两种格式保存。所有表格结果都会保存为逗号分隔值(.csv)文件,所有图形都会保存为可打印文档格式(.pdf)文件。所有文件的命名通常遵循 GAPIT.type.analysis.file-type 的格式。其中,type 可以是 GenotypePhenotype 或 Associationanalysis 可以是具体的分析内容;file-type 可以是 pdfcsv 或 html

    文件名中文描述备注
    Allelic_Effect_Estimates采用所设方法估计等位基因效应等位基因效应估计结果
    Df.tValue.StdErr等位基因 t 值估计常见为系数估计的自由度、t 值、标准误
    GWAS.ResultsSNP 信息与 P 值关联分析的核心结果
    Log整体模型日志运行与模型信息记录
    PRED基因组预测结果个体/群体的预测值(如育种值)
    ROC功效与 FDR 的表格用于绘制 ROC/评估性能
    Kin.VanRadenVanRaden 方法亲缘矩阵“VanRaden”是经典亲缘度算法
    PCA主成分分析结果主成分得分(样本在各PC上的坐标)
    PCA.eigenvaluesPCA 的特征值各主成分方差解释量的基础
    PCA.loadingsPCA 的载荷(旋转矩阵)各标记/变量在主成分上的权重
    文件名中文描述备注
    Compression.multiple.group压缩似然、遗传力与方差与分组压缩(compressed)相关的诊断图
    MAF次等位基因频率分布标记的 MAF 概览
    Manhattan.Plot.Chromosomewise按染色体的曼哈顿图分染色体展示
    Manhattan.Plot.Genomewise全基因组曼哈顿图全基因组范围
    Optimum最优遗传力与方差组分最优参数或模型选择相关
    phenotype_view表型分析表型分布/统计
    QQ-PlotQQ 图观察 p 值分布偏离
    ROCROC 中的功效与 FDR 图与 CSV 的 ROC 相对应的图形版
    Heterozygosity基因型杂合度杂合率分布
    Kin.VanRaden亲缘矩阵热图基于 VanRaden 的热力图
    Marker.Density标记密度染色体上的标记分布
    Marker.LD前 1000 个标记的 LD连锁不平衡热图/统计
    PCA.2D二维 PCA 图常见 PC1 vs PC2
    PCA.3D三维 PCA 图交互或三维视角
    PCA.eigenValuePCA 的特征值与方差解释PCA.eigenvalues 内容类似但为图形
    NJtree.fan扇形 NJ 系统发育树Neighbor-Joining
    NJtree.unrooted无根 NJ 系统发育树Neighbor-Joining
    Manhattan.Multiple.Plot多性状/多方法的曼哈顿图原文 “Mutiple” 更正为 “Multiple”
    Circular.Manhattan.Plot环形曼哈顿图去掉多余句点
    Multraits.QQplot多性状/多方法 QQ 图“Multraits”保留原拼写,意为 multiple traits
    文件名中文描述备注
    Interactive.PCA交互式 PCA 图可缩放/悬停查看
    Interactive.Manhattan交互式曼哈顿图原文的空格错误已修正
    Interactive.QQ交互式 QQ 图原文的空格错误已修正

    5.1 表型诊断

    通过散点图、直方图、箱形图和累积分布等多种方式诊断GAPIT表型。

    图5.1 颜型的频率、分布和aoccumulative的详细信息

    5.2 标记密度

    标记密度对于在标记与致因突变之间建立连锁不平衡(LD)至关重要。将标记密度与随距离衰减的 LD 进行比较,可以指示当前标记是否足够稠密,从而实现对 LD 的良好覆盖。

    图5.2 个体和标记杂合度频率

    5.3 邻近标记之间的距离和连锁不平衡衰减

    所有标记及其相邻标记用于计算距离与关系。总窗口大小可以通过参数 WS 进行设置。

    图5.3 连锁不平衡(LD)随距离衰减

    5.4 杂合性和MAF

    计算了全基因组杂合频率,杂合度较高表明质量较低。

    图5.4 全基因组中的杂合度、MAF和R2

    5.5 主成分分析图

    对于纳入 GWAS 和 GPS 模型的每个主成分(PC),都会绘制其观测到的 PC 数值分布/散点图。

    图5.5 主成分(PC)的成对图和三维图

    5.6 血缘关系图

    GWAS和GPS中使用的亲缘关系矩阵通过热图进行可视化。为了减轻计算负担,当样本量超过1000时,不会生成该图表。

    图5.6 亲缘关系图。创建亲缘关系矩阵的热图,以显示个体之间的关系

    5.7 邻接加入(NJ)树

    在采用压缩分组(compressed group)之后,我们对个体进行分类以解释群体结构。我们也可以基于先前的分组绘制分组 PCA 图。

    图5.7 邻接法(NJ)树整个种群被划分为5个簇,每个颜色代表一个簇

    5.8 QQ-plot

    定量分位(QQ)图是评估 GWAS 所用模型对群体结构与家系相关性校正效果的有用工具。在该图中,将 GWAS 拟合模型得到的 P 值的负对数与在“无与性状关联”的原假设下的期望值进行作图。由于大多数被检验的 SNP 可能与性状无关,QQ 图中的大部分点应当落在对角线上。偏离对角线的点提示存在由群体结构与家系相关性引起的伪关联,说明当前 GWAS 模型对这些伪关联的校正不充分。预期在图的右上角会出现偏离对角线的点,这些 SNP 最有可能与研究性状相关。为减小图形文件体积,GAPIT 的 QQ 图默认只显示较大的一部分 P 值(即统计显著性较低的 P 值)的子集。

    图 5.8 P 值的分位数–分位数(QQ)图。Y 轴为观测到的 P 值的以 10 为底的负对数,X 轴为在假设 P 值服从均匀分布[0,1]时,其期望的以 10 为底的负对数。虚线表示在“无 SNP 与性状关联”的原假设下,该 QQ 图对应的 95% 置信区间。

    5.9 曼哈顿图

    曼哈顿图是一种用于汇总全基因组关联研究(GWAS)结果的散点图。横轴表示每个SNP的基因组位置,纵轴则显示GWAS模型计算得出的P值负对数(具体通过F检验来验证H0假设:该SNP与性状无关联)。曼哈顿图中若出现显著的峰值(即“摩天大楼式”结构),表明该基因组区域与性状存在强关联。GAPIT软件会为整个基因组生成一张曼哈顿图(图3.4),同时也会为每条染色体单独生成对应的曼哈顿图。

    图5.9.1 曼哈顿图。X轴为基因组中SNP的基因组位置,Y轴为P值的负对数(以10为底)。各染色体颜色不同。与性状关联更强的SNP将具有更大的Y坐标值

    GAPIT还提供另一种名为染色体分段的曼哈顿图。该方法通过选取显著性最高的标记及其邻近标记(距离在10^9 bp范围内),计算R^2值(相关平方)。颜色从蓝色到红色表示R^2值从0到1的变化范围。

    图5.9.2 染色体曼哈顿图。

    5.10 关联表

    全基因组关联研究(GWAS)结果表详细汇总了相关研究数据。表格按用户设定的次要等位基因频率阈值对每个SNP进行排序,按染色体位置排列的SNP数据清晰呈现。其中H&B P值采用H&B方法进行FDR校正。目前GAPIT已针对各GWAS方法的标记效应进行了全面分析。

    表5.10 所有分析SNP的GWAS结果

    该表提供了SNP ID、染色体、bp位置、P值、次要等位基因频率(MAF)、样本量(nobs)、H&B.P.Values和Effect25

    参考文献

  • CLGS dependency installation

    pip install pandas openpyxl matplotlib
    
    

  • Check the local CUDA version and install torch

    nvidia-smi
    

    Here you can see that the CUDA version is 12.6.

    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu126
    
  • 什么是Deepseek满血版

    Deepseek满血版是指DeepSeek大模型的完整参数规模版本(约671B参数)。

    具有以下核心特点:

    1. 完整算力
    • 未经过精度压缩/量化裁剪
    • 保留原始神经网络全连接结构
    • 推理精度保持FP16级别
    1. 功能优势
    • 支持多模态处理(文本/图像/代码)
    • 具备实时联网检索能力
    • 支持复杂逻辑链推理(>32步)
    1. 性能表现
    • 在C-Eval/MATH等基准测试中准确率>82%
    • 上下文窗口扩展至128k tokens
    • 响应速度较量化版慢约40%(需更多计算资源)

    当前已知的满血版包括DeepSeek-R1(2024Q2发布)和DeepSeek-V3(2024Q4),这类版本通常部署在云端服务器集群,通过API提供服务,适合企业级复杂任务处理。

  • 使用药品称量计算器计算称取药品克数

    药品称量计算器:

    点此进入

    假如需要配制10mol/L的盐酸溶液50ml,需要称取盐酸多少克?

    盐酸的分子质量是:36.461g/mol(在药品瓶上会注明)

  • DNAMAN9.0翻译序列

    https://wp.me/p80aHo-1RG

    主要参数:

    *表示终止密码子,TAA、TGA、TAG