• Machine Learning Algorithms Translate Big Data into Predictive Breeding Accuracy

    网站链接
    PubMed】【Trends in Plant Science

    引用
    参考文献格式由参考文献格式化助手(https://dataholdcn.cn/ckwx/)生成。

    Crossa J, Montesinos-Lopez O, Costa-Neto G et al. (2024) Machine learning algorithms translate big data into predictive breeding accuracy. Trends in Plant Science . https://doi.org/10.1016/j.tplants.2024.09.011

    统计机器学习(ML)从大量的基因组、表型和环境数据中提取模式。ML 算法可以自动识别相关特征,并使用交叉验证来确保模型的稳健性,从而提高在新株系中的预测可靠性。此外,ML 对基因型与环境(G×E)相互作用的分析可以提供对影响特定环境中性能的遗传因素的深入了解。通过利用历史育种数据,ML 可以简化策略并自动化分析,以揭示基因组模式。在这篇综述中,我们探讨了大数据对植物育种中基因组支持预测的变革性影响,包括多性状基因组学、表型学和环境协变量等内容。我们讨论了大数据和 ML 如何通过提高预测准确性、加深对 G×E 相互作用的理解以及通过分析广泛和多样化的数据集来优化育种策略,从而彻底改变该领域。

    何塞·克罗萨(José Crossa)是国际玉米和小麦改良中心(CIMMYT)生物统计部门的杰出科学家。他的研究工作涉及全基因组预测模型以及基因型与环境互作模型,旨在帮助CIMMYT的研究人员实现他们的目标。克罗萨还教授统计遗传学课程。他的办公室位于墨西哥城。克罗萨因其显著的研究影响而受到认可,他和其他CIMMYT科学家的论文位于高引用论文的前1%。

  • 无免费午餐定理

    无免费午餐定理(No Free Lunch, NFL):如果对“所有可能的目标函数/数据分布”平均,任何两个学习算法(或优化算法)的期望性能是相同的。

    NFL 定理往往在“对所有可能函数等概率”的假设下成立。在如此宽泛的假设空间中,一个算法在部分函数上擅长、在另一些函数上就会吃亏,平均被“拉平”。

    没有“通吃”的算法。想在特定任务上优于平均,必须引入与该任务匹配的先验假设或归纳偏置(inductive bias)。模型选择和特征工程的关键在于“贴合数据分布与任务结构”。

  • Genomic selection in plant breeding: Key factors shaping two decades of progress

    https://www.sciencedirect.com/science/article/pii/S1674205224000807

    摘要

    全基因组选择(即利用基因组预测(GP)模型筛选候选个体)在过去二十年取得了显著进展,有效加速了植物育种中的遗传增益。本文全面梳理了这一时期影响GP在植物育种中表现的关键因素。我们深入探讨了训练群体规模与遗传多样性及其与育种群体关系在决定GP准确度中的核心作用,并特别强调了训练群体规模的优化。我们评估了其带来的收益以及超过最优规模后出现的报酬递减问题,同时在现有优化算法的支持下,权衡资源配置与预测准确度最大化。单核苷酸多态性(SNP)的密度与分布、连锁不平衡水平、遗传复杂性、性状遗传力、统计与机器学习方法以及非加性效应等也是至关重要的因素。以小麦、玉米和马铃薯为例,我们总结了这些因素对不同性状GP准确度的影响。追求高GP准确度——在以皮尔森相关系数为度量时理论上可接近1——仍是一个活跃且对多种性状尚未达到最优的研究方向。我们假设,借助超大规模基因型与表型数据集、有效的训练群体优化方法,以及来自其他组学(转录组学、代谢组学与蛋白质组学)的支持,并结合深度学习算法,有望突破当前限制的边界,达到尽可能高的预测准确度,使全基因组选择成为植物育种中的高效工具。

    引言

    预计在未来几十年,全球人口将以相近或更快的速度持续增长。为养活不断增长的人口,粮食需求也将同步上升;与此同时,由于人为气候变化加剧的多种生物与非生物胁迫,作物生产力受到限制。植物育种对于培育高产、优质、并对多种非生物与生物胁迫具耐受或抗性的新品种至关重要。以小麦为例,全球产量从1961年的2亿吨提升至2023年的7.75亿吨(FAO,2023),而小麦种植总面积基本未发生显著变化(2.2亿公顷)。这一增长主要归功于半矮秆、高产、对投入响应敏感且分别对主要生物与非生物胁迫具抗性与耐受的新小麦品种的选育与推广(Borlaug,2002),以及全产业链范围内的改进农艺管理、机械化、良好政策与基础设施等配套措施(Tadesse 等,2019)。

    作物的遗传改良长期依赖传统的杂交育种方法,其中基因型的育种与选择完全基于系谱和表型表现。对亲本在不同性状上的严格评价、针对性配组、通过夏冬两季穿梭育种方案加速世代推进以缩短育种周期、对优势种质在关键地点进行评价,以及有效的数据库管理,都在改良作物品种的育成中发挥了重要作用。然而,DNA测序技术的迅速发展使育种家能够获得作物的全面基因组信息,这对于选择极具价值。多种基于DNA标记的基因分型系统的开发显著增加了植物育种家可使用的DNA标记数量(Crossa 等,2017)。这一突破使育种家能够根据植株的遗传标记组成来选择其表现,而不再仅依赖于易受多种限制影响、降低选择效率的表型表现。

    在过去四十年中,基因组工具在植物育种实践中的应用(通常称为“基因组辅助育种”)经历了多个发展阶段(Varshney 等,2021)。最初是基于连锁的数量性状位点(QTL)定位(Soller 和 Plotkin-Hazan,1977):在有限数量的 DNA 标记条件下,识别与特定性状共分离的标记为与某一 QTL 连锁,并据此开展标记辅助选择(MAS)。该方法依赖由双亲系杂交产生的一组分离群体,过程耗时,等位变异范围狭窄、定位分辨率较低,因此在实际育种中的影响有限(Bernardo,2008)。随后,基因组范围的关联研究(GWAS)成为识别与目标性状 QTL 紧密连锁标记的一种流行且强有力的方法(Zhu 等,2008;Tibbs Cortes 等,2021)。然而,通过 MAS 将其落地应用时,往往局限于少数主要 QTL;而复杂性状中数量众多、效应较小的 QTL 仍未被充分识别与利用(Jannink 等,2010)。

    随着全基因组单核苷酸多态性(SNP)数据的广泛可得,全基因组选择(GS)在将全基因组预测(GP)模型应用于实际选择时,成为植物育种中的强有力工具。除早期贡献者(Lande 和 Thompson,1990;Bernardo,1994;Nejati-Javaremi 等,1997;Haley 和 Visscher,1998;Whittaker 等,2000)外,Meuwissen 等(2001)于二十年前首次系统阐述了 GS。在这项开创性研究中,作者为植物育种开辟了新路径:提出可通过标记谱系预测遗传值,并在结合缩短世代间隔的繁殖技术时,显著提升动植物育种的遗传增益。传统的标记辅助选择(MAS)方法往往仅关注与已深入研究的主要 QTL 连锁的一小部分标记,从而忽略了绝大多数小效应 QTL。与之相对,基因组预测采用大量全基因组 SNP 来量化单株的综合遗传育种值,涵盖目标性状中大多数起作用的 QTL(Bernardo 和 Yu,2007;Heffner 等,2009)。随着二代测序技术快速发展,能够生成高密度的全基因组 SNP 标记,并在多种作物中显著降低基因分型成本,GS 已成为大多数育种计划中“必不可少”的方法。实证研究表明,GS 相较于基于系谱的选择能更快提升单位时间的遗传增益。与基于表型的选择相比,GS 还展现出巨大的潜力:降低每个育种周期的成本,提高选择强度与准确度,并显著缩短品种育成所需时间(Crossa 等,2010,2017;Edwards 等,2019)。

    在植物基因组预测(GP)研究中,统计机器学习模型的开发与训练群体优化是被积极探索的两大主题领域。这主要源于它们提升预测准确度的潜力,而当前的准确度仍远未达到最优。本文首先对 GP 进行简明解释,随后梳理了当前在植物育种中广泛应用的交叉验证(CV)方法。在整体概述之后,详细阐述了过去二十年中被识别为影响 GP 准确性的关键因素。此外,本文以小麦、玉米和马铃薯分别作为自花授粉、异花授粉和无性繁殖作物的代表,对实证研究结果进行分析,展示这些关键因素对不同性状中 GP 准确度的影响。最后,同样重要的是,本文通过来自公共与私营育种项目的正在进行的实证研究,给出一个 GS 实施的示范案例。总之,本文提出了若干有价值的建议,以支持 GS 在植物育种项目中的成功落地。

    全基因组选择

    GP 是一种最新的数据驱动方法,已被广泛接受并作为加速作物育种计划中遗传增益的有力工具(Desta and Ortiz, 2014;Bassi 等,2016;Xu 等,2020)。GP 采用先进的统计机器学习模型,根据由全基因组标记估计的育种值,从育种群体中选择个体。该选择过程依赖于训练群体的数据,涵盖表型和基因型信息(图 1A)。经过严格的训练流程后,这些模型能够对仅具有基因型数据的目标群体的性状育种值或表型值进行预测。然而,在应用选择之前,应首先通过交叉验证(CV)评估预测模型的性能(有关 CV 方法的详细信息请参见下一节)。此步骤在 GP 中至关重要,用于评估预测模型的表现,并在不同情境下比较不同的统计机器学习模型集,例如纳入多性状、已知主效基因与标记—性状关联(QTL)、基因型×环境(G×E)互作,以及其他组学数据(如转录组、代谢组和蛋白质组)(图 1A)。

    图 1 GP 模型构建与优化的示意概览,以及影响基因组预测的主要因素。

    (A)在全基因组预测中,可将表型数据、基因型数据以及其他协变量用于开发和优化多种机器学习方法,通过将优化后的训练群体划分为校准集与验证集,并通过交叉验证估计预测准确度。随后识别并采用预测准确度最高的优化模型,对育种群体的 GEBV 进行预测,并根据目标性状的遗传值对个体进行选择。

    (B)在作物育种项目中,多种因素会影响全基因组预测的准确度。这些因素在分析的不同阶段来源各异。训练群体的群体规模与遗传多样性、训练群体与育种群体之间的遗传关系(亲缘)与群体结构、以及用于统计机器学习模型的表型数据质量,都是与训练群体相关的特征,应在 TRS 构建过程中进行优化。其他因素,包括染色体上遗传标记的密度与分布、QTL 等位基因与标记等位基因之间连锁不平衡的程度、目标性状的遗传复杂性与遗传力、所应用的统计方法,以及基因型×环境(G×E)互作等非加性遗传因素,都会对 GP 的最终准确度产生重大影响。TRS,训练群体;BS,育种群体/集合;CLS,校准集;VS,验证集;GEBV,基因组估计育种值。所有图均由 BioRender(https://biorender.com/)创建。

    通过预测准确度来评估不同 GP 方法的比较,该准确度与育种者公式直接相关(Akdemir and Isidro-Sánchez, 2019)。多种因素会影响 GP,同一性状在不同实验中的准确度评分差异显著。例如,小麦、玉米和马铃薯的单一性状预测准确度在不同研究中差异很大,原因在于训练群体组成、所采用的统计机器学习模型以及其他因素的不同设置(补充表 1–3)。GP 的准确度(rMG,即“标记预测值与真实遗传预测值之间的相关性”)通常以基因组估计育种值(GEBV)与真实育种值之间的皮尔逊相关系数来衡量(Combs and Bernardo, 2013;Isidro 等,2015),可用于估计选择准确度(Merrick 等,2022)。选择准确度与选择响应(R,也称遗传增益)直接相关,并在育种者公式中计算为 ,其中 i 和 r 分别为选择强度与选择准确度;σA 为加性遗传方差的平方根,t 为育种周期时间(Falconer and Mackay, 1996)。

    GP 将父本平均育种值与孟德尔取样偏差共同纳入考虑来定义子代的 GEBV,这使其可用于:(1)通过预测加性效应在早期世代实现短育种间隔的快速选择循环(例如在双亲杂交的 F2 水平进行 GS);以及(2)在选择的后期阶段通过预测个体的基因型值来进行品系选择,其中加性与非加性效应共同决定品系的最终商业价值(Crossa 等,2014;Dreisigacker 等,2023)。

    众多因素会影响 GP,并可能显著降低其准确度(图 1B)。因此,除非得到充分应对,这些因素可能阻碍 GP 在作物育种项目中的有效应用。训练群体优化时需要重点关注的特征包括群体规模、遗传多样性以及与育种群体的遗传相关性。其他主要因素还包括:在训练群体和育种(测试)群体中 QTL 与标记之间连锁不平衡的水平、目标性状的遗传复杂性与遗传力、表型鉴定的质量/精度、统计机器学习模型、G×E 互作,以及其他非加性因素,这些都进一步增加了 GP 在作物育种中的复杂性。

    交叉验证方法

    交叉验证(CV)是统计机器学习方法中的一项基础技术,用于模型评估、超参数调优,并确保模型具有稳健的性能。它在构建能够对新的、未见过的数据进行准确预测、同时避免过拟合和数据特异性偏差的模型方面发挥关键作用。在对育种群体中的候选个体进行选择之前,应首先使用 CV 方法对 GP 模型进行评估。CV 通过将训练群体(训练集;TRS)划分为校准集和验证集来模拟模型的预测表现。

    根据不同的判定情境会采用不同的 GP 交叉验证(CV)方法(图 2)。K 折交叉验证(K-fold CV)是应用最广的方法之一,即将整个数据集等分为若干折。例如,在 5 折交叉验证中,将 TRS 数据集随机分为 5 折,用其中 4 折作为校准集训练预测模型,剩余 1 折作为验证集。准确性可以通过对每一折的多次运行取平均,或对包含所有折的运行取平均来衡量。留一法交叉验证(LOOCV)是另一种方法,在每次迭代中从校准集中排除一个基因型,并将其作为验证集。该方法所需的 CV 迭代次数与样本数或基因型数相同。因此,LOOCV 的计算代价高,仅适用于基因型(样本)较少的情形,而 5 折交叉验证更适合大规模数据集(Cheng 等,2017)。在多环境 GP 分析中还出现了其他 CV 情境(Crossa 等,2017)。交叉验证 1(CV1)指在已测试环境中预测新育成品系或品种的 GEBV,因此适用于在已测试环境中预测未测试品系。CV2(亦称稀疏测试)用于在部分环境中已测试的基因型,并在其他已测试环境中进行预测,因此适用于在已测试环境中预测已测试品系。其他情境包括 CV0,即在未测试(未观测)环境中预测已测试基因型;以及 CV00,用于在未观测环境中预测未测试基因型的 GEBV(图 2)。

    图 2 作物育种中的全基因组预测交叉验证方法。

    采用 5 折交叉验证方法时,首先将完整群体随机分配为 5 折(F5)。随后使用其中 4 折作为校准集以构建 GP 模型,保留剩余 1 折作为验证集。在 LOOCV 中,从校准集中排除一个基因型,并在每次迭代中预测其 GEBV。

    在多环境 GP 中,情境包括:在已测试环境中预测新育成的未测试基因型(CV1);在部分环境已测试、其他环境未测试的基因型(亦称稀疏测试,CV2);在未测试环境中预测已测试基因型(CV0);以及在未测试环境中预测未测试基因型(CV00)。

    训练群体

    TRS 用于建立遗传标记与目标性状表型数据之间的统计关系,从而根据个体的基因型谱预测其表型表现。在 GP 中,应首先对 TRS 进行优化,以提高育种项目中的预测准确性和效率(参见“训练群体优化”)。在 GP 模型优化与实际应用的选择情境中,优化后的 TRS 可分为两种类型。第一种类型是优化 TRS 的一部分(校准集),用于训练预测模型,并通过交叉验证(CV)估计 TRS 内其余个体(验证集)的 GEBV(图 1A)。第二种类型是整体优化后的 TRS,用于在实际育种情境中训练优化的 GP 模型,以估计育种群体/集合(BS)中个体的 GEBV,供选择之用。TRS 的特征——包括群体规模、遗传多样性及与 BS 的遗传相关性、群体结构、与 BS 相关的连锁不平衡(LD)水平,以及表型与基因型数据的质量——都会显著影响 GP 的准确性(Pszczola 等,2012;Crossa 等,2014;Hickey 等,2014;Zhang 等,2017a;Edwards 等,2019)。

    训练群体的样本规模

    植物育种者的最终目标是以低成本获得高精度的遗传值估计(Lorenz 和 Nice,2017)。在 GP 中,扩大 TRS 规模对在作物育种中的成功应用可能带来正反两方面的影响(Merrick 等,2022)。TRS 的规模会影响 GP 模型的准确性(Goddard,2009;Daetwyler 等,2010;Combs 和 Bernardo,2013;Bassi 等,2016),且常随规模增加而正相关(Lorenzana 和 Bernardo,2009;Zhong 等,2009;Albrecht 等,2011;Bentley 等,2014;Isidro 等,2015)。然而,研究显示当 TRS 规模达到最优点后,预测准确性的提升会出现平台期(Arruda 等,2015;Sverrisdóttir 等,2018;Fernández-González 等,2023)。随着基因分型成本显著降低,扩增 TRS 的规模会对表型鉴定提出更高的人力与费用要求。此外,扩大 TRS 还可能不利于表型数据质量,从而降低预测准确性。TRS 优化的核心是在选择性表型测定的支持下,以最小资源投入实现尽可能高的 rMG(图 3A)(Lorenz 和 Nice,2017;Akdemir 和 Isidro-Sánchez,2019)。已有研究致力于确定优化的 TRS 规模,并阐明多种决定因素的影响,例如与 BS 的遗传亲缘与群体结构、LD 程度、遗传力及目标性状的遗传构架(Isidro 等,2015;Akdemir 和 Isidro-Sánchez,2019;Sarinelli 等,2019)。总体而言,为获得更高的 rMG,当与 BS 的遗传亲缘降低时,应适当增加 TRS 的规模。同样地,对于遗传力较低的性状,准确性通常较低,这与遗传构架更复杂(存在多个小效应 QTL 的累加)以及标记与 QTL 之间 LD 较低直接相关(Habier 等,2007;Daetwyler 等,2010;Clark 等,2012;Combs 和 Bernardo,2013;Wientjes 等,2013;Isidro 等,2015)。近期已开发出可自动寻优 TRS 规模的新型优化方法(Fernández-González 等,2023,2024;Wu 等,2023)。更多细节见补充文件 1。

    图3 训练群体优化。

    (A) 训练群体优化的目标是在缩小训练群体规模、降低表型测定成本的同时,提高 GP 的准确性,从而最大化植物育种的遗传增益。

    (B 和 C)(B) 目标化与非目标化的训练集优化方法,以及 (C) 结合历史与新田间试验数据的优化途径。TRS 优化的目的是在候选集(CS)中寻找一个子集作为最优 TRS,用于对感兴趣的目标群体进行预测。在目标化优化中,必须存在一个与 CS 中基因型不同的测试集,这在处理历史数据时很常见。目标群体包含这个独立测试集,但如果对 RS 中基因型值的预测也感兴趣,则目标群体也可以包含 RS 中的基因型。随后,可将目标群体的基因型信息作为优化算法的输入,从而得到专门为其定制的训练集。相反,在非目标化 TRS 优化情境中,并不存在独立测试集,这在对新田间试验进行选择性表型测定时较为常见。在该情境下,目标群体由 CS 中所有其基因型值特别受关注的基因型组成。目标群体通常等同于 RS,但也可以是整个 CS。TRS 数据可能有两种类型:历史数据和来自新田间试验的数据。当两种数据源均可用时,可将相应的 TRS 合并以最大化模型性能。值得注意的是,被标注为“目标化”的步骤要求具备测试集的基因型信息。在流程中也可能出现群体重叠的情况——若剩余集合的 GEBV 构成预测目标,例如 RS 本身就构成测试集的一部分。TRS,训练集;CS,候选集;RS,剩余集;TS,测试/目标集;E,环境;G,基因型。

    群体结构与育种群体的遗传关系

    在实际育种情境中,GP 的一个陷阱是:如果不针对任何特定的育种群体(BS),就难以在长期内建立一个可靠且有效的训练集合(TRS)。因此,凡是使用 GP 模型辅助选择的每个阶段,育种项目都必须更新并优化 TRS(见“训练群体优化”)。原因在于,训练群体与育种群体之间的遗传亲缘、群体结构以及连锁不平衡(LD)范围对预测准确性影响巨大。因此,构建一个面向待选候选体的 TRS 是 GP 中最关键的步骤(Akdemir 等,2015;Lorenz 与 Smith,2015;Akdemir 与 Isidro-Sánchez,2019)。将遗传上不相关的个体加入训练群体会对 GP 模型产生不利影响,已被多项研究证明会降低 rMG(Habier 等,2010;Clark 等,2012;Lorenz 与 Smith,2015;Alemu 等,2023)。例如,Riedelsheimer 等(2013)报告,当训练与育种群体由同家系的全同胞双单倍体(DH)玉米系变为异家系的半同胞 DH 系时,预测准确性大幅下降了 42%。

    由于奠基者效应和选择过程,某一特定群体相较于其他群体会呈现不同的等位基因频率,从而形成群体结构(Isidro 等,2015;Norman 等,2018)。这种等位基因频率差异常常使表型表现与标记产生关联,而不论这些标记是否真正与致因 QTL 连锁;若在 GP 的统计机器学习模型中未得到恰当校正,就会对 rMG 造成偏差(Windhausen 等,2012;Wray 等,2013;Albrecht 等,2014;Guo 等,2014)。在 GP 中,群体结构既可能出现在 TRS 内部,也可能存在于 TRS 与 BS 之间,两者都会影响预测模型。研究表明,无论自花授粉作物还是异花授粉作物,群体结构都会对 rMG 产生不利影响(Windhausen 等,2012;Riedelsheimer 等,2013;Hickey 等,2014;Isidro 等,2015;Würschum 等,2017;Werner 等,2020)。然而,de Los Campos 等(2015)认为,自然和人工育种群体总会因等位基因频率与 LD 模式的差异而呈现不同程度的分层,这更像是一种修饰作用而非混杂作用。Daetwyler 等(2012)指出,关键在于校正虚假的群体结构(如由群体混合引起的),同时又不影响个体间的相关性。尽管如此,多个研究在统计分析中将群体结构纳入考虑后,仍观察到 GP 准确性显著下降(Guo 等,2014;Norman 等,2018;Werner 等,2020;Callister 等,2022)。为在 GP 中处理群体结构,已有多种策略被提出。在 TRS 优化与表型测定阶段混合来自不同群体的个体,是连接不同群体的一种方式(Esfandyari 等,2015;Rio 等,2019)。另一种方法是利用依据育种来源、系谱或分子标记划分的亚群体的平均表现来校正群体结构(Albrecht 等,2011;Windhausen 等,2012;Guo 等,2014)。还有一种做法是将基于基因组关系矩阵得到的主成分和群体混合系数作为协变量,以固定效应的形式纳入 GP 混合模型(Daetwyler 等,2012;Crossa 等,2016b;Edriss 等,2017)。不过,该方法存在局限,例如不能处理不同亚群体间标记效应的差异(Lehermeier 等,2015),以及对群体结构“重复计数”的问题(Janss 等,2012)。为克服这些问题,研究者提出了多种改进方案,如对基因组最佳线性无偏预测(G-BLUP)进行重新参数化,以及通过改造多性状模型来刻画不同群体个体间的遗传协方差(Janss 等,2012;Guo 等,2014;Lehermeier 等,2015)。

    遗传多样性

    TRS 的遗传多样性是 GP 的另一项主要影响因素(Habier 等,2007;Lorenzana 与 Bernardo,2009;Norman 等,2018;Berro 等,2019)。纳入具有多样遗传背景的个体有助于捕获影响目标性状的全部遗传变异谱系。这种多样性可确保预测模型更准确地刻画遗传效应,并在广泛的遗传背景下做出可靠预测。为尽可能捕获更多贡献的 QTL,TRS 应覆盖目标性状的广泛等位基因变异(Norman 等,2018)。然而,TRS 的构建必须以 BS 为目标;因为若通过加入与 BS 在遗传上距离较远的个体来提高多样性,会对 GP 模型的准确性产生负面影响(Crossa 等,2014;Akdemir 与 Isidro-Sánchez,2019;Berro 等,2019)。

    训练群体优化

    在实际育种情境中,GP 的效率高度依赖于候选个体遗传育种值的 rMG​。大量研究表明,配置最优的 TRS 对确定预测准确性至关重要(Lorenzana 与 Bernardo,2009;Riedelsheimer 等,2012;Isidro 等,2015;Akdemir 与 Isidro-Sánchez,2019;Berro 等,2019;Ou 与 Liao,2019;Isidro y Sánchez 与 Akdemir,2021;Fernández-González 等,2023)。构建不当的 TRS 会显著降低预测准确性,而优化后的 TRS 则能显著提升准确性(见 Isidro y Sánchez 与 Akdemir,2021)。TRS 优化的目标是在尽量缩小 TRS 规模以降低表型测定成本的同时,最大化对测试或目标集合(TS)的预测准确性(图 3A)(Crossa 等,2017)。

    在植物育种项目中,TRS 的优化至关重要,主要有三点原因。首先,预测依赖于由 TRS 决定的标记效应或品系效应,因此需要精心筛选 TRS,以提升 GS 的效率与效能。其次,高昂的表型测定成本推动了寻找创新方案以降低支出(Isidro y Sánchez 与 Akdemir,2021)。育种项目可以将资源更有效地配置在一个更小但具代表性的 TRS 上。这不仅降低表型测定开支,还提升用于 GP 模型的数据质量。由此,育种项目可以将投入转向复杂性状的先进工具,或增加特定性状的测定次数,这种做法称为稀疏或选择性表型测定。第三,依赖随机抽样的传统 TRS 方法并不总能提升预测能力,因为关键遗传信息可能被低度代表或过度代表。因此,优化的目的在于简化稀疏表型测定流程,在控制表型测定成本的同时,保持或提升预测模型的准确性。

    TRS 优化有两个关键方面:(1)TRS 是一个动态群体,必须随着育种周期进行更新(Lorenz 与 Smith,2015;Pszczola 与 Calus,2016;Akdemir 与 Isidro-Sánchez,2019);(2)在构建 TRS 时需要将测试集纳入考虑(Akdemir 与 Isidro-Sánchez,2019;Isidro y Sánchez 与 Akdemir,2021;Fernández-González 等,2023)。

    在此,我们回顾育种项目中可用的各类群体及其在 TRS 优化过程中的作用、所采用的方法学,以及对 GP 准确性与效率的广泛影响。我们从更广泛的育种格局出发,提供关于 TRS 优化的观点。我们不对每一种算法或方法及其利弊进行详尽展开,这些内容可在其他资料中找到,例如 Isidro y Sánchez 与 Akdemir(2021)。不过,关于 TRS 优化的关键已开发算法的概要见补充表 4。

    参与优化的育种群体类型

    在 GS 辅助育种中,不同育种群体集合的分类与利用对于精简预测流程、最大化育种管线效率至关重要。每一类集合都扮演着独特角色,其构成会显著影响 GP 的准确性与有效性。各育种群体集合的概念、用途及其相互关系概述如下。
    (1)候选集合(CS):育种者可用的基因型集合。优化目标是从 CS 中筛选出用于构建 TRS 的最优子集(图 3B)。
    (2)剩余集合(RS):包含 CS 中未被选入 TRS 的基因型。若配有表型数据,RS 有助于增强模型性能评估。
    (3)训练/校准集合(TRS):构建 GP 方程的基础,包含基因型与表型数据。目标是在使用尽可能少的表型与基因型信息的前提下,最大化对 TS 的预测准确性。
    (4)测试/目标集合(TS):待预测的一组基因型。其通常仅包含用于预测其 GEBV 的基因型信息。然而,基因型信息在 TRS 优化阶段可能来得及,也可能来不及获得。

    优化

    训练参考集(TRS)通常由新的田间试验数据构建。然而,它也可以由旧的历史数据进行补充,并且可在这两类数据源上开展优化(图3C)。

    (1)历史数据:利用包含完整历史数据、同时具备基因型与表型信息的候选集(CS),可在规模与多样性方面充实 TRS,这是 GS 的一大优势(Pszczola 等,2012;Rincent 等,2012;Isidro y Sánchez 和 Akdemir,2021;Fernández-González 等,2024)。增加样本量有助于捕获更多等位基因效应,提高 GP 模型的稳健性与准确性(Akdemir 和 Isidro-Sánchez,2019;Isidro y Sánchez 和 Akdemir,2021;Fernández-González 等,2024)。然而,这种纳入可能会降低 TRS 与测试集(TS)的相似性,从而不利于预测准确度(Lorenz 和 Smith,2015),因此需要进行优化。

    (2)新田间试验:当 CS 仅提供基因型数据而田间试验有限、无法实现完整表型测定时,建议采用稀疏测试策略(Crespo-Herrera 等,2021;Montesinos-López 等,2023a;Melchinger 等,2023)。在此情境下,可按如下思路制定最优试验设计:(1)从 CS 中确定进入田间试验的子集,从而形成 TRS(TRS 优化);(2)对多环境试验,确定 TRS 基因型在各试验点的最优分布;(3)界定田间内部最有效的基因型空间分布(哪个基因型安排在何处的小区)。步骤(2)与(3)构成有序优化,重点在于基因型的战略性最优空间布局。

    根据测试集(TS)是否提供基因型信息(图3B),TRS 优化可分为定向与非定向两类。定向优化利用 TS 的基因型信息来构建 TRS,通常优于非定向方法(Akdemir 和 Isidro-Sánchez,2019;Isidro y Sánchez 和 Akdemir,2021;Fernández-González 等,2023)。即便在缺乏 TS 基因型信息的情况下,只要有将候选集(CS)与 TS 关联起来的详细系谱,也仍可开展定向优化。然而,该方向的研究仍较为缺乏。无序优化关注于从 CS 中遴选子集,而有序优化则强调在田间对基因型进行空间分布设计。后者可能会利用与区组结构、空间影响及环境变量相关的数据(Akdemir 等,2021)。

    按信息可用性分类

    定向(targeted)优化:如果能获取测试集(TS)的基因型信息,就用这些信息来构建训练参考集(TRS);通常比非定向方法效果更好。
    非定向(untargeted)优化:在没有 TS 基因型信息的情况下进行优化。

    特殊情况

    即便缺少 TS 的基因型信息,只要有能把候选集(CS)与 TS 关联起来的详细系谱,仍可进行定向优化。但目前对此的研究较少。

    按空间安排分类

    无序优化(unordered):核心是从 CS 中挑选一个最佳子集作为 TRS。
    有序优化(ordered):在田间试验中优化基因型的空间分布(如哪个基因型放在哪块小区/地点)。可利用与区组结构、空间效应、环境变量相关的数据来提升设计质量。

    训练群体优化算法

    为在 GP 中选择和优化 TRS,已有多种试验设计准则被提出。由于简单易行,经典的标准随机抽样或分层抽样方法被广泛采用。尽管如此,采用其他优化准则也已实现对 GP 准确度的提升,这些准则可划分为参数式、非参数式以及多重设计准则。许多既有准则主要作为 TRS 的评估指标,需配合合适的启发式算法以实现其最大化或最小化。为此已开发出众多 R 程序包,通常基于遗传算法提供合适的启发式方法。例如,STPGA(Akdemir,2017)、TSDFGS(Ou 和 Liao,2019)与 odw(Butler 等,2013)均已推出,但仅限于内置准则;相比之下,TrainSel(Akdemir 等,2021)同时支持内置与用户自定义准则。

    非参数设计准则

    此类方法不假设任何预先设定的底层模型,而是通常围绕距离或相似度度量展开,意在使 TRS 在设计空间中均匀分布,这被称为“充填式(space-filling)设计”。这类设计尤其有助于在候选集中筛选出一个精炼集合,并降低与参数化设计准则优化相关的计算复杂度。多种度量可用于评估点在该设计空间中的分布。例如,基于中心元(medoids)划分(partition around medoids)的方法,依靠特定距离度量在聚类内识别一系列中心实体(Guo 等,2019)。总体而言,数据挖掘中用于代表性子集选择的方法可迁移用于训练集设计,从而带来许多可能性。已经提出了大量指标用于最小化 TRS 内的遗传相关性(即最大化多样性)和/或最大化其与 TS 的相关性,例如 maximin 与 minimax(Johnson 等,1990)、Avg_GRM(Atanda 等,2021a)、OPT_MIN(Lemeunier 等,2022)、Avg_GRM self,以及 Avg_GRM_MinMax(Fernández-González 等,2023)。拉丁超立方抽样(Helton 和 Davis,2003)通过将设计空间分割为等体积的立方体来实现;其目标是在每个立方体中放置一个样本点,并进一步依据给定的概率分布全面探索每个标量输入的取值范围。Tails 与 Tails_GEBVs 方法则为 TRS 选择具有极端表型或极端 GEBVs 的基因型,并舍弃其余个体(Neyhart 等,2017;Fernández-González 等,2024)。对抗式选择尝试使二分类器无法区分 TRS 与 TS,即最大化二者的相似性(Montesinos-López 和 Montesinos-López,2023)。

    该方法通过将不同准则以某种平均方式合并为单一准则来处理选择问题,例如采用帕累托前沿(Pareto front)方法(Akdemir 等,2015;Isidro y Sánchez 和 Akdemir,2021)。它擅长同时评估多个准则并界定一组非支配设计。该方法已被有效用于优化历史数据的整合,在工业育种项目的大规模实证数据集中,实现了对 TRS 多样性、其与 TS 的关联性以及试验遗传力之间的平衡(Isidro y Sánchez 和 Akdemir,2021;Fernández-González 等,2024)。

    关键算法总结

    可在补充表 4 中找到对 TRS 优化方法与算法的详细比较与拆解。然而,可用方法数量庞大,因而很难选择单一且有效的方法。近期关于 TRS 优化的研究为合理方法的选择提供了宝贵见解。Fernández-González 等(2023)在多种数据集与遗传结构上对这些优化方法进行了比较。基于其结果以及其他研究者的发现,我们为 TRS 优化各个领域中的关键算法提供了精要总结。此外,在补充文件 1 的注释 1 中给出了关于 CDmean 与 Avg_GRM_self 实施的深入、系统示例,并在补充文件 2 中提供了一个 R 脚本,展示在真实的 TRS 优化场景中实现两种算法的示例。尽管如此,需要强调的是,并不存在在所有方面都最优的单一算法,补充表 4 中的一些方法可能更适用于特定的细分应用场景。

    在此,我们提出通用且高效的方法建议,作为新优化项目的优先备选方案。

    (1)TRS 规模优化:主要针对包含历史数据的情形,出现了两种主要算法:

    目标准确度方法:旨在预测 GP 的准确度并在不造成显著准确度损失的情况下识别最小 TRS 规模(Fernández-González 等,2023;Wu 等,2023)。根据我们的经验,Avg_GRM_self 因其计算速度快而是在该应用中最优的选择。需要强调的是,预算限制至关重要,但通常情况下,纳入整个候选群体的 50%–85% 可将准确度下降控制在 5% 以下。
    最优解方法:通过识别局部最大值或拐点来寻求最优的 TRS 规模。例如,Avg_GRM_MinMax(Fernández-González 等,2023)和 Min_GRM(Fernández-González 等,2024)。

    (2)优化 TRS 构成:这是一个研究广泛的领域。研究结果表明,定向优化通常优于非定向方法,其中 CDmean 效率很高,但计算开销较大。在存在强群体结构的情况下,保持 TRS 多样性尤为重要。因此,建议对小型数据集使用 CDmean,而对大型数据集则适合使用快速的 Avg_GRM_self(非定向)或 Avg_GRM_MinMax(定向)。

    (3)同时优化规模与构成:当利用历史数据且训练集规模不受田间资源所限定时,这种做法是有益的;但在优化新的田间试验时,可能因难以使最优 TRS 规模与实际田间资源相匹配而降低算法的通用性。MaxCD(Guo 等,2019)最初用于杂交育种中的 TRS 设计,但我们认为其优化 TRS 规模的能力也可用于历史数据的优化。该角色也可由其他方法承担,例如对抗式选择(Montesinos-Lopez 等,2023a,2023b)或多目标优化(Akdemir 等,2021;Fernández-González 等,2024),这些方法并不限于杂交材料。

    (4)空间分布/有序优化:与新的田间试验密切相关;当结合环境或空间数据时,此类优化的计算开销较大。为此目的已开发了两个值得关注的 R 包算法:“odw”(Butler 等,2013)和 “TrainSel”(Akdemir 等,2021)。对于该应用,A-opt 和 CDmean 等参数化准则是最适合的做法。

    标记的密度与分布及连锁不平衡

    在染色体上增加分布广泛的 SNP 标记密度有助于准确捕获大多数贡献性的 QTL,最终提升 rMG。构建最优 GP 所需的 SNP 标记数量取决于基因组大小、连锁不平衡(LD)的范围,以及目标性状的复杂性。对于具有大型基因组、低 LD、且由多个 QTL 控制的复杂性状(如产量)的作物,相对需要在染色体上更高密度、分布更均匀的 SNP 标记。相反,对于由较少基因控制且遗传力高、LD 水平高的性状,为达到可能的最大 rMG,所需的 SNP 标记密度相对较低。此外,与自交作物(如水稻)相比,异交作物(如玉米)的 LD 衰减更快(Flint-Garcia 等,2003;Kaler 等,2022),因此需要更高密度的 SNP 标记分布以实现最优 rMG。总体而言,SNP 标记的最优密度与分布依赖于目标性状中贡献最大的 QTL 是否与纳入预测模型的 DNA 标记处于 LD 状态(Hayes 和 Goddard,2001;Kaler 等,2022)。群体的 LD 模式尤其有助于使用具有成本效益的低密度 SNP 标记来构建 GP 模型(Bolormaa 等,2015;Wu 等,2016;Silva 等,2018;Ballesta 等,2020)。

    在 GP 中优化标记密度可能是有益的,因为在大型标记数据集中,大多数 SNP 在表型上是中性的,只有相对较小的一部分 SNP 与特定性状相关(Bermingham 等,2015;Al Kalaldeh 等,2019;Weber 等,2023)。为特定性状选择最优的标记子集一直是提升 GP 准确度的有前景方法(Bermingham 等,2015;van den Berg 等,2016;Filho 等,2019;Alemu 等,2023;Weber 等,2023)。一种标记子集选择的方法是基于既往的关联定位研究。研究发现,当将 GWAS 鉴定的显著标记作为固定效应纳入模型(Kim 等,2022;Anilkumar 等,2023;Chen 等,2023)、仅使用显著性最高的前 100–10 000 个标记作为预测因子(Bermingham 等,2015;Filho 等,2019),或纳入显著标记周围的标记(van den Berg 等,2016;Filho 等,2019)时,GP 准确度都有所提升。另一种优化思路是在预测模型中基于标记的 LD 应用单倍型块(Alemu 等,2023;Weber 等,2023)。与基于单个 SNP 标记相比,基于单倍型块的预测能够更高效地捕获局部上位性,并更好地刻画与 QTL 的 LD,从而提升 GP 准确度(Weber 等,2023)。标记面板的选择会显著影响性状关联,且多项研究已表明标记密度对 GP 准确度的影响(Zhang 等,2017a,2019;Liu 等,2018;Norman 等,2018)。

    性状的遗传结构与遗传力

    大多数具有经济重要性的作物性状(如产量)是多基因控制的,具有复杂的遗传结构,涉及多个 QTL 或基因,这些基因对表型的影响程度各不相同。与传统的 MAS 方法相比,GP 的一大优势在于能够通过考虑大量小效应 QTL,高效评估这类遗传上复杂的多基因性状的基因型。一般而言,遗传复杂性和遗传力()与控制某一性状的 QTL 数量及其相互作用直接相关。通常由少数大效应 QTL 控制的性状,其遗传力高于由多个不同基因型效应水平的基因共同控制的性状。GP 会受到性状复杂性、遗传结构和遗传力的影响。对于低 h² 的性状,应通过增加 TRS 规模(N)来补偿,以达到最佳的 GP 准确度,因为 Nh2 决定了 GP 模型的统计效能(Bernardo,2016)。此外,当上位性相互作用在某性状的真实遗传结构中占主要或部分贡献时,能够建模上位性相互作用的机器学习模型有望提高预测准确度(De Los Campos 等,2010;Wang 等,2012;Morgante 等,2018)。多项实证研究与模拟研究已表明,随着 QTL 数量的减少和性状遗传力的提高, rMG 通常会增加(Hayes 等,2009;Lorenzana 和 Bernardo,2009;Zhong 等,2009;Jannink 等,2010;Combs 和 Bernardo,2013;Zhang 等,2017a;Jung 等,2020)。

    精准表型鉴定

    从 TRS 记录的表型数据用于将基因组特征与表型相连接,使 GP 模型能够评估并为各个 SNP 标记赋予权重。随后,这些标记可仅基于基因组信息用于评估 BS 中的个体,从而为育种项目中的选择与决策提供支持。将高密度 SNP 标记与在合适的统计与机器学习模型中进行的精准表型鉴定相结合,能够将作物基因组与表型组相联系,进而构建出具有高预测准确度的 GP 模型。传统植物表型鉴定方法的效率限制被认为是成功连接基因型与表型信息之间桥梁的瓶颈(Araus 和 Cairns,2014;Araus 等,2018)。因此,高通量表型鉴定(HTP)与高通量田间表型鉴定(HTFP)等先进技术因其有望为多种作物的主要与次要性状提供全面且精确的表型数据而受到高度关注(Cabrera-Bosquet 等,2012;Araus 和 Cairns,2014;Zhang 等,2017b;Araus 等,2018;Moreira 等,2020)。HTP 与 HTFP 统称为高通量表型鉴定平台(HTPP)。HTPP 使研究者能够以极低成本筛选海量个体植株。HTPP 的目标是通过遥感或近距离传感,以低成本在时间与空间上对大量个体或品系生成高密度表型数据。这既可提高选择的准确性与强度,从而提升选择响应,同时降低表型鉴定成本。HTPP 的核心思想是利用与粒重、抗病性或终端利用品质相关的预测性状,在早代材料测试中发挥优势(Rutkoski 等,2016)。既往研究已表明 HTPP 方法在提升多种性状 GP 准确度方面的潜力(Crain 等,2018;Juliana 等,2019a;Galán 等,2020;Wang 等,2023b)。

    整合其他组学数据

    GP 依赖于根据个体的基因组特征来估计其表型表现。然而,基因组特征必须先被转录为 RNA(tRNA、sRNA、mRNA),再翻译为蛋白质,最终才表达为表型(Cobb,2017)。这些结果分别来自转录组学和蛋白质组学研究。将这些中间表型数据(即转录组学、蛋白质组学和代谢组学)与基因组数据整合,已显示出提升 GP 准确度的潜力(Hu 等,2019;Li 等,2019;Haile 等,2020;Martini 等,2022;Wang 等,2023a,2023b)。多组学驱动的 GP 已成功应用于多种作物,并提高了预测准确度,如玉米(Guo 等,2016;Zenke-Philippi 等,2016;Westhues 等,2017;Xu 等,2017;Schrag 等,2018)、小麦(Zhao 等,2015)、燕麦(Hu 等,2021)、大麦(Wu 等,2022)、水稻(Hu 等,2019;Wang 等,2019)以及油菜(Knoch 等,2021)。

    Schrag 等(2018)报告称,将信使 RNA(mRNA)与系谱和基因组数据集结合,可有益提升rMG,从而用于估计未经测定的玉米杂交种在农艺性状上的育种值。Hu 等(2019)指出,通过在单个模型中整合转录组、代谢组与基因组特征的多层 LASSO(最小绝对收缩与选择算子)模型,可提升未经测定的水稻 RILs 在四个产量及产量相关性状上的 rMG。将转录组与代谢组特征一并纳入基因组数据集,也提高了燕麦在多环境试验中若干农艺与籽粒营养性状的 rMG(Hu 等,2021)。近来,已开发出先进的统计与机器学习算法,以高效计算将多组学中间层信息纳入并赋能 GP 模型(Hu 等,2021;Wang 等,2023a,2023b)。尽管如此,在 GP 研究中应用植物的组学特征时,应谨慎考虑模型过拟合以及伴随这些中间层的时空特征(Yan 和 Wang,2023)。

    统计学机器学习方法

    统计方法在 GP 中发挥核心作用,因为 DNA 标记效应是通过对 TRS 中提供的基因型与表型数据之间的数学关系进行建模来估计的。随后,对评估过的标记根据其表型效应赋予特定权重,从而可以估计 BS 中候选个体的基因组育种值。因此,GP 是一种统计机器学习方法,旨在利用 TRS 的数据对模型进行训练、开发与性能分析(Tong 和 Nikoloski,2021;Montesinos López 等,2022a,2022b,2023)。Meuwissen 等(2001)通过模拟约 50,000 个标记单倍型的效应,并采用经修改的线性最小二乘回归、BLUP,以及两种贝叶斯统计方法(BayesA 和 BayesB)进行研究。

    在过去 20 年里,已有多种统计机器学习方法被提出用于 GP(图 4)。由于多数用于动植物育种的基因组学数据集旨在从成千上万甚至数百万个 SNP 标记(作为输入或预测变量,p)中寻找与响应变量(输出)的关系,训练这些模型的框架通常面临输入远多于观测(观测数为 n)的情形,即 p ≫ n,这构成了重大挑战。此现象促使各类惩罚(正则化)方法的出现(Meuwissen 等,2001;De Los Campos 等,2013)。因此,为了在“大 p、小 n”的回归设定下估计全基因组范围的 SNP 标记效应,人们应用了不同的正则化机制,进而催生了众多统计机器学习方法(Montesinos López 等,2022a,2022b)。这些统计机器学习算法表现各异,其适用性与性能取决于能否应对源自全基因组 SNP 标记的多维性与多因子性状的遗传复杂性等多种因素(De Los Campos 等,2010)。因此,没有任何一种统计机器学习模型能够被单独认定为优于其他算法、并能提供最高的 GP 准确度;这一点已被大量实证与模拟研究所证实,并得到“无免费午餐”定理的理论支持(Azodi 等,2019;Montesinos López 等,2022a,2022b)。这些统计模型可归类为参数型、半参数型与非参数型模型(Montesinos López 等,2022a,2022b)。

    图4 当前用于基因组预测的统计机器学习模型清单

    在 GP 模型的背景下,一个经典示例是:对环境效应采用线性成分、而对基因型效应采用非线性成分(如高斯核或其他类型核函数)的贝叶斯模型或混合模型(Montesinos López 等,2022a,2022b)。本质上,半参数模型体现了参数与非参数建模技术的结合。当前可用并被归入上述三类的多数统计机器学习模型列示于图 4。

    基因型 × 环境互作建模

    在涉及多环境的研究中,遗传关联与预测模型通常基于跨环境汇总的表型数据构建,或为每个环境分别建立模型。另一种处理多环境的方法是使用环境指数,例如可以根据温度和光周期等环境条件构建(Guo 等,2020a,2020b,2020c,2020d)。此前,积温(Growing Degree Days)被提出作为一种有前景的环境指数,用于刻画水稻开花时间的表型可塑性(Guo 等,2020a)。Li 等(2021)提出,经过精心构建的环境指数可以替代传统测量获得的表型均值,既能对观测到的表型建模,也能预测新环境中的表型表现;他们在小麦与燕麦田间试验中针对三种性状验证了这一假设。类似地,在高粱中,快速生长期内的昼夜温差被证明是一种有效的环境指数(Mu 等,2022)。综合来看,这些研究强调了在 G×E 互作下研究表型可塑性的重要性,并倡导探索派生的环境指数来对未测试环境中的表型进行建模与预测。

    反应规范模型

    用于评估 G×E 的多环境试验在植物育种中具有重要作用,可用于在不同环境中选择高产且稳定的品系。例如,在 G-BLUP 框架下考虑环境间相关结构的多环境线性混合模型,在利用系谱与分子标记预测未观测表型的表现时提升了准确性(Zhang 等,2015)。Burgueño 等(2012)提出并有效应用了用于评估 G×E 的标记与系谱 G-BLUP 模型;Heslot 等(2014)将作物建模数据纳入基因组层面的 G×E 预测。Jarquín 等(2014)提出了反应规范模型,这是 G-BLUP 模型的扩展,其中通过标记与环境协变量的高维随机方差-协方差结构引入标记与环境协变量的主效应和互作效应。该模型已成功用于基于系谱与基因组关系的 GP 育种值预测(Pérez-Rodríguez 等,2015;Velu 等,2018)。

    这里,表型(𝑦_𝑖⁢𝑗)的基线模型可描述为

    其中,𝜇 为总体均值,𝐸_𝑖(i = 1,…,I)为第 i 个环境的随机效应,𝐿_𝑗(j = 1,…,J)为第 j 个品系的随机效应,𝐸⁢𝐿_{𝑖⁢𝑗} 为第 i 个环境与第 j 个品系的互作效应,𝑒𝑖⁢𝑗 为随机误差项。假设如下:𝐸𝑖 iid ∼ 𝑁(0, 𝜎²𝐸),𝐿𝑗 iid ∼ 𝑁(0, 𝜎²𝐿),𝐸⁢𝐿𝑖⁢𝑗 iid ∼ 𝑁(0, 𝜎²𝐸⁢𝐿),以及 𝑒𝑖⁢𝑗 iid ∼ 𝑁(0, 𝜎²𝑒),其中 N(.,.) 表示正态分布密度,iid 表示独立同分布。可在方程 3 中引入标记,使品系效应(𝐿𝑗)由基于标记协变量回归定义的 𝑔𝑗 所替代(它近似为第 j 个品系的遗传值)。包含基因组值的向量为 𝑔 ∼ 𝑁(0, 𝑮 𝜎²𝑔),其中 𝜎²𝑔 为基因组方差,𝑮 为基因组关系矩阵(Vanraden,2008)。此外,品系效应(𝐿𝑗)也可由 𝑎𝑗 替代,且 𝒂 ∼ 𝑁(0, 𝑨 𝜎²𝑎),其中 𝑨 为由系谱推导得到的加性关系矩阵,𝜎²𝑎 为加性方差。

    标记 × 环境互作模型

    Lopez-Cruz 等(2015)提出的标记 × 环境(M×E)互作模型将标记效应分解为跨环境共享的成分(稳定性)和特定环境的偏离(互作)。该模型在允许标记效应随环境变化的同时,能够在不同环境之间借力信息。此方法既可用收缩法也可用变量选择法实现,因此可用于识别跨环境具有稳定效应的基因组区域,以及导致 G×E 的区域。但需要注意的是,M×E 模型最适用于对正相关环境进行联合分析(Lopez-Cruz 等,2015)。Crossa 等(2016a)成功应用 M×E 基因组预测模型来预测未测试个体,并剖析了跨环境具有稳定效应以及具有环境特异效应的基因组区域。

    在不同育种阶段实施全基因组预测

    GP 在作物育种中有多种用途。其一是在前育种阶段:要么基于基因库中材料的 GEBV 搜索目标材料(Crossa 等,2016b;Dzievit 等,2021;Bohra 等,2022;El Hanafi 等,2023),要么识别用于进一步杂交的优势亲本(Gaynor 等,2017;Chung 和 Liao,2022)。GP 为从基因库中选择有潜力的种质提供了一种具成本效益的方法(Yu 等,2016),从而提升这些种质在植物育种中的利用率——尤其是那些缺乏系谱信息和性状评价数据的材料(Jiang 等,2021)。它还可加速将外来种质导入优势育种群体(Crossa 等,2016b),这一点已在近期的小麦改良中得到体现(Schulthess 等,2022)。GP 还可通过在早期阶段选择有前景的种质来提高遗传增益(Kadam 等,2016;Rembe 等,2022),或将其纳入基因组循环选择(GRS)策略(Bassi 等,2016;Biswas 等,2023),以及加速品种选育流程(Ballén-Taborda 等,2022)。GRS 促进了育种计划中亲本的循环利用。然而,GP 在上述各育种阶段的成功主要取决于性状的遗传结构及其遗传力。

    植物育种面临的一大挑战是跨地点、跨年份或种植季节预测品种表现。GP 可能有助于评估目标环境群体中目标产量或品质性状的稳健性。这种方法通过在早期阶段淘汰平庸的育种系,从而节省时间与资源,提升多环境测试的效率及其在品种选育流程中的进一步应用。在这方面,正如 Atanda 等(2021b)所示,利用 GP 的稀疏测试也是一种有价值的方法,能够在不增加成本的情况下扩大试验环境数量,同时保持早期评价阶段的选择强度。Montesinos-López 等(2023b)表明,采用稀疏测试方法可以在不显著增加所需资源的前提下,显著提高待评估新品系的数量。作者证明:在常规区组设计下仅能评估 225 个品系的条件下,若采用以 85%、75% 和 50% 作为训练集的稀疏测试设计,评估品系数可分别提高至 269、308 和 475,对应地增加了 19.56%、36.89% 和 111.11%。

    GP 还被广泛用于预测杂种优势,涵盖高亲本优势和中亲本优势,适用于多种作物,包括玉米(Albrecht 等,2011,2014;Riedelsheimer 等,2013;Beyene 等,2015,2019;Cantelmo 等,2017;Zhang 等,2022)、水稻(Xu 等,2014,2018;Huang 等,2015;Cui 等,2020)、大麦(Philipp 等,2016;Li 等,2017)、小麦(Basnet 等,2019;Zhao 等,2021)、高粱(Sapkota 等,2022;Kent 等,2023;Maulana 等,2023)、黑麦草(Grinberg 等,2016)和南瓜(Wu 等,2019)。值得注意的是,GP 的预测范围不仅限于传统性状,如产量及其组分(Grinberg 等,2016;He 等,2016;Philipp 等,2016;Wu 等,2019),还扩展到更广泛的特性,例如生物和非生物胁迫耐受性(Lorenz 等,2012;Arojju 等,2018)、养分利用效率(Zhao 等,2020),以及多种微量营养素的作物生物强化(Velu 等,2016;Mageto 等,2020;Rakotondramanana 等,2022;Tadesse 等,2023)。

    成就

    在育种中应用 GS 的任务,是以低于常规育种方法的成本与时间来提升年度遗传增益。给定个体的真实育种值向量 𝐚′ = [𝑎1 𝑎2 … 𝑎𝑡],以及 t 个性状的经济权重向量 𝐰′ = [𝑤1 𝑤2 … 𝑤𝑡],其综合遗传经济值为 H = 𝐰′𝐚′。多性状遗传增益的响应可写为 H = (𝑘⁢𝜎H⁢𝜌{H,I})/𝐿,其中 𝑘 为选择强度(标准化选择差),𝜎H 为 H 的标准差,𝜌{H,I} 为 H 与任一表型或基因组指数 I 的相关性,𝐿 为 I 完成一个选择周期所需的时间(在标准育种程序中通常为数年)。选择响应是育种中最重要的方程,增加分子或减小分母的因素都会提高目标性状的总体遗传增益。模拟与实证结果显示,GS 可通过缩短育种周期间隔(L)(快速选择循环),或通过实施稀疏田间评估以提高测试效率,从而增加遗传增益(Tessema 等,2020;Xu 等,2020;Atanda 等,2022;Dreisigacker 等,2023)。为实现更短的周期间隔(I),GS 的最佳情形是全同胞家系内的预测,因为双亲群体在标记等位基因与 QTL 等位基因之间具有很高的连锁不平衡,且无系谱、家系或群体结构。因此,对双亲群体的预测准确度估计可视为在封闭的快速循环“仅标记选择”中可达到的上限。多项研究已证实 GS 在早代快速循环中的效率(Massman 等,2013;Zhang 等,2017c;Bonnett 等,2022;Dreisigacker 等,2023)。

    提供了两个示例,以阐明由 GS 促进、来自公共和私人育种项目的正在进行的实证研究。

    示例 1:非洲玉米的遗传增益

    玉米中大多数 GS 成果是通过双亲群体的快速循环实现的。例如,将 F2:3 分离群体与测验者(通常来自相反的杂种优势群)进行测交。CIMMYT 的全球玉米项目设计了一个多亲本杂交的 GS 快速循环。将 15 个热带优势玉米自交系按全互交方式配制成第 0 轮(C0),包含 1000 株植株,这些植株使用 1,000,000 个基于测序分型(GBS)的 SNP 标记进行基因分型,并在墨西哥三个地点进行表型测定。选出表型最佳的植株作为 GS 第 1 轮(C1)的亲本。将 C1 亲本互交,其后代使用与 C0 群体相同的 GBS 标记进行基因分型。对 C1 群体个体在三个环境中的籽粒产量进行全基因组预测(GP);根据预测值进行选择,形成 C2 群体的亲本。同前,将亲本互交并进行基因分型形成 C2 群体,并基于对籽粒产量的 GP 进行植株选择。随后又进行两轮 GP 与 GS。每年完成两轮;在第二年末,收集、汇总并在墨西哥三个地点(Agua Fria、Cotaxtla 和 Tlaltizapan)播种 C0、C1、C2、C3 和 C4 各周期的种子。每个地点每个基因组周期播种 50 个材料,并配以两个广泛使用的热带玉米商业杂交种作对照。平均遗传籽粒产量增益为 0.134 t ha−1,C0 的产量为 6.653 t ha−1。C1 的产量略低(6.488),而 C2、C3 和 C4 的平均产量分别为 7.022、6.879 和 7.126 t ha−1。C2 和 C4 与其余各周期差异显著(显著性差异检验水平 0.05)。来自墨西哥另外两个地点的结果仍在处理之中,这一多亲本玉米快速选择循环的完整结果尚待发表。

    此外,Beyene 等(2015)此前报道,在撒哈拉以南非洲的干旱条件下,针对八个 CIMMYT 热带玉米双亲群体,利用 GS 在籽粒产量上取得了显著遗传增益。研究表明,这八个群体中,GS 的每轮平均增益为 0.086 t ha−1,且由 C3 派生的杂交种其平均籽粒产量显著高于由 C0 派生的杂交种。然而,在相似环境条件下,利用标记辅助的循环选择(MAS)在 10 个群体中的每轮平均增益仅为 0.045 t ha−1。

    示例 2:瑞典 Lantmännen Lantbruk 的双阶段 GS 辅助育种

    示例 2:瑞典 Lantmännen Lantbruk 的双阶段 GS 辅助育种

    育种周期的持续时间可以说是对单位时间增益影响最大的单一因素(Cobb 等,2019)。单位时间的遗传增益具有根本性重要性,尤其对于育种项目保持竞争优势至关重要,同时对于尝试使新品种适应快速变化的环境也至关重要(Budhlakoti 等,2022)。在常规的自交作物(如小麦、大麦或燕麦)育种程序中,新亲本通常在高代产量试验阶段选定,导致育种周期约为 5−8 年。

    在 Lantmännen,针对自交作物的 GS 辅助育种计划被划分为两个部分:第一部分是基于 GS 的循环选择,也称为“群体改良”;第二部分是自交系选育,也称为“产品开发”,在此阶段将对选出的系进行高等级田间试验。该策略通过在早期基于基因组估计育种值选择新亲本,可显著缩短育种周期时间。模拟研究支持这一两部分策略,并显示其单位时间遗传增益显著优于常规选择以及“标准”GS(即仅在初级产量试验阶段应用 GS)(Gaynor 等,2017)。与此同时,两部分 GS 辅助育种策略也为育种项目带来了挑战。其一,对大量(可达 100,000 个)的早代个体进行高密度 SNP 标记基因分型成本较高,尤其对小型育种项目而言。其二,闭环的两部分策略(即不引入新的等位变异)会随着时间推移导致遗传多样性和预测准确度的下降,从而对长期遗传增益产生负面影响(Gaynor 等,2017)。然而,对于连锁不平衡通常在基因组上延伸更长距离的自花授粉作物,即便不进行标记插补,使用低密度标记集进行快速循环 GS 也能获得与高密度分型相近幅度的增益(A. Ceplitis,Lantmännen Lantbruk,Svalöv,瑞典,未发表数据)。此外,由于反复重组以及训练群体与育种群体之间 LD 结构逐渐分化而对预测准确度造成的负面影响,可以通过将产品开发部分的自交系作为群体改良部分的杂交亲本引入来缓解。此类改良的两部分策略能够在维持长期遗传增益的同时,随时间提升预测准确度(A. Ceplitis,Lantmännen Lantbruk,Svalöv,瑞典,未发表数据)。

    该两部分育种策略是专为自交系作物开发的。将该策略扩展到异交种群作物(如许多牧草物种),这些作物具有显著的近交衰退和快速的 LD 衰减特征,当前仍是活跃的研究领域。针对这类作物的模拟研究初步结果表明,在累计遗传增益方面,两部分 GS 策略优于常规表型选择和其他替代 GS 方案,尤其当预测模型包含显性效应时(A. Ceplitis,Lantmännen Lantbruk,Svalöv,瑞典,未发表数据)。

    展望

    在本综述中,我们深入探讨了 GP 方法论的基本构件,并梳理了其二十多年间的演进,展示了其对植物育种的变革性影响。我们阐明了该方法如何在各个育种阶段发挥关键作用,帮助选择用于进一步杂交的优良候选个体,同时在许多连续育种世代中尽量减少甚至消除对大量表型测定的需求。本综述全面强调了 GP 在提升作物遗传改良方面的变革性作用,尤其是在异交育种中的革命性意义。高通量基因组技术的应用使得对整个作物基因组进行全面分析成为可能,从而有助于识别与目标性状相关的潜在优良育种种质,用于后续选择。通过利用大规模的基因组与表型数据集,GS 方法能够预测特定性状的育种值,从而避免繁琐且资源密集的田间试验。这一精简流程加速了育种进程,便于筛选具有理想性状(如提高产量、抗病虫害、适应快速变化的环境等)的优良种质,而这些环境变化常因全球变暖的持续而加剧。

    GP 的关键优势在于其有能力揭示性状的复杂遗传结构。与高度依赖同时受遗传与环境因素影响的表型观察的杂交育种方法相比,GP 直接深入植物的遗传构成,更精准且可靠地评估其潜在表现。这不仅简化了有利等位基因的识别,也使育种者能够在目标性状中同时考虑基因互作与环境影响,从而培育出更稳健、更具抗逆性的作物种质。在这一改良种质库的基础上,目标品种的选择与进一步推广将更具针对性且更为高效。随着基于 GP 的育种值评估不断推进,其与机器学习和人工智能的融合正成为作物遗传改良的前沿方向。海量基因组数据与先进计算模型的协同,可识别以往被忽视的细微遗传模式与互作关系。这种整体性方法为在气候变化及全球粮食与营养安全等挑战下提升作物产量、可持续性与韧性开辟了新途径。归根到底,基于 GP 的育种值评估作为一项前沿方法,正在赋能育种者作出更为明智的决策,预示着农业领域新一波的创新浪潮。

    本综述通过以小麦、玉米和马铃薯为不同繁殖系统的实例,探讨了多种因素对 GP 准确性的影响。我们强调,作为一种预测工具,GP 依赖于持续保持较高、至少是可称道的预测准确性。然而,需要指出的是,由于影响其效能的因素众多,达到此类精度并非总是可行。我们阐明了这些因素,并就如何优化它们以提升 GP 方法在实践中的应用效果提供了见解。此外,我们还论述了 GS 如何通过整合组学与环境数据来进一步提高其准确性,从而拓展其适用范围与应用场景。总之,我们的综述强调,GS 能显著提高作物育种项目单位时间的遗传增益,但要提升其效率,至关重要的是整合所有影响 GP 方法论的因素,以充分释放这一以数据驱动的开创性预测方法的潜力。

  • 玉米的预育种

    在玉米育种中,“预育种”(pre-breeding)是指在正式选育之前,将野生种质或未改良的材料与已有优良品系进行杂交、回交、初步筛选等工作,从而创造更广泛的遗传多样性,并获得具有潜在优异性状的改良材料。换言之,预育种阶段先为后续的育种核心流程提供遗传基础和创新资源,提高后期培养出高产、抗逆、优质玉米品种的成功率。

  • 预测性植物育种

    随着高通量低成本基因分型方法的问世,利用基因组信息决策得到了前所未有的发展。高通量表型分型使得表型的测量准确度得以提升,同时,增加了可测量表型的性状数量和分辨率。分析工具可以把搜集到的数据转换成知识、育种决策,并最终提高遗传增益。

    GP结合多组学方法的应用在解决具有复杂遗传结构和低遗传力的农业重要性状(如“每公顷产量”)方面具有巨大潜力。这些性状受基因型与环境互作的显著影响,传统育种方法难以实现显著的遗传增益。

    传统植物育种依赖于表型观察,通常需要多个生长季节来评估选择优势个体,并使用线性回归等基于线性关系的统计方法。全基因组预测(GP)或全基因组选择(GS)通过利用基因组信息和机器学习(ML)方法预测个体特定性状的表现,带来了育种领域的范式转变。ML方法灵活且适用于复杂数据集,无需严格假设,可加速育种过程,通过缩短评估步骤,在早期阶段即可进行选择,而无需表型数据。只要预测模型具有足够的预测准确性(PA),这一方法可显著提升单位时间内的遗传增益。研究重点包括预测在育种方案中的应用场景、训练数据的设计与更新、数据工作流及相应的统计方法选择。深度学习(DL)作为ML的一个子集,通过多层神经网络捕捉大数据中的复杂模式,适用于高复杂性数据。ML和DL在GP中的选择取决于数据特性和预测目标。

    在实施预测育种方法时,育种组织在选择统计机器学习(ML)方法时,必须同时考虑数据管理、计算能力和预测软件等资源需求。用户友好型软件的缺乏一直是育种者和科学家面临的主要挑战之一。过去十年中,针对研究人员和育种者多样化需求的各种软件包相继出现,凸显了易用且先进解决方案的重要性。常用工具如GAPIT、TASSEL和GCTA支持从数据质量控制到全基因组关联分析(GWAS)等任务。此外,Beagle和BGLR等专业软件集成了先进的统计和ML算法,用于全基因组预测(GP)。开源软件的普及确保了可访问性和协作开发,推动了植物育种领域基因组研究的动态发展。

  • Genomic prediction of the performance of hybrids and the combining abilities for line by tester trials in maize

    这篇文章的主要研究如何利用全基因组选择(Genomic Selection, GS)方法预测玉米杂交种的表现及其配合力(GCA 和 SCA)值。研究的目标包括:(1)通过不同模型预测三组“系×测验者”试验中杂交种的产量表现,并评估基因组预测能力;(2)评估 GCA 和 SCA 值的预测能力;(3)分析测验者效应对杂交种表现预测的影响,并估算不同测验者间的基因组预测能力。

    研究方法

    • 使用了两组多地点试验的表型数据,分别称为“试验 A”和“试验 B”,其中包含不同杂交组合的产量数据。
    • 采用多种基因组预测模型(如 M1、M2 和 Mck),并结合测验者的基因型数据进行预测。
    • 通过交叉验证和 Pearson 相关系数评估预测能力。
    • 使用 RR-BLUP 模型预测GCA 、SCA值,并分析这些值的预测效果。

    主要结果

    1. 杂交种表现预测
      • 在所有试验中,杂交种产量的预测能力从中等到较高(M1 模型为 0.59-0.81,M2 模型为 0.64-0.86)。
      • 将测验者的基因型数据纳入模型显著提高了预测能力,表明测验者效应对杂交种表现预测至关重要。
      • Mck 模型的预测能力较低,进一步验证了测验者基因型数据的重要性。
    2. GCA 和 SCA 值预测
      • GCA 值的预测能力较高,表明全基因组选择在估算 GCA 方面具有较大潜力。
      • SCA 值的预测能力较低,且预测值与观测值之间无显著线性相关性,表明现有模型难以准确预测非加性效应。
    3. 测验者效应
      • 测验者之间的基因组预测能力存在较大差异,基因关系较近的测验者间预测能力较高,而基因关系较远的测验者间预测能力较低。
      • 结果表明,考虑测验者和系的分子标记信息可以更准确地预测杂交种表现。
    4. 种群规模的影响
      • 研究指出,种群规模是影响基因组预测能力的重要因素。通过合并多个“系×测验者”试验的数据,可以提高训练集的规模,从而提升预测能力。

    结论

    本研究表明,将测验者的基因型数据纳入基因组预测模型可以显著提高杂交种表现的预测能力,尤其是在估算 GCA 时效果显著。尽管 SCA 的预测能力较低,但未来可以通过扩展模型以纳入非加性效应来改进预测。研究还强调了全基因组选择在减少育种成本和加速育种进程中的潜力。

    应用意义

    本研究为玉米育种中的全基因组选择提供了重要参考,表明通过低成本基因分型技术(如 DArT-seq 和 GBS)结合基因组预测模型,可以替代昂贵的多地点表型试验,从而显著降低育种成本并提高效率。

  • 玉米杂交种初试阶段穗高、株高和籽粒产量的全基因组选择

    Kong X, Ji S, Liu Y et al. (2024) Genomic selection on ear height, plant height and grain yield in the primary testing stage of maize hybrids. Euphytica 220(11):169-179. https://doi.org/10.1007/s10681-024-03425-z

    研究背景

    1. 玉米杂交种初级测试阶段的重要性:玉米是全球商业化最成功的作物,杂交种的开发依赖于异质性的利用。传统育种方法依赖于田间表型选择,但过程繁琐且耗时。玉米的许多性状受多基因控制,受环境因素和基因型-环境互作影响,导致表型表现不稳定,商业杂交种的育种通常需要超过五年时间。遗传诱导是生产玉米单倍体的有效方法,利用单倍体培育自交系已在玉米育种中广泛采用。

    2. 全基因组选择(GS)在玉米育种中的应用:GS是一种前沿的育种技术,通过构建预测模型,基于基因组数据估计的育种值进行个体的预测和早期选择。GS与双单倍体(DH)技术结合,通过先进的数据和信息管理,显著降低了成本。研究表明,GS在植物育种中具有巨大潜力,特别是在玉米中,GS与DH的结合已成功应用。

    研究方法

    1. 遗传材料、表型评估和遗传力估计:本研究使用了一个测试者和2029个DH系进行开放授粉,产生了2029个F1杂交种。这些杂交种在三个代表性地点进行了随机完全区组设计种植。对EH、PH和GY的表型数据进行了分析,使用META-R软件进行最佳线性无偏预测(BLUP)、广义遗传力(H²)和变异系数的计算。

    2. 基因型和质量控制:在授粉前收集亲本叶片样本,通过CTAB法提取DNA,并通过GBS平台进行基因分型。对SNP标记数据集进行了过滤,筛选出9300个SNP用于进一步的遗传分析。

    3. 基因组预测模型:使用rrBLUP模型进行杂交种的基因组预测值分析。rrBLUP是一种基于贝叶斯框架的多基因信息预测方法,假设所有标记的方差是同质的,并将所有标记效应等量收缩至零。rrBLUP等同于BLUP,并使用从标记估计的实现关系矩阵。

    4. 田间验证:在田间验证了预测结果,将育种估计值和实际测量值分别排序,选取前12%(243个材料)进入下一阶段的测试。80%的243个杂交种被包括在实际测量值中,并使用EXCEL进行了统计分析。

    实验设计

    1. 材料和方法:本研究使用了2029个杂交种作为遗传材料,采用不同的训练种群比例进行GS的EH、PH和GY预测,并在田间进行验证比较预测的准确性。

    2. 表型分析和相关性分析:对2029个杂交种的EH、PH和GY三个农艺性状的极端值、平均值、基因型方差、残差、广义遗传力和变异系数进行了总结。EH和PH的H²相对较高,分别为0.76和0.79;GY受环境影响较大,H²为0.43。所有三个性状的变异系数相对较低,GY的变异系数最高,为10.94。

    3. 标记分布:SNP数据集中的标记在整个玉米基因组中分布。通常,标记密度在染色体末端较高,向着着丝粒区域递减。染色体1、2和3显示出相对丰富的SNP,特别是染色体8的末端和染色体9的长臂。

    结果分析

    1. 表型分析结果和相关性分析:EH、PH和GY的表型值的频率分布和相关性表明,EH和PH与GY之间的相关系数分别为0.72和0.24,PH和GY之间的相关系数为0.38(P<0.01)。这表明这三个性状的表型变异主要源于遗传因素。

    2. 环境表示: EH、PH和GY的双标记图显示,品种在三个种植地点均匀且一致地分布,表明环境具有很强的品种区分能力。每个性状的排名在不同环境之间是相反的,表明所选的三个地点是不重复且具有代表性的。

    3. 杂交种农艺性状的可预测性:本研究使用rrBLUP模型对EH、PH和GY三个农艺性状进行预测。训练群体的比例分别为40%、50%、60%、70%和80%,进行了100个周期。通过比较三个农艺性状预测的育种值的平均值和标准差,当训练群体为50%时,预测准确性最高。EH和PH的预测准确性分别为0.76和0.75,而GY稍低,为0.47。

    4. 田间群体验证和多性状分析:在玉米杂交种的初级测试阶段,测试排名前12%的杂交种进入下一阶段,即2029个杂交种中有243个进入。当训练群体设置为50%时,获得了最佳预测结果。当预测GY排名大约在前55%时,可以包括80%的实际测量排名在前243的杂交种。同样,当预测EH和PH排名大约在前26%时,可以包括80%的实际测量排名在前243的杂交种。基于GY数据的排名是进入下一阶段的主要依据,但也考虑了其他性状。基于GY排名的前243个杂交种被选为进入下一阶段,显示出与EH和PH排名的高重叠性。

    总体结论

    1. GS在玉米杂交种初级测试阶段的应用:本研究探讨了GS在育种中的实际应用,并与田间验证结果进行了比较,这对于现实世界的应用具有很高的相关性。随着基因组测序技术的进步和成本的降低,GS在商业育种中的应用预计将变得更加广泛,对玉米育种的未来产生深远影响。

    2. GS在育种中的重要性:GS是一种有前景的基因组工具,可以在不需要实际表型测量的情况下预测基因型杂交种的表型。GS的有效性可以通过其基因组预测能力来评估,这提供了中等到高精度的预测,节省了时间和成本。预测准确性是影响基因组选择的一个重要条件,通过观察表型与预测的GEBVs之间的相关性来比较。尽管GY的遗传力较低,但通过验证rrBLUP预测杂交种的育种值也被证明是非常有效的方法。

  • 为什么机器学习模型在不同数据集上表现不佳?

    机器学习模型的性能通常取决于它们所用数据集的特性,表现在:(1)深度学习网络,通常在大数据集上表现更好,而线性回归等较简单的模型在小数据集上表现良好;(2)具有非线性关系的复杂数据集可能需要高级模型,例如神经网络,以捕获潜在模式;(3)不同的模型具有不同的偏差和方差,这些偏差和方差影响它们从建模群体训练数据的泛化能力;(4)具有高偏置的模型可能会过度简化数据,而具有高方差的数据可能会过拟合,从而在新数据集上表现不佳;(5)一些噪声不敏感的模型,如决策树、随机森林等比敏感型的线性回归效果差一些;(6)在小数据集或噪声数据集上应用深度学习模型,可能引起过拟合。

  • 玉米叶宽的QTL定位及全基因组选择分析

    陈占辉, 孙强, 任姣姣, 黄博文, 许加波, 杨杰, 吴鹏昊 (2023) 玉米叶宽的QTL定位及全基因组选择分析. 新疆农业科学 60(7):1606-1613. http://www.xjnykx.com/CN/10.6048/j.issn.1001-4330.2023.07.006

    目的分析控制玉米叶宽的关键QTL位点,为选育具有理想株型的玉米奠定基础。方法以玉米自交系B73和郑58为亲本构建F2∶3家系,采用液相48k探针捕获技术检测基因型,对多环境下玉米叶宽表型进行QTL定位和全基因组选择。【结果】叶宽在基因型、环境、基因型与环境的互作变异项都具有显著差异,遗传力为0.39。共检测到12个穗位叶宽相关QTL位点,分别位于第1、3、4、5、8和10号染色体,表型贡献率为3.75%~16.17%。位于bin 1.06和bin 5.01的2个QTL在多环境下被检测到,具有环境稳定性,其中位于bin 5.01的QTL为主效位点,可用于精细定位研究。当SNP标记个数为300、训练群体占总群体50%时即可得到较好的预测精度。【结论玉米叶宽是由主效多基因控制的,全基因组选择可以加速玉米叶宽性状的选育效率。

    关键词: 玉米; 叶宽; 数量性状位点

    【在线阅读】玉米叶宽的QTL定位及全基因组选择分析 (xjnykx.com)