Crossa J, Montesinos-Lopez O, Costa-Neto G et al. (2024) Machine learning algorithms translate big data into predictive breeding accuracy. Trends in Plant Science . https://doi.org/10.1016/j.tplants.2024.09.011
统计机器学习(ML)从大量的基因组、表型和环境数据中提取模式。ML 算法可以自动识别相关特征,并使用交叉验证来确保模型的稳健性,从而提高在新株系中的预测可靠性。此外,ML 对基因型与环境(G×E)相互作用的分析可以提供对影响特定环境中性能的遗传因素的深入了解。通过利用历史育种数据,ML 可以简化策略并自动化分析,以揭示基因组模式。在这篇综述中,我们探讨了大数据对植物育种中基因组支持预测的变革性影响,包括多性状基因组学、表型学和环境协变量等内容。我们讨论了大数据和 ML 如何通过提高预测准确性、加深对 G×E 相互作用的理解以及通过分析广泛和多样化的数据集来优化育种策略,从而彻底改变该领域。
在植物基因组预测(GP)研究中,统计机器学习模型的开发与训练群体优化是被积极探索的两大主题领域。这主要源于它们提升预测准确度的潜力,而当前的准确度仍远未达到最优。本文首先对 GP 进行简明解释,随后梳理了当前在植物育种中广泛应用的交叉验证(CV)方法。在整体概述之后,详细阐述了过去二十年中被识别为影响 GP 准确性的关键因素。此外,本文以小麦、玉米和马铃薯分别作为自花授粉、异花授粉和无性繁殖作物的代表,对实证研究结果进行分析,展示这些关键因素对不同性状中 GP 准确度的影响。最后,同样重要的是,本文通过来自公共与私营育种项目的正在进行的实证研究,给出一个 GS 实施的示范案例。总之,本文提出了若干有价值的建议,以支持 GS 在植物育种项目中的成功落地。
全基因组选择
GP 是一种最新的数据驱动方法,已被广泛接受并作为加速作物育种计划中遗传增益的有力工具(Desta and Ortiz, 2014;Bassi 等,2016;Xu 等,2020)。GP 采用先进的统计机器学习模型,根据由全基因组标记估计的育种值,从育种群体中选择个体。该选择过程依赖于训练群体的数据,涵盖表型和基因型信息(图 1A)。经过严格的训练流程后,这些模型能够对仅具有基因型数据的目标群体的性状育种值或表型值进行预测。然而,在应用选择之前,应首先通过交叉验证(CV)评估预测模型的性能(有关 CV 方法的详细信息请参见下一节)。此步骤在 GP 中至关重要,用于评估预测模型的表现,并在不同情境下比较不同的统计机器学习模型集,例如纳入多性状、已知主效基因与标记—性状关联(QTL)、基因型×环境(G×E)互作,以及其他组学数据(如转录组、代谢组和蛋白质组)(图 1A)。
(B)在作物育种项目中,多种因素会影响全基因组预测的准确度。这些因素在分析的不同阶段来源各异。训练群体的群体规模与遗传多样性、训练群体与育种群体之间的遗传关系(亲缘)与群体结构、以及用于统计机器学习模型的表型数据质量,都是与训练群体相关的特征,应在 TRS 构建过程中进行优化。其他因素,包括染色体上遗传标记的密度与分布、QTL 等位基因与标记等位基因之间连锁不平衡的程度、目标性状的遗传复杂性与遗传力、所应用的统计方法,以及基因型×环境(G×E)互作等非加性遗传因素,都会对 GP 的最终准确度产生重大影响。TRS,训练群体;BS,育种群体/集合;CLS,校准集;VS,验证集;GEBV,基因组估计育种值。所有图均由 BioRender(https://biorender.com/)创建。
通过预测准确度来评估不同 GP 方法的比较,该准确度与育种者公式直接相关(Akdemir and Isidro-Sánchez, 2019)。多种因素会影响 GP,同一性状在不同实验中的准确度评分差异显著。例如,小麦、玉米和马铃薯的单一性状预测准确度在不同研究中差异很大,原因在于训练群体组成、所采用的统计机器学习模型以及其他因素的不同设置(补充表 1–3)。GP 的准确度(rMG,即“标记预测值与真实遗传预测值之间的相关性”)通常以基因组估计育种值(GEBV)与真实育种值之间的皮尔逊相关系数来衡量(Combs and Bernardo, 2013;Isidro 等,2015),可用于估计选择准确度(Merrick 等,2022)。选择准确度与选择响应(R,也称遗传增益)直接相关,并在育种者公式中计算为 ,其中 i 和 r 分别为选择强度与选择准确度;σA 为加性遗传方差的平方根,t 为育种周期时间(Falconer and Mackay, 1996)。
GP 将父本平均育种值与孟德尔取样偏差共同纳入考虑来定义子代的 GEBV,这使其可用于:(1)通过预测加性效应在早期世代实现短育种间隔的快速选择循环(例如在双亲杂交的 F2 水平进行 GS);以及(2)在选择的后期阶段通过预测个体的基因型值来进行品系选择,其中加性与非加性效应共同决定品系的最终商业价值(Crossa 等,2014;Dreisigacker 等,2023)。
众多因素会影响 GP,并可能显著降低其准确度(图 1B)。因此,除非得到充分应对,这些因素可能阻碍 GP 在作物育种项目中的有效应用。训练群体优化时需要重点关注的特征包括群体规模、遗传多样性以及与育种群体的遗传相关性。其他主要因素还包括:在训练群体和育种(测试)群体中 QTL 与标记之间连锁不平衡的水平、目标性状的遗传复杂性与遗传力、表型鉴定的质量/精度、统计机器学习模型、G×E 互作,以及其他非加性因素,这些都进一步增加了 GP 在作物育种中的复杂性。
交叉验证方法
交叉验证(CV)是统计机器学习方法中的一项基础技术,用于模型评估、超参数调优,并确保模型具有稳健的性能。它在构建能够对新的、未见过的数据进行准确预测、同时避免过拟合和数据特异性偏差的模型方面发挥关键作用。在对育种群体中的候选个体进行选择之前,应首先使用 CV 方法对 GP 模型进行评估。CV 通过将训练群体(训练集;TRS)划分为校准集和验证集来模拟模型的预测表现。
为在 GP 中选择和优化 TRS,已有多种试验设计准则被提出。由于简单易行,经典的标准随机抽样或分层抽样方法被广泛采用。尽管如此,采用其他优化准则也已实现对 GP 准确度的提升,这些准则可划分为参数式、非参数式以及多重设计准则。许多既有准则主要作为 TRS 的评估指标,需配合合适的启发式算法以实现其最大化或最小化。为此已开发出众多 R 程序包,通常基于遗传算法提供合适的启发式方法。例如,STPGA(Akdemir,2017)、TSDFGS(Ou 和 Liao,2019)与 odw(Butler 等,2013)均已推出,但仅限于内置准则;相比之下,TrainSel(Akdemir 等,2021)同时支持内置与用户自定义准则。
(4)空间分布/有序优化:与新的田间试验密切相关;当结合环境或空间数据时,此类优化的计算开销较大。为此目的已开发了两个值得关注的 R 包算法:“odw”(Butler 等,2013)和 “TrainSel”(Akdemir 等,2021)。对于该应用,A-opt 和 CDmean 等参数化准则是最适合的做法。
标记的密度与分布及连锁不平衡
在染色体上增加分布广泛的 SNP 标记密度有助于准确捕获大多数贡献性的 QTL,最终提升 rMG。构建最优 GP 所需的 SNP 标记数量取决于基因组大小、连锁不平衡(LD)的范围,以及目标性状的复杂性。对于具有大型基因组、低 LD、且由多个 QTL 控制的复杂性状(如产量)的作物,相对需要在染色体上更高密度、分布更均匀的 SNP 标记。相反,对于由较少基因控制且遗传力高、LD 水平高的性状,为达到可能的最大 rMG,所需的 SNP 标记密度相对较低。此外,与自交作物(如水稻)相比,异交作物(如玉米)的 LD 衰减更快(Flint-Garcia 等,2003;Kaler 等,2022),因此需要更高密度的 SNP 标记分布以实现最优 rMG。总体而言,SNP 标记的最优密度与分布依赖于目标性状中贡献最大的 QTL 是否与纳入预测模型的 DNA 标记处于 LD 状态(Hayes 和 Goddard,2001;Kaler 等,2022)。群体的 LD 模式尤其有助于使用具有成本效益的低密度 SNP 标记来构建 GP 模型(Bolormaa 等,2015;Wu 等,2016;Silva 等,2018;Ballesta 等,2020)。
在 GP 中优化标记密度可能是有益的,因为在大型标记数据集中,大多数 SNP 在表型上是中性的,只有相对较小的一部分 SNP 与特定性状相关(Bermingham 等,2015;Al Kalaldeh 等,2019;Weber 等,2023)。为特定性状选择最优的标记子集一直是提升 GP 准确度的有前景方法(Bermingham 等,2015;van den Berg 等,2016;Filho 等,2019;Alemu 等,2023;Weber 等,2023)。一种标记子集选择的方法是基于既往的关联定位研究。研究发现,当将 GWAS 鉴定的显著标记作为固定效应纳入模型(Kim 等,2022;Anilkumar 等,2023;Chen 等,2023)、仅使用显著性最高的前 100–10 000 个标记作为预测因子(Bermingham 等,2015;Filho 等,2019),或纳入显著标记周围的标记(van den Berg 等,2016;Filho 等,2019)时,GP 准确度都有所提升。另一种优化思路是在预测模型中基于标记的 LD 应用单倍型块(Alemu 等,2023;Weber 等,2023)。与基于单个 SNP 标记相比,基于单倍型块的预测能够更高效地捕获局部上位性,并更好地刻画与 QTL 的 LD,从而提升 GP 准确度(Weber 等,2023)。标记面板的选择会显著影响性状关联,且多项研究已表明标记密度对 GP 准确度的影响(Zhang 等,2017a,2019;Liu 等,2018;Norman 等,2018)。
性状的遗传结构与遗传力
大多数具有经济重要性的作物性状(如产量)是多基因控制的,具有复杂的遗传结构,涉及多个 QTL 或基因,这些基因对表型的影响程度各不相同。与传统的 MAS 方法相比,GP 的一大优势在于能够通过考虑大量小效应 QTL,高效评估这类遗传上复杂的多基因性状的基因型。一般而言,遗传复杂性和遗传力(h²)与控制某一性状的 QTL 数量及其相互作用直接相关。通常由少数大效应 QTL 控制的性状,其遗传力高于由多个不同基因型效应水平的基因共同控制的性状。GP 会受到性状复杂性、遗传结构和遗传力的影响。对于低 h² 的性状,应通过增加 TRS 规模(N)来补偿,以达到最佳的 GP 准确度,因为 Nh2 决定了 GP 模型的统计效能(Bernardo,2016)。此外,当上位性相互作用在某性状的真实遗传结构中占主要或部分贡献时,能够建模上位性相互作用的机器学习模型有望提高预测准确度(De Los Campos 等,2010;Wang 等,2012;Morgante 等,2018)。多项实证研究与模拟研究已表明,随着 QTL 数量的减少和性状遗传力的提高, rMG 通常会增加(Hayes 等,2009;Lorenzana 和 Bernardo,2009;Zhong 等,2009;Jannink 等,2010;Combs 和 Bernardo,2013;Zhang 等,2017a;Jung 等,2020)。
精准表型鉴定
从 TRS 记录的表型数据用于将基因组特征与表型相连接,使 GP 模型能够评估并为各个 SNP 标记赋予权重。随后,这些标记可仅基于基因组信息用于评估 BS 中的个体,从而为育种项目中的选择与决策提供支持。将高密度 SNP 标记与在合适的统计与机器学习模型中进行的精准表型鉴定相结合,能够将作物基因组与表型组相联系,进而构建出具有高预测准确度的 GP 模型。传统植物表型鉴定方法的效率限制被认为是成功连接基因型与表型信息之间桥梁的瓶颈(Araus 和 Cairns,2014;Araus 等,2018)。因此,高通量表型鉴定(HTP)与高通量田间表型鉴定(HTFP)等先进技术因其有望为多种作物的主要与次要性状提供全面且精确的表型数据而受到高度关注(Cabrera-Bosquet 等,2012;Araus 和 Cairns,2014;Zhang 等,2017b;Araus 等,2018;Moreira 等,2020)。HTP 与 HTFP 统称为高通量表型鉴定平台(HTPP)。HTPP 使研究者能够以极低成本筛选海量个体植株。HTPP 的目标是通过遥感或近距离传感,以低成本在时间与空间上对大量个体或品系生成高密度表型数据。这既可提高选择的准确性与强度,从而提升选择响应,同时降低表型鉴定成本。HTPP 的核心思想是利用与粒重、抗病性或终端利用品质相关的预测性状,在早代材料测试中发挥优势(Rutkoski 等,2016)。既往研究已表明 HTPP 方法在提升多种性状 GP 准确度方面的潜力(Crain 等,2018;Juliana 等,2019a;Galán 等,2020;Wang 等,2023b)。
整合其他组学数据
GP 依赖于根据个体的基因组特征来估计其表型表现。然而,基因组特征必须先被转录为 RNA(tRNA、sRNA、mRNA),再翻译为蛋白质,最终才表达为表型(Cobb,2017)。这些结果分别来自转录组学和蛋白质组学研究。将这些中间表型数据(即转录组学、蛋白质组学和代谢组学)与基因组数据整合,已显示出提升 GP 准确度的潜力(Hu 等,2019;Li 等,2019;Haile 等,2020;Martini 等,2022;Wang 等,2023a,2023b)。多组学驱动的 GP 已成功应用于多种作物,并提高了预测准确度,如玉米(Guo 等,2016;Zenke-Philippi 等,2016;Westhues 等,2017;Xu 等,2017;Schrag 等,2018)、小麦(Zhao 等,2015)、燕麦(Hu 等,2021)、大麦(Wu 等,2022)、水稻(Hu 等,2019;Wang 等,2019)以及油菜(Knoch 等,2021)。
Schrag 等(2018)报告称,将信使 RNA(mRNA)与系谱和基因组数据集结合,可有益提升rMG,从而用于估计未经测定的玉米杂交种在农艺性状上的育种值。Hu 等(2019)指出,通过在单个模型中整合转录组、代谢组与基因组特征的多层 LASSO(最小绝对收缩与选择算子)模型,可提升未经测定的水稻 RILs 在四个产量及产量相关性状上的 rMG。将转录组与代谢组特征一并纳入基因组数据集,也提高了燕麦在多环境试验中若干农艺与籽粒营养性状的 rMG(Hu 等,2021)。近来,已开发出先进的统计与机器学习算法,以高效计算将多组学中间层信息纳入并赋能 GP 模型(Hu 等,2021;Wang 等,2023a,2023b)。尽管如此,在 GP 研究中应用植物的组学特征时,应谨慎考虑模型过拟合以及伴随这些中间层的时空特征(Yan 和 Wang,2023)。
在过去 20 年里,已有多种统计机器学习方法被提出用于 GP(图 4)。由于多数用于动植物育种的基因组学数据集旨在从成千上万甚至数百万个 SNP 标记(作为输入或预测变量,p)中寻找与响应变量(输出)的关系,训练这些模型的框架通常面临输入远多于观测(观测数为 n)的情形,即 p ≫ n,这构成了重大挑战。此现象促使各类惩罚(正则化)方法的出现(Meuwissen 等,2001;De Los Campos 等,2013)。因此,为了在“大 p、小 n”的回归设定下估计全基因组范围的 SNP 标记效应,人们应用了不同的正则化机制,进而催生了众多统计机器学习方法(Montesinos López 等,2022a,2022b)。这些统计机器学习算法表现各异,其适用性与性能取决于能否应对源自全基因组 SNP 标记的多维性与多因子性状的遗传复杂性等多种因素(De Los Campos 等,2010)。因此,没有任何一种统计机器学习模型能够被单独认定为优于其他算法、并能提供最高的 GP 准确度;这一点已被大量实证与模拟研究所证实,并得到“无免费午餐”定理的理论支持(Azodi 等,2019;Montesinos López 等,2022a,2022b)。这些统计模型可归类为参数型、半参数型与非参数型模型(Montesinos López 等,2022a,2022b)。
图4 当前用于基因组预测的统计机器学习模型清单
在 GP 模型的背景下,一个经典示例是:对环境效应采用线性成分、而对基因型效应采用非线性成分(如高斯核或其他类型核函数)的贝叶斯模型或混合模型(Montesinos López 等,2022a,2022b)。本质上,半参数模型体现了参数与非参数建模技术的结合。当前可用并被归入上述三类的多数统计机器学习模型列示于图 4。
在本综述中,我们深入探讨了 GP 方法论的基本构件,并梳理了其二十多年间的演进,展示了其对植物育种的变革性影响。我们阐明了该方法如何在各个育种阶段发挥关键作用,帮助选择用于进一步杂交的优良候选个体,同时在许多连续育种世代中尽量减少甚至消除对大量表型测定的需求。本综述全面强调了 GP 在提升作物遗传改良方面的变革性作用,尤其是在异交育种中的革命性意义。高通量基因组技术的应用使得对整个作物基因组进行全面分析成为可能,从而有助于识别与目标性状相关的潜在优良育种种质,用于后续选择。通过利用大规模的基因组与表型数据集,GS 方法能够预测特定性状的育种值,从而避免繁琐且资源密集的田间试验。这一精简流程加速了育种进程,便于筛选具有理想性状(如提高产量、抗病虫害、适应快速变化的环境等)的优良种质,而这些环境变化常因全球变暖的持续而加剧。
GP 的关键优势在于其有能力揭示性状的复杂遗传结构。与高度依赖同时受遗传与环境因素影响的表型观察的杂交育种方法相比,GP 直接深入植物的遗传构成,更精准且可靠地评估其潜在表现。这不仅简化了有利等位基因的识别,也使育种者能够在目标性状中同时考虑基因互作与环境影响,从而培育出更稳健、更具抗逆性的作物种质。在这一改良种质库的基础上,目标品种的选择与进一步推广将更具针对性且更为高效。随着基于 GP 的育种值评估不断推进,其与机器学习和人工智能的融合正成为作物遗传改良的前沿方向。海量基因组数据与先进计算模型的协同,可识别以往被忽视的细微遗传模式与互作关系。这种整体性方法为在气候变化及全球粮食与营养安全等挑战下提升作物产量、可持续性与韧性开辟了新途径。归根到底,基于 GP 的育种值评估作为一项前沿方法,正在赋能育种者作出更为明智的决策,预示着农业领域新一波的创新浪潮。
本综述通过以小麦、玉米和马铃薯为不同繁殖系统的实例,探讨了多种因素对 GP 准确性的影响。我们强调,作为一种预测工具,GP 依赖于持续保持较高、至少是可称道的预测准确性。然而,需要指出的是,由于影响其效能的因素众多,达到此类精度并非总是可行。我们阐明了这些因素,并就如何优化它们以提升 GP 方法在实践中的应用效果提供了见解。此外,我们还论述了 GS 如何通过整合组学与环境数据来进一步提高其准确性,从而拓展其适用范围与应用场景。总之,我们的综述强调,GS 能显著提高作物育种项目单位时间的遗传增益,但要提升其效率,至关重要的是整合所有影响 GP 方法论的因素,以充分释放这一以数据驱动的开创性预测方法的潜力。
Kong X, Ji S, Liu Y et al. (2024) Genomic selection on ear height, plant height and grain yield in the primary testing stage of maize hybrids. Euphytica 220(11):169-179. https://doi.org/10.1007/s10681-024-03425-z