原文地址:https://www.moa.gov.cn/ztzl/ymksn/rmrbbd/202204/t20220411_6395921.htm
基因编辑、全基因组选择等生物技术(BT)与大数据、人工智能等现代信息技术(IT)交叉融合,形成以BT+IT为典型特征的高效农业生物育种技术体系,将强力推动精准化、高效化、智能化种业技术革命,驱动现代育种技术快速变革迭代,对全球生物种业格局和农产品供给产生重大影响。

原文地址:https://www.moa.gov.cn/ztzl/ymksn/rmrbbd/202204/t20220411_6395921.htm
基因编辑、全基因组选择等生物技术(BT)与大数据、人工智能等现代信息技术(IT)交叉融合,形成以BT+IT为典型特征的高效农业生物育种技术体系,将强力推动精准化、高效化、智能化种业技术革命,驱动现代育种技术快速变革迭代,对全球生物种业格局和农产品供给产生重大影响。
国家发改委原文地址:https://www.ndrc.gov.cn/xxgk/jd/jd/202205/t20220509_1324417.html
“十四五”规划《纲要》明确提出,推动生物技术和信息技术融合创新,加快发展生物医药、生物育种、生物材料、生物能源等产业,做大做强生物经济。加快生物创新和产业化应用。加快培育生物领域新技术、新产业、新业态、新模式。《规划》提出了创新能力提升、生物医药技术惠民、现代种业提升、生物能源环保产业示 范、生物技术与信息技术融合应用等7项重大工程。
全基因组预测的准确性受很多因素影响,但建模群体(Training population)的代表性对最终的预测起到非常关键的作用。没有精心设计的建模群体,往往会增加GS的成本。
建模群体的代表性包含:(1)具有足够多的遗传变异;(2)与预测群体的亲缘关系要近。
从一个大群体中,选择最合适的建模群体叫做建模群体优化。精心设计的建模群体可以减少表型分型数量,而表型分型是目前育种的主要瓶颈。
选择建模群体的标准之一是建模群体与预测群体的亲缘关系。Laloë(1993)提出了两个方案,最大化稳定性或最小化误差方差(Prediction error variance,PEV)。前者叫做决定系数(CD),是GEBV与真实育种值之间相关性的平方。随后,Isidro等(2015)提出了分层抽样和分层CD的算法,用于在特定群体结构下优化建模群体。在群体结构层次分明时,分层抽样和分层CD比CD和PVE的预测精度更高。同年,Akdemir把降为引入到建模群体优化中,近似的计算PEV。还有很多方案作为建模群体的优化,比如聚类方法、建模群体与预测群体不同级别的相关性、估计的理论精度、快速独特代表性子集选择。
通常,没有标准可以在所有情况下获得最佳的建模群体。
当标记密度低时,分布在基因组上的分子标记较为稀疏。这意味着每个标记物覆盖的基因组区域较大,与特定的QTL紧密相连的可能性降低。在这种情况下,一个标记可能无法精确地指向一个特定的QTL,而是可能同时接收来自周围多个QTL的信号。这种信号的混合导致我们无法准确分辨每个QTL对表型的具体影响,因此每个标记追踪到的效应实际上是多个QTL效应的一个综合反映。
由于这种混合效应,当标记密度低时观察到的效应分布可能不会显得很极端,因为没有哪一个标记能够精确地反映一个QTL的强烈效应,而是呈现为多个QTL效应的平均或综合。相比之下,当标记密度高时,即标记更加密集,每个标记更有可能紧密地与特定的QTL相连,能更精确地反映该QTL的效应。这样,高密度标记的效应分布可能会显得更极端,因为它能够捕捉到一些具有强烈影响力的QTL,显示出更大的效应差异。
总的来说,标记密度对于QTL定位的精确度有重要影响,密度低可能导致效应分布较为平均而不那么极端,而密度高则有助于揭示更精确的效应分布,捕捉到更极端的效应。
无论是育种家还是想把全基因组选择付诸实践的企业,都很想在统计学家那里获得一个答案,那便是需要使用多少个分子标记才能准确预测。
统计学家通常认为在理想状态下,不低于500个标记是足够完成全基因组预测任务的。相反的,实践派在不断的摸索过程中发现,200左右的高质量分子标记可以得到中到高水平的预测精度。
理论上,或者感官上,貌似分子标记应该越多预测效果越好,也就是预测准确性随着分子标记的增加而增加。这不难理解,更多的分子标记可以增加捕获数量性状位点(QTL)机会,积累更多的效应值。然而,在实践中,结果并非如此。过多的分子标记反而不如随机抽取一部分标记的预测准确性高。为什么会出现这种情况?目前比较通行的解释是大田试验有很大的误差,并非理想状态,标记的增加不仅增加了目标性状的效应,误差也跟着增大了。遗传结构越复杂,需要的标记越多;反过来,需要的标记越多,误差越大。好像陷入了一个怪圈,没有足量的标记,就缺乏估计复杂结构的统计学效能;有了过多的标记,统计学效能依然难以保持。我个人的理解是,在同一个连锁不平衡(LD)区段中,应该只有唯一一个SNP体现此区段内QTL的效应,当一个LD中出现了多个SNP时,本不该代表该LD区段的多余SNP便会引起误差。大体来讲,确定的群体结构应该使用的标记数量应该与LD的数量相等。
另一方面,不确定的群体结构在很大程度上影响了预测,比如轮回选系,每一轮LD都会发生变化。这还没考虑目标性状复杂性需要的标记数量。
因此,简单的增加标记数量妄图获得更准确的预测并不是一个高明的选择。这里提供两个参考,中国农科院倾向于使用3K基因芯片,也就是使用3000个统一标准的分子标记。国际玉米小麦改良中心(CIMMYT)主张使用简化测序方案,如GBS、DArT和rAmpSeq。GBS在筛选后可留下约2万个左右的标记,DArT有11000多个,而rAmpSeq可以从1000到10万。
标记数量的选择需要综合考虑实验设计、性状的复杂性、群体的亲缘关系、标记平台等等各种因素。最佳应用数量仍存在争议。从我自身的经验来看,单次选系需要的标记数量少于杂交种预测少于二环选系。连续多年选择子代,每一代都需要更大的分辨率,也就是更多的标记。在误差无法消除的情况下,标记密度应该呈现类似正态分布的曲线,峰值的位置需要更多的实验和研究来确定。我的研究结果表明,不考虑计算效率的情况下,DArT的7000个Silico标记能够在干旱条件下实现较好的预测。若采用多组学预测,标记数量呈几何级增加。前提是植物材料是玉米。
清晰的基本概念,可以更好的理解事物并实现创新。
很多人常常把Genomic selection或Genowide selection翻译成全基因组选择,而有一些人把它翻译成基因组选择(很多翻译软件或AI是这么翻译的,并被直接拿来使用)。那么,全基因组选择和基因组选择有什么区别呢?
首先,最早做GS育种的科学家比较倾向于使用全基因组选择这个概念,那么为什么要加一个“全”字呢?这来自于全基因组选择早期的概念——GS可以使用遍布整个基因组的全部分子标记来估计个体的育种值,而不是用少数几个标记。使用一个或少量分子标记/QTL进行育种材料选择的方案通常叫做分子标记辅助选择(Molecular marker assisted selection,MAS),也可以叫做基因组选择,因为它在筛选材料时,的确用到了基因组信息,但这种选择并不包含预测部分,且必须先对特定性状的遗传机制有清晰的认识,然后根据特殊表型对应的标记直接选择适合的材料。全基因组选择则不同,该方案必须经过建模和预测的过程。
2001年,全基因组选择的概念被提出时,为了强调GS是分子标记辅助选择但又区别于已知的MAS,把原有的MAS叫做传统的分子标记辅助选择,也就是基因组选择。同时,有学者把GS这套通工具,将多个学科与信息学和机器学习等新技术相结合来研究整个基因组(大量标记),以改进植物育种项目中的选择和交配,归类为基因组辅助育种(Genomic assisted breeding,GAB)。GAB分类下的另外两个工具分别是遗传转化和基因编辑。
因此,全基因组选择和基因组选择是两个不同的概念,但他们常常被混淆。有时,英文直译并不符合中文的使用标准。
全基因组选择和基因组选择的差异,请看图。

如果觉得思维导图太复杂,也可以查看全基因组选择和基因组选择的特征表。
| 特征 | 全基因组选择 | 基因组选择 |
|---|---|---|
| 标记密度 | 密集 (几十万到几百万个 SNP) | 稀疏 (几百到几千个标记) |
| 必须预测 | 是 | 否 |
| 预测模型 | 统计模型 (RR-BLUP, BayesA等) | 无 |
| 已知条件 | 亲缘关系、系谱或无 | 遗传机制 |
| 应用范围 | 复杂性状 | 简单性状 |
| 成本 | 高 | 低 |
展开/折叠
graph LR
A[标记辅助选择] --> B[全基因组选择]
A --> C[基因组选择]
B --> D[有预测过程]
C --> E[无需预测]
D --> F[使用大量标记]
D --> G[使用统计模型]
D --> H[适合复杂性状]
D --> I[无需了解遗传机制]
E --> J[使用一个或少数QTL]
E --> K[不需要统计模型]
E --> L[适合特定性状]
E --> M[已知遗传机制]
style A fill:#2e1065,color:white
style B fill:#f9f,stroke:#333,stroke-width:4px
style C fill:#bbf,stroke:#f66,stroke-width:2px
style D fill:#bfb,stroke:#f66,stroke-width:2px
style E fill:#fef,stroke:#333,stroke-width:2px
在现代农业生物技术领域,全基因组选择(GS)技术通过利用基因组信息预测植物或动物的未来表现,显著加速了育种进程,而无需对所有个体进行广泛的表型分析。这种预测方法,即全基因组预测(GP),基于一个融合了表型与基因组信息的数据集(建模群体)构建,旨在建立基因组序列变异与表型变异间的相关性模型。
分子标记辅助选择(MAS)作为一种避免繁琐表型分析的技术,已被广泛应用于育种者中。然而,MAS在实施中主要关注主效基因,未能充分考虑到低效应值基因的重要性。MAS方法通过显著性检验来选择含有数量性状位点(QTL)的优势品系,可以大幅降低标记数量,却忽视了具有小到中等影响力的QTL(无法超过阈值)对全基因组变异的贡献。尽管单个微效QTL对表型的直接贡献可能微乎其微,但全基因组范围内这些微效QTL的累积效应可能对复杂性状变异的解释至关重要。与MAS不同,GS不依赖于显著性检验进行选择,而是基于交叉验证评估模型的效果,从而克服了估计不确定性的限制,为育种提供了一种更为全面和高效的选择策略。
根据我的理解,像ChatGPT这样的大语言模型暂时还不能做全基因组预测。全基因组预测需要复杂的统计模型和计算,而ChatGPT这样的大语言模型主要的作用是分析和生成文本,这两者还是有差距的。
目前来开,大语言模型可以根据全基因组预测模型的结果,给出最适合的实施方案。
另一个比较适合的方向是,根据对性状、基因型值、测定方案等的详细描述,利用大语言模型协助用户选择适合的实验设计、统计预测模型和分析方案。
意思是,可以打辅助,但是暂时还占不到C位。
【PubMed】【Trends in Plant Science】
参考文献格式由参考文献格式化助手(https://dataholdcn.cn/ckwx/)生成。
Crossa J, Pérez-Rodríguez P, Cuevas J et al. (2017) Genomic Selection in Plant Breeding: Methods, Models, and Perspectives. Trends in Plant Science 22(11):961-975. https://doi.org/10.1016/j.tplants.2017.08.011、
这篇名为“植物育种中的全基因组选择:方法、模型和展望”的综述文章,讨论了植物育种中全基因组选择(GS)的概念。全基因组选择是一种技术,它允许快速选择优良的植物基因型,从而加快育种进程。作者回顾了GS的历史和原理,以及预测模型的复杂性,包括基因型与环境的相互作用。他们还探讨了这些模型在预测谷物和豆类作物性状方面的准确性。综述表明,GS在玉米育种中已经取得了显著的遗传进展,并推测其有潜力加快从基因库到骨干系的基因流动。文章还提到了将GS与高光谱成像技术和谱系辅助育种结合的可能性。

何塞·克罗萨(José Crossa)是国际玉米和小麦改良中心(CIMMYT)生物统计部门的杰出科学家。他的研究工作涉及全基因组预测模型以及基因型与环境互作模型,旨在帮助CIMMYT的研究人员实现他们的目标。克罗萨还教授统计遗传学课程。他的办公室位于墨西哥城。克罗萨因其显著的研究影响而受到认可,他和其他CIMMYT科学家的论文位于高引用论文的前1%。