数据控|突破是我们的每一步datahold.cn

为什么机器学习模型在不同数据集上表现不佳？
机器学习模型的性能通常取决于它们所用数据集的特性，表现在：（1）深度学习网络，通常在大数据集上表现更好，而线性回归等较简单的模型在小数据集上表现良好；（2）具有非线性关系的复杂数据集可能需要高级模型，例如神经网络，以捕获潜在模式；（3）不同的模型具有不同的偏差和方差，这些偏差和方差影响它们从建模群体训练数据的泛化能力；（4）具有高偏置的模型可能会过度简化数据，而具有高方差的数据可能会过拟合，从而在新数据集上表现不佳；（5）一些噪声不敏感的模型，如决策树、随机森林等比敏感型的线性回归效果差一些；（6）在小数据集或噪声数据集上应用深度学习模型，可能引起过拟合。
2025年12月9日
玉米叶宽的QTL定位及全基因组选择分析
陈占辉, 孙强, 任姣姣, 黄博文, 许加波, 杨杰, 吴鹏昊 (2023) 玉米叶宽的QTL定位及全基因组选择分析. 新疆农业科学 60(7):1606-1613. http://www.xjnykx.com/CN/10.6048/j.issn.1001-4330.2023.07.006
【目的】分析控制玉米叶宽的关键QTL位点,为选育具有理想株型的玉米奠定基础。【方法】以玉米自交系B73和郑58为亲本构建F_2∶3家系,采用液相48k探针捕获技术检测基因型,对多环境下玉米叶宽表型进行QTL定位和全基因组选择。【结果】叶宽在基因型、环境、基因型与环境的互作变异项都具有显著差异,遗传力为0.39。共检测到12个穗位叶宽相关QTL位点,分别位于第1、3、4、5、8和10号染色体,表型贡献率为3.75%~16.17%。位于bin 1.06和bin 5.01的2个QTL在多环境下被检测到,具有环境稳定性,其中位于bin 5.01的QTL为主效位点,可用于精细定位研究。当SNP标记个数为300、训练群体占总群体50%时即可得到较好的预测精度。【结论】玉米叶宽是由主效多基因控制的,全基因组选择可以加速玉米叶宽性状的选育效率。
关键词： 玉米; 叶宽; 数量性状位点
【在线阅读】玉米叶宽的QTL定位及全基因组选择分析 (xjnykx.com)
2025年12月9日
一些分析软件下载
链接: https://pan.baidu.com/s/1fPvqF5M7xn9OaefyGhI9ew?pwd=j54h 提取码: j54h
2025年12月9日
到2025年，生物经济将成为推动高质量发展的强劲动力
原文链接：https://www.gov.cn/xinwen/2022-05/11/content_5689598.htm
从4个方面培育支柱产业
——加快生物育种技术赋能生物农业产业。有序发展全基因组选择、系统生物学、人工智能等生物育种技术，提高粮食等重要农产品生产能力和质量；发展绿色农业，促进前沿生物技术在农业领域融合，提高中国农业生产效率。
生物经济将成为推动高质量发展的强劲动力下载
2025年12月9日
人民日报撰文：加快生物育种创新
原文地址：https://www.moa.gov.cn/ztzl/ymksn/rmrbbd/202204/t20220411_6395921.htm
基因编辑、全基因组选择等生物技术（BT）与大数据、人工智能等现代信息技术（IT）交叉融合，形成以BT+IT为典型特征的高效农业生物育种技术体系，将强力推动精准化、高效化、智能化种业技术革命，驱动现代育种技术快速变革迭代，对全球生物种业格局和农产品供给产生重大影响。
加快生物育种创新下载
2025年12月9日
国家发展改革委印发《“十四五”生物经济发展规划》
国家发改委原文地址：https://www.ndrc.gov.cn/xxgk/jd/jd/202205/t20220509_1324417.html
“十四五”规划《纲要》明确提出，推动生物技术和信息技术融合创新，加快发展生物医药、生物育种、生物材料、生物能源等产业，做大做强生物经济。加快生物创新和产业化应用。加快培育生物领域新技术、新产业、新业态、新模式。《规划》提出了创新能力提升、生物医药技术惠民、现代种业提升、生物能源环保产业示范、生物技术与信息技术融合应用等7项重大工程。
十四五生物经济发展规划下载
2025年12月9日
GS的建模群体优化
全基因组预测的准确性受很多因素影响，但建模群体（Training population）的代表性对最终的预测起到非常关键的作用。没有精心设计的建模群体，往往会增加GS的成本。
建模群体的代表性包含：（1）具有足够多的遗传变异；（2）与预测群体的亲缘关系要近。
从一个大群体中，选择最合适的建模群体叫做建模群体优化。精心设计的建模群体可以减少表型分型数量，而表型分型是目前育种的主要瓶颈。
选择建模群体的标准之一是建模群体与预测群体的亲缘关系。Laloë（1993）提出了两个方案，最大化稳定性或最小化误差方差（Prediction error variance，PEV）。前者叫做决定系数（CD），是GEBV与真实育种值之间相关性的平方。随后，Isidro等（2015）提出了分层抽样和分层CD的算法，用于在特定群体结构下优化建模群体。在群体结构层次分明时，分层抽样和分层CD比CD和PVE的预测精度更高。同年，Akdemir把降为引入到建模群体优化中，近似的计算PEV。还有很多方案作为建模群体的优化，比如聚类方法、建模群体与预测群体不同级别的相关性、估计的理论精度、快速独特代表性子集选择。
通常，没有标准可以在所有情况下获得最佳的建模群体。
2025年12月9日
标记数量影响预测准确性的原因
当标记密度低时，分布在基因组上的分子标记较为稀疏。这意味着每个标记物覆盖的基因组区域较大，与特定的QTL紧密相连的可能性降低。在这种情况下，一个标记可能无法精确地指向一个特定的QTL，而是可能同时接收来自周围多个QTL的信号。这种信号的混合导致我们无法准确分辨每个QTL对表型的具体影响，因此每个标记追踪到的效应实际上是多个QTL效应的一个综合反映。
由于这种混合效应，当标记密度低时观察到的效应分布可能不会显得很极端，因为没有哪一个标记能够精确地反映一个QTL的强烈效应，而是呈现为多个QTL效应的平均或综合。相比之下，当标记密度高时，即标记更加密集，每个标记更有可能紧密地与特定的QTL相连，能更精确地反映该QTL的效应。这样，高密度标记的效应分布可能会显得更极端，因为它能够捕捉到一些具有强烈影响力的QTL，显示出更大的效应差异。
总的来说，标记密度对于QTL定位的精确度有重要影响，密度低可能导致效应分布较为平均而不那么极端，而密度高则有助于揭示更精确的效应分布，捕捉到更极端的效应。
2025年12月9日
标记数量与GS预测准确性
无论是育种家还是想把全基因组选择付诸实践的企业，都很想在统计学家那里获得一个答案，那便是需要使用多少个分子标记才能准确预测。
统计学家通常认为在理想状态下，不低于500个标记是足够完成全基因组预测任务的。相反的，实践派在不断的摸索过程中发现，200左右的高质量分子标记可以得到中到高水平的预测精度。
理论上，或者感官上，貌似分子标记应该越多预测效果越好，也就是预测准确性随着分子标记的增加而增加。这不难理解，更多的分子标记可以增加捕获数量性状位点（QTL）机会，积累更多的效应值。然而，在实践中，结果并非如此。过多的分子标记反而不如随机抽取一部分标记的预测准确性高。为什么会出现这种情况？目前比较通行的解释是大田试验有很大的误差，并非理想状态，标记的增加不仅增加了目标性状的效应，误差也跟着增大了。遗传结构越复杂，需要的标记越多；反过来，需要的标记越多，误差越大。好像陷入了一个怪圈，没有足量的标记，就缺乏估计复杂结构的统计学效能；有了过多的标记，统计学效能依然难以保持。我个人的理解是，在同一个连锁不平衡（LD）区段中，应该只有唯一一个SNP体现此区段内QTL的效应，当一个LD中出现了多个SNP时，本不该代表该LD区段的多余SNP便会引起误差。大体来讲，确定的群体结构应该使用的标记数量应该与LD的数量相等。
另一方面，不确定的群体结构在很大程度上影响了预测，比如轮回选系，每一轮LD都会发生变化。这还没考虑目标性状复杂性需要的标记数量。
因此，简单的增加标记数量妄图获得更准确的预测并不是一个高明的选择。这里提供两个参考，中国农科院倾向于使用3K基因芯片，也就是使用3000个统一标准的分子标记。国际玉米小麦改良中心（CIMMYT）主张使用简化测序方案，如GBS、DArT和rAmpSeq。GBS在筛选后可留下约2万个左右的标记，DArT有11000多个，而rAmpSeq可以从1000到10万。
标记数量的选择需要综合考虑实验设计、性状的复杂性、群体的亲缘关系、标记平台等等各种因素。最佳应用数量仍存在争议。从我自身的经验来看，单次选系需要的标记数量少于杂交种预测少于二环选系。连续多年选择子代，每一代都需要更大的分辨率，也就是更多的标记。在误差无法消除的情况下，标记密度应该呈现类似正态分布的曲线，峰值的位置需要更多的实验和研究来确定。我的研究结果表明，不考虑计算效率的情况下，DArT的7000个Silico标记能够在干旱条件下实现较好的预测。若采用多组学预测，标记数量呈几何级增加。前提是植物材料是玉米。
2025年12月9日

全基因组选择or基因组选择

清晰的基本概念，可以更好的理解事物并实现创新。

很多人常常把Genomic selection或Genowide selection翻译成全基因组选择，而有一些人把它翻译成基因组选择（很多翻译软件或AI是这么翻译的，并被直接拿来使用）。那么，全基因组选择和基因组选择有什么区别呢？

首先，最早做GS育种的科学家比较倾向于使用全基因组选择这个概念，那么为什么要加一个“全”字呢？这来自于全基因组选择早期的概念——GS可以使用遍布整个基因组的全部分子标记来估计个体的育种值，而不是用少数几个标记。使用一个或少量分子标记/QTL进行育种材料选择的方案通常叫做分子标记辅助选择（Molecular marker assisted selection，MAS），也可以叫做基因组选择，因为它在筛选材料时，的确用到了基因组信息，但这种选择并不包含预测部分，且必须先对特定性状的遗传机制有清晰的认识，然后根据特殊表型对应的标记直接选择适合的材料。全基因组选择则不同，该方案必须经过建模和预测的过程。

2001年，全基因组选择的概念被提出时，为了强调GS是分子标记辅助选择但又区别于已知的MAS，把原有的MAS叫做传统的分子标记辅助选择，也就是基因组选择。同时，有学者把GS这套通工具，将多个学科与信息学和机器学习等新技术相结合来研究整个基因组（大量标记），以改进植物育种项目中的选择和交配，归类为基因组辅助育种（Genomic assisted breeding，GAB）。GAB分类下的另外两个工具分别是遗传转化和基因编辑。

因此，全基因组选择和基因组选择是两个不同的概念，但他们常常被混淆。有时，英文直译并不符合中文的使用标准。

全基因组选择和基因组选择的差异，请看图。

如果觉得思维导图太复杂，也可以查看全基因组选择和基因组选择的特征表。

特征	全基因组选择	基因组选择
标记密度	密集 (几十万到几百万个 SNP)	稀疏 (几百到几千个标记)
必须预测	是	否
预测模型	统计模型 (RR-BLUP, BayesA等)	无
已知条件	亲缘关系、系谱或无	遗传机制
应用范围	复杂性状	简单性状
成本	高	低

附录

mermaid code

展开/折叠


graph LR
    A[标记辅助选择] --> B[全基因组选择]
    A --> C[基因组选择]
    B --> D[有预测过程]
    C --> E[无需预测]
    D --> F[使用大量标记]
    D --> G[使用统计模型]
    D --> H[适合复杂性状]
    D --> I[无需了解遗传机制]
    E --> J[使用一个或少数QTL]
    E --> K[不需要统计模型]
    E --> L[适合特定性状]
    E --> M[已知遗传机制]

style A fill:#2e1065,color:white
style B fill:#f9f,stroke:#333,stroke-width:4px
style C fill:#bbf,stroke:#f66,stroke-width:2px
style D fill:#bfb,stroke:#f66,stroke-width:2px
style E fill:#fef,stroke:#333,stroke-width:2px

用 WordPress 设计辽ICP备20010899号-3

2025年12月9日