数据控|突破是我们的每一步datahold.cn

R语言的switch函数

`switch`函数是R语言中效率很高的函数。语法为：

switch(expr,...)

expr是可能出现的值。例如

aName <- sample(c("张三","李四","王五"),1)  # 抽取一个数字
print(switch(aName,
"张三"="first",
"李四"="second",
"王五"="third"))

2024年9月12日

【新闻报道】阮燕晔、张敖在2024沈阳种业发展论坛作报告
为加快形成种业新质生产力，提升种业核心竞争力，应对生物育种产业化的机遇和挑战，助理实施《种业振兴行动方案》，保障货架粮食安全，2024沈阳种业博览会组委会于2024年9月11日举办沈阳种业发展论坛。阮燕晔教授作为嘉宾做大会报告。
2024年9月11日

R语言的merge函数

两个数据集横向合并，又有相同的编号，可用merge()。

data_merge <- merge(dataframe1,dataframe2,by="id")
data_merge <- merge(dataframe1,dataframe2,by=c("id","room"))

2024年9月10日

张敖在Agro Online上作报告
Agro-Online-2024-Participation-Certificate-Ao-Zhang 下载
2024年9月10日
数据集中行和列的含义
人群\叫法行列
统计学家观测（observation）变量（variable）
数据分析师记录（record）字段（field）
机器学习or数据挖掘示例（example）属性（attribute）
2024年9月9日

物种水平的基因组是动态的，基因存在于每个个体（核心）中，也存在于个体子集（可有可无）中，共同构成泛基因组。使用来自 503 个玉米（Zea mays）自交系的幼苗 RNA 的转录组测序来表征玉米泛基因组，我们鉴定了 8681 个代表性转录组件（RTA），其中 16.4% 在所有品系中表达，82.7% 在品系亚群中表达。有趣的是，通过连锁不平衡定位，76.7% 的具有至少一个单核苷酸多态性（SNP）的 RTA 可以定位到单个遗传位置，主要分布在基因组的非着丝粒周围部分。RTA 的逐步迭代聚类表明，在本研究中使用的基因型的背景下，玉米基因组受到限制，并且在该种质基础中对幼苗 RNA 进行进一步采样将导致最小的发现。基于泛基因组中 SNP 和转录本丰度的全基因组关联研究揭示了与幼年到成人营养人和营养人到生殖发育转变的时间相关的基因座，这两个特征对适应性和适应很重要。这项研究揭示了玉米泛基因组的动态性质，并表明很大一部分变异可能位于一个物种的单个参考基因组之外。

内容来自文献

Hirsch C, Foerster J, Johnson J et al. (2014) Insights into the Maize Pan-Genome and Pan-Transcriptome. The Plant Cell 26(1):121-135. https://doi.org/10.1105/tpc.113.119982

参考文献格式化使用：https://dataholdcn.cn/ckwx/

TY  - JOUR
AU  - Hirsch, Candice N.
AU  - Foerster, Jillian M.
AU  - Johnson, James M.
AU  - Sekhon, Rajandeep S.
AU  - Muttoni, German
AU  - Vaillancourt, Brieanne
AU  - Peñagaricano, Francisco
AU  - Lindquist, Erika
AU  - Pedraza, Mary Ann
AU  - Barry, Kerrie
AU  - de Leon, Natalia
AU  - Kaeppler, Shawn M.
AU  - Buell, C. Robin
T1  - Insights into the Maize Pan-Genome and Pan-Transcriptome  
PY  - 2014
Y1  - 2014/01/01
DO  - 10.1105/tpc.113.119982
JO  - The Plant Cell
JA  - Plant Cell
VL  - 26
IS  - 1
SP  - 121
EP  - 135
SN  - 1040-4651
AB  - Genomes at the species level are dynamic, with genes present in every individual (core) and genes in a subset of individuals (dispensable) that collectively constitute the pan-genome. Using transcriptome sequencing of seedling RNA from 503 maize (Zea mays) inbred lines to characterize the maize pan-genome, we identified 8681 representative transcript assemblies (RTAs) with 16.4% expressed in all lines and 82.7% expressed in subsets of the lines. Interestingly, with linkage disequilibrium mapping, 76.7% of the RTAs with at least one single nucleotide polymorphism (SNP) could be mapped to a single genetic position, distributed primarily throughout the nonpericentromeric portion of the genome. Stepwise iterative clustering of RTAs suggests, within the context of the genotypes used in this study, that the maize genome is restricted and further sampling of seedling RNA within this germplasm base will result in minimal discovery. Genome-wide association studies based on SNPs and transcript abundance in the pan-genome revealed loci associated with the timing of the juvenile-to-adult vegetative and vegetative-to-reproductive developmental transitions, two traits important for fitness and adaptation. This study revealed the dynamic nature of the maize pan-genome and demonstrated that a substantial portion of variation may lie outside the single reference genome for a species.
Y2  - 9/6/2024
UR  - https://doi.org/10.1105/tpc.113.119982
ER  -

2024年9月7日

玉米基因 ZmSBR1 的自然变异赋予幼苗对镰刀菌的抗性

该研究通过全基因组关联分析（GWAS）发现玉米ZmSBR1自然变异与玉米幼苗对镰刀菌（Fusarium verticillioides）的抗性显著相关。ZmSBR1通过影响植物透触发免疫和次级代谢物的合成调节玉米幼苗对病菌的抗性。研究还指出，ZmSBR1不仅在幼苗期对镰刀菌引起的茎腐病起到正面调控作用，还在成株期对茎腐病起到规避作用，为玉米抗病育种提供了新的基因标记和育种素材。

由镰刀菌（Fusarium verticillioides）引起的玉米幼苗枯萎病是一种广泛发生的玉米病害，但其抗性遗传与机制尚不清楚。在这项研究中，通过MLM和3VmrMLM进行的全基因组关联分析（GWAS）分别识别了40个和20个与幼苗枯萎病抗性相关的数量性状核酸（QTN）。这些方法分别识别了49个和36个基因。两个方法均识别出的候选基因ZmSBR1的功能验证表明，与野生型（WT）相比，接种F. verticillioides后，突变株系对幼苗枯萎病的抗性降低了0.37个等级。突变株幼苗由F. verticillioides引起的茎腐病灶长度增加了86%，而与野生型相比，在接种镰刀菌（Fusarium graminearum）后，突变植株成株的茎腐病相对长度增加了35%。转录组分析显示，与野生型相比，突变体在接种后防御相关基因的表达下调，与抗性相关的次级代谢物合成减少，病原相关分子模式（PAMP）引发的免疫响应下降，导致突变玉米幼苗的抗性降低。候选基因关联分析显示大多数玉米自交系携带易感单倍型。研究还开发了一个功能性PCR标记。结果表明，ZmSBR1在幼苗和成株生长阶段对多种镰刀菌病害提供抗性，在育种中具有重要的应用价值。

内容来自文献

Song Y, Ma P, Gao J et al. (2024) Natural variation in maize gene ZmSBR1 confers seedling resistance to Fusarium verticillioides. The Crop Journal 12(3):836-844. https://www.sciencedirect.com/science/article/pii/S221451412400093X

文献格式化，使用https://dataholdcn.cn/ckwx/

TY  - JOUR
T1  - Natural variation in maize gene ZmSBR1 confers seedling resistance to Fusarium verticillioides
AU  - Song, Yunxia
AU  - Ma, Peipei
AU  - Gao, Jingyang
AU  - Dong, Chaopei
AU  - Wang, Zhao
AU  - Luan, Yifan
AU  - Chen, Jiafa
AU  - Sun, Doudou
AU  - Jing, Pei
AU  - Zhang, Xuecai
AU  - Song, Weibin
AU  - Zhou, Zijian
AU  - Wu, Jianyu
JO  - The Crop Journal
VL  - 12
IS  - 3
SP  - 836
EP  - 844
PY  - 2024
DA  - 2024/06/01/
SN  - 2214-5141
DO  - https://doi.org/10.1016/j.cj.2024.05.003
UR  - https://www.sciencedirect.com/science/article/pii/S221451412400093X
KW  - Seedling blight
KW  - Stalk rot
KW  - Multiple disease resistance
AB  - Maize seedling blight caused by Fusarium verticillioides is a widely occurring maize disease, but the genetics and mechanisms of resistance are not well understood. In this study, GWAS performed by MLM and 3VmrMLM identified 40 and 20 QTNs, associated with seedling blight resistance. These methods identified 49 and 36 genes, respectively. Functional verification of candidate gene ZmSBR1 identified by both methods showed that the resistance of a mutant line to seedling blight decreased by 0.37 grade points after inoculation with F. verticillioides, compared with the WT. The length of the stem rot lesion caused by F. verticillioides increased by 86% in mutant seedlings, and the relative length of the adult plant stalk rot increased by 35% in mutant plants compared to the wild type after inoculation with Fusarium graminearum. Transcriptome analysis showed that expression of defense-related genes after inoculation was down-regulated in the mutant compared to the wild type, synthesis of secondary metabolites associated with resistance was reduced, and the immune response triggered by PAMP decreased, resulting in decreased resistance of mutant maize seedlings. Candidate gene association analysis showed that most maize inbred lines carried the susceptible haplotype. A functional PCR marker was developed. The results demonstrated that ZmSBR1 conferred resistance to multiple Fusarium diseases at the seedling and adult growth stages and had important application value in breeding.
ER  -

2024年9月6日

AI驱动的全基因组选择预测植物表型
全基因组选择（Genomic selection，GS）和分子标记辅助选择（Marker-assisted selection，MAS）是两种主要的基于分子标记的育种技术，用于作物的表征。MAS 的局限性在于，复杂性状的效应较为微小，难以捕获。当只捕获到较小的遗传变异时，MAS 的效果低于表型选择。
为了解决预测准确性的差异，主要的方法是使用不同的统计模型进行重复测试，以确定目标表型性状的最佳方案。GS 大体上分为参数方法和非参数方法。参数方法包括正则化线性回归（RLR）模型，如岭回归（RR）和最小绝对收缩和选择算子（LASSO），这些方法解决了简单线性模型固有的参数过多问题。植物育种种，基于 ML 的统计模型包括 SVM 、ANN、RF 已得到应用。由于作物、栽培品种、栖息地、种群和标记各不相同，要找到最佳的统计方法存在障碍。因此，在使用 GS 时，育种人员需要根据具体情况比较和选择适合的统计方法。
ML利用统计方法允许系统在没有显式编程的情况下从数据中学习。使用样本数据集，ML生成模型来探索算法，这些算法可以从可访问的数据中学习，并对看不见的数据进行预测。基于机器学习的方法比传统的 GS 具有更高的预测精度。与传统的统计模型不同，ML 具有灵活性，允许在输入数据和结果之间建立复杂的关系。随着基因组数据规模的扩大和复杂化，开发信息和预测模型变得极具挑战性。因此，机器学习的使用量正在增加，通过修改参数模型无法包含的未知结构的模糊模式，更灵活的处理复杂情况。
传统的统计方法难以检验植物数量性状的遗传基础，特别是在涉及多效性基因、上位性和基因型-环境（G x E）相互作用的复杂情况下。挑战在于识别所有标记效应，产生“大P，小N”的问题，以及可能的过度参数化。机器学习方法通过利用重复经验来提高预测准确性，从而提供了一种解决方案。机器学习算法分为监督学习和无监督学习方法：监督学习旨在根据输入数据预测目标值，而无监督学习则在没有输出变量的情况下揭示输入变量之间的分组和关联。基于机器学习的 GS 方法主要由监督学习模型组成。
SVM 是一种典型的基于 ML 的模型，在分类和回归任务中都有优势。SVM 的与众不同之处在于，它擅长在复杂多样的数据集中检测微妙的模式。SVM 利用各种特征向量制定决策边界，从而做出准确的预测。这种方法通过利用各种核函数来增强表型和基因型之间的非线性拟合。近年来，ANN 也展示出了在 GS 上的潜力。ANN可以识别数据中的模式，并为复杂函数生成预测，从而作为通用近似器。在 GS 中，这些功能可以准确地检测基因组标记中的上位性或显性等因素。此外，它们不依赖于对表型分布的假设，在 GS 中使用 ANN 可有效估计复杂相互作用的影响。
有几项研究使用 DL 对 GS 进行了分析。利用密集耦合网络结构比较了全基因组最佳线性无偏预测（GBLUP）和 DL 模型。该研究评估了九个已发表的基因组数据集（六个小麦数据集和三个玉米数据集）。当忽略 G × E 相互作用时，DL 在九个数据集中的六个数据集上显示出更高的预测准确性。另一项研究发现，SVM 和多层感知器 (multilayer perceptron，MLP)与其他方法相比，具有更高的计算效率。目前关于基于 DL 的 GS 方法的文献中，关于预测准确性与传统统计方法的比较还很少。因此，有必要开展进一步的研究来弥补这一差距。DL 以 ANN 为基础，将三个或更多 ANN 集成到 DNN 结构中。GS 中流行的 DL 架构有 MLP、CNN 和递归神经网络 (Recurrent neural networks，RNN)。MLP通常是有监督的，它集成了至少一个隐藏层，由于其在预测任务中的简单性和有效性，非常适合各种应用。尽管 MLP 具有多功能性，但在训练过程中可能会过度拟合，从而降低应用于真实世界数据集时的准确性。
CNN 主要用于以图像或视频数据为输入的计算机视觉相关任务。CNN 的一个重要方面是通过缩小输入规模和共享参数来提高效率。这种优化限制了需要估计的参数数量，从而提高了计算效率。典型的CNN架构由三个主要过程组成：卷积、非线性变换和池化。这些操作可在不影响相关信息的情况下减少输入量，从而通过减少参数促进快速训练。
RNN 并非严格意义上的单向传播：它们包含反馈回路，使信号能够通过突触连接向前或向后传播。因此，训练 RNN 需要大量计算资源。DNN 基因组预测 (DNNGP) 是一种基于 DL 的基础全基因组选择方法，可整合多组数据以预测植物表型。该方法整合了精心设计的算法结构，以限制过拟合并提高收敛速度。它在预测准确性方面明显优于传统方法，特别是处理大群体时。这种基于人工智能的工具将逐渐取代植物育种的传统方法，尤其是在生物数据量呈指数级增长的背景下。利用有关基因功能、表达和相互作用的先验知识有助于指导全基因组预测模型。这将有助于降低数据的维度和复杂性，并提高预测的生物可解释性和可靠性。人工智能方法还可根据基因本体、转录组和 GWAS 数据等现有生物信息，采用多种策略将先验知识整合到全基因组预测模型中，包括定义核函数、划分基因组方差或设计网络架构等。
尽管当前只有少量的 GS 程序采用深度学习技术，但它逐渐被视为一种有潜力的遗传预测工具。首先，深度学习模型能够高效处理原始图像数据，无需预处理。其次，深度学习能够在不依赖额外预测因子的情况下捕获遗传多样性，表现出非加性效应和复杂遗传关系，这对全面的遗传评估至关重要。第三，诸如卷积神经网络（CNN）这样的深度学习结构可以捕捉到邻近 SNP 的连锁不平衡。最后，特定的深度学习架构（如 CNN）通过参数共享，减少了需估计的参数数量。然而，在 GS 中应用深度学习需要注意若干问题。深度学习相较传统统计模型更容易发生过拟合，但可以通过贝叶斯方法进行缓解。此外，由于需要选择各种超参数及进行调整，实现与优化深度学习模型需要丰富的经验。为了在 GS 中有效应用深度学习，需要更多的循环与协作分析，以及获取包含表型信息、各类组学、气候及育种者经验数据的更广泛的数据集。此外，优化深度学习模型的结构对于设计高效的 GS 框架至关重要。
内容来自文献
Farooq M, Gao S, Hassan M et al. (2024) Artificial intelligence in plant breeding. Trends in Genetics. https://www.sciencedirect.com/science/article/pii/S0168952524001677
文献格式化，使用https://dataholdcn.cn/ckwx/
==========
```
TY - JOUR
T1 - Artificial intelligence in plant breeding
AU - Farooq, Muhammad Amjad
AU - Gao, Shang
AU - Hassan, Muhammad Adeel
AU - Huang, Zhangping
AU - Rasheed, Awais
AU - Hearne, Sarah
AU - Prasanna, Boddupalli
AU - Li, Xinhai
AU - Li, Huihui
JO - Trends in Genetics
PY - 2024
DA - 2024/08/07/
SN - 0168-9525
DO - https://doi.org/10.1016/j.tig.2024.07.001
UR - https://www.sciencedirect.com/science/article/pii/S0168952524001677
KW - artificial intelligence
KW - plant breeding
KW - genetic gain
KW - big data
KW - deep learning
AB - Harnessing cutting-edge technologies to enhance crop productivity is a pivotal goal in modern plant breeding. Artificial intelligence (AI) is renowned for its prowess in big data analysis and pattern recognition, and is revolutionizing numerous scientific domains including plant breeding. We explore the wider potential of AI tools in various facets of breeding, including data collection, unlocking genetic diversity within genebanks, and bridging the genotype–phenotype gap to facilitate crop breeding. This will enable the development of crop cultivars tailored to the projected future environments. Moreover, AI tools also hold promise for refining crop traits by improving the precision of gene-editing systems and predicting the potential effects of gene variants on plant phenotypes. Leveraging AI-enabled precision breeding can augment the efficiency of breeding programs and holds promise for optimizing cropping systems at the grassroots level. This entails identifying optimal inter-cropping and crop-rotation models to enhance agricultural sustainability and productivity in the field.
ER -
```
2024年9月5日
比特币潜在问题
比特币是利用区块链的电子货币，应用的是纯P2P来去中心化。它稳定性源自加密技术，每个区块依次连接。然而，当加密的hash被破解后，占领51%的节点，即可修改整个区块链的信息。因此，比特币的安全是相对的。
另一方面，由于是纯P2P技术，当时间久了，区块规模不断扩大的时候，会占用非常大的网络带宽，是对资源的一种极大的浪费。
2024年8月11日
从性染色体的发现开始
摩尔根在1909年在对果蝇的观察中发现了性染色体，他发现雄性果蝇的染色体在与雌性果蝇交配的时候会表现出性别决定的遗传模式。这一发现使得摩尔根认识到染色体在遗传复杂性中的核心作用。通过他的染色体重组研究，摩尔根提出了基因位于染色体上的理论，即染色体理论。
摩尔根的研究不仅证明了染色体是遗传物质的基础，而且还揭示了基因是如何通过染色体在代际之间传递的。他的工作对遗传学的发展产生了深远的影响，为他赢得了1933年的诺贝尔生理学或医学奖。
2024年8月9日

人群\叫法	行	列
统计学家	观测（observation）	变量（variable）
数据分析师	记录（record）	字段（field）
机器学习or数据挖掘	示例（example）	属性（attribute）