分类: 内部讨论

  • 获得性遗传

    生物想要延续,就必须同时具备遗传和变异两个条件。获得性遗传,就是在后天的环境中习得的性状,并能遗传给后代。

    获得性遗传是指个体在其生命过程中因环境或习惯等外部因素而取得的特征,并将这些特征传递给后代的假说。

    获得性遗传的典型例子是长颈鹿的脖子,拉马克认为,长颈鹿的祖先是短脖子,随着环境中竞争压力的增大,它们逐渐伸长脖子以获取更高位置的食物,经过多代的传递,终于形成了现在的长颈鹿。然而,现在的遗传学发现这种说法并不可靠。

    魏斯曼是一位德国生物学家,他在19世纪进行了这个著名的实验,以反驳拉马克的获得性遗传理论。魏斯曼将几代老鼠的尾巴剪掉,并观察这些老鼠的后代是否会因为祖先失去尾巴而天生短尾或无尾。他的实验结果表明,即使经过多代的剪尾操作,老鼠的后代仍然生下正常的长尾巴,这为遗传不受后天获得性状影响提供了有力证据。

  • 为什么全基因组选择在植物中预测比动物中难?

    原因之一是,动物的建模群体规模通常超过1000,而在植物中,1000个个体组成的建模群体在实际育种过程中可遇而不可求。另一个重要的原因是,植物比动物有更显著的基因型与环境互作效应,会对预测造成极大的干扰。

    One of the reasons is that the training population size of animals usually exceeds 1000, while in plants, a training population composed of 1000 individuals can be difficult in the actual breeding process. Another important reason is that plants have a more significant genotype environment interaction (GEI) effect than animals, which can cause significant interference in predictions.

  • 专业学术论文写作指南

    短小精悍、绿色环保、免费开源、整洁高效

    Table of Contents

    How to Organize a Research Paper: Contents and Formatting

    Nothing worries students like bringing up a well-written and well-organized research paper. A research paper is a crucial part of every student’s academic life. Therefore, creating good content, formatting, and organizing a research paper are among the top aspects to consider when writing a research paper. With strong points aligning with the topic and a perfect research paper organization, you can be sure of nothing but satisfying grades. Keep reading this guide to understand useful insights regarding research paper organization and the elements to consider.

    What are the elements of a research paper?

    A well-written research paper shows highlights of different sections, with each section presenting details in a simple and easy-to-understand manner. Therefore, the following elements make up a well-structured research paper:

    • The title page of the research paper
    • Abstract
    • Table of contents research paper
    • Introduction
    • Materials and methods
    • Results
    • Discussion
    • Conclusion
    • References
    • Acknowledgment
    • Appendix if needed

    How to organize a research paper

    Once you have your research paper topic, the next task is to generate organizing ideas in writing to present in each section of the research paper. This, therefore, means you need to craft an outline first, which will include the following details for your research paper:

    1. Thesis statement

    When organizing your research paper, the very first step, to begin with, is figuring out an appropriate thesis statement that aligns with the topic of your paper. Make sure your thesis statement is strong enough to help you, as it will help you in organizing research notes to bring out a meaningful paper.

    Once you have your thesis statement, organize your research paper as described below:

    2. Title page

    Describe all the elements of the paper, from the title and the author. Details to include are:

    • The paper’s name
    • Running head
    • Authors
    • Authors institutional affiliation
    3. Abstract

    This is simply a summary of the whole research in one paragraph with a maximum of 250 words. Its aim is to give an overview of the whole project.

    4. Introduction

    In the introduction of the research paper, describe the significance of the subject matter and why you carried out the research.

    5. Methods

    The methods section of a research paper describes the processes and approaches you used to collect the information for your project. Include the participants involved, the materials used, the design of the study, and the procedures you took. Make sure this section is detailed enough to prove your research efforts.

    6. Results

    After your study, what were your findings? Under the results section, describe the information or the data you collected using the methods described in the previous section. If the experiments were many, then each experiment should be in its own section.

    7. Discussion

    Here, you simply explain the significance of your results and how the results explain the topic or the issue being researched. Remember to also address the limitations and guidelines for future research.

    8. References

    Of course, throughout your research process, you must have used textbooks, articles, and any other relevant materials. Make sure you cite or reference all these materials following the specified formatting style.

    9. Tables and figures

    Based on the nature of your research project, you might need to present your information in tables and figures under the section after reference. While presenting tables and figures, take note of the formatting style guidelines.

    10. Appendix

    Finally, this is the last section of your research paper organization. This section is not always a must, and it includes additional information that is not that significant to the research project. Such information may include a list of experiment stimuli, programming code, or secondary analysis details.

    Conclusion

    As you plan to elevate your career levels, also plan to master the art of crafting amazing research papers. There is no shortcut to excelling academically on higher education levels without writing several research papers. However tough a research paper may seem, you only need to master the art of organizing ideas in writing academic papers, as highlighted in this guide.

    如何组织研究论文:内容和格式

    对学生来说,没有什么比撰写一篇结构严谨、优雅的研究论文更加令人忧虑了。研究论文构成了学生学术旅程的核心部分。因此,在撰写研究论文时,首先需要关注的是内容的质量、格式规范以及论文的整体结构。通过确保论文内容与主题紧密相关并且结构完美无缺,您可以自信地期待获得令人满意的成绩。请继续阅读本指南,掌握关于如何组织研究论文以及需要注意的关键因素的实用建议。

    研究论文的要素是什么?

    一篇精心撰写的研究论文能够突出其各个部分的特色,且每一部分都以清晰易懂的形式展现了详细信息。因此,构建一篇组织有序的研究论文的关键要素包括:

    • 标题
    • 摘要
    • 目录(可选)
    • 引言
    • 材料与方法
    • 结果
    • 讨论
    • 结论
    • 参考文献
    • 致谢
    • 附录(可选)

    如何组织研究论文

    确定了研究论文的主题之后,接下来是将思想以书面形式逻辑的表达出来,以便在论文的各个部分中进行展示。因此,这要求您首先创建一个大纲,这个大纲将涵盖您研究论文的以下细节:

    1. 论题陈述

    当你开始整理研究论文时,首先要做的是确定一个与你论文主题相匹配的恰当论点。确保这个论点具有足够的说服力,这对你来说很重要,因为它将指导你整理研究笔记并撰写一篇内容丰富的论文。

    一旦确定了论题陈述,请根据以下指南来组织你的研究论文:

    2. 标题页
    • 论文标题
    • 书眉
    • 作者
    • 作者的机构隶属关系
    3. 摘要

    这是对整个研究项目的总结,通常限制在250字以内。旨在概括项目的全貌。

    4. 引言

    阐述研究主题的重要性及选择进行此研究的理由。

    5. 方法

    详述您收集项目信息所采用的过程和技术。包括参与者的情况、使用的材料、研究设计以及实施的具体步骤。请确保这一部分描述得足够详尽,以展示您的研究是如何进行的。

    6. 结果

    在研究完成后,您得到了哪些发现?请在“结果”部分中,根据前一节所述的方法,描述您收集到的信息或数据。如果有多个实验,每个实验都应单独列出。

    7. 讨论

    您需要阐述结果的意义以及这些结果对研究主题或问题的解释。同时,也应当讨论未来研究的局限性和建议。

    8. 参考文献

    在整个研究过程中,您肯定参考了教科书、文章和其他相关资料。请确保按照规定的格式准确引用这些资料。

    9. 图表

    依据研究项目的类型,可能需要在参考资料部分以表格和图表形式展示信息。展示这些表格和图表时,请遵循格式样式指南。

    10. 附录

    这是你研究论文结构的最后一部分,但并非总是必需的。它涵盖了与研究项目关系不大的其他信息,如实验刺激(在实验过程中用来引起参与者心理或生理反应的各种物质、对象或事件)、编程代码或二次分析的详细信息等。

    结论

    当你计划提升职业技能时,应包括学会撰写高质量研究论文的技巧。在高等教育中,要想取得优异成绩,撰写研究论文是必不可少的步骤。尽管研究论文可能看似复杂,但关键在于如何组织思路并撰写,正如本指南所述。

  • 玉米于杂交育种

    玉米是仅次于水稻和小麦的最重要的作物之一,有许多工业用途。它是禾本科的二倍体物种,染色体数2n = 20,其主要起源于墨西哥和中美洲。自被驯化以来,玉米已经经历了几个世纪以来的人工选择和自然选择。

    对形态性状的选择一直是作物改良的基础。农民数千年来的有意识选择导致了适应特殊气候条件的地方品种的发展,这些品种具有与质量和产量相关的各种性状的有价值的等位基因。农民们通过选择最适宜的玉米植株,种植下一代的种子,并将最佳特征的植株留下来用于再次繁殖,不断提高玉米的质量和产量。

    随着时间的推移,20世纪初开始进行了系统的玉米育种研究,旨在通过杂交品种的开发来提高玉米的生长速度、抗病性和产量。杂交育种是通过将不同的亲本植株进行交配,并利用其互补性基因,来创造出具有更好性状的后代。这种育种方法广泛应用于世界各地的玉米种植中。

    通过系统的玉米育种,科学家们已经成功地开发出了许多高产、抗病和适应不同气候和土壤条件的杂交玉米品种。这些品种具有更好的生长速度、短生育期和更高的产量,为农民提供了更好的经济收益。

    因此,通过人工选择和自然选择的作用,以及现代的系统的育种方法,玉米已经成为全球农业中不可或缺的作物之一。它不仅为人类提供可口的食物,我可用作工业用途,还为农民和经济发展提供了可持续的收益和就业机会。玉米的不断改良也为我们未来的粮食安全和可持续农业发展提供了希望。

  • 非编码RNA的种类

    非编码RNA(Noncoding RNA)根据长度可以分为两种:(1)短链非编码RNA(short noncoding RNA, sncRNA, <200 bp)和(2)长链非编码RNA(long noncoding RNA,lncRNAs,200 bp)。

    短链非编码RNA又分为:

    • 小RNA(microRNAs,miRNAs):是长度最短的 RNA 类型,通常在 18 到 25 个核苷酸之间。它们通过与 mRNA 的互补序列结合来抑制基因表达。
    • 小干扰RNA(small interfering RNA,SiRNA):siRNA 是长度较长的 RNA 类型,通常在 20 到 250 个核苷酸之间。它们与 mRNA 的互补序列结合,导致 mRNA 的降解。
    • PIWI 结合 RNA(piwi-interacting RNA,piRNA):是长度约为 26-32 个核苷酸 的非编码 RNA 分子,在许多动物的生殖腺中都有发现,并且可以与 PIWI(P-element-induced wimpy inrmaphrodite)蛋白结合形成 piRNA 复合物。
    • 小核仁RNA(small nucleolar RNA,snoRNA):是一类长度在 60 到 300 个核苷酸之间、由 RNA 编码的非编码 RNA。它们在细胞中起着重要作用,包括调节基因表达、染色质结构和翻译。它们通常具有一个特征的发夹结构,并具有保守的序列 motif(C/D 盒或 H/ACA 盒)。snoRNA 主要位于细胞核内的核小体中。核小体是核糖体组装的地方。snoRNA 可以指导其他 RNA 的化学修饰,这些修饰可以影响目标 RNA 的稳定性、结构和功能。snoRNA 可以修饰的 RNA 包括 rRNA、tRNA 和其他 snoRNA。
    • 小核 RNA(small nuclear RNA,snRNA):长度从 100 到 300 个核苷酸不等,存在与细胞核。snRNA 主要参与 mRNA 前体的剪接,即去除内含子并将外显子连接起来形成成熟 mRNA 分子。
    • 细胞外RNA(extracellular RNA,exRNA):包括从细胞释放出来的 RNA 和从细胞外环境中获得的 RNA。细胞外 RNA 可以作为信号分子,在细胞间传递信息。例如,miRNA 可以通过直接结合靶 mRNA 来调节基因表达,从而影响细胞的功能。细胞外 RNA 可以参与免疫反应。例如,病毒 RNA 可以激活免疫系统,从而抵御病毒感染。细胞外 RNA 在许多疾病的发生发展中发挥着重要作用。例如,miRNA 的异常表达与癌症、神经退行性疾病等相关。
    • 小卡哈尔体特异性 RNA(small-Cajal body-specific RNA,scaRNA):是一类长度在 60 到 300 个核苷酸之间、由 RNA 编码的非编码 RNA。它们主要位于细胞核内的卡哈尔体中,可以指导 2′-O-甲基化和假尿苷化等 RNA 修饰。卡哈尔体是细胞核内的一种亚核结构,参与核小体组装、染色质结构和 RNA 修饰等过程。scaRNA 是卡哈尔体的重要组成部分,在这些过程中发挥着重要作用。它与阿尔茨海默病、帕金森病、乳腺癌等疾病相关。
    • 核糖体RNA(ribosomal RNA,rRNA):是核糖体的组成成分,在蛋白质合成过程中发挥着重要作用。核糖体是蛋白质合成的场所,由 rRNA 和蛋白质组成。rRNA 占核糖体总质量的约 60%,是核糖体的重要结构成分。rRNA 可以催化蛋白质合成,使蛋白质合成酶能够将氨基酸正确地连接起来形成蛋白质。rRNA 可以调节蛋白质合成,使细胞能够根据需要合成特定的蛋白质。
    • 转运RNA(transfer RNA,tRNA):是蛋白质合成过程中传递氨基酸的载体。tRNA 的结构呈三叶草状,分为三个主要部分:Anticodon 臂、氨基酸结合臂和 TΨC 臂。Anticodon 臂上有 anticodon,它与 mRNA 的 codon 结合,从而识别 mRNA 上的特定 codon。氨基酸结合臂上有 amino acid acceptor stem,它可以结合特定的氨基酸。TΨC 臂上有 TΨC loop,它可以与核糖体的大亚基结合。tRNA 可以携带特定的氨基酸到核糖体上,供蛋白质合成酶使用。tRNA 的 anticodon 可以与 mRNA 的 codon 结合,从而识别 mRNA 上的特定 codon。tRNA 可以调节蛋白质合成,使细胞能够根据需要合成特定的蛋白质。

  • 基因芯片的历史

    鸣谢:沈阳农业大学郭志富教授更正名称双脱氧核苷三磷酸。

    测序与基因芯片

    测序和基因芯片是有明显区别的,测序和基因芯片是两种不同的技术,前者用于确定DNA/RNA的序列,而后者检测基因表达水平或基因组变异。

    人类基因组计划(1990-2003)使用的是Sanger技术(1977年由Frederick Sanger发明),也称为链终止测序,是一种DNA测序方法。该方法是最基本的测序技术,也是最准确的测序技术。Sanger技术的核心是利用DNA聚合酶链式反应令带有荧光标记的不同终止碱基类似物(ddATP、ddCTP、ddGTP、ddTTP)去取代可以正常发生链式反应的碱基(dATP、dCTP、dGTP、dTTP),根据测定的荧光信号确定序列排列。

    dATP(脱氧腺苷三磷酸),是 DNA 合成的一种核苷三磷酸,它是 DNA 分子的构建块之一。ddATP(双脱氧核苷三磷酸)是一种脱氧核苷酸类似物,它的分子结构中缺少了一个氧原子,因此称为双脱氧核苷三磷酸。

    DNA微阵列(DNA Microarray),通常也称为DNA芯片(DNA chip)或生物芯片(biochip)是附着在固体表面的微小DNA斑点的集合。科学家使用DNA微阵列来同时测量大量基因的表达水平,或者对基因组的多个区域进行基因分型。

    基因芯片与电脑芯片

    基因芯片与电脑芯片有本质上的区别。基因芯片用来区分DNA、RNA、蛋白质、代谢物的差异,而电脑芯片的作用是处理信号,从而实现特定的功能。本质上讲,电脑芯片要比基因芯片更高级,能力更强,功能更丰富。

    基因芯片的发展历程

    1. 早期发展(1990年代初)

    在这个时期,生物学家和研究人员面临着一个巨大的挑战:如何快速、准确地分析大量基因的表达情况。传统的方法需要耗费大量时间和资源,因此需要一种更高效的技术来解决这个问题。

    • 1995年,美国斯坦福大学的Patrick O. Brown教授和他的研究团队发表了一篇里程碑式的论文,介绍了一种新的技术,即基因芯片技术(Gene Chip)。这项技术利用微阵列(Microarray)芯片,通过将成千上万个DNA探针固定在芯片表面,可以同时检测大量基因的表达情况。这项技术的发明被认为是生命科学领域的一次革命性突破,为基因组学和转录组学研究提供了一种全新的高通量分析方法。
    • Affymetrix公司推出了第一代商用基因芯片,利用光刻技术在硅片上合成成千上万的短寡核苷酸探针。

    2. 技术成熟和普及(1990年代中后期)

    • 随着DNA合成技术的进步和自动化,基因芯片的生产成本降低,应用范围扩大。
    • 基因芯片开始被广泛用于基因表达分析、疾病诊断、药物开发等领域。

    3. 技术多样化(2000年代)

    • 出现了多种类型的基因芯片,包括表达式芯片、SNP芯片、测序芯片等。
    • 芯片的设计和制造工艺不断改进,提高了探针的特异性和芯片的信号强度。
    1. 表达式芯片(Expression Arrays):这种芯片用于检测和量化细胞或组织中的mRNA表达水平,从而了解基因表达模式。表达式芯片可以用于研究疾病状态、细胞反应和发育过程中基因表达的变化。
    2. SNP芯片(SNP Arrays):单核苷酸多态性(SNP)芯片用于检测基因组中的SNP变异。这些芯片可以用于基因组关联研究、遗传疾病研究、人类遗传多样性研究等。
    3. 比较基因组杂交芯片(Comparative Genomic Hybridization Arrays, CGH Arrays):CGH芯片用于检测基因组中的拷贝数变异(CNVs),例如基因组中的重复或缺失区域。这种芯片在肿瘤学和遗传病研究中特别有用。
    4. ChIP-on-chip芯片:ChIP-on-chip是结合了染色质免疫沉淀(ChIP)技术和微阵列技术的方法,用于研究蛋白质(如转录因子)与DNA的相互作用,以及染色质的修饰状态。
    5. 测序芯片(Sequencing Arrays):这种芯片用于基因组测序,可以检测基因组中的序列变异。虽然高通量测序技术(Next-Generation Sequencing, NGS)已经在很大程度上取代了测序芯片,但测序芯片在某些特定应用中仍然有其价值。
    6. 定制芯片(Custom Arrays):这种芯片根据研究者的特定需求定制,可以包含特定基因、特定区域或特定标记的探针。
    7. 药物代谢芯片:这种芯片用于研究药物代谢相关的基因,可以帮助了解个体对药物的代谢差异和药物反应。

    4. 高通量测序技术的兴起(2010年代)

    • 随着二代测序技术(Next-Generation Sequencing, NGS)的发展,基因表达分析开始向RNA测序(RNA-seq)转移。代表为Illumina测序。
    • 三代测序技术(Third Generation Sequencing)是一类能够直接从单个分子获得遗传信息的高通量测序技术,主要解决了测序结果组装难的问题。
    • 尽管二代和三代测序技术逐渐占据主导地位,基因芯片依然在某些特定的应用场景中发挥作用,尤其是在成本和操作简便性方面。

    5. 当前和未来趋势

    • 基因芯片技术继续在特定领域(如癌症分型、遗传病检测等)中应用,并与其他技术结合,实现多组学数据的整合分析。
    • 微阵列技术也在不断发展,比如蛋白质芯片、细胞芯片等。

    参考资料

    • Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science, 270(5235), 467-470.
    • Southern, E., Mir, K., & Shchepinov, M. (1999). Molecular interactions on microarrays. Nature Genetics, 21(1 Suppl), 5-9.
    • Hughes, T. R., et al. (2001). Functional discovery via a compendium of expression profiles. Cell, 102(1), 109-126.
    • Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics, 10(1), 57-63.
  • domain在生物学/遗传学中的意义

    Domain可以翻译成(结构)域,是连续的位点(碱基座)组成的块结构。(结构)域可以由独立的或基因和蛋白质编码(例如,外显子)或非编码(例如,内含子)编码。

  • 0倍简并位点

    零倍简并位点(zero-fold degenerate sites):指的是密码子中的某个位置上任何一种碱基变异都会导致编码的氨基酸发生改变。这些位点没有简并性,也就是说,它们不容忍任何变异。

    二倍简并位点(two-fold degenerate sites):指的是密码子中的某个位置上只有两种碱基替换不会导致氨基酸的改变。在这种情况下,这个位置上的一些变异是容忍的,因为它们不会改变编码的氨基酸。

    四倍简并位点(four-fold degenerate sites):指的是密码子中的某个位置上所有四种碱基替换都不会导致氨基酸的改变。这些位点完全简并,任何碱基的变异都不会影响编码的氨基酸。

  • 【翻译】用rrBLUP计算全基因组预测

    基本信息

    原文:http://potatobreeding.cals.wisc.edu/wp-content/uploads/sites/161/2014/01/GS_tutorial.pdf

    作者:Jeffrey Endelman

    版本:4

    更新:20130615

    翻译:张敖

    翻译更新:20221026 12:44:13

    翻译内容

      本文介绍如何使用第四版中新加入rrBLUP的特性(Endelman 2011)。

      本包的基本核心仍然是mixed.solve,它求解了除残差之外的一个方差分量的混合模型。该函数估计两个方差分量,通过ML或REML模型估计,估计的执行使用Kang等(2008)描述的光谱分析算法。在这个过程中,很容易创建表型协方差矩阵的逆矩阵,逆矩阵随后用于固定效应和随机效应的BLUE和BLUP求解计算(Searle et al. 1992)。在(Endelman 2011)中,作者展示了mixed.solve如何用于全基因组预测,要么建模标记作为随机效应,要么家系随机效应。

      第4版是围绕A.matkin.blup函数设计的。

    A.mat

      A.mat用标记估计真实的亲缘关系矩阵(A),对于没有缺失数据的高密度标记,A.mat的VanRaden(2008)建议的第一个公式:

      这里,矩阵W中等位基因的表示数值通过群体均值进行中心化。Endelman and Jannink (2012)证明了该公式的平均对角元素为1+f,f是近交系数。

    缺失标记数据

      当基因型有缺失时,A.mat有两个补缺失的选项。一个是缺失值用标记的群体均值代替,这对SNP芯片类,只有少量缺失值是足够的。对GBS标记,缺失值的水平可能过高。这种情况下,A.mat可以使用基于多元正态分布的EM算法估计亲缘关系矩阵(Poland et al. 2012)。

      为了证明EM算法,我下载了Poland et al. (2012) 的GBS数据https://www.crops.org/publications/tpg/supplements/5/tpg12-06-0006-dataset-s2.gz(链接已失效)。

      下列代码会读取GBS数据,并转换为rrBLUP需要的{-1,0,1}格式。

    GBS<-read.csv("tpg12-06-0006-dataset-s2",header=T,as.is=TRUE,row.names=1)
    alleles <- setdiff(unique.x,union("H","N")){
        unique.x <- unique(x)
        y <- rep(0,length(x))
        y[which(x==alleles[1])] <- -1
        y[which(x==alleles[2])] <- 1
        y[which(x=="N")] <- NA
        return(y)
    }
    X <- apply(GBS[,-c(1:3)],1,parse.GBS)
    dim(X) #lines by markers
    frac.missing <- apply(X,2,function(z){length(which(is.na(z)))/length(z)})
    length(which(frac.missing<0.5))
    hist(frac.missing)

      有1.6万的标记缺失率小于50%,足够估计出254个家系的关系矩阵。因为作者是在一个具有多个处理器的unix兼容的系统上运行这段代码的,所以我可以使用12个核来加速EM算法:

    library(rrBLUP)
    system.time(A1 <- A.mat(X,impute.method="EM",n.core=12,max.missing=0.5))

      EM算法在其进行过程中显示收敛序列,它表示亲缘关系系数的根均方误差。默认停止标准为0.02,但是可以通过tol参数改变(输入?A.mat获得更多信息)。在本例中,当它达到0.0151时,计算停止,这仅仅需要1分钟的时间。如果只有一个核,可以简单的省略n.core选项,因为默认为1核。译者注:windows下指定核数量无效。

      用均值进行补缺失,可以使用下列语法:

    system.time(A2 <- A.mat(X, max.missing=0.5))

      用均值补缺失肯定会更快,在很多情况下,在GEBV的预测精度上,均值的表现与EM算法和其他更先进的方法一样好。然而,与EM方法相比,均值的方法的育种值往往更有偏向性(Poland et al. 2012)。对两个矩阵的平均对角线元素比较表明,EM算法的结果更加接近给定1%杂合率的期望,表达式1+f≈2。提出

    round(mean(diag(A2)),2)   # imputed with mean
    round(mean(dia(A1)),2)   # imputed with EM

    A矩阵的收缩估计

      A.mat的另一个特性是收缩估计,它可以用于低密度的标记,例如来自384个SNP的芯片。当家系的数量与标记的数量相当或更多时,上面的方程可能是最优化的亲缘关系矩阵估计。Endelman and Jannink (2012)建议将估算值降低到(1+f)I,用收缩强度选择最小化均方误差。

      为了说明这一点,我将使用BLR包中的一个数据集,该数据集由1279个DArT标记对599个小麦家系进行了基因分型。

    library(BLR)
    data(wheat)
    M <- 2*X-1 #convert markers to {-1,1}
    dim(M)   #=[1] 599 1279
    A1 <- A.mat(M,shrink=TRUE)   #= [1] "Shrinkage intensity: 0.03"
    A2 <- A.mat(M[,sample(1:1279,384)],shrink=TRUE)   #= "Shrinkage intensity: 0.1"
    A3 <- A.mat(M[,sample(1:1279,192)],shrink=TRUE)   #= "Shrinkage intensity: 0.17"

      如上例所示,收缩强度从0(无收缩)到1(完全收缩),标记密度减少,缩减强度增加。所有1279个标记,使用了非常小的缩减(3%),而384和192个标记的随机集合,缩减强度是10%和17%。

    kin.blup

    Endelman(2001)中,我介绍了一个mixed.solve的“包装器”,叫做kinship.BLUP,这是为家系的预测而设计的,使用加性遗传模型或高斯核。然而,“包装器”没有那么方便,所以我又设计了一个新的函数代替它,这个函数叫做kin.blup。该函数不需要用户创建设计矩阵,新函数会自动从数据框中完成创建部分。另一个不同是,用户用kin.blup传递的是亲缘关系矩阵,而不是标记,这样允许我们更好的计算A矩阵(参见A.mat)。

    为了说明基础功能,我将继续以上述的小麦数据为例,其中,A1矩阵用所有的标记估计。这599个自交系已经在BLR包中分成了10个集合用于交叉验证。为了预测集合1的育种值,使用集合2至10的自交系表型,首先,表型和相应的基因型标识符必须组装成数据框。

    test <- which(sets==1)
    yNA <- Y[,1]   # grain yield in environment 1
    yNA[test] <- NA   # mask yields for validation set
    data1 <- data.frame(y=yNA, gid=1:599)

      验证集合需要遮盖表型数据,需要将他们的值设成NA,如上面的例子。最小的数据集有两列,一列是表型值,一列是基因型的标签(注:基因型名称)。确保数据框中基因型标签(名称)与关系矩阵的行名对应,我们可以做全基因组预测:

    rownames(A1) <- 1:599
    ans1 <- kin.blup(data1, K=A1, geno="gid", pheno="y")
    str(ans1)

      正如上面的例子,亲缘关系矩阵传入参数“K”(给kinship)到kin.blup函数,以及数据框中的表型和基因型变量名。该函数返回方差组分($Vg, $Ve)的REML估计,以及遗传值($g)的BLUP,即本例中的育种值。同时,还将返回来自混合模型的残差。如上例所示,BLUP值在亲缘关系矩阵中返回599个条目(观测值),尽管这些系中10%的系没有表型(由于遮盖)。BLUP的顺序由K矩阵的顺序决定(array也如此命名)。

      为了评估GEBV的预测精度,计算验证数据集的预测值与遮盖的表型值的相关性:

    round(cor(ans1$g[test),Y[test,1],2)

      对于具有高斯核的预测,而不是传递关系矩阵到K参数,使用欧式距离,并将GAUSS参数者只为TRUE。

    D <- as.matrix(dist(M))   # Euclidean distance
    system.time(ans2 <- kin.blup(data1, K=D, GAUSS=TRUE, geno="gid", pheno="y"))
    system.time(ans2 <- kin.blup(data1, K=D, GAUSS=TRUE, geno="gid", pheno="y", n.core=10))
    round(cor(ans$g[test],Y[test,1],2)

      正如所见,多核可以提高GAUSS核的运算速度。高斯核的预测精度是0.63,高于使用亲缘关系矩阵。该结果与Endelman(2011)的结果不完全相同,用于确定最优尺度网络点(grid point)参数的并不相同;输入?kin.blup获得设置网络点的更多信息。

    多环境试验

      kin.blup函数能够处理不同环境中的重复测量。来自BLR包的小麦数据集平均在4个环境下测定599个自交系。环境2-4是相关的,本例中,将考虑为育种计划的一个目标环境。下面的代码将创建一个不平衡的数据集,使用跨环境的部分重复。

    y <- c(Y[1:400,2],Y[101,400,3],Y[201:500,4])
    env <- c(rep(2,400),rep(3,300),rep(4,300))
    gid <- c(1:400,101:400,201:500)
    data2 <- data.frame(y=y,env=env,gid=gid)
    nrow(data2)

      为了在预测模型中将环境效应作为固定效应,数据框的列被传递给函数:

    system.time(ans <- kin.blup(data2,K=A1,geno="gid",pheno="y",fixed="env"))
    round(cor(ans$g[501:599],rowMeans(Y[501:599,2:4])),3)

      当有多个固定效应用于建模时,例如年份和地点,只需要传递一个列名数组,例如fixed=c(“year”,”location”)

      上面的例子是一步预测,这比首先计算线平均值的两步方法的计算要求更高。对于不平衡数据,kin.blup可以用两步法的速度做预测,同时保留关于不同重复水平的信息。这通过reduce=TRUE实现,转换混合模型的维度等于自交系的数量(参看使用手册获得更多细节):

    system.time(ans2<-kin.blup(data2,K=A1,geno="gid",pheno="y",fixed="env",reduce=TRUE))
    round(cor(ans2$g[501:599],ans$g[501:599]),3)
    round(cor(ans2$g[501:599],rowMeans(Y[501:599,2:4])),3)

      在上面的例子中,采用约简方法的计算时间减少了近5倍。两种方法的预测非常相似(r = 0.96),但在本例中没有降低。

    References

      Endelman, J.B. 2011. Ridge regression and other kernels for genomic selection with R package rrBLUP. Plant Genome 4:250–255. doi:10.3835/plantgenome2011.08.0024

      Endelman, J.B., and J.-L. Jannink. 2012. Shrinkage estimation of the realized relationship matrix. G3:Genes, Genomes, Genetics. 2:1405-1413. doi:10.1534/g3.112.004259

      Kang et al. 2008. Efficient control of population structure in model organism association mapping. Genetics 178:1709–1723.

      Pérez et al. 2010. Genomic-enabled prediction based on molecular markers and pedigree using the Bayesian Linear Regression package in R. Plant Genome 3:106–116.

      Poland, J., J. Endelman et al. 2012. Genomic selection in wheat breeding using genotyping-by-sequencing. Plant Genome 5:103–113. doi: 10.3835/plantgenome2012.06.0006.

      Searle et al. 1992. Variance Components. John Wiley & Sons, Hoboken.

      VanRaden, P.M. 2008. Efficient methods to compute genomic predictions. J. Dairy Science
    91:4414–4423.