数据控|突破是我们的每一步全基因组选择

原版更新：2018.06.08 翻译更新：2022.05.11

翻译刘翼宁、张敖

题目使用深度学习从表型预测基因型

版本 1.2（注：最新版本为1.2）

作者 Chuang Ma, Zhixu Qiu, Qian Cheng and Wenlong Ma

维护 Zhixu Qiu zhixuqiu2015@gmail.com, Chuang Ma

chuangma2006@gmail.com

描述名为‘DeepGS’的R包可以执行全基因组选择（Genomic selection，GS），GS在动植物育种中前途光明。 DeepGS使用整个基因组的全部分子标记结合先进的机器学习技术（深度学习）预测表型。DeepGS用国际玉米小麦改良中心（CIMMYT）基因库的2000个伊朗面包小麦的8个表型预测完成了有效性验证。此外，基于粒子群优化（ELBPSO）的集成学习，可以用于不同GS模型的预测的线性整合。

依赖 R(>=3.0.0)

建议 mxnet

许可 GPL-2 | GPL-3

编码 UTF-8

集成数据 true

RoxygenNote 6.0.1

需要编译 no

R主题文档

‘DeepGS’包的中文说明 R主题文档 cvSampleIndex ELBPSO meanNDCG predict_GSModel train_deepGSModel wheat_example

cvSampleIndex

生成建模集和测试集的索引。

描述

该函数为建模和测试集中的样本生成索引，以执行N倍交叉验证实验。

使用

cvSampleIndex(sampleNum, cross = 5, seed = 1, randomSeed = FALSE)

参数

参数	描述
sampleNum	需要划分为建模集和测试集的样本数。
cross	交叉验证的倍数（折叠数）。
seed	一个整数种子，用于重复结果，默认为1。
randomSeed	逻辑变量。默认值为FALSE。

值

每个元素的列表，包括$trainIdx、$testIdx和$cvIdx。

$trainIdx 建模样本的索引。

$testIdx 测试样本的索引。

$cvIdx 交叉验证的索引。

值	描述
$trainIdx	建模样本的索引。
$testIdx	测试样本的索引。
$cvIdx	交叉验证的索引。

作者

Chuang Ma, Zhixu Qiu, Qian Cheng and Wenlong Ma

例子

#' ## 读取数据 ##
data(wheat_example)
## 5倍交叉验证
b <- cvSampleIndex(sampleNum = 2000, cross = 5, seed = 1)
## 提取其中一次验证的数据集
b$cv1

ELBPSO

基于粒子群优化的集成学习（Ensemble Learning Based on Particle Swarm Optimization）。

描述

该算法结合了不同GS模型的预测表型值，并返回这些模型的最佳权重。

使用

ELBPSO(rep_times = 100, interation_times, weight_dimension, weight_min, weight_max, rate_min, rate_max, paticle_number, pred_matrix, IW = 1, AF1 = 2, AF2 = 2)

参数

参数	描述
rep_times	ELBPSO重复次数，默认是100。
interation_times	每次ELBPSO优化迭代次数。
weight_dimension	权重维度。
weight_min	最小权重。
weight_max	最大权重。
rate_min	最小更新率。
rate_max	最大更新率。
paticle_number	帕特里克数量。
pred_matrix	第一列代表真实值，其他列代表其他GS模型的预测值。
IW	惯性（惰性）权重。默认为1。
AF1	加速因子1。默认是2。
AF2	加速因子2。默认是2。

例子1.2

# # Not run
# library(DeepGS)
# library(rrBLUP)
# data("wheat_example")
# Markers <- wheat_example$Markers
# y <- wheat_example$y
# cvSampleList <- cvSampleIndex(length(y),10,1)
# # select one fold
# cvIdx <- 1
# trainIdx <- cvSampleList[[cvIdx]]$trainIdx
# testIdx <- cvSampleList[[cvIdx]]$testIdx
# trainMat = Markers[trainIdx,]
# trainPheno = y[trainIdx]
# validIdx <- sample(1:length(trainIdx),floor(length(trainIdx)*0.1))
# validMat <- trainMat[validIdx,]
# validPheno <- trainPheno[validIdx]
# testMat = Markers[testIdx,]
# testPheno = y[testIdx]
# # design DeepGS architecture
# conv_kernel <- c("1*18") # convolution kernels (fileter shape)
# conv_stride <- c("1*1")
# conv_num_filter <- c(8) # number of filters
# pool_act_type <- c("relu") # active function for next pool
# pool_type <- c("max") # max pooling shape
# pool_kernel <- c("1*4") # pooling shape
# pool_stride <- c("1*4") # number of pool kernerls
# fullayer_num_hidden <- c(32,1)
# fullayer_act_type <- c("sigmoid")
# drop_float <- c(0.2,0.1,0.05)
# cnnFrame <- list(conv_kernel =conv_kernel,conv_num_filter = conv_num_filter,
# conv_stride = conv_stride,pool_act_type = pool_act_type,
# pool_type = pool_type,pool_kernel =pool_kernel,
# pool_stride = pool_stride,fullayer_num_hidden= fullayer_num_hidden,
# fullayer_act_type = fullayer_act_type,drop_float = drop_float)
# markerImage = paste0("1*",ncol(trainMat))
# # train DeepGS model
# DeepGS_obj <- train_deepGSModel(trainMat = trainMat,trainPheno = trainPheno,
# validMat = validMat,validPheno = validPheno, markerImage = markerImage,
# cnnFrame = cnnFrame,device_type = "cpu",gpuNum = 1, eval_metric = "mae",
# num_round = 6000,array_batch_size= 30,learning_rate = 0.01,
# momentum = 0.5,wd = 0.00001, randomseeds = 0,initializer_idx = 0.01,
# verbose =TRUE)
# # make predictions based on the trained model
# DeepGS_pred <- predict_GSModel(GSModel = DeepGS_obj,testMat = Markers[testIdx,],
# markerImage = markerImage )
# # train RR-BLUP model#'
# rrBLUP_obj <-mixed.solve(trainPheno, Z=trainMat, K=NULL, SE = FALSE, return.Hinv=FALSE)
# # make predictions based on the trained model
# rrBLUP_pred <- testMat %*% rrBLUP_obj$u + as.numeric(rrBLUP_obj$beta )
# # prepare the prediction matrix
# test_predMat <- cbind(t(DeepGS_pred), rrBLUP_pred)
# train_predMat <- cbind(testPheno, t(DeepGS_pred), rrBLUP_pred)
# colnames(train_predMat) <- c("real", "DeepGS", "RR-BLUP")
## End not run

例子1.1

## 不运行
# rrBLUP例子
# library(DeepGS)
# library(rrBLUP)
# data("wheat_example")
# Markers <- wheat_example$Markers
# y <- wheat_example$y
# cvSampleList <- cvSampleIndex(length(y),10,1)
## 选择第N倍（折）
# cvIdx <- 1
# trainIdx <- cvSampleList[[cvIdx]]$trainIdx
# testIdx <- cvSampleList[[cvIdx]]$testIdx
# trainMat = Markers[trainIdx,]
# trainPheno = y[trainIdx]
# testMat = Markers[testIdx,]
# testPheno = y[testIdx]
# rrBLUP_obj <-mixed.solve(trainPheno, Z=trainMat, K=NULL, SE = FALSE, return.Hinv=FALSE)
# rrBLUP_pred <- testMat %*% rrBLUP_obj$u + as.numeric(rrBLUP_obj$beta)
## 不运行结束
# 使用他们的预测得分计算不同模型的权重
test_datapath <- system.file("exdata", "test_ELBPSO.RData", package = "DeepGS")
load(test_datapath)
weight <- ELBPSO(rep_times = 100,interation_times = 25,weight_dimension = 2, weight_min = 0,weight_max=1,rate_min = -0.01,rate_max = 0.01, paticle_number = 10, pred_matrix = train_predMat,IW = 1, AF1 = 2, AF2 = 2)
new_pre <- (test_predMat %*% weight)/sum(weight)
# calculating the weight of different training model by using their predict socres
test_datapath <- system.file("exdata", "test_ELBPSO.RData",
package = "DeepGS")
load(test_datapath)
weight <- ELBPSO(rep_times = 100,interation_times = 25,weight_dimension = 2, weight_min = 0,weight_max=1,rate_min = -0.01,rate_max = 0.01, paticle_number = 10, pred_matrix = train_predMat,IW = 1, AF1 = 2, AF2 = 2)
ensemble_pred <- (test_predMat %*% weight)/sum(weight)
predMat <- cbind(testPheno, t(DeepGS_pred), rrBLUP_pred, ensemble_pred)
colnames(predMat) <- c("real", "DeepGS", "RR-BLUP", "ensemble")
cor(predMat)

meanNDCG

计算平均归一化折扣累积增益。

描述

该函数是在选择育种值高的前k个个体时，用平均归一化折扣累积增益评估全基因组选择预测模型表现的。

使用

meanNDCG(realScores, predScores, topAlpha = c(10))

参数

参数	描述
realScores	一个数值化向量，一个性状验证个体的育种值。
predScores	一个数值化向量或矩阵，用全基因组选择预测模型预测的个体的预测育种值。
topAlpha	一个数值化的向量（一个或多个参数），优良个体百分比，默认是10。

作者

Chuang Ma, Zhixu Qiu, Qian Cheng and Wenlong Ma

例子

## Not run
refer_value <- runif(100)
pred_value <- sin(refer_value) + cos(refer_value)
meanNDCG(realScores = refer_value,predScores = pred_value, topAlpha = c(10,20,30))
## End not run

predict_GSModel

预测GS模型。

描述

使用经过训练的深度学习全基因组选择预测模型预测性状值。

使用

predict_GSModel(GSModel, testMat, markerImage)

参数

GSModel 从DeepGSModel函数获得的经过训练的预测模型。

testMat 基因型矩阵（T×M；T是个体，M是标记）。

markerImage （字符串）给出“i×j”的图像格式，每个个体的标记信息（M×1）将被编码。

作者

Chuang Ma, Qian Cheng, Zhixu Qiu and Wenlong Ma

train_deepGSModel

利用深度学习技术建立全基因组选择预测模型。

描述

该函数应用深度卷积神经网络建立全基因组选择的预测模型。

使用

train_deepGSModel(trainMat, trainPheno, validMat, validPheno, markerImage, cnnFrame, device_type = "cpu", gpuNum = "max", eval_metric = "mae", num_round = 6000, array_batch_size = 30, learning_rate = 0.01, momentum = 0.5, wd = 1e-05, randomseeds = NULL, initializer_idx = 0.01, verbose = TRUE...)

参数

trainMat 建模群体的基因型矩阵（N×M，N是个体，M是标记）。

trainPheno 建模群体表型的向量（N×1）。

validMat 验证群体的基因型矩阵。

validPheno 验证群体的表型向量（N*1）。

markerImage （字符串）这个给出“i×j”的图像格式，每个个体用标记信息编码（M×1）。如果图像大小超过SNP标记数，用0修改缺失的部分，如果图像大小小于SNP标记数，多余的标记被去除。

cnnFrame 包含卷积神经网络（CNN）框架的以下元素的列表：

trainMat	建模群体的基因型矩阵（N×M，N是个体，M是标记）。
trainPheno	建模群体表型的向量（N×1）。
validMat	验证群体的基因型矩阵。
validPheno	验证群体的表型向量（N*1）。
markerImage	（字符串）这个给出“i×j”的图像格式，每个个体用标记信息编码（M×1）。如果图像大小超过SNP标记数，用0修改缺失的部分，如果图像大小小于SNP标记数，多余的标记被去除。
cnnFrame	包含卷积神经网络（CNN）框架的以下元素的列表： – conv_kernel：向量（K×1）给出卷积核大小（宽度x高度），分别用于过滤K个卷积层的图像矩阵。 – conv_num_filter：向量（K×1）分别给出K个卷积层的卷积核数。 – pool_act_type：给出活动函数的类型的向量（K×1），将定义K个卷积层的输出，这将分别作为相应池层的输入。它包括“relu”、“sigmoid”、“softrelu”和“tanh”。 – conv_stride：K个卷积核的一个特征（K×1）步长。 – pool_type：分别从“avg”、“max”、“sum”中选择的一个特征（K×1）类型的K个池层。 – pool_kernel：一个特征（K×1）K个池层的K池核大小（宽×高）。 – pool_stride：一个特征（K×1）K池核的步长。 – fullayer_number-hidden：一个数值化（H×1），H完全连接层分别隐藏神经元的数量，最后一个完全连接层的隐藏神经元数量必须是1。 – fullayer_act_type：一个数值型（（H-1）×1），从所有连接层的“relu”，“sigmoid”，“softrelu”和“tanh”的选择活动函数的类别。 – drop_float：数值型。
device_type	选择”cpu“或”gpu“设备去构建预测模型。
gpuNum	（数值型）GPU设备的数量，如果使用多GPU（gpuNum>1），momentum参数必须大于0。
eval_metric	（字符串）一种估计建模过程表现的方法，包括”mae“、”rmse“和”accuracy“，默认为”mae“。
num_round	（数值型）超过建模数据去建模的迭代次数，默认=10。
array_batch_size	（数值型）它为每个更新权重定义将通过网络传播的样本数，默认为128。
learning_rate	建模过程的学习率。
momentum	（浮点，0~1）移动平均线动量，平均为0.9。
wd	（浮点，0~1）权重衰减，默认为0。
randomseeds	设置mxnet设备特定随机数使用的种子。
initializer_idx	参数的初始化主题。
verbose	逻辑值（默认true）指定是否在建模期间的迭代时输出信息。
…	用于构造包“mxnet”中使用的神经网络的参数（http://mxnet.io/）。

作者

Chuang Ma , Zhixu Qiu, Qian Cheng and Wenlong Ma

例子

data(wheat_example)
Markers <- wheat_example$Markers
y <- wheat_example$y
cvSampleList <- cvSampleIndex(length(y),10,1)
# cross validation set
cvIdx <- 1
trainIdx <- cvSampleList[[cvIdx]]$trainIdx
testIdx <- cvSampleList[[cvIdx]]$testIdx
trainMat <- Markers[trainIdx,]
trainPheno <- y[trainIdx]
validIdx <- sample(1:length(trainIdx),floor(length(trainIdx)*0.1))
validMat <- trainMat[validIdx,]
validPheno <- trainPheno[validIdx]
trainMat <- trainMat[-validIdx,]
trainPheno <- trainPheno[-validIdx]
conv_kernel <- c("1*18") ## convolution kernels (fileter shape)
conv_stride <- c("1*1")
conv_num_filter <- c(8) ## number of filters
pool_act_type <- c("relu") ## active function for next pool
pool_type <- c("max") ## max pooling shape
pool_kernel <- c("1*4") ## pooling shape
pool_stride <- c("1*4") ## number of pool kernerls
fullayer_num_hidden <- c(32,1)
fullayer_act_type <- c("sigmoid")
drop_float <- c(0.2,0.1,0.05)
cnnFrame <- list(conv_kernel =conv_kernel,conv_num_filter = conv_num_filter,
conv_stride = conv_stride,pool_act_type = pool_act_type,
pool_type = pool_type,pool_kernel =pool_kernel,
pool_stride = pool_stride,fullayer_num_hidden= fullayer_num_hidden,
fullayer_act_type = fullayer_act_type,drop_float = drop_float)
markerImage = paste0("1*",ncol(trainMat))
trainGSmodel <- train_deepGSModel(trainMat = trainMat,trainPheno = trainPheno, validMat = validMat,validPheno = validPheno, markerImage = markerImage, cnnFrame = cnnFrame,device_type = "cpu",gpuNum = 1, eval_metric = "mae", num_round = 6000,array_batch_size= 30,learning_rate = 0.01,momentum = 0.5,wd = 0.00001, randomseeds = 0,initializer_idx = 0.01, verbose =TRUE)
predscores <- predict_GSModel(GSModel = trainGSmodel,testMat = Markers[testIdx,], markerImage = markerImage )

wheat_example

在开发功能中运行的例子。

描述

列表：

- 标记：矩阵（599×1225），每行代表一个个体的1225个标记。
- y：每个个体的真实表型值。

使用

data(wheat_example)

标签：全基因组选择

为什么全基因组选择在植物中预测比动物中难？

全基因组选择的优势

DeepGS中文说明

R主题文档

cvSampleIndex

ELBPSO

meanNDCG

predict_GSModel

train_deepGSModel

wheat_example

标签： 全基因组选择

为什么全基因组选择在植物中预测比动物中难？

全基因组选择的优势

DeepGS中文说明

R主题文档

cvSampleIndex

ELBPSO

meanNDCG

predict_GSModel

train_deepGSModel

wheat_example

标签：全基因组选择