新鲜出炉!全基因组选择FAQ解答大揭秘!小伙伴们,经过前几期的介绍,想必大家已经对全基因组选择产生了较深的印象,是不是也产生了一些好奇的地方呢?今天小编就为你解答一些常见问题,赶紧来看看吧!
问题1:全基因组选择中,训练群体和预测群体分别指什么?二者之间有什么关系?
答:训练群体是指有基因型和表型信息的群体,根据训练群体的数据进行建模。预测群体是指只有基因型的群体。训练群体和预测群体二者之间需要具有一定的亲缘关系,才可以提高预测准确度。换言之,训练群体和预测群体的遗传背景需要统一,以玉米为例,如果温带和热带玉米在训练群体和预测群体中分布不均,并且表型是从温带地区收集的,则热带玉米的表型可能无法充分体现。
问题2:可以使用一个群体作为参考群,去预测另一个群体的育种值吗?
答:这需要看两个群体的亲缘关系,如果一个群体中有很多都是另一个群体的亲本或者祖先,那么评估的准确性就比较高,如果亲本或者祖先较少,那么评估的准确性就比较低。极端情况下,两个群体没有关系,评估的准确性很差,参考价值不大。
问题3:如何进行模型的选择?
答:交叉验证是在建立模型和验证模型参数时常用的办法,一般被用于评估一个模型的表现。通常情况下,我们先应用多个模型进行预测,再根据交叉验证来进行最优模型的选择。
问题4:全基因组选择准确性的影响因素有哪些?
答:(1)训练群体:训练群体是用于构建模型的数据集,其规模大小、群体结构、有效群体大小及与预测群体的遗传关系都影响着预测能力和准确性。(2)预测性状的遗传力:遗传力越高,育种值的准确性越高;低遗传力性状需要更多数量的基因型和表型数据才能获得较高的准确性。(3)表型性状测定的准确性:数量性状受环境影响较大,只有通过多年多点实验,平衡环境差异,同时提高测定指标的精度和准度,获得的表型数据用于建模和预测才会有较好的效果。(4)SNP的密度与位置:覆盖全基因组的标记密度越高,则与影响目的性状基因的LD值越高,准确性越高;SNP的位置对全基因组估计育种值的准确性影响较小,但是对基因型填充却很重要,总之,在应用任何密度的芯片时!测序深度同样起着至关重要的影响。(5)统计模型:统计模型是全基因组选择的核心,对预测能力、准确性和效率有重要影响。由于性状形成的遗传调控机制复杂,没有固定模型算法能适用所有性状。
问题5:SNP密度、预测模型对商业化育种体系全基因组选择应用影响有多大?
答:已有文献报道,标记密度到了一定程度后,再多的话,就是多余和重复了。而预测模型,考虑到不同的群体和表型性状,交叉验证的结果会很清楚的告诉我们哪个方法最好。
问题6:全基因组选择在种业方面可以有哪些方面的应用?能够帮助解决哪些实际问题?
答:全基因组选择在种业方面的应用主要有优异性状个体筛选和杂交组合的高效选配两个方面。
问题7:如何评价GS的应用效果?
答:短期是在目标选择群体中正向选择后跟随机选择产生的无偏见的遗传增益,中长期可看的是子代是否进行高级阶段、商业化阶段。
问题8:自交作物与杂交作物在全基因组选择的应用上有什么不同?
答:全基因组选择是根据基因型和表型来建模,自交作物的应用主要是优异性状个体筛选,而杂交作物的应用主要是杂交组合的高效选配。
问题9:整合不同来源的数据,是否要统一标记的物理位置?
答:是的,需要。
问题10:全基因组选择中,什么是最重要的?
答:最重要的是表型和基因型数据的准确性,只有这些数据的准确性提高了,预测准确性才可靠。同时,也有研究表明,如果基因型数据质量较差,会大大影响分析结果。
问题11:rrBLUP和GBLUP哪个好?是使用两步法(先估算SNP效应值, 再计算育种值)还是使用一步法(直接估计育种值)好呢?
答:其实rrBLUP和GBLUP两种方法是等价的,使用rrBLUP估计方差组分比较容易,GBLUP计算比较容易。
问题12:BOB半岛·综合体育目前可以做几种模型呢?
答:包括GBLUP、rrBLUP、BayesA、BayesB、BayesC、Bayesian Lasso、BRR、SVM、CNN、深度学习等10余种模型。