前沿科普 | 人工智能指导作物育种的难点在哪里？-福建金品农业

最新栽培技术

前沿科普 | 人工智能指导作物育种的难点在哪里？

2019-06-17

文章指出，“本研究建立的深度学习模型将在两方面服务于作物设计育种：（1）玉米自然群体中超过50%的变异属于低频/罕见变异。以GWAS为代表的基于线性统计模型的传统方法，由于不涉及对生物学过程和分子机制的模拟，难以用来估计低频/罕见变异的表型效应。以基因组序列为预测变量的深度学习模型可以克服这一难点，实现对分子表型和田间表型的精确预测。（2）在部分作物中，科研人员已经开始利用CRISPR/Cas9等技术对控制关键农艺性状的基因的表达调控区进行改造。但是，由于人类对基因表达调控的机制还有很多认识上的盲区，所以一般采用“随机改造”和“后期大规模筛选”的策略。在人工神经网络的指导下，可以在计算机中对基因组DNA序列进行虚拟诱变并利用神经网络模型预测变异的后果，从中挑选符合预期目标的变异序列进行实验验证，从而实现低成本定点定向设计育种。”

涉及作物育种的区区三百余字，除相关领域的专业人士外，你能看明白吗？今天，农财君为你答疑解惑进行科普，挖掘这篇论文的价值所在。

先看一下标题，《PNAS | 中国农科院生物所在人工智能领域取得突破》，这里面有几个点值得注意。

人工智能。眼下，这是很“火”的字眼，有媒体如此评价，“上一个百年，西方发达国家引领了以自动化为标志的科技革命。如今，以人工智能为标志的新一轮科技革命正在兴起。”足见其影响力之大。人工智能就是研究、开发用于模拟、延伸和扩展人的智能的技术科学。随手点击的在线客服、网购时的推荐服务、机器翻译、语音识别等人工智能的应用，已经渗透到我们生活的方方面面。

中国农科院生物所。我国农业生物技术研究的前沿阵地。

PNAS（Proceedings of the National Academy of Sciences of the United States of America），美国科学院院报，四大名刊（Cell，Nature，Science，PNAS）之一。

论文

据了解，论文中方作者，中国农科院生物所副研究员汪海，是在唐氏康奈尔-中国学者项目（Tang Cornell-China Scholars Program）的资助下，从2017年11月开始，和美国康奈尔大学Edward Buckler院士团队合作，开发从基因组DNA序列预测基因表达调控模式的人工神经网络模型。这篇论文以汪海副研究员和Edward Buckler院士为共同通讯作者，以Jacob Washburn博士和汪海副研究员为共同第一作者。

再看一下论文内容。

文章指出，“汪海副研究员利用策略一，建立了预测二元化基因表达量（binary gene expression levels）的卷积神经网络模型。在同时使用启动子和终止子DNA序列作为预测变量时，10倍5重交叉验证的接收者操作特征曲线下面积（auROC）约为0.94。此外，进一步利用多种算法（saliency map、DeepLift、occlusion）解析了神经网络，获得了调控基因表达的关键DNA基序。在此模型的基础上，Edward buckler团队的Jacob Washburn利用策略二，成功预测了同源基因的相对表达量。”

（农财君虽然不甚清楚里面的专业术语，但仍看明白，汪海建立模型在先，并起到了重要作用。并且这项研究成果，对于指导作物育种有2点启示，如开头所述。）

对此，农业部突出青年专家、创世纪种业有限公司生物技术中心主任崔洪志表示，这项成果属于计算机和生物学交叉学科，在思路上有创新，所建立的算法有效性得到数据验证，是一篇比较优秀的学术论文。因属于交叉学科，所建立算法将逐步完善和优化，可能需要更多验证的数据，才能评价其成果水平。尤其是这篇文章通过这个算法策略，得出了5’-UTR和3’-UTR功能特点，如a）是第一次提出；b) 被验证，则这篇文章将具有里程碑式的意义，堪称高水平。

论文片段

袁隆平农业高科技公司生物信息与统计分析师林海艳认为，论文从技术上来讲很前沿，通过人工智能对基因表达进行预测；尝试了别人不敢去做的方向，很出色，并且亮点突出。

林海艳用深入浅出的语言对论文亮点进行了阐释。通常育种中的分子标记选择可以根据与QTL/基因连锁的分子标记对表型进行预判。育种改变的是基因型，这是改变植物的着眼点。表型是农业生产，也是育种家最关注的对象。而这篇论文则通过DNA的序列去预测RNA的表达，RNA处在DNA与表型之间的中间环节。论文有一个出色的地方是，通常谈到品种的基因表达、表型性状时都离不开一个因素，环境；一般的思维是研究品种在某个环境中的表现，而论文避开了环境这个因素，就是说减少了一个变量，这使得模型更加通用。这个方式以前很少有人去尝试，但是这篇文章向前迈了一步。

另外，林海艳指出，同期PNAS还有一篇文章，讲的是杂种优势的机理，来自华中农大张启发院士团队。这篇文章强调的也是从RNA的表达这个角度去解释机理。汪海副研究员这篇文章也是从DNA预测RNA。两篇文章都触及了RNA这个层面。

人工智能在这篇文章中体现在建立DNA序列和RNA表达需要关系的方法上，使用了人工智能或者说是机器学习对海量数据进行分析，找出规律，建立联系，即模型。在此过程中为了使模型更好地拟合观察到的数据，可能会出现“过拟合”的问题。通俗地讲，就是对模型的参数调整后，在测试时表现很好，但对于新数据的预测表型就没有那么好。很多基础研究的成果，在实际应用（比如育种、农业生产）中可能与预期效果有一些出入，也可以用这个概念来概括。

具体到通过DNA序列预测其RNA表达，这篇文章针对“过拟合”的问题提供了一种可供借鉴的处理方法。生物有很多基因，这些基因可以分成很多类，同类的基因功能相似。如果在建模时，用相似功能的基因，比如有5个功能都相似的基因，从中抽出3个建立模型，再用剩下的2个去验证，那么这个效果都是好的，因为都是相似的，有点像是“用同一套体系里的东西建模，再用同一套体系里的东西验证”，这个效果肯定是好的。而这篇文章将功能相似的一组基因作为一个整体来对待，要么都在验证里出现，要么都在测试集里出现，不会跨建立模型的训练集和验证模型的测试集。这就避免了用自己的数据来建模，再用自己的数据来验证，缓解了过拟合问题。这对基础研究的成果迈向实际应用有很大的现实意义。因为在生产或育种中，往往需要用今年或者去年的数据去建模，预测明年的情况。这个方向用在育种上，大概能通过估算，对眼前还没出现、但未来可能出现的材料进行比较、选择和取舍，就能帮助指导育种了。

在被问及国内科研单位及种企是否已开展人工智能指导作物育种时，崔洪志表示这篇文章成果属于基础科学研究方面，这个领域进入应用研究阶段尚需时日，未来应该是这一领域形成成熟成果和产品后与种业对接。

福建省农科院水稻研究所研究员张建福指出，国内已有单位在利用人工智能，这是好的方向，因为农业劳动力成本越来越高。“我们现在也在建一个大规模的表型数据采集平台，希望借助人工智能把劳动力解放出来，同时利用大数据进行分析”。

河南金博士种业股份有限公司山西分公司总经理孟军建表示，人工智能，让非生物具备人类和生物的智能去工作，比如无人驾驶等。它更加高效，可以解决好多环节的工作，未来肯定是智能时代。不过工业好改变，农业不好改变，因为农业有生命，应用的是生物技术。

另外，林海艳提到一点，要开展这样一项人工智能与作物育种相结合的工作，很重要的就是数据积累。像前文提到的张启发团队在PNAS上发表论文，他们一直在从事这个方向的研究，并且前期做了很多工作，有足够的积累才能发这样的文章。“与国际上具有较长历史的大公司相比，在技术上我们并没有落后多少，但他们的优势在于体系比较成熟，比较标准化。国内少有具备像他们那样的体系的公司，而这也不是一蹴而就能建立的”。另外，农作物研发的周期比较长，一个公司需要达到一定的规模，还要有配套的体系连接“数据孤岛”，产生可借鉴、关联的数据，才能应有人工智能，数据量达不到也很难去应用。

最后，林海艳指出，当前人工智能已对人类生活的诸多方面提供便利，产生影响，技术也日臻成熟，人工智能更需要找到一些应用场景去发挥作用，农业领域便提供了一个广阔的平台。林海艳直言，技术上在社会生活中的其它方面已有成熟的案例，但是可以直接应用于农业生产的成熟商业化产品还比较缺乏；技术原理有，但能与农业匹配的产品还没有。

种业科研要重视数据积累及合作共享，让人工智能在育种领域开花结果，为培育出更多生产亟需的新品种提供技术支撑。

分享到：微信更多