文章指出,“本研究建立的深度学习模型将在两方面服务于作物设计育种:(1)玉米自然群体中超过50%的变异属于低频/罕见变异。以GWAS为代表的基于线性统计模型的传统方法,由于不涉及对生物学过程和分子机制的模拟,难以用来估计低频/罕见变异的表型效应。以基因组序列为预测变量的深度学习模型可以克服这一难点,实现对分子表型和田间表型的精确预测。(2)在部分作物中,科研人员已经开始利用CRISPR/Cas9等技术对控制关键农艺性状的基因的表达调控区进行改造。但是,由于人类对基因表达调控的机制还有很多认识上的盲区,所以一般采用“随机改造”和“后期大规模筛选”的策略。在人工神经网络的指导下,可以在计算机中对基因组DNA序列进行虚拟诱变并利用神经网络模型预测变异的后果,从中挑选符合预期目标的变异序列进行实验验证,从而实现低成本定点定向设计育种。”
涉及作物育种的区区三百余字,除相关领域的专业人士外,你能看明白吗?今天,农财君为你答疑解惑进行科普,挖掘这篇论文的价值所在。
先看一下标题,《PNAS | 中国农科院生物所在人工智能领域取得突破》,这里面有几个点值得注意。
人工智能。眼下,这是很“火”的字眼,有媒体如此评价,“上一个百年,西方发达国家引领了以自动化为标志的科技革命。如今,以人工智能为标志的新一轮科技革命正在兴起。”足见其影响力之大。人工智能就是研究、开发用于模拟、延伸和扩展人的智能的技术科学。随手点击的在线客服、网购时的推荐服务、机器翻译、语音识别等人工智能的应用,已经渗透到我们生活的方方面面。
中国农科院生物所。我国农业生物技术研究的前沿阵地。
PNAS(Proceedings of the National Academy of Sciences of the United States of America),美国科学院院报,四大名刊(Cell,Nature,Science,PNAS)之一。
论文
据了解,论文中方作者,中国农科院生物所副研究员汪海,是在唐氏康奈尔-中国学者项目(Tang Cornell-China Scholars Program)的资助下,从2017年11月开始,和美国康奈尔大学Edward Buckler院士团队合作,开发从基因组DNA序列预测基因表达调控模式的人工神经网络模型。这篇论文以汪海副研究员和Edward Buckler院士为共同通讯作者,以Jacob Washburn博士和汪海副研究员为共同第一作者。
再看一下论文内容。
文章指出,“汪海副研究员利用策略一,建立了预测二元化基因表达量(binary gene expression levels)的卷积神经网络模型。在同时使用启动子和终止子DNA序列作为预测变量时,10倍5重交叉验证的接收者操作特征曲线下面积(auROC)约为0.94。此外,进一步利用多种算法(saliency map、DeepLift、occlusion)解析了神经网络,获得了调控基因表达的关键DNA基序。在此模型的基础上,Edward buckler团队的Jacob Washburn利用策略二,成功预测了同源基因的相对表达量。” (农财君虽然不甚清楚里面的专业术语,但仍看明白,汪海建立模型在先,并起到了重要作用。并且这项研究成果,对于指导作物育种有2点启示,如开头所述。)
对此,农业部突出青年专家、创世纪种业有限公司生物技术中心主任崔洪志表示,这项成果属于计算机和生物学交叉学科,在思路上有创新,所建立的算法有效性得到数据验证,是一篇比较优秀的学术论文。因属于交叉学科,所建立算法将逐步完善和优化,可能需要更多验证的数据,才能评价其成果水平。尤其是这篇文章通过这个算法策略,得出了5’-UTR和3’-UTR功能特点,如a)是第一次提出;b) 被验证,则这篇文章将具有里程碑式的意义,堪称高水平。
论文片段
袁隆平农业高科技公司生物信息与统计分析师林海艳认为,论文从技术上来讲很前沿,通过人工智能对基因表达进行预测;尝试了别人不敢去做的方向,很出色,并且亮点突出。
林海艳用深入浅出的语言对论文亮点进行了阐释。通常育种中的分子标记选择可以根据与QTL/基因连锁的分子标记对表型进行预判。育种改变的是基因型,这是改变植物的着眼点。表型是农业生产,也是育种家最关注的对象。而这篇论文则通过DNA的序列去预测RNA的表达,RNA处在DNA与表型之间的中间环节。论文有一个出色的地方是,通常谈到品种的基因表达、表型性状时都离不开一个因素,环境;一般的思维是研究品种在某个环境中的表现,而论文避开了环境这个因素,就是说减少了一个变量,这使得模型更加通用。这个方式以前很少有人去尝试,但是这篇文章向前迈了一步。
另外,林海艳指出,同期PNAS还有一篇文章,讲的是杂种优势的机理,来自华中农大张启发院士团队。这篇文章强调的也是从RNA的表达这个角度去解释机理。汪海副研究员这篇文章也是从DNA预测RNA。两篇文章都触及了RNA这个层面。
人工智能在这篇文章中体现在建立DNA序列和RNA表达需要关系的方法上,使用了人工智能或者说是机器学习对海量数据进行分析,找出规律,建立联系,即模型。在此过程中为了使模型更好地拟合观察到的数据,可能会出现“过拟合”的问题。通俗地讲,就是对模型的参数调整后,在测试时表现很好,但对于新数据的预测表型就没有那么好。很多基础研究的成果,在实际应用(比如育种、农业生产)中可能与预期效果有一些出入,也可以用这个概念来概括。
具体到通过DNA序列预测其RNA表达,这篇文章针对“过拟合”的问题提供了一种可供借鉴的处理方法。生物有很多基因,这些基因可以分成很多类,同类的基因功能相似。如果在建模时,用相似功能的基因,比如有5个功能都相似的基因,从中抽出3个建立模型,再用剩下的2个去验证,那么这个效果都是好的,因为都是相似的,有点像是“用同一套体系里的东西建模,再用同一套体系里的东西验证”,这个效果肯定是好的。而这篇文章将功能相似的一组基因作为一个整体来对待,要么都在验证里出现,要么都在测试集里出现,不会跨建立模型的训练集和验证模型的测试集。这就避免了用自己的数据来建模,再用自己的数据来验证,缓解了过拟合问题。这对基础研究的成果迈向实际应用有很大的现实意义。因为在生产或育种中,往往需要用今年或者去年的数据去建模,预测明年的情况。这个方向用在育种上,大概能通过估算,对眼前还没出现、但未来可能出现的材料进行比较、选择和取舍,就能帮助指导育种了。
在被问及国内科研单位及种企是否已开展人工智能指导作物育种时,崔洪志表示这篇文章成果属于基础科学研究方面,这个领域进入应用研究阶段尚需时日,未来应该是这一领域形成成熟成果和产品后与种业对接。
福建省农科院水稻研究所研究员张建福指出,国内已有单位在利用人工智能,这是好的方向,因为农业劳动力成本越来越高。“我们现在也在建一个大规模的表型数据采集平台,希望借助人工智能把劳动力解放出来,同时利用大数据进行分析”。
河南金博士种业股份有限公司山西分公司总经理孟军建表示,人工智能,让非生物具备人类和生物的智能去工作,比如无人驾驶等。它更加高效,可以解决好多环节的工作,未来肯定是智能时代。不过工业好改变,农业不好改变,因为农业有生命,应用的是生物技术。
另外,林海艳提到一点,要开展这样一项人工智能与作物育种相结合的工作,很重要的就是数据积累。像前文提到的张启发团队在PNAS上发表论文,他们一直在从事这个方向的研究,并且前期做了很多工作,有足够的积累才能发这样的文章。“与国际上具有较长历史的大公司相比,在技术上我们并没有落后多少,但他们的优势在于体系比较成熟,比较标准化。国内少有具备像他们那样的体系的公司,而这也不是一蹴而就能建立的”。另外,农作物研发的周期比较长,一个公司需要达到一定的规模,还要有配套的体系连接“数据孤岛”,产生可借鉴、关联的数据,才能应有人工智能,数据量达不到也很难去应用。
最后,林海艳指出,当前人工智能已对人类生活的诸多方面提供便利,产生影响,技术也日臻成熟,人工智能更需要找到一些应用场景去发挥作用,农业领域便提供了一个广阔的平台。林海艳直言,技术上在社会生活中的其它方面已有成熟的案例,但是可以直接应用于农业生产的成熟商业化产品还比较缺乏;技术原理有,但能与农业匹配的产品还没有。
种业科研要重视数据积累及合作共享,让人工智能在育种领域开花结果,为培育出更多生产亟需的新品种提供技术支撑。