我国学者与海外合作者在神经网络解释方法领域取得进展

日期 2023-04-18　来源：信息科学部　作者：赵瑞珍刘屿刘行健　【大中小】　【打印】　【关闭】

图从深度卷积神经网络中提取基因调控序列的语法规则

　　在国家自然科学基金项目（批准号：62250007、62225307、61721003）等项目的资助下，清华大学自动化系汪小我教授团队与美国斯坦福大学统计系王永雄教授团队合作，开发了神经网络解释算法NeuronMotif，实现了从神经元中自动归纳和提取基因调控序列编码规则。研究成果以“NeuronMotif: 通过深度神经网络的逐层解耦破译基因顺式调控编码（NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks）”为题，于2023年4月6日发表于《美国科学院院刊》（PNAS）期刊上。论文链接：https://www.pnas.org/doi/10.1073/pnas.2216698120。

　　近年来，大数据驱动的深度神经网络模型已在多个领域取得了重要进展，例如蛋白质结构和基因调控功能的高精度预测。然而，这些模型通常是不透明的黑盒，难以理解其内部机制。神经网络黑盒的透明化，可以帮助人类获取模型从数据中学习到的知识，对促进人工智能理论发展和增进相关交叉领域的认知具有重要意义。例如，在基因调控序列这一决定细胞功能和状态的DNA序列的功能预测问题上，卷积神经网络（CNN）等网络模型已经取得了很好的效果，但神经网络解释方法的缺失导致基因调控规律的解析和重构研究受到严重制约。

　　研究团队发现，CNN解释困难的一个主要原因在于深层神经元大多是“多面神经元”，这种神经元能够同时被多种不同序列模式激活，其直接可视化结果往往令人难以理解。其中，最大池化结构是导致多面神经元产生的关键原因。为此，研究团队提出了NeuronMotif算法：使用蒙特卡洛采样和遗传算法得到能充分激活神经元的序列集合，并通过反向逐层聚类，将序列划分到不同的子集中，最终可视化每个子集以获得易于理解的序列模式特征。

　　利用该方法，研究团队构建了基于结构化语法树的自动化知识提取方法，从数据中归纳转录因子结合位点序列模式、组合模式、间距、次序等调控序列语法规则，如图。相关发现得到了文献和多种生物组学数据的支撑和验证。其解释结果还可用于人工神经网络的诊断和改进，有助于解决神经网络调参困难等问题。该方法可以利用神经网络从海量数据中获取可理解的知识，从而帮助人类更加深入地理解复杂生物过程的基因调控规律，并为基因治疗等应用中定制化逆向构造人工基因调控序列提供支撑。