研究数以万计的形形色色的化学分子的各种性质和生理活性,是化学家的核心任务之一。尽管理论和计算化学家们付出了长期和艰辛的努力,在解释和预测一般分子的性质/活性时,目前仍然缺少广泛适用的数学模型或规律。因此,长期以来,化学学科经常被认为是基于经验的学科,化学家对分子性质的探索,在很大程度上也仍然依赖于实验或经验观察的结果。
近期, 我校徐路教授与长江大学杨琴博士对上述基础化学理论问题展开合作研究,提出了深度云效关系 (Deep Electron Cloud-activity Relationships, DECAR)和深度场效关系(Deep Field-activity Relationships, DFAR)的概念和方法,在此基础上提出了构建由人工智能和大数据驱动的分子定量构效关系(Quantitative Structure-Activity Relationship, QSAR)系统的构想,在理论上有望实现对一般分子的各种性质的可靠预测。关于DECAR和DFAR的研究论文《深度云效和场效关系》发表于国际化学计量学权威期刊Journal of Chemometrics,相关的评论文章《电子云密度的人工智能和大数据分析》发表于国际英文杂志Research & Reviews: Journal of Chemistry。


图1 DECAR/DFAR的系列研究论文
在文章中,作者指出,分子的化学(生理)性质本身具有经验性和模糊性,即很多化学性质并不能用明确的数学/物理关系来描述,而往往是取决于一系列复杂的、尚未完全探明的物理/化学机制或相互作用。另外,很多我们感兴趣的性质(如抗癌、抗衰老活性)本身也是基于经验或观察而定义的。因此,一般来说,量子力学或量子化学无法直接推导出这些具有经验性和模糊性的分子性质。在此基础上,作者认为,要发展可靠的具有普遍意义的分子性质预测模型,仅仅依靠量子力学或量子化学是不够的,必须要借助于机器学习和人工智能方法,即从已知分子结构-性质的实例中,进行学习和推断。虽然传统的基于机器学习的定量构效关系(QSAR)方法在化学、材料、制药、生物、环境、能源等学科取得了很大进展,但仍然存在一些缺点,即分子描述符不精确、学习对象少等。因此,迄今为止,尚未能获得可靠的、广泛适用的QSAR模型。

图2 高质量电子云密度作为分子结构的精确表征手段
另外,作者还对量子化学、结构化学的一些经典理论和方法进行了回顾和借鉴。诺贝尔化学奖得主鲍林的杂化轨道理论、福井谦一的前线分子轨道理论等,大大加深了人们对于分子结构-性质关系本质的认识和解释能力。根据Hohenberg-Kohn 第一定理,电子云密度决定了基态分子的一切性质。作者指出,上述分子轨道理论中的分子轨道,实质上都只是近似的局部电子云密度,因此它们对分子性质的解释,也只能停留在经验和近似的层面。同时,如上所述,由于缺乏大数据的支撑,这些理论对人们感兴趣的具有经验性或模糊性的很多分子活性的预测,是无能为力的。

图3 三维卷积神经网络学习和推断分子性质
在分子轨道理论和比较分子场法(CoMFA)等方法的启发下,DECAR和DFAR是国际上第一个基于严格量子化学计算的高质量电子云密度数据(或相关场数据)、大量分子实体和深度学习算法的QSAR模型。一旦获得足够的分子结构和活性数据,理论上DECAR和DFAR有望通过对海量分子电子云-性质关系的学习,实现对任意分子的任意性质的可靠预测。在论文中,作者还讨论了模型解释、分子电子云/场、活性数据的生成、存储和共享等问题。DECAR和DFAR方法为正在筹建中的“铜仁学院分子深度云效关系国际研究中心”奠定了理论基础,该中心用维基百科的方式(个人提供数据,学术界共同监督、审核、更新、注释和共享等),形成数以百万计的分子电子云、场数据的数据库,作为DECAR/DFAR的数据来源。同时,该平台也将促进获得成功的深度学习网络在不同的研究者中间发生共享、移植和更新。通俗的说,分子电子云、场的数据库,就好比一个巨大的化学分子的“图像库”,DECAR和DFAR的任务就是学习和预测这些海量“图像”的种类(分子活性)。

图4筹建中的“铜仁学院分子深度云效关系国际研究中心”
最后,作者还展望了DECAR和DFAR的发展和应用前景。随着大量的分子电子云(场数据)和相关活性数据的积累,将会出现数以百计的基于大数据深度学习的网络,每一个网络就像一台人工智能机器一样,可以预测一种(或多种)我们感兴趣的分子性质或活性。最后,考虑到著名的AlexNet网络已经学习并分类了1000类图像,将来有可能会出现一个单一的网络,可以同时学习并预测一般分子的各种(几百或几千种)性质或活性。随着大量的电子云(场)数据、深度学习模型的出现和共享,DECAR和DFAR将成为化学家系统预测和探索分子性质的一个理论基础和有力工具。随着数据库的建成和海量分子数据的积累,“铜仁学院分子深度云效关系国际研究中心”有望成为引领分子定量构效关系(QSAR)研究前沿的国际研究平台之一。

徐路,男,博士,现任铜仁学院大健康学院三级教授。毕业于湖南大学,师从俞汝勤院士。长期从事化学计量学、化学信息学和中医药信息学等研究。(Email: lxchemo@163.com)

杨琴,女,博士,现任长江大学物理与光电工程学院副教授。毕业于湖南大学,师从俞汝勤院士。长期从事化学计量学、代谢组学和光谱分析等研究。(E-mail addresses: yqbioinformatics@126.com)