|||
原文链接:https://doi.org/10.1016/j.gce.2024.07.003
1 文章导读
在环境科学和化学工程领域,有机溶剂对环境影响已成为一个重要的研究方向。辛醇-水分配系数(KOW)被纳入欧盟化学品立法REACH,并要求对每年生产或进口量超过一吨的物质进行测定,以评估其对环境的潜在影响。此外,KOW对多种分离工艺(如液-液萃取)的设计与效率也具有至关重要的作用。然而,准确测量KOW还存在着显著的挑战,尤其是对于水溶性低的化合物。传统的基团贡献法在这些应用中往往表现出较低的准确性,且难以有效区分异构体。因此,亟需开发一种快速、高效的定量构效关系模型,以准确预测溶剂的KOW。KOW的研究不仅具有重要的科学价值,也具有广泛的应用前景。该研究将为环境保护和化学工程实践提供更加可靠的理论与技术支持。
重庆大学申威峰教授课题组开发了一种可精准提取分子结构的局部信息和全局信息的混合分子结构描述符,同时耦合机器学习算法和SHAP模型开发了精准、快速、高效的定量构效关系模型(QSPR)用于预测溶剂的KOW。KOW的预测效果得到大幅度提升,此外,引入了SHAP模型揭示了分子结构描述符与溶剂环境性质KOW之间的定量构效关系机制。文章发表在Green Chemical Engineering(GreenChE),题为“Development of an interpretable QSPR model to predict the octanol-water partition coefficient based on three artificial intelligence algorithms”。
2 研究亮点
提出了一种新的混合描述符精准提取分子结构的局部信息和全局信息。
基于机器学习算法FNN、XGBoost和RF,开发了高效的KOW预测模型。
基于SHAP模型揭示了分子结构描述符与KOW之间的定量构效关系机制。
3 内容概述
研究工作如图1所示,首先对收集到的14,610个数据进行预处理得到14,580个溶剂数据,将溶剂分子的简化分子线性输入规范(SMILES)转为不同类型的分子描述符(最大原子电荷、量子化学信息、分子重量等),进一步得到混合分子结构描述符,从而精准提取分子结构的局部信息和全局信息。
图1. 研究工作技术路线图。
对14,580个数据进行随机划分为训练集和测试集(8:2),采用人工神经网络(FNN)、随机森林算法(RF)和极端梯度提升算法(XGBoost)对数据进行训练,在训练过程采用5次交叉验证来防止模型过拟合并对各个模型的超参数进行优化得到最优的溶剂KOW预测模型,预测结果如图2、图3和图4所示。
图2.(a)实验数值logKOW-expvs. 预测数值logKOW-pred;(b)基于FNN的QSPR模型残差分布。
图3.(a)实验数值logKOW-expvs. 预测数值logKOW-pred;(b)基于RF的QSPR模型残差分布。
图4.(a)实验数值logKOW-expvs. 预测数值logKOW-pred;(b)基于XGBoost的QSPR模型残差分布。
图5. 基于FNN、RF和XGBoost模型的累计概率分布。
图5展示了实验和预测值之间绝对误差的累积概率。基于XGBoost的QSPR模型的曲线略高于基于FNN和RF的QSPR模型。在绝对误差为0.3时,FNN-QSPR的累积概率为78.59%,RF-QSPR为96.38%,XGBoost-QSPR为99.99%。此外,基于XGBoost的QSPR模型的平均相对误差为0.2072,其效果远好于基于FNN(0.3183)和RF(0.3044)。总体而言,推荐使用基于XGBoost的QSPR模型来预测有机化合物的logKOW。
图6. 基于XGBoost的QSPR模型的输入特征和输出结果的显著贡献。
图6展示了对模型输出值的影响排名前20的不同特征,以及特征值大小与输出结果之间的相关性。在图6中,高输入值的特征以红色表示,低输入值以蓝色显示,紫色表示值介于两者之间的特征。正负的SHAP值表示特征值与输出值之间的关系,其中正的SHAP值表明对模型输出有支持作用,负的SHAP值则有抑制效应。从图6可以明显看出,SMR_VSA8、SMR_VSA3、Kappa2、HeavyAtomCount和fr_furan是前五个最具影响力的输入特征。Kappa2根据电子云密度分布定义分子的空间形状,通过分子极性势(MLP)方法计算获得,它代表了分子电子云密度的空间分布。Kappa2表征了分子中连接的原子或基团周围弯曲程度。值得注意的是,SMR_VSA8和SMR_VSA3对logKOW有着显著的影响。具体而言,SMR_VSA8量化了在3.63 ≤ x < 3.80范围内的范德华表面积中原子摩尔折射率的贡献,其对logKOW有反向影响,即较大的SMR_VSA8值对应较小的logKOW。相反,SMR_VSA3值对logKOW有正面影响,即较大的SMR_VSA3值对应较大的logKOW。HeavyAtomCount表示分子中重原子的数量,对logKOW有负面影响。HeavyAtomCount值越高,logKOW越小。同样,fr_furan定义了与logKOW呈正相关的呋喃环的数量,因此,较大的fr_furan值对应较大的logKOW。上述结果表明关注相关性较为重要的描述符可以提高模型的预测准确度。
4 总结与展望
在这项研究中,作者有效地采用了三种不同的机器学习模型,即FNN、XGBoost和RF,开发了包含14,580种溶剂的数据集的QSPR模型,用于预测logKOW。通过从SMILES中导出的21个描述符来提取分子结构的局部信息和全局信息,并使用了诸如R2、MAE、RMSE和MRE等指标严格评估这些模型的性能。然后,与已有研究进行对比发现,基于XGBoost的QSPR其R2值为0.9772,表现出卓越的性能。然而,基于FNN和RF的QSPR模型与已报道的研究中大多数模型相比表现相对较弱。最后,通过使用SHAP分析进行模型解释,确定了前五个最有影响力的输入特征。这些特征包括SMR_VSA8、SMR_VSA3、Kappa2、HeavyAtomCount和fr_furan。这些见解增强了logKOW预测的精确性和适用性。在未来工作中可将QSPR模型嵌入到已开发的AI分子设计算法内实现绿色、高效的溶剂开发。
5 通讯作者简介
申威峰 教授
申威峰,重庆大学教授、博导。国家优青基金获得者,重庆杰青基金获得者、重庆青年拔尖人才、重庆高层次人才。FCSE、中国化学工程学报英文版、过程工程学报、eScience等编委,国家工信部节能标准化总体组专家委员,化工大数据与智能设计专委会委员,过程模拟与仿真专业委员。主持国家基金、重点研发、省部级、及企业委托项目30余项。从事智能分子设计与物质发现、绿色低碳化工过程开发与优化、智能化工系统与智能化工厂,以通讯作者发表SCI论文120余篇。申请发明专利10余件,出版英文专著1部。研究成果在行业得到应用和推广,助力企业的环境、社会及经济效益最大化,助力化学工业行业的智能化与绿色化,助力国家“双碳”目标。获重庆市科技进步二等奖、中国有色金属工业技术发明一等奖。入选IECR亚太地区年度最具影响力研究人员,获侯德榜化工科技青年奖,全球华人化工论坛未来化工学者。
杨傲 副教授
杨傲,重庆科技大学副教授,硕士生导师,长期从事智能化工、化工过程强化和智能优化研究。受邀担任国际学术期刊Separation and Purification Technology、Chemical Engineering Research and Design和Frontiers in Chemical Engineering的客座编辑,担任澳洲斯威本科技大学博士生导师。近年来,在AIChE J.、Chem. Eng. Sci.、Green Chem. Eng.、Ind. Eng. Chem. Res.等化工期刊以第一/通讯作者发表高水平论文40余篇,其中多篇入选ESI 1%高被引论文和ESI 1‰热点论文,入选2023年斯坦福大学全球影响力榜单Top 2%(Single year)。主持国家自然科学基金青年、中国博士后特别/面上、重庆市自然科学基金面上、重庆市博士后特别等项目10余项,授权发明专利4项,获批软件著作权5件,获重庆市科技进步奖二等奖1项、重庆市优秀博士学位论文。
撰稿:原文作者
编辑:GreenChE编辑部
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 02:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社