|
目的:通过此教程,了解并掌握Discovery Studio中通过MLR和PLS方法构建二维定量构效关系模型的操作过程。
所需功能和模块:Discovery Studio Client,DS QSAR。
所需数据文件:trainingset.dsv,test.sd。
所需时间:10分钟
介绍
药物设计中,当受体的结构未知时,基于结构的药物设计方法(主要为分子对接)将无计可施。而QSAR方法是基于小分子配体的药物设计方法,目的是采用数理统计方法研究和揭示化合物活性与其分子结构或物理化学特征之间的定量变化规律。如果能够搜集到一系列结构类似物的生物活性数据,则可以采用QSAR(定量构效关系)的方法预测未知化合物的相关活性。
DS-QSAR 中包括以下几种产生模型的方式:
s 贝叶斯分类(Bayesian categorization)
s 遗传函数逼近(Genetic Function Approximation,GFA)
s 多重线性回归(Multiple Linear Regression,MLR)
s 偏最小二乘法(Partial Least Squares,PLS)
s 递归分区(Recursive Partitioning,RP)
本教程采用2D-QSAR的方法研究甘氨酸/N-甲基-D-天冬氨酸抗肿瘤抑制剂的二维定量构效关系。数据来源为如下的参考文献:2-Dimensional Quantitative Structure-Activity Relationship Modeling Study of Glycine/N-methyl-D-aspartate Antagonist Inhibition: Genetic Function Approximation Vis-à-vis Multiple Linear Regression Methods,Nitin S. Sapre, Nilanjana Pancholi, Swagata Gupta and Arun Sikarwar,Acta Chim. Slov. 2007, 54, 797–804 。
参考文献中,作者采用GFA和MLR两种线性回归的方法构建构效关系模型。化合物的生物活性定义为LogIC50,建立构效关系时采用的理化参数为:Wiener指数(W),Randic接合系数(1ΧR),Balaban指数(J)。
本教程为了使用户对QSAR的方法流程有全面的了解,不采用文章中所使用的理化性质作为构建构效关系模型的参数(用户若有兴趣可以自己重复作者的QSAR分析),而采用的是DS中计算出的化合物2D性质。构建构效关系方程时,采用MLR/PLS的方法。
本教程包括以下内容:
s 计算训练集中化合物的相关性质
s 利用MLR构建QSAR模型
s 利用PLS构建QSAR模型
s 利用构建的QSAR模型预测测试集中化合物的生物活性
计算训练集中化合物的相关性质
由于本教程不使用文献报道的理化参数(W,1ΧR,J)作为构建QSAR模型的参数,所以需要使用DS来计算训练集化合物的其他理化性质。
在文件浏览器(Files Explorer)中,找到并双击打开2D_training set.dsv文件。
在工具浏览器(Tools Explorer)中,展开Small Molecules | Calculate Molecular Properties,点击Calculate Molecular Properties,打开Calculate Molecular Properties对话框。(图7)
设置Input Ligands为trainingset:All。
点击Molecular Properties右边的按钮,打开Molecular Properties对话框(图7),选择默认的2D 性质:
ALogP,Molecular_Weight,Num_H_Donors,Num_H_Acceptors,Num_RotatableBonds,Num_Rings,Num_AromaticRings,Molecular_FractionalPolarSurfaceArea。
点击Run运行该作业。
等待作业完成。
待作业完成以后,选取的2D性质计算结果自动添加于training_set表单中。
利用MLR建立QSAR模型
采用多元线性回归(MLR)方法建立回归方程。
在工具浏览器(Tools Explorer)中,展开Small Molecules | Create QSAR Model,点击Create Multiple Linear Regression Model。打开Create Multiple Linear Regression Model对话框。
设置Input Ligands为trainingset:All。
点击Dependent Propery右边的栅格,下拉列表中选择arNCTRlogRBA。
具体参数设置如图9。
注:Calculable Properties不选,在User Properties中选择已经计算好的性质。若事先没有计算过化合物的2D性质,则在Calculable Properties栏中选择需要计算的性质。
点击Run运行该作业。点击Background将作业设置为后台运行。
等待作业完成。
待作业完成以后,在任务浏览器(Jobs Explorer)中双击相应的行,打开Report结果文件。(图10)
点击View Results。
打开一个新的分子窗口,包含了训练集分子的表单,同时弹出一个消息盒子(如下图)。
点击Yes,打开一个plot窗口。(图11)
横坐标为训练集分子的实验活性值,纵坐标为预测值,R2=0.654,该值越接近1,预测结果越准确。
该结果为MLR的线性回归方程。
利用PLS建立QSAR模型
采用偏最小二乘(PLS)方法建立回归方程。
在工具浏览器(Tools Explorer)中,展开Small Molecules | Create QSAR Model,点击Create Partial Least Squares Model。打开Create Partial Least Squares Model对话框。
设置Input Ligands为2D_training_set:All。
点击Dependent Propery右边的栅格,下拉列表中选择LogIC50。
具体参数设置如图12。
注:Calculable Properties不选,在User Properties中选择已经计算好的性质。若事先没有计算过化合物的2D性质,则在Calculable Properties栏中选择需要计算的性质。
点击Run运行该作业。
等待作业完成。
待作业完成以后,自动弹出一个消息盒子(如下图)。
点击Yes,打开一个plot窗口。(图13)
横坐标为训练集分子的实验活性值,纵坐标为预测值,R2=0.640。
该结果为PLS的线性回归方程。
利用MLR_QSAR/PLS_QSAR模型预测测试集的生物活性
在文件浏览器(Files Explorer)中,找到并双击打开2D_test set.sd文件。
打开一个新的分子窗口,共有10个待测试的化合物显示在表格浏览器中,其实验活性值LogIC50值已人工输入。(图14)
在工具浏览器(Tools Explorer)中,展开Small Molecules | Calculate Molecular Properties,点击Calculate Molecular Properties,打开Calculate Molecular Properties对话框。(图15)
设置Input Ligands为2D_test:All。
点击Molecular Properties右边的按钮,打开Molecular Properties对话框,选择Other下的MLRTempModel 、 PLSTempModel性质(图15)
点击Run运行该作业。
等待作业完成。
待作业完成以后,选取的2D性质计算结果自动添加于2D_Test表单中。(图16)
MLRTempModel表示由MLR-QSAR回归方程预测得到的测试集化合物的LogIC50值。
PLSTempModel表示由PLS-QSAR回归方程预测得到的测试集化合物的LogIC50值。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-3 08:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社