||
一、验证集、测试集、训练集
验证集和测试数据集不同在于,验证集在训练过程中使用,测试数据集在建模之后使用,在竞赛中一般验证集是线下验证集,因为线上提交次数有限,为了更好的检验模型效果,验证集被用来进行线下模型的评估。
二、监督学习、半监督学习、无监督学习
监督学习是学习给定标签的数据集,监督学习又有不同分类,如果预测结果是离散类型,则是分类,如果恰好预测结果只有两种类别,就是二分类,多种类别为多分类
如果预测结果是概率这类连续型数字,则是回归问题
无监督学习是学习没有标签的数据集,使用聚类来把样本聚集到几个簇
半监督学习的数据集比较特殊是部分有标签部分无标签的数据集,由于有标签的数据成本高,数量少,而无标签的数据多,我们希望通过未标记的数据去增强标记数据的训练效果,这就需要半监督学习
三、模型评估指标
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(True Positive,TP)、假正例(False Positive, FP)、真反例(True Negative, TN)、 假反例(False Negative, FN)四种情形。令TP、FP、TN、FN分别表示其对应的样例数, 则显然有TP+FP+TN+FN=样例总数。分类结果的“混淆矩阵”(Confusion Matrix)如下
为了评估一个模型的好坏,针对不同的场景通常我们需要不同的评价指标。
(1)Fl-score
(2)AUG
ROC曲线的纵轴是“真正例率”(True Positive Rate,简称TPR),横轴是"假正例率”(False Positive Rate.简称FPR),描绘出ROC曲线图,计算出 ROC曲线下的面积,便得到了AUC值。
(3)RMSE & MSE
RMSE(Root Mean Squard Error)均方根误差,MSE(Mean Squared Error)均方误差, 这两个评价指标都是针对于回归模型的
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 03:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社