1 简介

当你训练一个模型时,不仅需要高效的实验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量performance measure

通常情况下,对于不同的任务有不同的性能度量。本文介绍两种常见的任务:回归和分类。

2 回归任务

2.1 均方误差(mean squared error)

对于回归任务,我们需要对比预测结果和真实标记之间差距,所以均方误差是一个比较合适的指标。

公式略(MarkDown 不支持🤦‍)

3 分类任务

3.1 混淆矩阵 (confusion matrix)

对于二分类问题,有下述矩阵:

真实 \ 预测 正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)

3.2 五个指标

1 准确率 (accuracy)

  • A = (TP+TN) / (TP+FN+FP+TN)

2 错误率 (error)

  • E = (FN+FP) / (TP+FN+FP+TN) = 1-A

3 精确率 (precision)

  • 又名查准率
  • P = TP / (TP+FP)

4 召回率 (recall)

  • 又名查全率
  • R = TP / (TP+FN)

5 F1度量 (F1 score)

  • F1 = 2PR / (P+R)