回顾前面介绍的一些性能度量可看出,它们大都隐式地假设了均等代价,例如式(2.4)所定义的错误率是直接计算“错误次数”,并没有考虑不同错误会造成不同的后果.在非均等代价下,我们所希望的不再是简单地最小化错误次数,而是希望最小化,总体代价”(total cost).若将表2.2中的第0类作为正类、第1类作为反类,令D+与D-分别代表样例集D的正例子集和反例子集,则“代价敏感”(cost-sensitive)错误率为 类似的,可给出基于分布定义的代价敏感错误率,以及其他一些性能度量如精度的代价敏感版本.若令costij中的t、J取值不限于0、1,则可定义出多分类任务的代价敏感性能度量,在非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,而“代价曲线”(cost curve)则可达到该目的,代价曲线图的横轴是取值为[0,1]的正例概率代价,其中FPR是式f2.19)定义的假正例率,FNR=1- TPR是假反例率.代价曲线的绘制很简单:ROC曲线上每一点对应了代价平面上的一条线段,设ROC曲线上点的坐标为(FPR,TPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示了该条件下的期望总体代价;
想了解更多IT资讯,请访问中培伟业官网:中培伟业