第四章 成本导向的分类

成本导向的分类(Cost Aware Analysis)

模型选择的标准

  1. 普遍性 VS 准确性
  2. 效用(这一章的重点)error and cost based method
  3. 显著性
  4. 复杂度 VS 准确性

混淆矩阵(Confusion Matrix)

适用于监督学习
-w260

判断的标准
-w468

模型选择的艺术

最大化预测准确性
vs
最小化错误预测的成本

方法:

  1. ROC
  2. Lift Chart

二分分类的例子

血压与健康的关系: 权威机构给出的分布
-w436
问题: 应该把健康与非健康的边界设在那个血压上?
-w451
如果按上图这么分, ROC图会如下
-w314
如果我们沿整个x轴设置我们的标准
-w355
-w481
增加变量会导致模型变好
-w347

Threshold depends on the cost of FP or FN

ROC
history radar systems->sensitivity related to FP &FN

Blood pressue example
-w434
make a point on ROC

-w328

-w345

-w325

Not -so-trivial case

  1. 算cost
  2. 算slope
    -w476

增加input会改善ROC效果
-w323

如何选择一个不明显的模型?

我们要计算错误分类的成本
-w460
特殊情况:

分开的模型可能比一个模型要好
b-w437
那中间断怎么选? 两个模型都可以

Rating Classifiers

KNN model 5个中3个positive,我们可以说60%可能positive

connect the dots 不然roc会高会低是由于你的方法
interest in 预测的结果是否与原始结果相同

AUC curve
the greater the better
compare different model

AUC不是总是有用的

辐射-例子 alerts是正确的,但是对实际效果不符合 True negative up 而不是整个都好- particular settings

一些有趣的问题
如何用ROC做Kfold交叉检验?

  1. 把所有结果加总做一个ROC
  2. 预测TPR
  3. 画2D矩阵
    Manhattan distance-不能直达必须像在曼哈顿穿梭一样,90度才能转弯

缺点:
计算量大, 数据量小增加K

如果结果不是二分?

  1. each pair of class
  2. 一个和其他结果

不同错误分类的结果
信用卡
风险: 错误的同意交易
value transaction cost
cost: percentage fee
cost: transaction value
巴克莱: different level for differnt cutomers: frequent flyer or shopper

总结
前提:

  1. 数据输入月输出
  2. 可结实性
  3. 数量和范围
  4. 计算资源

-w484

-w407

记录你做模型的原因

wake up quiz:?
overfit risk


bias: add more levels
variance: add more data

甜点:

-w485
low amount / Dimension

-w473

-w482
D
-w462
C + D
-w470
True

9