成本导向的分类(Cost Aware Analysis)
模型选择的标准
- 普遍性 VS 准确性
- 效用(这一章的重点)error and cost based method
- 显著性
- 复杂度 VS 准确性
混淆矩阵(Confusion Matrix)
适用于监督学习
判断的标准
模型选择的艺术
最大化预测准确性
vs
最小化错误预测的成本
方法:
- ROC
- Lift Chart
二分分类的例子
血压与健康的关系: 权威机构给出的分布
问题: 应该把健康与非健康的边界设在那个血压上?
如果按上图这么分, ROC图会如下
如果我们沿整个x轴设置我们的标准
增加变量会导致模型变好
Threshold depends on the cost of FP or FN
ROC
history radar systems->sensitivity related to FP &FN
Blood pressue example
make a point on ROC
Not -so-trivial case
- 算cost
- 算slope
增加input会改善ROC效果
如何选择一个不明显的模型?
我们要计算错误分类的成本
特殊情况:
分开的模型可能比一个模型要好
b
那中间断怎么选? 两个模型都可以
Rating Classifiers
KNN model 5个中3个positive,我们可以说60%可能positive
connect the dots 不然roc会高会低是由于你的方法
interest in 预测的结果是否与原始结果相同
AUC curve
the greater the better
compare different model
AUC不是总是有用的
辐射-例子 alerts是正确的,但是对实际效果不符合 True negative up 而不是整个都好- particular settings
一些有趣的问题
如何用ROC做Kfold交叉检验?
- 把所有结果加总做一个ROC
- 预测TPR
- 画2D矩阵
Manhattan distance-不能直达必须像在曼哈顿穿梭一样,90度才能转弯
缺点:
计算量大, 数据量小增加K
如果结果不是二分?
- each pair of class
- 一个和其他结果
不同错误分类的结果
信用卡
风险: 错误的同意交易
value transaction cost
cost: percentage fee
cost: transaction value
巴克莱: different level for differnt cutomers: frequent flyer or shopper
总结
前提:
- 数据输入月输出
- 可结实性
- 数量和范围
- 计算资源
记录你做模型的原因
wake up quiz:?
overfit risk
bias: add more levels
variance: add more data
甜点:
low amount / Dimension
D
C + D
True
9