若何优化逻辑回归(logistic regression)?

11分钟前阅读1回复0
zaibaike
zaibaike
  • 管理员
  • 注册排名1
  • 经验值160850
  • 级别管理员
  • 主题32170
  • 回复0
楼主

工做刚好积累些,希望有帮忙。

第二步,变量筹办。对模子效果提拔十分十分重要!我指的是对变量的选择和形式的变更。动态地按照模子的反应来构造变量,能够贯串整个建模过程。某名人说过花80%的时间不为过。

第三步,除了chi-square test和IV值还有变量相关性。相关性太严峻会违犯独立假设,当然做预测的话违犯能够原谅。但变量太多的时候共线性严峻可能招致软件报错停止不下去(猜题主用的SAS)。此外business sense常常起决定性感化。好比客户关系办理中,若是模子显示年龄奉献度很低,一般仍是会把它放进去。

第四步,查验的参数。

1) c统计量,ROC曲线以下的面积,也叫AUC(area under curve)。在应用较成熟的范畴好比信誉卡评分行业有略微构成共识——大于或等于0.75——认为行为评分模子是可靠的。但针对marketing等其他范畴的数据,那个阈值能够商榷。

2) Gini系数,能够同c统计量转化,G=2c-1。

3) 提拔图(lift chart/gain table),其他名词累积提拔图/洛仑兹曲线/收益曲线说的几乎统一种工具。通过和随机选择的效果比力模子好坏,随机就是不消模子。若是对目的数据已经建好了一小撮模子,能够画差别模子的提拔效果来比力选更佳。

4) ks,响应变量0-1的曲线比照,二者之差画条线就是ks曲线。它的意义是模子把0和1区分隔的才能。又好比marketing,前25%的人是预测的响应客户群,对那一群体停止精准营销既有效果又省成本。20~40参考一下就行。

最初,模子和参数现实意义仍是要想想吧。良多人觉得logistic regression太简单,却连解释都不做,只一味看参数。看看出来的odds ratio和probability,既能给群众解释又不忘建模初志。

觉得有图更清晰,几个不错的中文博客,其他材料所在多有

HuJiangtang: 分类模子的性能评估——以SAS Logistic回归为例(1): 混淆矩阵AUC与ROC - 权衡分类器的好坏二分类模子性能评价(R语言,logistic回归,ROC曲线,lift曲线,lorenz曲线)

0
回帖

若何优化逻辑回归(logistic regression)? 期待您的回复!

取消