关于分类数据编码所需了解的所有信息(使用Python代码)( 四 )
我们仅对训练数据执行目标编码 , 并使用从训练数据集中获得的结果对测试数据进行编码 。 尽管这是一种非常高效的编码系统 , 但它具有以下问题 , 这些问题会导致模型性能下降
- 它可能导致目标泄漏( target leakage)或过拟合 。 为了解决过拟合问题 , 我们可以使用不同的技术 。在留一法编码中 , 将当前目标值从目标的整体平均值中减小以避免泄漏 。在另一种方法中 , 我们可能会在目标统计信息中引入一些高斯噪声 。 这种噪声的值是模型的超参数 。
- 我们可能面临的第二个问题是训练和测试数据中类别的不正确分配 。 在这种情况下 , 类别可能采用极端值 。 因此 , 类别的目标平均值与目标的边际平均值混合在一起 。
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”