想在Kaggle比赛中进入前4%,你需要掌握哪些诀窍?( 二 )


·方差阈值 。 这是吸引力较小的信息增益版本(但有时更实用) , 计算每一列的方差 , 并删除方差小的列(做必要的缩放后) 。
·特征降维 。 若出现较多高度相关的特征 , 那么使用降维的特征可能会有帮助 。 一般需要尽量不删除而只是减少那些不太“重要”的特征 。 如此一来 , 你仍能保留该有的信息 。
先理解指标 , 再设计方案 。
Kaggle会按照一定的指标来评估参赛方案 , 并以此决定参赛者的名次 。 有时候会用模型评估指标(AUC) , 有时也可能会用对数损失函数(logloss) 。 Kaggle一般会在竞赛概览的“评估”部分提供其用到的公式 。

想在Kaggle比赛中进入前4%,你需要掌握哪些诀窍?
文章图片
Kaggle为MechanismsofAction竞赛提供的公式 。
想在Kaggle比赛中进入前4%,你需要掌握哪些诀窍?】你需要留意这些指标 , 因为它们往往决定了参赛者该如何构造方案 。 比如 , 使用一个与评估函数非常相似的特定损失函数 , 将提高模型在该指标下的性能 。
以对数损失函数为例 。 对互联网进行深挖能够带来很多有用信息 , 而对数损失函数会惩罚自信且错误的预测 。 也就是说 , 在预测中 , 模型越自信 , 对其错误性的罚分也会上升的越快 。 关于这一点还有很多需要仔细斟酌:
·首先 , 如果系统性错误(即模型不能对数据进行理解)使得模型在对数损失方面非常糟糕 , 那么此时让模型变得更“迟钝”可能会有帮助 。 至少在即将要得出错误答案之前 , 它不会显得自信 。
可以通过增加数据(依情况而定)或者降低模型的自信来完善模型 。 若是想偷懒 , 也可以只使用“目标裁剪”:如果预测小于1%或大于99% , 那么只需要分别将其裁剪在1%和99% 。 这样就避免了任何过度自信的答案(当然了 , 还有另一个方向就是如何让模型的系统误差更小 , 更好的理解数据) 。
·其次 , 也许模型能够较好地理解数据 。 但是模型过于迟钝 , 那么与其说是有系统性错误 , 不如说是有精确性错误 。 这就提供了一个新思路:可以尝试套袋法或其他集成方法 , 稳定预测的可信度 , 增强预测自信 。
这些思维方式使得数学知识能够转化为实际的技术 , 并给数据科学带来无限的创造性与趣味性 。
接下来是建模的相关策略
建模单调乏味 , 是因为我们通常把建模过程视为完成任务:
·构建
·微调
·评估
·重复
看起来似乎只有有限的建模顺序 , 特别是在你经验有限且不习惯使用低层代码的情况下 。 其实建模艺术中也有很多乐趣和学问 。 下面是一些可行建议:
·预训练 。 如果有无人监管或无人评分的数据(在训练集合中提供的但是没被测试集合使用过的数据) , 就可以通过模型运行数据来做预训练 。 同理 , 也可以利用Keras的预训练和预构建模型 。 这些方法都没什么难度 , 而且能够很大程度减轻工作量 。
·非线性拓扑结构 。 这是种神经网络并不是连续性的;相反 , 每一层可以有多个分支 , 且在后续阶段分支之间也能够续连 。 利用Keras的API函数式就能很容易做到 。 例如 , 图像数据可以分割成两个不同过滤器大小的卷积层 。 它们在不同的尺度上学习表征 , 而后再联合起来 。
·古怪、疯狂的科学方案 。 DeepInsight模型就是很好的例子 。 这一方法在MechanismsofAction竞赛中非常受欢迎 , 它使用了t-SNE(一种降低视觉维度的方式)将表格数据转换为图像 , 然后使用卷积神经网络加以训练 。
最后 , 还有些方法值得一试:将集合中的预测结果创造性地结合在一起;除ReLU以外的激活函数(比如 , LeakyReLU , Swish);对非树形模型的‘boosting’(将对一个模型的预测输入到另一个模型中用以学习错误)等等 。
每个人都能建模 , 不会写TensorFlow的源代码也能开发出复杂且成功的模型 , 开发模型只需要拥有创造力和实现想法的意愿 。

想在Kaggle比赛中进入前4%,你需要掌握哪些诀窍?
文章图片
图源:unsplash

想在Kaggle比赛中进入前4%,你需要掌握哪些诀窍?
文章图片
策略技巧层面
这部分提到的技巧更多与参赛者在竞赛中的策略使用和心理状态相关 。
经常查看讨论区
我必须承认 , 想出新的思路太难了 。 能够站在愿意分享信息的巨人肩上也挺好的 , 这值得鼓励 。 这里有太多值得一试的想法 , 定期查看讨论区有助于了解哪些有用 , 哪些没用 。