在python中使用KNN算法处理缺失的数据( 二 )

现在 , 我们可以使用修改后的数据集(在3列中缺少值)调用optimize_k函数 , 并传入目标变量(MEDV):
k_errors = optimize_k(data=http://kandian.youth.cn/index/df, target='MEDV')就是这样! k_errors数组如下所示:
在python中使用KNN算法处理缺失的数据文章插图
以视觉方式表示:
在python中使用KNN算法处理缺失的数据文章插图
看起来K = 15是给定范围内的最佳值 , 因为它导致最小的误差 。我们不会涵盖该错误的解释 , 因为它超出了本文的范围 。让我们在下一节中总结一下 。
总结编写处理缺少数据归因的代码很容易 , 因为有很多现有的算法可以让我们直接使用 。但是我们很难理解里面原因-了解应该推定哪些属性 , 不应该推算哪些属性 。例如 , 可能由于客户未使用该类型的服务而缺失了某些值 , 因此没有必要执行估算 。
最终确定是否需要进行缺失数据的处理 , 还需要有领域的专业知识 , 与领域专家进行咨询并研究领域是一种很好的方法 。
作者:Dario Rade?i?
deephub翻译组