|维数灾难:都是孤独惹的祸

【|维数灾难:都是孤独惹的祸】
全文共2433字 , 预计学习时长7分钟
|维数灾难:都是孤独惹的祸
本文插图
图源:unsplash
维数灾难究竟是什么?除了是机器学习术语中让人闻风丧胆的主要实例外 , 还包括特征数量的增加对数据集的影响 。 简言之 , 维数灾难全都与孤独有关 。
在具体解释维数灾难之前 , 让我们先来先解决一些基础术语问题 。
什么是特征?特征是机器学习中的一个词 , 在其他学科中可能称为预测器/(独立)变量/属性/信号 。 换句话说 , 它是关于每个数据点的信息 。
数据间保持距离非常容易:只需添加一个维度 。 但对某些算法来说 , 这可能是个灾难 。 如果一种机器学习算法对维数灾难非常敏感 , 该算法就只有在数据点被空间中的朋友围绕时才能有最好的运行效果 。 空间中 , 数据点周围的朋友越少 , 形势越容易恶化 。
一维
想象自己坐在一个大教室里 , 周围都是好朋友 。
|维数灾难:都是孤独惹的祸
本文插图
将自己想象成一个数据点 , 放置在一维空间中 , 房间一片漆黑 , 教室后面发出的亮光照射着你 , 影子投射在前面墙体的一条线上 。 在那条线上 , 你一点也不孤独 , 大家就像罐头中的沙丁鱼一样抱团取暖 。 一维空间真舒适 , 但可能有点儿舒适过头了 。
|维数灾难:都是孤独惹的祸
本文插图
二维
为了让你有呼吸的空间 , 现在增加一个维度 。 我们正处于二维空间 , 下面的平面是房间地板 。 在这一空间中 , 你和朋友们更加分散 , 每个人可以获得个人空间 。
|维数灾难:都是孤独惹的祸
本文插图
如果想象成虚构的电子表格对你而言更容易 , 那就把添加/删除一个维度换成插入/删除一列数字 。
三维
现在添加第三维度 , 把大家随机分配到原本所在的5层楼中的任意一层 。
|维数灾难:都是孤独惹的祸
本文插图
突然 , 周围的朋友数骤减 , 孤独将你包围 。 如果你喜欢被朋友紧紧包围的感觉 , 可能如今你只能哀怨地盯着好几张空椅子 , 于是你泪眼朦胧 , 但至少周围可能还有一个朋友......
|维数灾难:都是孤独惹的祸
本文插图
四维
现在再添加另一个维度——时间维度 。
|维数灾难:都是孤独惹的祸
本文插图
学生们分散至60分钟的课堂的不同时段(不同楼层)——我们规定只有9节课 , 因为老师们也需要休息和生活 。 因此 , 如果你有幸在此之前仍然有同伴的情感支持 , 但现在 , 笔者可以明确告诉你 , 你已经与世隔绝了 。
如果你孤身一人时没有效率 , 那就麻烦了 , 维数灾难已经降临!
|维数灾难:都是孤独惹的祸
本文插图
MOAR维度
随着维度增加 , 你的孤独感也增加得十分迅速 。 如果要确保每个同学都像在二维空间中被朋友环绕一样 , 就需要非常多的学生 。
|维数灾难:都是孤独惹的祸
本文插图
这里最重要的是朋友数量必须呈指数增长 , 而非线性增长 , 这样才能防止“抑郁” 。
如果添加两个维度 , 那么甚至两个教室的学生都远远不够 。 起初如果教室有50名学生 , 添加5层楼和9堂课后则需要原来学生数的5x9=45倍才能达到原来只需50个人就能达到的效果 。 因此 , 我们需要45x50=2250个学生才能避免孤独 。 每个维度增加一个学生远远不够!数据需求飞速上升 。