刚聊完就弹窗推荐,这些 APP 是在偷听吗?( 二 )


刚聊完就弹窗推荐,这些 APP 是在偷听吗?文章插图
算法层面在很多不懂行的人眼里 , 算法无所不能 , 人工智能那是真的智能 , 就真的和有一个人住在手机里偷听一样 。 显然那是不现实的 , 算法也好 , 机器学习深度学习的模型也罢 , 本质上也是程序 。 只要是程序不管看起来多智能 , 本质上仍然是遵循已经制定好的模式 。
我这么说大家可能get不到 , 我们不妨来思考这么一个问题 , 从麦克风读入的声音数据 , 怎么转化成APP所需要的数据呢?
直接从语音进行分析是比较困难的 , 常规的做法都是先通过语音识别算法转成文本 , 之后再对文本进行内容分析 。 因为我们文本分析的算法和手段都比较多 , 而直接分析语音则比较困难 。 并且我们语音分析现在也已经比较成熟了 , 国内顶尖的是科大讯飞 ,大家可以试试科大讯飞的讯飞输入法里面的语音转文字的功能 , 识别速度和准确率都还不错 。
但问题是如果是偷偷录音的话 , 是很难保证收音效果的 , 不用想肯定充满了杂音 。 在这种情况下是很难保证语音识别之后的文本质量 , 退一步来说即使不存在这个问题 , 所有的文字都能识别准确 , 但是其中有价值的内容太少了 。 因为我们生活中大部分说的话都是闲言碎语 , 有价值的含量并不高 。 比如就拿电商APP来说好了 , 我们日常用语当中又有多少是我们感兴趣的商品意图呢?这些意图又怎么识别呢?这些都是问题 。
即使能够识别 , 又该怎么计算呢?是在用户本地计算吗 , 还是上传到云端呢?本地计算显然是不行的 , 因为深度学习模型的运算量不小 , 只靠手机的性能十有八九是不够的 。 如果传到云端呢?语音文件算法不算很大 , 但是日积月累消耗的流量也是不小的 , 用户真的不会察觉吗?
以目前业内的情况来说 , 算法对于用户兴趣的识别准确率远远没有大家想象的高 。 再加上噪音的折损 , 脏数据的干扰 , 最终得到的准确率是非常非常低的 , 低到几乎完全不能用的地步 。 你们要是不信去买个天猫精灵回来试试看就知道了 , 天猫精灵在我家已经被我叫做笨猫精灵了 , 它完全意识不到还应对得很开心 。
而且这些APP完全根本不需要用这样下作的方法就可以知道我们是谁 , 我们对什么内容感兴趣 。 比如淘宝有你所有的消费记录 , 还有你的地理位置信息 , 知道你在哪里你的消费能力怎么样 。 甚至还可以从你的行为上推断出你有没有车有没有房 , 你在哪里上班 。 这些信息获取的渠道都是正当合法的 , 既然通过合法的信息就能猜到你大概喜欢什么样的 , 又何必去铤而走险呢?
刚聊完就弹窗推荐,这些 APP 是在偷听吗?文章插图
风险虽然我们分析已经有了结论 , 但是仍然免不了问一句 , 假使以后科技发展 , 使得我们对于用户的语音识别以及兴趣识别可以做得更加准确 , 会产生这样的情况吗?
其实也是不会的 , 这里面的道理也很好理解 。 对于大公司而言 , 对于用户的数据的保密程度是非常高的 , 比大家想得还要严格 。 之前在阿里的时候 , 就连自己的数据都是不能随意查的 , 除非有正当的工作需要 , 否则被发现了都是要承担责任的 。
之所以会这么严格 , 一方面是国家社会的要求 , 另外一方面这和公司自己的利益也是一致的 。 一旦偷听这种事情曝光 , 带来的负面影响对公司的股价以及形象的伤害是非常非常大的 , 像是阿里这样的公司 , 股价一有波动至少是数十亿美元的损失 。 别说偷听猜不透我们的喜好 , 即使能猜透又能带来多少的利润呢?双十一、双十二搞搞促销不香吗?正当的钱都挣不过来 , 为什么要走歪路?
当今互联网的大公司都是掌控着媒体的力量的 , 真要敢这么搞 , 不是给竞争对手送炮弹吗?所以你看说起来有鼻子有眼 , 但其实根本经不住推敲和分析 , 生活中这样的事情很多 , 稍不留心很容易就被忽悠了 。 希望大家生活中遇到事情的时候能多想一想 , 不要被别有用心的人忽悠了 。