负面内容|Facebook公开多项AI审核新利器!反“仇恨言论”征途虽远必达
文章插图
智东西(公众号:zhidxcom)
编译 | 子佩
编辑 | Panken
智东西11月20日消息,一直以来,Facebook都极力阻止社交平台上仇恨言论和错误信息的传播,但效果却往往不佳。本周四,Facebook在其官网上发表了《社区标准执行报告》,公开了近期对抗仇恨言论的“战果”,也展示了正在以及即将投入使用的AI审核工具。
文章插图
Facebook《社区标准执行报告》
Facebook首席技术官Mike Schroepfer指出,去年的许多措施,已经在打击仇恨言论方面体现出积极作用。2020年第一季度,Facebook识别并处理了平台上近960万条内容,几乎是上个季度(570万条内容)的两倍。
文章插图
2019Q2-202Q3 检测出来的负面内容数量
“从去年第三季度到今年第三季度,Facebook自动检测系统,检测并删除负面内容的数量增长达三倍以上(从690万到2210万条内容 )。”Schroepfer周三在视频会议中表示,“一个成熟的检测系统,能在短短一年内,检测数量翻三倍,我认为是非常不错的成果。”
Facebook上的技术成果同样迁移到了旗下的Instagram中。
上个季度,Instagram也同样进行了大量的负面内容检测工作,在速度翻倍的情况下,识别准确率达到了95%。
一、AI模型架构Linformer,“并行”提速减消耗可以确定的是,由于不同时期的负面内容基数不同,仅用删除条数多少来评价AI审核工具的进步是不准确的。Schroepfer也提到:“像在2019年第四季度,就不会存在关于新冠肺炎的错误信息,也不会大量由选举引起的争议言论。但即使负面言论基数的不同,在整体评估下来,我们的AI审核工具也是有很大的进步的。”
现在Facebook披露的AI审核工具包括半监督式自学习模型和语言模型XLM-R,而在周四的报告中,Facebook还提到另外两项技术:AI模型架构Linformer和语言分类器RIO。
简单来说,Linformer可以通过自动为文本贴上标签,从而分析社交平台上内容是否带有负面信息。通过在XLM-R等大型语言模型中大规模部署Linformer,Facebook可以快速优化其负面信息识别过程。
相比递归神经网络,Linformer使用的是更适用于自然语言处理领域的Transformer体系结构。Transformer结构的优势之一就是可以并行处理数据,从而加快训练模型的速度,而缺点就是,随着输入数据长度增加,Transformer结构也会占用大量资源去满足内存和计算的需求。
但在研究人员设计架构中,Linformer就规避了这个缺陷,要求系统所用资源和输入数据量保持线性关系,从而强制要求系统以更少资源处理更多数据。
二、基于强化学习,RIO动态寻找“仇恨言论”最优解另一项新技术称为RIO(Reinforced Integrity Optimizer),本质上是一个基于强化学习的语言分类器,指导AI模型在数百万内容中学习,并树立奖励指标,迫使模型在学习过程中达到奖励指标,从而实现优化目的。
文章插图
RIO架构示意图
与之前只在固定数据集中进行训练的分类器不同,RIO需要不断适应一个动态变化的环境,使模型逼近不停变化的最优解。
“在传统的AI驱动系统中,预测和执行是两个单独的步骤。AI模型会预测内容是仇恨言论还是煽动暴力,然后会由其他系统判断是否要采取行动,如删除、标记或将其发送给审查人员……这种方法最大的缺点是,即使一个模型识别仇恨言论准确率极高,但这只是这个阶段、这个时期的表现,无法保证下一时期,相同的模型还能做得这么好。” Facebook在博客中解释道,“但有了RIO,我们不仅可以获得动态训练数据,还能减少训练、修正模型的时间精力。”
随着RIO继续生成越来越准确的分类器,它将使Facebook审核团队拥有更多的余地来贯彻社区准则。
这些用于反负面言论的AI技术也会进一步“洁净”社交平台。
Schropfer说道:“识别仇恨言论的难点就在于,不同时期使用的词是不同的,会导致传统分类器难以识别。基于强化学习的内容分类器非常有用,正是因为它可以敏锐地识别出不同主题下的仇恨言论。”
结语:全智能识别尚有距离,“仇恨言论”之战尚未结束Facebook在过去的五年时间里一直在开发自动检测和审核系统,但目前来看,这场与“恶势力”的斗争仍在继续。
今年早些时候,Facebook以5200万美元与11000名曾在Facebook平台遭受网络暴力的用户达成和解。本周早些时候,有用户向Facebook管理层发出了一封公开信,称Facebook作为平台维护方,所谓的社区准则并没有保障用户们的心理健康,而距离开发出完全智能的AI系统尚有数年之遥。
- 峰会|这场峰会厉害了!政府企业专家媒体共议网络内容生态治理
- 逛逛|淘宝内容化再升级:“买家秀”变身“逛逛”试图冲破算法局限
- 走向|电商,从货架陈列走向内容驱动
- 不确定性|从虾米看文娱,如何从内容不确定性寻找确定性?
- 内容|浅谈内容行业的一些规律和壁垒,聊聊电商平台孵化小红书难点(外部原因)
- Facebook|谷歌、Facebook未来几周将面临更多的反垄断诉讼
- 内容|怎样才能让你的小程序留住更多用户
- 订阅|手淘大改版:商家可被“订阅”内容种草与购买转化分离
- 未来|直播带货的未来在哪里?做内容,坚持这个方向才有变现价值
- 审查|Facebook超10亿美元收购Kustomer 该交易仍面临审查