如果Siri也是养成类游戏,该如何避免它成为种族主义者?( 二 )


图片来源于网络
报告建议在保护隐私的基础上增加数据多样性
报告指出 , 通过修改AI系统 , 增加模型的复杂度可以解决算法本身的错误 。 简单的模型因为更容易被测量、监督、替换而被商业公司所青睐 , 但过于简化的版本会削弱预测结果的准确性 , 更难鉴定出不同群体间的差异 。
但同时 , 研究者也认为模型不应过于复杂 , 要避免模型与样本过于匹配而丧失普遍性;此外 , 在训练模式的过程中 , 也应不断调整应用与预测的决策逻辑和参数 , 以取得预测结果中公平与准确性的平衡 。
如果Siri也是养成类游戏,该如何避免它成为种族主义者?文章插图
图片源于网络
针对数据的显性与隐性的问题 , 研究者建议 , 不断更新数据库、寻找更适合的数据来训练AI系统是一个好方法 。 例如当使用AI来预测各国新冠肺炎患者的数量走势时 , 需要每天更新各国患者的数据 , 而不是停留在2020年的上半年 。
当然 , 在不断更新数据 , 增加数据多样性的同时 , 也需要注意保护个人的隐私 , 需要在不违反法律、不侵害用户权利的原则下 , 进行数据的补充与完善 。
其次 , 在输入原始数据前 , 需要对其进行预处理 , 包括对数据的清理和相关属性的隐藏 。 例如上述招聘网站的推荐系统 , 隐藏性别属性 , 强调职业中所需要的技能与经历 , 这样便可以减缓与避免性别在职业分工中占据过大比重 。
最后 , 在搭建模型的过程中 , 需要有明确的目标 , 避免使用过于抽象化的概念来进行预测 , 并且准对不同的主体 , 需要有不同的参考标准 。
例如一家银行在考虑是否为申请者提供贷款时 , 往往会考虑他的盈利能力、信誉度、还贷能力等 , 但这些都属于较为抽象的名词 , 无法用具体的数据来展示 , 研究者认为可以用信用卡的消费金额、消费次数、还贷时间等具体指标来进行衡量 。
并且 , 报告还特别提醒 , 即使是具体化的指标也不一定适用所有人群 , 例如 , 信用卡的数据便无法用于第一次贷款的年轻人 , 因为他们此前可能没有使用信用卡的记录 。
AI能够带来更好的决策 , 但如果无法彻底理解与解决算法偏见 , 它对于人们来说是空洞的 , 研究员Edward Santow认为 , 只有严谨的程式设计、无数次的测试、与实时的监测 , 才可以最大程度地避免人工智能犯下错误 。
综合:南都人工智能伦理课题组研究员连俊翔 冯群星