傻大方


首页 > 人文 >

科技日报|AI阅卷“翻车” 其实是“翻”在了自然语言处理( 二 )



按关键词阅读:


“遵循的评测规则、评判的出发点不同 , 相应的算法模型都不一样 , 因此最后的结果也会相差甚远 。 ”熊德意说 。
因此仅仅利用一种评测方法显然是不全面的 , 这也就解释了当孩子的母亲尝试在答案里加入“财富、商队、中国、印度”等题目中的关键词时 , 即使这些关键词之间没有任何串联 , 她也得了满分 。 “可能这个AI阅卷系统只使用了简单的关键词匹配 , 因此会出现‘关键词沙拉’也能蒙混过关的情况 。 ”熊德意解释 。
此外 , 口语的人工测评与机器测评也存在较大出入 。 “近年来 , 语音识别性能虽然在深度学习技术的推动下取得了显著的提升 , 但是在开放环境、噪音环境下 , 这种识别率就会下降很多 。 ”熊德意解释 , 如果机器“听”错了一个单词 , 而后机器进行测评 , 就会形成一个错误传播 , 也就是上游系统的错误会导致下一系统错误 , 错上加错 , 越错越离谱 , 测评结果也会大相径庭 。
“目前有很多设计评测指标的方法 , 还有很多改进的方法 , 如在计算准确率的同时也计算召回率等 。 另外 , 还有对评测指标进行评测的 , 即评测的评测 , 看看哪个评测指标更完善 , 更和人的评价一致 。 ”熊德意感叹 , 很多时候 , 自动评测的难度和对应的自然语言处理任务的难度 , 从技术层面来说是一样的 , 比如用机器评价一个译文的好坏与用机器生成一个译文的难度类似 , 用机器评判一个文档摘要的好坏与用机器生成一个摘要的难度也差不多 。
可结合人工评测让系统更智能
“传统的自动评测指标通常是基于符号进行计算的 , 现在深度学习等AI技术也越来越多地应用于测评工具中 。 ”熊德意介绍 , 使用深度学习 , 可以把语言符号映射到实数稠密向量的语义空间 , 利用语义向量计算相似度 。 哪怕说的词语和计算机原本学习的不一样 , 但只要语义是一致的 , 机器就可以进行精准的评价 。 因此 , 基于深度学习的自动评测某种程度上可以应对语言的多样性挑战 。 不过深度学习也有一个问题 , 就是需要大量的数据让机器进行学习 。
基于自监督学习的预训练语言模型 , 近几年 , 在语言表示学习中 , 取得了突破性的进展 。 “OpenAI的预训练语言模型GPT-3 , 在5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络 , 通过大量学习网络上各种语言的文本 , GPT-3形成了强大的语言表示能力 , 可以进行多种任务 , 比如自动翻译、故事生成、常识推理、问答等 , 甚至可以进行加减法运算 , 比如其两位数加减法正确率达到100% , 五位数加减法正确率接近10% 。 ”熊德意介绍 , 不过 , 这么庞大的神经网络 , 如果用单精度浮点数存储 , 需要700G的存储空间 , 另外模型训练一次就花费了460万美元 。 因此 , 即使GPT-3具有较好的零样本、小样本学习能力 , 其高昂的成本使其离普遍可用还有很远的距离 。
但是AI作为阅卷评测“老师” , 其又有人工不可比拟的优势 。 比如AI自动批阅卷系统相比人工批阅速度更快 , 老师不可能一次记住所有的多项选择题答案 , 需要不断检查标准答案 , 这是很费时的 , 自动批阅系统帮助老师大大提高了效率;另外 , 自动批阅系统更加理性 , 不受外界条件干扰 , 不会因疲劳等原因导致误判 。 即使在复杂的干扰环境中 , 仍然可以得到正确的结果;AI阅卷系统还可以在评分后直接做好学情分析 , 统计出考试数据、错题数据等教学材料 , 帮助老师减负增效 , 帮助学生提高学习效率 。
“将主观题合理地客观化 , 可以降低自动阅卷的难度 。 ”熊德意表示 , 对无法客观化的主观题 , 虽然设定全面的评测标准比较难 , 但是设定某一方面的评测标准还是可行的 , 比如针对单词词法、句子语法的评判 , 目前准确率还是挺高的 , 这类技术可以从实验室走向产品应用 。


稿源:(科技日报)

【】网址:http://www.shadafang.com/c/sdfnews10141956102020.html

标题:科技日报|AI阅卷“翻车” 其实是“翻”在了自然语言处理( 二 )


上一篇:中国天气网|秋裤在召唤!北京今天降温明显最高气温跌至15℃ 凉意升级

下一篇:扫码|敲门,扫码,三分钟完成这件“国家大事”!全国人口普查开始,今年有何不同?


人文

项目|曲靖经开区成立项目服务第六临时党支部

阅读(27)

园区党委负责人宣读了《关于成立曲靖经开区项目服务第六临时党支部的批复》。经开区党工委委员、管委会副主任、项目服务第六临时党支部书记徐升奎出席会议并讲话。他强调,要...