碎片化|「小样本+AutoML」,改变算法生产的「核武器」?( 二 )


"X-Brain 的核心是一套主动学习算法框架,应用自研的主动学习(Active Learning)技术,改变了监督学习的被动接受人工标注样本的模式。"
魏宏峰告诉AI掘金志,该平台可通过AI主动判断样本是否需要算法工程师的参与,通过只让算法工程师参与部分困难样本的确认,形成人在回路(Human-in-the-Loop)模式,主动训练模型,形成模型自动迭代。
前面提到,小样本学习是为了解决碎片化场景无法获取大量数据训练模型的问题,而AutoML是在传统算法模式下,通过主动学习来提高算法生产效率,解放人力成本。
换句话说,小样本学习解决数据难题,AutoML则是提高算法生产效率的新方法,两者互相结合,或能解决小样本学习存在的算法精度问题。
不可能三角?"小样本是低成本的基础,因为样本量小,训练模型不需要高算力硬件设备。"魏宏峰表示,如何让小样本学习达到商用精度,是一个巨大挑战。
因为,小样本学习存在经验风险最小化不可靠这一问题,也就是学习效果不确定,可通俗理解为算法精度可能高,也可能低。
"在一些场景中,小样本训练出来的精度,在初期很难达到商用水平。但可以通过AutoML来缩短从初期模型到商用这个过程。"
魏宏峰介绍道,X-Brain在采集样本之后,通过特征提取自动标注,并自动训练模型,由具体的业务人员来进行评价,查看是否发生误报,并调整参数。
基于这些调整,该平台的自动训练机制,将已标注完的数据放入重新训练......通过这种循环训练,来提高算法精度。
在这个过程中,样本量小,模型也不大,通过主动训练来提高精度,从而实现低成本使用。
所以,小样本、低成本和高精度之间,并非存在一个"不可能三角"。
仍以之前的小孩子识字为例:小孩子只抄写数次"我",其结果是可能认识"我",也可能不认识。如果引入老师进行引导、校正,那么即便抄写次数较少,其认识汉字"我"的可能更大。
这个案例中,老师扮演了业务人员的角色,小孩子就是算法模型。算法(小孩子)在自动学习过程中,需要由业务人员(老师)来调整参数(引导),学习效果也就更好。
其优势在于,给小孩子减负(减少抄写次数)的同时,提高学习效率(算法精度);从整个学习过程看,老师(业务人员)也无需全程监督,从而减少成本。
这实际上改变了以往的算法生产模式,将算法生产带入"平民化""低成本"时代。
AI与场景融合AI从上半场进入下半场,实际上是从拼技术到拼场景的转变:AI只有在实际场景中落地才能产生价值。
在产业数字化转型中,各种碎片化场景,对算法的精度要求也比较高。如果按照传统的算法生产模式,成本降不下来,加上中小企业购买力弱,传统企业数字化转型必然难产。
而多样化场景中,也很难以通用算法来"一口多吃"。
"不同的场景需要不同的数据样本,训练出来的模型也不一样,通用算法模型并不适用,精度会大打折扣。"
魏宏峰表示,小样本学习和AutoML从技术上解决算法生产难题,但如何让技术更好地服务于企业,解决实际场景问题,就需要把具体场景痛点拆解之后,融入到整个算法生产过程中,从业务和问题定义开始,到模型调优,最后到算法交付,都要"让懂业务的人参与"。
这主要体现在两个方面:一是让企业在平台上进行实验,也就是业务试错;二是与企业加强交互,让懂业务的人员参与到算法训练中来。
"客户并不追求百分百的精度,能够接受误报,但不能接受试错成本太高,带来总成本上升。"魏宏峰认为,AI下半场由场景驱动,其实也是客户驱动,核心是解决客户(企业)在生产过程中遇到的问题。而AI公司要做好场景,最好的方式是直接与熟悉场景的业务人员交互,而不是AI公司本身去理解行业,否则成本会很高。
对于企业而言,考虑成本收益是其购买技术服务的出发点,成本(包括试错、时间、人力等多个方面)则是第一要素,其次才考虑技术带来的收益问题。
魏宏峰表示,企业购买技术服务之后,只有在降本增效方面取得实际效果,复购率才会提高,AI公司才能形成正向的业务闭环。
"AI只有靠业务,而不是资本推动,才能走出困局,改变行业。"而做好业务的首要前提是:结合场景。
不论是小样本学习还是机器学习,都只是生产算法的"术",结合场景解决产业数字化转型过程中的痛点,才是AI的"康庄大道"。雷峰网雷峰网