信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE

据悉 , IEEE TKDE主要关注知识发现和数据挖掘、数据库和数据建模、并行分布式数据管理系统、数据密集型可扩展计算系统结构、搜索引擎以及数据工程应用等领域的最新研究进展和技术 。 该期刊审稿过程专业严谨 , 在数据挖掘领域享有很高的学术声誉 。 信也科技与浙大的这篇合作论文被收录 , 这既是信也科技与高校合作成效的直接体现 , 也是信也科技始终致力科研斩获的又一硕果 。
近日 , 金融科技公司信也科技(NYSE:FINV)与浙江大学合作撰写的论文“Robust Network Enhancement from Flawed Networks”被国际顶级期刊IEEE TKDE正式收录 。
IEEE TKDE(Transaction on Knowledge and Data Engineering)是数据挖掘与知识工程领域最具影响力的刊物 , 也是被中国计算机学会(CCF) 定位为数据库、数据挖掘和内容检索领域的A类国际期刊 , 属于值得我国学者去突破的顶级刊物 。
着眼复杂网络基础数据缺陷问题
【信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE】“网络”或者“图”作为一种重要的数据形态 , 在很多领域中扮演着越来越重要的角色 , 如社交网络网络分析、搜索与推荐、生物化学分子结构分析等 。 而在金融领域 , 将用户、设备、公司、账户等作为节点 , 构建网络数据 , 并在此基础上进行反欺诈的方式也已经带来了实际的商业和社会价值 。 信也科技作为金融科技领域的领军企业具备较高的科技能力 , 在业务中已实际利用复杂网络结构 , 结合机器学习技术 , 快速、精准识别并锁定不良中介和欺诈团伙 , 并将相关成果发表于2019年CIKM的oral论文“Understanding Default Behavior in Online Lending”。
然而 , 由于采样不完全、数据不可得、量化标准有误差等等原因 , 现实中收集到的数据一般带有偏差和噪声 。 而复杂网络数据由于关注节点之间的关联 , 更容易受到缺失和噪声的影响 , 从而波及下游任务 , 比如不良中介识别、欺诈团队识别等 。
此次由信也科技与浙江大学杨洋副教授团队合作完成的论文“Robust Network Enhancement from Flawed Networks” , 便旨在解决上述在复杂网络领域中基础而重要的问题:大规模网络数据中的缺陷检测 。 这种网络的缺陷 , 可能是由带缺陷的节点或者带缺陷的边引起的 , 此次发表的论文专注于解决带缺陷的边引发的问题 。 期望给整个领域提供一种独特视角出发的有效缺陷边检测算法 , 提升复杂网络领域算法的噪声鲁棒性 , 即系统的健壮性 。
首次提出联合学习网络缺失边和噪声边
据了解 , 上述带缺陷的边可分为噪声边和缺失边 。 噪声边 , 即为真实情况下并不存在的边 , 比如用通话网络来构建社交状况 , 可能因为误拨的电话或者一些推销、外卖电话而加上了一些不反映社交状况的边;缺失边 , 则是真实情况下存在 , 数据中却并没有观测到的边 , 比如以用户之间的转账来构建关系网络 , 一家银行往往只有用户在本行转账的数据 , 而观察不到本来存在的他行转账数据 。
许多学者已关注到 , 缺陷边的问题可能引发下游任务的误导性结论 , 并进行了大量的相关研究 。 而该篇论文的一个重要贡献是充分考虑了缺失边与噪声边的识别会相互影响(如图1(c)&(d)) , 提出了E-Net(Enhancement Network model) , 一个端到端的基于图神经网络的模型 , 来联合学习噪声边和缺失边 。 一方面 , 噪声边被识别出来并去除掉 , 会有利于缺失边的预测;另一方面 , 缺失边预测的目标函数可以为噪声边的识别提供间接的监督 。 由于在很多实际场景中都不容易获取一条边是否是噪声边的标签 , 这样的半监督学习框架使得模型对噪声具有很强的鲁棒性 。
信也科技再攀科研高峰:复杂网络研究成果登上国际顶级期刊IEEE TKDE文章插图
图1:在统一框架内识别缺失边和噪声边的示意图