创邻科技G最前线 | 大数据

2021年11月底工信部印发《“十四五”软件和信息技术服务业发展规划》,明确提出“突破大规模并行图数据处理关键技术”,推动高性能数据库在金融、电信、能源、制造等重点行业关键业务系统应用。图数据库作为以图论为设计原理的数据库管理系统,将现实世界的实体和实体关系抽象表达为顶点和边,擅长海量图数据的高效存储、查询、计算、分析,能有效解决传统数据库技术无法解决的大数据关联难题,在金融风险、精准零售、物流优化、能源调度、生物制药、智能交通、疫情防控等多种新兴领域有巨大的应用价值。其解决了传统技术关联查询效率低、成本高的问题,具有丰富、高效和敏捷的数据处理能力。而伴随全球数字化竞赛日趋白热化,这将直接影响企业数字化、智能化进程。
在此背景下,如何建立高性能的图计算理论及分布式存储技术,是一个兼具重要性和挑战性、并亟待解决的重要议题。基于中山大学牵头的广东省重点领域研发计划“软件、芯片与计算”重大专项项目“软件定义的图计算关键技术”,中山大学团队联合创邻科技团队依托国家超级计算广州中心环境,完成全自主研发的国产高性能图数据库Galaxybase的安装部署、万亿规模超级大图数据的导入,实现实时大图数据增删改查, 并完成多跳查询、模式挖掘等典型图查询、计算操作。
创邻科技G最前线 | 大数据】基于超算集群环境,Galaxybase图数据库构建了一套基于多级最优图分片理论、动态任务调度模式及节点间混合通讯机制的分布式并行图处理体系,通过提供了一个高性能、可扩展、高可靠的图处理平台,支撑万亿节点大图的分布式存储、实时在线查询。在自研数据生成器所模拟的万亿级真实金融交易场景数据集上(包含50亿条账户信息及5万亿条带属性的交易信息,涵盖了最小为10 到最大超过1000万出入度的超级节点),将账号、资金、交易信息以交易网络的形式组织在一起,高效实现了资金流向查询、资金环路以及嫌疑账户间的最短关联路径查询等深度图查询及图计算,其中,通过交易时间进行过滤的六度的深链查询平均耗时仅6.7秒。本项目仅用50台机器集群实现了当前全球商业图数据库支持的最大规模图数据处理,打破了美国头部图技术厂商于2021年6月用1000台机器集群创造的1.2万亿规模大图处理的世界记录。