大格局!第四范式要在一年内开源95%核心技术

机器之心原创
机器之心编辑部
最先落地AutoML的那家公司 , 现在喊出了开源 。
自动机器学习AutoML技术 , 可以把特征提取、模型选择、参数调节等机器学习的复杂过程实现自动化 。 这种能够大幅降低AI应用门槛的工具 , 是目前人工智能业界炙手可热的方向 。
第四范式成立之初就开始投入力量研究AutoML技术 , 现在又把自动化AI的能力拓展到AI应用的大多数环节 。
在6月23日的年度发布会上 , 第四范式的AI操作系统AIOS升级到了2.0版 。 更引人关注的是 , 这家公司还计划在一年内将95%核心技术开源出来 。
「我们把最核心的数据和算力技术开源给技术社区 , 它们是开发者最需要的东西 。 」第四范式联合创始人、首席研究科学家陈雨强说道 。
大格局!第四范式要在一年内开源95%核心技术
文章图片
第四范式技术副总裁郑曌等人在发布会上宣布了AIOS核心技术的开源 。
从零开始 , 构建AI数据引擎
首先是机器学习数据库OpenMLDB 。 在AI时代 , 机器学习模型不断高频次演进 , 这意味着数据供给的重要性不断提升 。 但即使是在大型科技公司里 , 我们仍然能看到SQL数据处理10小时 , 上线排查6个月这样的情况 。
「机器学习技术实现理性和瞬时高效的推理判断 , 但不论事务型数据库、分析型数据库还是传统数仓 , 在执行这类机器学习任务时都无法保障正确的数据供给」在发布会当日的技术分论坛上 , 第四范式资深架构师王太泽说道 , 「由于不是面向机器学习的设计 , 传统的数据库无法完全覆盖从离线、在线到数据反馈的全流程 , 对于机器学习应用来说效率较低 。 」
第四范式帮助超过120个场景完成了数据的开发和矫正 , 这让他们的工程师总结出供给正确数据的解法 。
与Hadoop、Oracle、MySQL等目前流行的数据库相比 , 第四范式提出的OpenMLDB , 定位是为AI而生的机器学习数据库 , 而这也是目前行业内的空白 。
大格局!第四范式要在一年内开源95%核心技术
文章图片
OpenMLDB解决了3个机器学习的核心数据问题:
大格局!第四范式要在一年内开源95%核心技术】首先是离线在线不一致 , OpenMLDB通过统一的数据存储引擎避免了跨数据库的信息交换 。 另一方面 , 通过统一的数据计算引擎 , 这套系统使离线和在线使用同一套计算逻辑 , 确保了总结规律和线索演算时思维方式的一致 。
大格局!第四范式要在一年内开源95%核心技术
文章图片
其次是时序正确性:在超过一半的场景中 , 由于传统的数据库系统无区别对待历史经验和未知信息 , 数据科学家在数据开发过程中产生了时序泄露 , 在进行规律总结的时候使用到了不该使用、来自于未来的「穿越数据」 。 OpenMLDB通过使用自动时序拼接语法和时序泄露检测模块 , 避免了错误的数据使用 。
最后是闭环完整性 , 机器学习需要将线索演算以及业务推理判断正确与否的反馈沉淀成经验和知识 , 这需要数据库系统能够具备将线索推演 , 以及判断的反馈 , 进行正确关联的能力 。 OpenMLDB通过对线索与反馈的自动拼接检测与自动关联 , 保障了唯一拼接标识 , 避免了数据拼接错位的问题 。
在从传统数据库系统切换到OpenMLDB后 , 开发过程的数据正确性得到了保障 。 除了性能上的优化外 , OpenMLDB在使用上也很方便 , 它支持标准JDBC、Restfull和SQL接口 。
「MLDB是我们的核心能力 。 在机器学习数据库上 , 我们的技术是非常领先的 , 」陈雨强表示 。 在一些AI决策任务中 , 使用OpenMLDB的开发效率可以提升多达8倍 , 相比传统数据库进行线上实时特征计算时 , 使用OpenMLDB能够3到10倍的性能提升 。
为AI而生的操作系统
在平台侧 , 第四范式推出了为AI而生的的操作系统内核——OpenAIOS 。
大格局!第四范式要在一年内开源95%核心技术
文章图片
AI的应用深入来看要经历十几个步骤 , 不同的技术组件支撑了不同的步骤 , 而每一个步骤对资源的需求又有着较大的不同 。 第四范式将这些环节的能力面向计算、存储、通信三个方面进行了进一步的抽象和沉淀 。
越来越多AI异构芯片的出现 , 加速了AI异构计算芯片对操作系统内核进行管理的细分需求 , 把计算负载从操作系统内核调度到集群上不同机器的不同芯片上 。 除了AI异构芯片外 , 不同的异构存储介质、异构通信设备都需要操作系统内核进行统一的管理 。 在异构设备管理的基础之上 , 保障任务的成功率与资源利用率 , 需要操作系统内核提供软硬协同的整体调度策略 。